SnapMirror / SnapVault global beschränken

Wer kennt das nicht: Daten werden per SnapMirror auf eine andere Physik migriert und nachdem man zum Zwecke der Arbeitszeitoptimierung alle SnapMirror-Beziehungen gleichzeitig gestartet hat, bekommen die User, welche auf dem Primär oder Sekundärsystem arbeiten, die hohe Last durch weniger Durchsatz bzw. höhere Latenzen direkt zu spüren.

Natuerlich kann man jetzt mit „snapmirror throttle“ einzelne Verbindungen reglementieren, was aber wenn es sich um einige zig SnapMirror-Beziehungen handelt?

Hier helfen die weithin unbekannten Optionen:
# replication.throttle.enable
# replication.throttle.incoming.max_kbs
# replication.throttle.outgoing.max_kbs

Die Namen sind soweit bezeichnend, dass es hier nur weniger erläuternder Worte bedarf:
1.) Es gilt für SnapMirror und(!) SnapVault
2.) kbs bedeutet KiloBitperSecond
3.) Der Wert bezieht sich auf die Netzbandbreite, sprich wenn die SnapMirror Compression angeschaltet wird (neues Feature in 7.3.2), kann es durchaus höhere Netto-Übertragunsgraten geben.

Autor: mynetapp.de
MyNetApp war unsere deutschsprachige NetApp Community Plattform, welche wir von 2007 bis 2019 betrieben haben. Im Zuge der Konsolidierung von Plattformen haben wir die Artikel in unser Proact Blog integriert.

Wenn aus RAM plötzlich RAMsch wird…

Kategorien: mynetapp.de
Kommentare: No

Man kennt das: spontan crashende Rechner haben oft defektes oder schlechtes RAM als Ursache. Auf den NetApp Systemen ist das Problem bedingt durch die Verwendung Chipkill-ECC RAM nicht so gravierend, da bei defekten Zellen einfach einzelne Chips ausgeblendet werden und ECC meistens für die Fehlerkorrektur sorgt, so dass das System einfach weiterläuft.

Aber wenn einfach alles weiter funktioniert, wie merkt man dann, dass man schlechtes RAM („RAMsch“) hat? Das System triggert bei dieser Gelegenheit keinen Autosupport, die bequeme Variante entfällt also auch… Trotzdem hilft der Autosupport in diesem Fall weiter. In der ASUP Mail einfach ‚mal nach „ECC MEMORY SCRUBBER STATS“ suchen (alles groß):

===== ECC MEMORY SCRUBBER STATS =====

Main memory
-----------
Scrub range: 100000 --> 480000000
Current scrub is 0% complete
Last full scrub completed at: Thu Oct 8 13:11:22 CEST 2009 Main
memory ECC errors since last reboot: 492

Die letzte Zeile ist entscheidende Hinweis. Um dann mehr Details zu bekommen, geht man in das CLI und setzt folgende Befehle ab:

Filer> priv set advanced
Filer*> memerr
Correctable ECC memory errors:
Errors on DIMM 1: 0
Errors on DIMM 2: 0
Errors on DIMM 3: 0
Errors on DIMM 4: 0
Errors on DIMM 5: 0
Errors on DIMM 6: 0
Errors on DIMM 7: 492
Errors on DIMM 8: 0
Errors on DIMM 9: 0
Errors on DIMM 10: 0
Errors on DIMM 11: 0
Errors on DIMM 12: 0
Errors on DIMM 13: 0
Errors on DIMM 14: 0
Errors on DIMM 15: 0
Errors on DIMM 16: 0
Multiple errors at the same address; replace DIMM 7 soon.

Und so sieht man dann, dass in diesem System DIMM7 ausgetauscht werden sollte.

Frohes Durchforsten der ASUPs… 😉

Autor: mynetapp.de
MyNetApp war unsere deutschsprachige NetApp Community Plattform, welche wir von 2007 bis 2019 betrieben haben. Im Zuge der Konsolidierung von Plattformen haben wir die Artikel in unser Proact Blog integriert.

Manchmal benötigt man auf einem Volume Snapshots welche zeitlich weniger als eine Stunde auseinander sind, z.B. wenn es um sehr flüchtige oder sicherheitskritische Daten geht.

Dieses Problem kann man zum einen dadurch lösen, dass scriptgesteuert Snapshots generiert werden oder alternativ dazu auch mit dem normalen Scheduler. Die Syntax hierfür ist:

snap sched <volume> <weekly> <daily> <hourly>@<time_of_day> <minutly>@<minute_of_hour>

Beispiel

snap sched vol0 0 0 24 6@5,15,25,35,45,55

Hält 24 „hourlys“ vor, welche immer um zur vollen Stunde generiert werden und 6 minuetliche, welche zur
Minute 5, 15,25, 35, 45 und 55 einer Stunde generiert werden.

Wichtig: Diese Snapshot sind selbstverständliche nicht applikationskonsistent, so wie alle nicht durch SnapManager
erzeugte Snapshots.

Autor: mynetapp.de
MyNetApp war unsere deutschsprachige NetApp Community Plattform, welche wir von 2007 bis 2019 betrieben haben. Im Zuge der Konsolidierung von Plattformen haben wir die Artikel in unser Proact Blog integriert.

Der Gedanke ist verlockend: Einfach nur eine PCI-Karte in die vorhandene FAS stecken, und schon bekommt man mehr Performance aus seiner NetApp-Maschine!

Eine solche Beschleuniger-Karte existiert, sie ist bestellbar (ja, sogar bezahlbar!). Wir haben uns eine Karte gekauft und sie getestet. Wie sie funktioniert und was sie tatsächlich leistet stellen wir diese Woche vor!

Anstatt aus Performancegründen viele Platten zu kaufen, können NetApp Kunden künftig besser auf eine oder mehrere der PAM Karten zurückgreifen. Sie sparen durch die Reduktion der Shelves Platz und Strom im Rechenzentrum.

Die Idee

Die meisten Sizing-Tools und Berater haben eines gemeinsam: Sie empfehlen „viele Spindeln für viel Performance“. Diese Aussage ist grundsätzlich richtig – doch warum eigentlich? Ganz einfach: Jede weitere Platte in einer Raid-Gruppe oder einem Aggregat kann zusätzliche Lese-Schreibaufträge (IOPS) abarbeiten. Dies geschieht parallel zu den anderen Platten, der Performance-Zuwachs kann der Einfachheit halber fast linear angenommen werden. Beispiel: Schafft eine einzelne Datenplatte im RAID 150 Operationen pro Sekunde, so schaffen 10 Platten grob das 10-fache.

Was bedeutet das in der Praxis? Wenn wir ein Sizing für eine Datenbank durchführen, welche maximal 4500 IOs vom Storage-System abverlangt, so brauchen wir ca. 30 Spindeln. (4500 / 150 ). Einkaufsliste: 3 Stück der guten MK4 NetApp Diskshelves, voll bestückt mit 15krpm Festplatten. Dann stehen 3x 14 Platten zur Verfügung, abzüglich 1x HotSpare, 2x Parity, 2x DoubleParity. Macht 37 Datenplatten, sollte also grob reichen.

Allerdings stimmt die Rechnung in der Praxis nicht ganz, da wir eine der wichtigsten Komponenten eines Storagesystems ausser Acht gelassen haben: Den Cache. Die Rechnung oben geht von der Annahme aus, dass im schlimmsten Fall alle Operationen auf der Disk landen und der Cache garnicht existiert. Doch das ist praxisfern, da Cache sogar einen sehr grossen Beitrag zur Performance eines Speichersystems beitragen.

Und genau an diesem Punkt setzt die PAM Karte an: Sie vergrössert den Read-Cache des NetApp Systems. Das ist revolutionär da man bisher den RAM der Maschinen nicht aufrüsten konnte, man war gezwungen ein grösseres Modell zu kaufen. Ausserdem kaufen viele Kunden mehr Shelves als nötig, da sie die Performance brauchen – aber nicht unbedingt die Kapazität der Platten. Somit verschwenden sie wichtige Ressourcen im Rechenzentrum: Platz, Strom und Klimatisierung.

Die PAM Karte (Teilenummer X1936) ist eine PCIe Steckkarte mit einem ASIC und 16GB RAM. Die Karte wird ab der FAS3040 unterstützt. Die 2020, 2050 und auch die 3020 sind nicht freigegeben. Ab der 3140 darf der Kunde zwei der Beschleunigerkarten einbauen. Mit steigender NetApp Modellnummer werden immer mehr Karten erlaubt, bis hin zu 5 Stück in einer FAS6080. Das ist beachtlich – immerhin resultiert das in einer Erweiterung des Caches um 80 GB! Das ist genug RAM, um eine grosse Menge der Datenbanken gesamt aus dem Cache zu bedienen und die Disks nur noch für Schreibaufträge zu verwenden!

Was sagt die Konkurenz? NetApps Markbegleiter haben keine solche Karte. Dafür verfolgen sie ähnliche Ziele: Durch Verwendung von Solid-State-Disks die Antwortzeiten der Speichersysteme zu senken. Der wichtige Unterschied zu NetApp ist: NetApp verwendet den Speicher nicht als Festplattenersatz, sondern als Cache-Erweiterung. Damit kommt die Performance dem gesamten System zu gute und somit immer den Daten, die am häufigsten gebraucht werden. Völlig selbst-tunend. Bei dem Systemen der Konkurenz muss man die SSDs direkt als RAID-Gruppe definieren – folglich nutzen nur jene Applikationen die Geschwindigkeit, welche auch auf diesem RAID liegen.

Funktionsweise

Die PAM Karte vergrössert genaugenommen nicht direkt den System-RAM, sondern nur einen speziellen Arbeitsbereich des RAMs, nämlich den WAFL Extended Cache. Den System-RAM kann so eine Karte nicht adäquat ersetzen, da die Zugriffsgeschwindigkeit auf eine PCI-Karte immernoch langsamer ist als der Zugriff auf das System-RAM einer NetApp. Dennoch ist der Zugriff auf die PAM Karte mehrere hundert Mal schneller als Leseaufträge von der Platte zu holen.

Die PAM-Karte ist ein sogenannter „Victim-Cache“. Also ein Opfer-Cache. Alle Nutz- und Meta-Daten, welche aufgrund ihres Alters oder Zugriffsmusters aus dem normalen System-RAM verdrängt werden landen mit einer PAM-Karte nicht mehr im Nirvana, sondern im RAM der PAM-Karte. Somit stehe Daten noch mit annähernder RAM-Geschwindigkeit zur Verfügung, welche ohne den Einsatz der Karte erneute Lese-Aufträge der Disk hervorgerufen hätten.

Wenn man diese einfache Funktionsweise genauer betrachtet merkt man, dass die Geschwindigkeit nicht nur direkt durch besseres Caching steigt, sondern auch dadurch, dass die Festplatten insgesamt weniger genutzt werden. Somit stehen auch mehr IOPS für andere Leseaufträge zur Verfügung welche noch nicht im Cache sind.

Der Administrator kann grob Einfluss auf der Verhalten der Karte nehmen, indem er einstellt, welche Art von Daten im Cache bleiben sollen: Nur Metadaten, auch Userdaten oder gar Bulk-Userdaten, also z.B. grosse sequentielle Reads. Das entsprechende Verhalten erreicht man durch setzen der options flexscale.*

Es ist des Weiteren möglich das Verhalten der Karte genauer zu steuern, indem man die neue Flexscale-Funktionalität mit der bekannten FlexShare Funktion kombiniert. FlexShare erlaubt Priorisierung von verschiedenen Flexiblen Volumes und des Caching Verhaltens einzelner Volumes. So kann der Kunde als einfaches Beispiel folgenden Wunsch umsetzen: CIFS Daten werden mit niedrigerer Priorität verarbeitet als die Datenbank-IOs. Diese Priorisierung kann man mit PAM-Karten auf deren Cache ausdehnen.

Praxis

Die Verwendung der Karte erweist sich in der Praxis als denkbar einfach. Man nehme:
– eine PAM Karte
– eine FlexScale Software Lizenz für ONTAP
– mind. FAS 3040
– ONTAP 7.3

In unserem Beispiel testen wir FAS6030 und ONTAP 7.3 GA und nur einer einzigen PAM-Karte. Wir spielen das neue ONTAP auf und prüfen im System Configuration Guide den korrekten Slot für die PAM Karte: Für eine 6030 ist es der Slot 5. Spannung: Der Bootvorgang meldet:

[iomem.card.enable:info]: Accelerator card in slot 5 has been enabled.

Also gleich los, nach dem Login werfen wir einen Blick auf die Hardware:

sysconfig:

slot 5: Performance Accelerator Module I
State: Enabled
Memory Size: 16 GB

slot 5: Performance Accelerator Module I
State: Enabled
Memory Size: 16 GB
Model Name: X1936A-R5
Serial Number: 200205
Part Number: 111-00360
Board Revision: B1
FPGA Release: 1.0
FPGA Build: 200706131558
DIMM Size Part Number Serial Number Status
1: 4 GB VR5JA127214EPSN1 40-01-0812-01066681 Enabled
2: 4 GB VR5JA127214EPSN1 40-01-0807-01066627 Enabled
3: 4 GB VR5JA127214EPSN1 40-01-0743-00066674 Enabled
4: 4 GB VR5JA127214EPSN1 40-01-0811-01066677 Enabled

Die Karte wird also erkannt, in ihrer ganzen Pracht mit 16 GB.

Also weiter, die Lizenz einspielen:

na6031> license add XXXXXXX
A flex_scale site license has been installed.
Enabling FlexScale type: IOMEM
FlexScale Option enabled.
Wed Sep 3 09:40:11 MEST [rc:notice]: flex_scale licensed

Mit FlexScale stehen neue Statistik Optionen zur Verfügung:

na6031> stats show -p flexscale
FlexScale Configuration
ext_cache:ext_cache:state-string:Active
ext_cache:ext_cache:cache_objects:1
ext_cache:ext_cache:block_checksums:1
ext_cache_obj:ec0:type:IOMEM
ext_cache_obj:ec0:blocks:4194304
ext_cache_obj:ec0:usage:0%

na6031> stats show -p flexscale-access

(Statistiken folgen!)

Gerade das flexscale-access Statistik Profil zeit sehr schön, wann Anfragen aus dem RAM der Karte kommen und wann sie von Disk geholt werden müssen.

Benchmarks von NetApp besagen, dass man pro PAM Karte ca 150000 IOs/s mit 4k Größe zusätzlich aus einem Storagesystem bekommen kann.

Nächstes Mal zeigen wir die genauen Statistiken und noch ein weiteres Schmankerl: Wie man ohne eine PAM Karte herausfinden kann, um wieviel schneller die NetApp mit einer Karte wäre!

Autor: mynetapp.de
MyNetApp war unsere deutschsprachige NetApp Community Plattform, welche wir von 2007 bis 2019 betrieben haben. Im Zuge der Konsolidierung von Plattformen haben wir die Artikel in unser Proact Blog integriert.

Dem ein oder anderen von uns wird schon mal über das Problem gestolpert sein, er hat bei einer FAS270c der falschen Seite zu viel Disks zugewiesen und würde diese nun gerne dem anderen Kopf zuweisen, kann aber die Maschine nicht in den Maintenance Mode booten.

Hier gibt es mittlerweile die Möglichkeit die im Softwarebased Ownership zugewiesene Disks wieder auf „unowned“ zu setzen. Dies ist natürlich nur auf Sparedisks anzuwenden.

Hier der folgenden Befehl:

Filer*> disk assign 0b.30 0b.29 0b.28 0b.27 -f -s unowned

Nun können die frei gewordenen Disks dem eigentlichen System zugeordnet werden.

Eine andere Möglichkeit ist, einen FAS250 oder FAS270 Schrumpfkopf zu haben und dann die Ownerships von den Disks zu entfernen. Dies würde sich in Fällen anbieten wenn man notgedrungen Shelfs von anderen Systemen mit Softwarebased Ownership entfernt und diese anderen Systemen zur Verfügung stellen möchte.

Autor: mynetapp.de
MyNetApp war unsere deutschsprachige NetApp Community Plattform, welche wir von 2007 bis 2019 betrieben haben. Im Zuge der Konsolidierung von Plattformen haben wir die Artikel in unser Proact Blog integriert.

Nach langem Warten und viel Spekulation hat Netapp diese Woche endgültig offiziell die Katze aus dem Sack gelassen: Es gibt einen SnapManager für Virtual Infrastructure: VMWare ESX Backup&Recovery mit Netapp Snapshots!

Diese Software erlaubt- ähnlich wie die bereits verfügbaren Tools SnapManager Exchange/SQL/Sharepoint – eine Sicherung der Daten im laufenden Betrieb mit Hilfe von Netapp Snapshots. Das Zusammenspiel von VMWare und Netapp wird somit noch perfekter, die Herausforderungen, welche das Backup bisher gestellt haben sind nun endgültig gelöst. Neben der Möglichkeit Datensicherungen zu erstellen kann auch per SnapRestore in sekundenschnelle ein Recovery erfolgen!

SnapManager for VI wird vorraussichtlich im April ausgeliefert und wird laut offiziellen NetApp Angaben ca 2000 US Dollar pro physikalischem Server kosten. Die erste Version von SMVI wird nur VMware Virtuelle Maschinen unterstützen, später soll dann auch Support für Citrix XEN, OracleVM, VirtualIron und Microsoft Virtualisierungstechnik dazukommen.

Sobald alle anderen SnapManager von Netapp eine neue Schnittstelle zum SMVI erhalten haben, wird es mit dem SMVI auch möglich sein, auf andere SnapManager Instanzen zuzugreifen und die entsprechende Applikation zu sichern. Exchange/SQL/Sharepoint usw können dann also sowohl auf physikalischer Hardware als auch in virtuellen Maschinen laufen und mit den Tools von Netapp verwaltet werden. Diese Funktionalität soll aber erst zu einem späteren Zeitpunkt in SMVI eingebaut werden.

Laut Netapp funktioniert SMVI sowohl mit NAS als auch mit SAN Storage. Genauere Angaben haben wir leider noch nicht, besonders interessant könnte sein, inwiefern SMVI auch RDM bzw. NPIV unterstützt.

Selbstverständlich werden wir bei team(ix) sofort Tests durchführen und darüber berichten, sobald wir SMVI bekommen!

Autor: mynetapp.de
MyNetApp war unsere deutschsprachige NetApp Community Plattform, welche wir von 2007 bis 2019 betrieben haben. Im Zuge der Konsolidierung von Plattformen haben wir die Artikel in unser Proact Blog integriert.

Gerade wenn weitere Disks zu einem Aggregat hinzugekommen sind oder auch wenn mit sehr vollen Aggregaten gearbeitet wird, kann es passieren, dass die Verteilung der Datenblöcke auf den Disks nicht gerade optimal ist.

Dann besteht die Möglichkeit manuell das WAFL-Dateisystem zu rearrangieren und somit wieder in einen optimalen Zustand zu versetzen.

Zuerst sollte man jedoch mit „priv set diag“ und „wafl scan measure_layout VOLUME“ überprüfen ob dies notwendig ist. Das Überprüfen des Layouts kann je nach Volumegrösse sehr lange dauern. Ihr findet dann im Log-file (syslog oder „rdfile /etc/messages„) einen Wert. Ist dieser schlecht kann mit „wafl scan reallocate VOLUME“ eine „Defragmentierung“ per Hand angestossen werden.

Da der Snapshot bei Netapp ja die „heilige Kuh“ ist, werden Blöcke aus Snapshots nicht mit optimiert. Dies hat zur Folge, dass zum einen die (Lese)Performance von Snapshots nicht optimiert wird, zum anderen aber auch, dass Snapshots, welche vor dem Reallocate erstellt wurden mehr Platz benötigen.

Zum gelegentlichen Kontrollieren bietet sich das Kommando „wafl scan status„.

Vorsicht: Die oben angegeben Kommandos haben, während sie laufen, einen negativen Einfluss auf die Gesamtperformance des Systems!

Autor: mynetapp.de
MyNetApp war unsere deutschsprachige NetApp Community Plattform, welche wir von 2007 bis 2019 betrieben haben. Im Zuge der Konsolidierung von Plattformen haben wir die Artikel in unser Proact Blog integriert.