Hi @all,
nachdem wir 3-4 Wochen bei einem Kunden nach einem Update auf Version ESXi 5.5 Update 1 ein sehr merkwürdiges Verhalten festgestellt haben und seitdem in einer VMware Supportcall-Eskalations-Loop festgesteckt waren, schaffen die Blogger und das Internet seit diesem Wochenende „traurige“ Gewissheit.
Worum geht es? In der Version ESXi 5.5 Update 1 kursiert ein Bug, bei dem völlig „random“ komplette! NFS Datastores disconnecten und VMs „freezen“ bzw. komplett crashen. In den Logs ist lediglich ein APD (All Path Down) zu erkennen und der Datastore disconnected (connected sich nach einer gewissen Zeit allerdings wieder). Nachzulesen ist dies im VMware Knowledgebaseartikel Frequent NFS APDs after upgrading ESXi to 5.5 U1.
Die Empfehlung von VMware ist derzeit, die ESXi Hosts mit vSphere 5.5 ohne Updatelevel zu betreiben. Wer unsere Blogposts allerdings verfolgt, wird feststellen, dass dort auch ein sehr netter „Bug“ auftreten kann (E1000 Purple Screen). Bitte prüft im Detail, welche Version ihr einsetzt bzw. ob ihr von einem der Bugs betroffen seit. Auch an die Patches für den „Heartbleed“ Bug in der Version 5.5 denken, die seit diesem Wochenende released sind!
Bzgl. der NFS datastore disconnects können wir auf Basis des gelaufenen Kundensupport-Calls etwas mehr Input liefern: Wir haben festgestellt, dass die Datastores disconnecten, bei denen viel CIFS Traffic zwischen virtuellen Maschinen passiert (z.B. CIFS-Backup-Dump von einer VM in eine andere, Copy-Jobs etc.). Ebenso tritt dieser Bug nicht auf alle Servermodelle / Hersteller zu. Mit einem ESXi 5.5 Update 1 auf einem Fujitsu RX300 S4 (eigtl. nicht supportet mit Version 5.5 U1), gibt es keine NFS disconnects, auf einem Fujitsu RX300 S7 allerdings schon.
„Solide IT-Infrastruktur“ (Stand 22.04.2014):
- Wer noch auf Version 5.0, 5.1 ist und die neuen Features der Version 5.5 nicht unbedingt dringend braucht, bitte abwarten, bis diese Bugs gefixt sind und dann updaten
- Für alle, die bereits auf Version 5.5 sind und NFS haben: Bitte kein Update 1 einspielen, Patches /Maßnahmen gegen die entsprechenden genannten Bugs einspielen / ergreifen
- Für alle, die auf Version 5.5 mit FC oder ISCSI laufen, Server mit den entsprechenden Patches versehen
Allgemein: Wenn Änderungen vorgenommen werden, bitte erst in die Testumgebung deployen und eine Zeit lang laufen lassen. Erst dann die Produktivumgebungen patchen!
UPDATE (05.05.2014): VMware hat uns bestätigt, dass ein Fix höchstwahrscheinlich im Juni 2014 als „ESXi 5.5 EP04“ released wird. Der erwähnte KB wurde umbenannt in „Intermittent NFS APDs on ESXi 5.5 U1“ (2076392).
UPDATE (12.06.2014): VMware hat wie angekündigt am 10.06.2014 den ESXi 5.5 EP04 released, welcher das beschriebene Problem fixt. Der Patch sollte bereits im Update Manager zu sehen sein. Die Patchbeschreibung kann hier eingesehen werden.
– I wish I could be a Virtual Machine –
Benjamin Ulsamer
Senior Consultant & Trainer
teamix GmbH