13.09.2022 - Driftsavbrudd for noen kunder

Noen av våre kunder har i kveld opplevd et kortere brudd mot vår virtuelle infrastruktur.

Logger viser at problemene oppsto kl 19:53:41 og var "løst" kl. 20:00:24. Som et resultat av ustabiliteten måtte enkelte virtuelle maskiner startes på nytt for å fungere igjen. Flere maskiner ble manuelt restartet i tidsrommet 20:05 til 20:40 etter en gjennomgang av alle kunder og virtuelle maskiner i miljøet.

Logger fra flere komponenter i miljøet vil bli analysert og vi vil kontakte leverandør for å finne rotårsaken til problemene. Saken vil derfor bli oppdatert.

---

Oppdatering 14/09-22

Årsaken til ustabiliteten er identifisert. En av våre switcher hadde et utfall og nettverket feilet over til annen aktiv switch. I et kort øyeblikk mistet den virtuelle infrastrukturen kommunikasjon og dette førte dessverre til at an håndfull servere "frøs" og måtte restartes.

Oppdatering 20/09-22

Vi har fortsatt en pågående support sak med vår leverandør (Dell) for å komme til bunns i problemene. Det jobbes også med å analysere nettverksdesignet for å avklare om det kan løses på en annen/bedre måte. Oppdateringer kommer når saken er avsluttet.

Oppdatering 05/10-22

Support sak med Dell er avsluttet og de har konkludert med at firmware versjon vi kjører på de aktuelle switchene anbefales oppgradert til nyere versjon. Supporten til Dell har i sjeldne tilfeller sett uønsket reboot av switch med tilsvarende versjon. Samtidig med dette er nettverk infrastruktur og konfigurasjon gjennomgått på nytt, og det foreligger et forslag til ytterligere styrkning av logikken rundt failover til reserve enhetene. Det vil på et senere tidspunkt bli varslet et vedlikeholds vindu for både switch oppgraderinger og endringer i oppsett for ytterligere forbedring av failover.