10.05.2021 - Vedlikeholdsarbeid datasenter kl 12:00

Den 10.05.2021 fra kl 12:00 vil vi fortsette oppgraderingen av vår fysiske switch infrastruktur på vårt datasenter (videreføring av jobb startet 22.04.2021). Nettverk løsningen er redundant i alle ledd, men failover vil skje når arbeid pågår som kan gi korte umerkelige brudd i forbindelsen.

Jobben som gjøres er forarbeid før en større oppgradering av vår virtuelle VMware plattform.

---

Oppgradering av nettverk ble påstartet ca kl 12.00 og den første switchen ble tatt ut av produksjon rundt kl. 13.00. Når deler av nettverk infrastrukturen tas ut av produksjon vil trafikken feile over til nettverks utstyr som står standby. Failover gikk som normalt, men enkelte kunder med site-2-site IPSEC forbindelser måtte få koblet tunnelene opp på nytt. Dette ble håndtert av vår support i tidsrommet ca 14:00 til 14.30.

Ny firmware og nytt operativ system ble installert på switchen som var tatt ut av produksjon og restartet ca. kl 14.55. Da switchen kom opp igjen fungerte ikke redundansen slik den skulle og oppgradering måtte reverseres. I tidsrommet 14:56 til 15:11 var det tidvise brudd/nedetid for flere av våre kunder.

Supporten til Dell blir kontaktet da switchen ikke vil starte opp på gammel programvare versjon. Switchen blir reinstallert med opprinnelig software versjon og konfigurasjon blir lagt tilbake. Når den reinstallerte switchen ble meldt inn på nytt blir det et nytt brudd i tidsrommet 18:04 til 18:11.

Oppsummert:

  • Trøbbel med IPSEC forbindelser i tidsrommet fra 14:00 som blir manuelt korrigert
  • Tidvis brudd/nedetid i tidsrommet 14:56 til 15:11
  • Tidvis brudd/nedetid i tidsrommet 18:04 til 18:11

Vi er i fortsatt dialog med Dell sin Pro Support for videre avklaring. Redundanse bygget inn i løsningen og versjons oppgraderingene som var planlagt skulle være kompatible og kun gi korte brudd ved failover, og ikke nedetid som vi opplevde i dag.

Videre oppgraderinger av nettverk infrastruktur vil bli planlagt på natt og varslet på nytt. Det samme gjelder den planlagte VMware oppgraderingen onsdag 12. mai som også utsettes https://support.smartit.no/hc/no/articles/360021507240-12-05-2021-Vedlikeholdsarbeid-datasenter-kl-16-00). Nye varslinger kommer så snart vi får planlagt dette på nytt.

Vil samtidig benytte anledningen til å beklage dagens nedetid og poengtere at våre løsninger er bygget på en slik måte at vi skal kunne drive vedlikehold uten at dette påvirker dere som kunder. Vi vil gjennomgå denne hendelsen sammen med vår leverandør og samtidig se på å endre våre interne rutiner basert på dagens hendelse.

---

Oppdatering 20. mai 2021:

Etter ytterligere runder med Dell sin support har vi fått tilsendt en ny switch for utskifting. Problemet med at switchen ikke ville starte opp igjen med opprinnelig software tilskrives delvis defekt SSD disk (bad blocks). Skifte og ny oppgradering av switch infrastruktur vil bli planlagt i et vedlikeholdsvindu på natt og varsel vil bli sendt ut til alle kunder i forkant.