Erneute Störung eines Teils der Cloud-Infrastruktur
15:40 Uhr: Im Moment ereilte uns eine erneute Störung eines Teils der Infrastruktur der Cloud-Dienste von CMO. Wir versuchen im Moment die Systeme neu zu starten und werden im Anschluss eine Migration der Cloud-Systeme auf Ersatz-Server durchführen um den erneuten Ausfall genauer zu prüfen. Im Moment sind ca. 80 Cloud-Systeme von dem Ausfall betroffen.
15:46 Uhr: Einige Informationen zur Störung. Beim bearbeiten von Einstellungen an der Virtualisierungs-Plattform kam es zu einem Absturz der Management-Konsole, die sich nicht manuell beheben ließ. Der Versuch die betroffenen Systeme dann auf andere Server auszulagern um einen unterbrechungsfreien Betrieb zu gewährleisten scheiterte an einer defekten 10Gbit/s-Netzwerkkarte, die die Verbindungen zu den anderen Servern trennte. Durch die abgestürzte Management-Konsole ließen sich hier nun keine Server mehr migrieren, wodurch ein kompletter Neustart des Cloud-Servers notwendig wurde. Dies wird im Moment ausgeführt.
15:51 Uhr – Die Systeme sind neu gestartet. Wir werden heute ab ca. 20 Uhr die betroffenen Cloud-Server auf andere Systeme umziehen, damit wir das fehlerhafte System genauer untersuchen können.