Quella di ieri è stata una giornatina interessante, una di quelle che ci piacerebbe poter cancellare; se la vita fosse un videogame il 10 marzo 2021 sarebbe da ripetere, ricaricando la partita il salvata il giorno precedente.
Andiamo con ordine: OVH è il più grande provider europeo per servizi internet, uno dei pochi in grado di impensierire i colossi americani. La società ha la sede principale in Francia, è stata fondata nel 1999 e in 22 anni è cresciuta moltissimo, oggi fornisce servizi di telefonia, server dedicati, domini, e qui entriamo in scena anche noi perchè abbiamo (avevamo) parecchi server nei data center di OVH.
Ieri mattina c’è stato un incendio in uno dei datacenter di OVH, sono intervenuti i pompieri che dopo qualche ora sono riusciti a domare le fiamme. Non ci sono danni alle persone ma i danni alle cose sono stati immensi, l’intero datacenter è disconnesso e lo sarà per almeno una settimana, molti server sono bruciati per cui moltissimi dati sono andati persi per sempre. A più di 24 ore dall’incendio ancora non si sa con certezza cosa è andato perso per sempre e cosa si è salvato, qualcosa dovrebbe tornare online lunedì prossimo e alcuni servizi dovranno attendere ancora più a lungo.
I nostri clienti quasi non se ne sono accorti perchè in poco più di un’ora, appena abbiamo capito la gravità della situazione, ci siamo attivati per ripristinare backup e deviare il traffico verso altri server. Nel datacenter coinvolto avevamo circa 200 domini ma tutti i servizi essenziali sono stati ripristinati in poche ore su altre macchine, il disagio per i nostri clienti è stato contenuto, i clienti coinvolti sono stati contattati direttamente, abbiamo spiegato la situazione ci siamo scusati per l’accaduto. Abbiamo molti siti che sono ancora offline e lo saranno per parecchio tempo ma si tratta soprattutto di ambienti di test, servizi SEO, niente di critico o essenziale.
Però vogliamo approfittare dell’accaduto per fare qualche commento, sull’hosting in generale e su OVH in particolare perchè alcune delle dichiarazioni fatte dalla società e il modo in cui sta gestendo la vicenda sono… discutibili.
Fino a qualche anno fa OVH era un ottimo provider, era il nostro punto di riferimento e la maggior parte dei nostri servizi web passavano dai loro server, registrazione dei domini, VPS, server fisici… avevamo quasi tutto nei loro data center. Il servizio era ottimo e l’assistenza era eccezionale: tecnici competenti rispondevano al telefono in italiano, dopo meno di tre squilli, parlando con l’assistenza si aveva la netta sensazione di aver a che fare con qualcuno interessato a risolvere il problema e non solo a passare la patata bollente a qualcun altro.
OVH è cresciuta moltissimo, i datacenter sparsi per l’Europa e il Nord America sono diventati 31 con circa 250.000 server, il fondatore si chiama Octave Klaba ed è un personaggio molto interessante. Per noi semplici utenti c’era la sensazione di avere a che fare con un’ottima azienda, finalmente Europea ed in grandissima crescita, diretta da un leader fatto della stessa pasta dei mitici geni americani.
Mentre OVH cresceva però abbiamo notato un vistoso decadimento nelle… prestazioni umane. L’assistenza clienti – che era il fiore all’occhiello di OVH – ha iniziato a rispondere con ritardi inaccettabili, a fornire risposte stupide. Per sintetizzare al massimo si può dire che hanno iniziato ad essere uguali agli altri con l’assistenza clienti interessata a passare il problema a qualcun altro e non a risolverlo.
Anche il marketing ha iniziato a perdere i colpi, ogni richiesta di preventivo veniva evasa mostrando un prodotto già pronto e ben visibile sul sito. Parliamoci chiaro, se contatto il marketing e chiedo una quotazione a un venditore, mi pare evidente che ho bisogno di qualcosa di non standard, la soluzione standard, ben visibile sul sito, sono in grado di trovarmela da solo, no?
Sono scelte aziendali, per certi aspetti anche comprensibili, puntando su grandi numeri è necessario standardizzare quindi le eccezioni devono essere limitate al massimo. Si può condividere o meno l’approccio ma i fatti indubbiamente danno ragione a Klaba, la società è cresciuta così tanto che si prepara al grande salto ovvero la quotazione in borsa. L’IPO era prevista per questi giorni ma è possibile che l’incidente di ieri causerà un certo slittamento nell’operazione.
Ora vorremmo raccontare quello che è successo dal nostro punto di vista perchè alcune cose meritano un commento. Una delle prime comunicazioni ufficiali sul disastro in corso arriva direttamente da Klaba:
We have a major incident on SBG2. The fire declared in the building. Firefighters were immediately on the scene but could not control the fire in SBG2. The whole site has been isolated which impacts all services in SGB1-4. We recommend to activate your Disaster Recovery Plan.
— Octave Klaba (@olesovhcom) March 10, 2021
Ecco noi vorremmo concentrarci sull’ultima frase perchè è la parte più interessante: vi raccomandiamo di attivare il vostro piano anti-disastro. Prima di entrare nel merito della frase e di spiegare perchè, secondo noi, è un pessimo segnale è bene precisare subito una cosa: OVH non è responsabile per i dati contenuti nei server, è verissimo. E’ responsabilità dei clienti gestire i dati fare i backup ed essere pronti in caso di emergenza. Tutte cose che sappiamo e di cui siamo perfettamente consapevoli, passiamo al Disaster Recovery Plan e proviamo a vedere come dovrebbe essere fatto un ottimo piano di questo tipo, almeno nei suoi punti iniziali.
Disaster Recovery Plan
- Provider: scegliere un ottimo fornitore di servizi, il quale abbia a sua volta un ottimo DRP.
- Hardware: scegliere un ottimo server.
- Ridondanza: un disco si può sempre rompere, meglio averne due, in mirror.
- Backup. Tutti i e due i dischi si potrebbero rompere. Il server potrebbe rompersi. Eseguire un backup con una cadenza commisurata ai dati, alla loro importanza e alla loro frequenza di aggiornamento.
- Dislocazione: assicurarsi che il backup sia in un altro dato datacenter perchè si può rompere un disco, si può rompere l’intero server, si può rompere anche il dispositivo che usate per fare i backup. Inoltre tutto il centro potrebbe essere irraggiungibile quindi il backup va fatto salvando in un altra città, in un’altra nazione.
- Conoscenza: capire il più presto possibile l’entità del guasto ed intervenire di conseguenza.
E’ evidente che il nostro Disaster Recovery Plan ha cominciato a perdere i pezzi fin dal punto 1 perchè la scelta del fornitore è stata opinabile. Un fornitore che fin dal primo messaggio dice di attivare il DRP non solo dimostra pochissima empatia ma dichiara in modo evidente lo scopo principale della sua dichiarazione: “non è un problema mio”.
E’ apprezzabile che non abbia nemmeno cercato di minimizzare l’entità del disastro ma con 150 pompieri in azione per diverse ore c’era poco da tener nascosto. Mi spiace ma credo anche che sia il caso di entrare nel merito dell’incidente perchè c’è stato un incendio. Fuoco. Fiamme.
Non si è trattato di un qualcosa di impossibile da prevedere, il Datacenter non è stato colpito da un asteroide, si è trattato di fuoco e gli uomini hanno a che fare col fuoco da qualche decina di migliaia di anni. Cosa sono tutte quelle certificazioni che vengono mostrate ai clienti e sbandierate sui vari siti? Carta straccia? Dei semplici bollini? Non dovrebbero certificare che l’azienda è in grado di prevedere e contenere qualcosa di conosciuto e prevedibile come il fuoco? I clienti sono responsabili dei dati e dei backup, è vero, OVH non dovrebbe essere responsabile di gestire il datacenter in sicurezza? Di saper controllare e contenere le cose prevedibili? Non è stato un meteorite e e neppure un attacco nucleare a distruggere il datacenter, è stato il fuoco. Quale sarà il prossimo evento imprevisto e imprevedibile, l’acqua?
Continuiamo ad esaminare la gestione dell’incidente da parte di OVH, qualche ora dopo arriva un altro tweet da parte di Klaba
Update 11:40am
The network room in SBG1 is okey. 4 rooms destroyed. 8 rooms are okey.— Octave Klaba (@olesovhcom) March 10, 2021
Octave, la trasparenza della comunicazione è più che adeguata, grazie, lo diciamo senza ironia. Tutti i tuoi clienti apprezzano il fatto che non stai cercando di nascondere o minimizzare il disastro, sappiamo che non c’era la minima possibilità di nasconderlo ma apprezziamo lo stesso. Adesso però vorremmo anche avere il resto della comunicazione, la parte più importante perchè quello che a noi interessa sapere davvero è quello che è successo ai nostri server, se i dati sono persi per sempre e non sarebbe male avere un’idea del tempo necessario per il ripristino di una parvenza di normalità.
I nostri server sono bruciati o no? La differenza non è piccola perchè in alcuni casi possiamo anche restare offline una settimana ma se i server e i relativi backup sono bruciati è inutile attendere, vorremmo cominciare da subito a far partire il nostro Disaster Recovery Plan di cui parli. Nel momento in cui cui scriviamo sono passate più di 24 ore dall’incidente e da parte di OVH questa informazione essenziale ancora non è arrivata. Non solo. Proviamo a guardare un po’ nei vari pannelli e nelle varie pagine di monitoring di ovh, cominciamo con uno dei nostri server:
Stato dei servizi “Normale”. No, non è normale manco per niente, il server è irraggiungibile da 24 ore e questo non è affatto normale. E’ bruciato oppure no? Sappiamo che quella particolare macchina si trova nel SBG1, in questo edificio su 12 stanze 4 sono bruciate e 8 si sono salvate (vedere tweet precedente). Il nostro server è ancora vivo? Sappiamo che si trova nel rack 61E09 quindi? Proviamo a vedere una pagina del sito di ovh, il monitoraggio dell’edificio SBG1
Ore 10:15 di giovedì 11 marzo 2021, tutto verde, va tutto bene. No, cari amici di OVH, non va tutto bene manco per niente e non è tutto verde, tutto l’edificio è offline e non riusciamo a capire se il nostro server è bruciato o soltanto spento. La differenza non è da poco.
Noi auguriamo ad OVH tutto il bene possibile, speriamo che l’azienda continui a crescere e che finalmente ci sia una compagnia europea in grado di competere con gli Americani. Saremo lieti di continuare a lavorare con loro però ci sono alcune cose che non tornano. Sì perchè con quello che è successo ci viene qualche sospetto.
La trasparenza. Tanti commentatori hanno apprezzato la trasparenza ma, davvero, cosa pensavano di tenere nascosto? Le foto del Datacenter in fiamme circolavano già alle otto della mattina del 10 marzo.
Le certificazioni. Hanno un qualche valore tutte le pompose certificazioni che mostrate sul sito? Tutte le dichiarazioni di “dedizione al cliente”, “sicurezza”, “ridondanza” sono solo parole di circostanza?
Le informazioni. Abbiamo capito che alcune delle informazioni fornite dal pannello dei servizi OVH non sono affidabili oppure sono di difficile interpretazione. Abbiamo capito che il colore verde può essere interpretato sia come “va tutto bene” sia come “l’armadio è offline e non sappiano se e quando qualcosa tornerà in vita”. Adesso però vorremmo sapere se i nostri server sono tutti bruciati oppure se qualcosa si è salvato, in modo da poter attivare il nostro Disaster Recovery Plan.
I sospetti. Siamo italiani quindi inevitabilmente qualche dubbio ci viene. Per esempio abbiamo il sospetto che l’imminente quotazione in borsa sia da mettere in relazione con il calo nella qualità del supporto clienti. Viene anche il dubbio che nello SBG1 non siano bruciali “solo” 4 stanze su 12 perchè altrimenti un buon servizio clienti avrebbe già pubblicato un elenco delle vittime e dei superstiti.
Gli imprevisti. Sappiamo che i dati sono di nostra responsabilità. Ma OVH conosce le proprie responsabilità? Un incendio non è imprevedibile, gli uomini conoscono il fuoco già da un po’. Quale sarà il prossimo imprevisto? L’acqua? Il Datacenter è progettato per resistere a una forte pioggia?
Conclusioni
Non sappiamo se continueremo a lavorare con OVH dopo quello che è accaduto e quello che sta ancora accadendo. Sappiamo che i dati sono di nostra responsabilità e infatti i nostri clienti hanno avuto un disagio minimo, nonostante l’entità del disastro.
Tutti i dati erano backuppati e quelli più importanti venivano salvati anche in un altro datacenter, in Germania. Questo ci ha permesso di intervenire e di ripristinare i servizi compromessi in poche ore ma crediamo sia importante sottolineare il fatto che questo tipo di ridondanza dei dati è costosa. Uno dei motivi per cui non offriamo servizi di hosting è proprio questo: cerchiamo di prevedere anche casi come questo quindi i nostri servizi sono più costosi, non possiamo competere sul prezzo perchè per avere dei prezzi bisogna imparare a ragionare con una mentalità che non abbiamo, in caso di disastro bisogna essere pronti a dire al clienti “non è nostra responsabilità”, bisogna imparare a parlare e a decidere con la tattica dello scaricabarile ma non ne siamo capaci e non vogliamo imparare. In caso di un problema come questo prima di tutto cerchiamo di ripristinare il servizio.Tutto il resto viene dopo.
Lascia un commento