Recentemente il servizio di CDN Cloudflare è stato offline per diverse ore, causando il down totale di svariati siti web che si appoggiano proprio al noto servizio di caching delle pagine, tra cui anche Amazon, Twitch, Amazon Web Services, Steam, Coinbase, Telegram, Discord e Gitlab. Il danno, anche a livello economico, è stato sicuramente importante considerando che i servizi appena citati portano con sé un traffico utenti molto elevato e che quindi è la base principale degli introiti per le rispettive aziende.

Come evidenziato anche dal noto portale DownDetector, che rappresenta il punto di riferimento per le segnalazioni in caso di guasti o disservizi, il down è iniziato intorno alle 6:30 del 21 Giugno quando i primi segnali si sono avvertiti grazie alla mancata connessione alle pagine web di diversi servizi online.

Secondo quanto confermato dalla stessa Cloudflare, l’interruzione è stata causata da un’errata configurazione di rete, che prevedeva l’aumento della resilienza nelle zone più trafficate del mondo che usano i servizi dell’azienda. Sebbene le sedi interessate rappresentino solo il 4% dell’intera rete di Cloudflare, la loro interruzione ha avuto un impatto su circa il 50% di tutte le richieste HTTP gestite da Cloudflare a livello globale. Ciò può risultare ovvio anche solamente dal fatto che i servizi più colpiti sono proprio quelli che generano un maggior traffico di utenti e di connessioni simultanee ogni giorno.

cloudflare down

Il cambiamento che ha portato all’interruzione faceva parte di un progetto più ampio che avrebbe convertito i data center nelle sedi più trafficate di Cloudlfare in un’architettura più resiliente e flessibile, nota internamente come Multi-Colo PoP (MCP). Una parte fondamentale di questa nuova architettura, progettata come una rete Clos, è un ulteriore livello di routing che crea una rete mesh di connessioni. Questa rete ci consente di disabilitare e abilitare facilmente parti della rete interna in un data center per la manutenzione o per affrontare un problema senza creare problemi nel servizio. Questa nuova architettura ha fornito significativi miglioramenti dell’affidabilità, oltre a consentire di eseguire la manutenzione senza interrompere il traffico dei clienti. Poiché le località colpite trasportano anche una parte significativa del traffico Cloudflare, qualsiasi problema può avere un impatto molto ampio e, sfortunatamente, è quello che è successo.

Il problema vero e proprio si è verificato nella configurazione delle policy che riguardano il protocollo BGP a cui si affida Cloudflare per effettuare le connessioni ai vari indirizzi IP. In poche parole, questo protocollo contiene dei criteri ben precisi che decidono quali indirizzi IP sono raggiungibili alle altre reti nel mondo. Modificare quindi questi criteri può quindi rendere irrangiungibili degli indirizzi che precedentemente erano disponibili.

L’elenco dei data center interessati nell’incidente include Amsterdam, Atlanta, Ashburn, Chicago, Francoforte, Londra, Los Angeles, Madrid, Manchester, Miami, Milano, Mumbai, Newark, Osaka, San Paolo, San Jose, Singapore, Sydney e Tokyo.

Fonte: Cloudflare

Di Marco Nisticò

Sviluppatore informatico, cerco sempre di stare al passo con i tempi in un mondo ormai circondato dalla tecnologia.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.