• bezpečnost

Výpadek Google – příčiny, řešení a závislost na Google službách

Autor Damir Špoljarič

Proč k výpadku došlo a jak se k němu postavit.

Google dnes postihl výpadek všech služeb ve střední Evropě. Příčinou jsou s největší pravděpodobností problémy v interním routingu Google. Pokles trafficu v českých peering centrech lze pozorovat již kolem 19:20h a nutno podoknout, že problém není zcela vyřešen ani nyní (1h ráno, 23.11.2016).

Google své služby provozuje pomocí takzvaného anycastu, kdy některé propagované IP rozsahy jsou dostupné více cestami a tyto IP rozsahy jsou propagovány z více míst. Lze si to představit tak, že serverů se stejnou IP adresou se v Internetu nachází mnoho a uživatel se vždy připojí k té lokalitě, která je dle výpočtu dynamického routingu nejbližší.

Výhodou anycastu je zejména to, že redundance je založena na samotném principu fungování Internetu. “Umře” jeden bod, uživatel se připojí k dalšímu nejbližšímu stejnému bodu v Internetu se stejnou adresou. Tato redundance má nevýhodu v tom, že je poměrně pomalá. Umře-li tento bod v Internetu, trvá i několik minut, než routery v Internetu pochopí, že “tudy cesta nevede” a datový tok začne téct jinou cestou.

V případě dnešního výpadku google byl problém v tom, že byť nastala technická závada v routingu, prefixy google byly dále z tohoto místa propagovány a z pohledu routingu tak byla cesta “živá”, byť tudy netekl žádný traffic a končil na prvním routeru google v ČR.

Až po několika hodinách google přestal tyto prefixy v ČR propagovat a Internet si tedy našel cestu jinudy, mnohdy přes zahraniční linky. Ve vshosting~ jsme traffic přeroutovali přes náš peering s Google ve Frankfurtu. Obdobně se zachovali i ostatní operátoři jako O2, Vodafone, T-mobile.

Odhaduje se, že Googlu “upadl” traffic v ČR kolem 400 Gbps a ochromeny byly všechny jeho služby. Ve chvíli, kdy nám začal monitoring ve vshosting~ hlásit nedostupné anycast DNS adresy Google (sledujeme dostupnost spousty veřejných služeb mimo naši síť), podezření na problém u Google následovalo až po ověření naší sítě a našich cest, přeci jen Google nepadá denně, byť za poslední dva měsíce jde už o druhý obdobný problém (první problém byl však pouze několika minutový). Předpokládám, že prvotní “chaos” nastal u většiny operátorů.

Nejvíce trápení s nedostupným Googlem měli poskytovatelé připojení pro koncové uživatele jako je UPC nebo O2. Krom nedostupnosti uživatelských funkcí jako mapy, youtube a další se uživatelům nenačítalo i mnoho webů, které Google používají a kdy při nedostupnosti Google se nenačte web, resp. načte až po dlouhé době, kdy prohlížeč vytimeoutuje nefunkční adresu (např. google analytics).

Mnoho webů používá online Google služby třeba i pro fonty ve frontend aplikacích. Některé služby jsou z principu založeny na Google mapách, bez kterých plně nefungují (Liftago apod.). Ti všichni měli problém. Závislost na Google je obrovská a nejde jen o emailové služby. Samotnou kapitolu tvoří DNS, kdy Google anycast DNS servery (8.8.8.8 a 8.8.4.4) používá i spoustu koncových uživatelů – takovým lidem v danou chvíli nefungovalo nic, protože díky nedostupným DNS serverům nebylo možné přeložit žádné adresy.

Tyto situace jsou vždy nepříjemné a spousta technických problémů nelze předvídat. Přejeme kolegům z Google zdárné dořešení celého problému.