VMware: druga awaria Cloud Foundry efektem błędu w czasie naprawy pierwszej
Niedawno firma VMware spotkała się z dwiema awariami swojej usługi Cloud Foundry. Efektem pierwszej była kilkugodzinna przerwa w dostępie do usługi. Podczas szukania sposobu na zapobieganie kolejnym problemom tego typu, błąd zespołu zaowocował jeszcze groźniejszą awarią.
Polecamy:
- Czym właściwie jest cloud computing?
- Redhat przygotowuje platformę cloud computing dla deweloperów (PaaS)
Zobacz też:
Pierwszy incydent był efektem czasowego braku prądu. Aplikacje deweloperów pozostały w sieci, ale deweloperzy nie mogli się logować ani tworzyć nowych programów. Przerwa w dostępie do usługi trwała prawie 10 godzin. Następnego dnia VMware przypadkowo doprowadziło do kolejnej awarii przy przygotowywaniu planu zapobiegania podobnym problemom.
26 kwietnia rozpoczęto tworzenie scenariusza postępowania na wypadek przerwy w dostawie prądu. Jego przygotowanie miało przebiegać teoretycznie, niestety jeden z inżynierów dotknął klawiatury. Rezultatem była awaria całej infrastruktury sieciowej Cloud Foundry. Przestały działać routery, firewalle, równoważenie obciążenia a częściowo także wewnętrzna infrastruktura DNS. Doprowadziło to do całkowitego zerwania połączeń zewnętrznych.
Druga awaria okazała się poważniejsza. Po raz pierwszy VMware musiało umieścić na stronie informacje o czasowym braku dostępu do usługi. Podczas przerwy z 26 kwietnia wszystkie aplikacje i komponenty systemu działały, ale wiedzieli o tym tylko inżynierowie firmy. Awarię udało się jednak szybko naprawić.
Drugi problem VMware był podobny do niedawnego związanego z chmurą Amazon, której awaria także spowodowana była błędem ludzkim. Wymagała ona jednak kilku dni do pełnej naprawy i miała poważniejsze skutki, gdyż usługa jest oferowana od dłuższego czasu i ma wielu klientów.
Komentarze (5)
@rokko nie w dzień Kraków zbudowano po za tym ta chmura jest w fazie beta przecież !
pytanie tylko ile awarii jest w srodowiskach fizycznych versus wirtualnych. Gdyby stalo sie to w tradycyjnym srodowisku, to ile czasu zajeloby przywrocenie do dzialania ?? RTO, RPO to wszystko wypada lepiej w wirtualnej infrze niz fizycznej wiec come on....
Zapewniają wyższy poziom niezawodności, ale jak widać nie we wszystkich chmurach. Włos na głowie się jeży jak się czyta wyjaśnienia awarii: - brak prądu - pracownik "dotknął klawiatury"
I to tyle na temat twierdzenia, że dostawcy usług "chmurowych", dzięki swej specjalizacji, zapewnią większy poziom niezawodności niż wewnątrzfirmowa infrastruktura. :)
to domyslam sie ze ten pracownik juz zostal wykopany za taka awarie :D coz bywa dobrze ze nie ukarali go kara smierci ;)
- Prawo Moore’a zagrożone?
- Bezpieczeństwo WiFi - bezprzewodowe testy penetracyjne
- Wirtualizacja: obsługa SMB na czterech U
- Prawdziwe powody powstania Microsoft Open Technologies
- Open source: zmierzch ery GPL? Nie do końca...
- ROVER - prosty sposób na słabość BGP?
- Zaawansowane stacje Wi-Fi Ruckus Wireless
- Rozstanie z Javą nie będzie proste
- Google Drive uwypukla słabe strony publicznych chmur obliczeniowych
- Serwery "zombie" w centrum danych
Reklama
Huawei celuje w rynek biznesowy
Huawei nieustannie rozwija się jako dostawca infrastruktury dla branży telekomunikacyjnej. W tym roku chiński koncern zamierza umocnić swoją pozycję również na rynku rozwiązań Enterprise.
Polecane
Koniec Windows XP początkiem problemów?
Microsoft oficjalnie potwierdził, że za dwa lata definitywnie zakończy się era Windows XP - systemu operacyjnego,...
Spokój i luz administratora
Wymagania wobec pracowników działów IT rosną proporcjonalnie do stopnia rozwoju teleinformatyki. Oczekuje się, że...
