Wiadomości

VMware: druga awaria Cloud Foundry efektem błędu w czasie naprawy pierwszej

4 maja 2011 13:30,
IDG News Service, Radosław Szpunar

Niedawno firma VMware spotkała się z dwiema awariami swojej usługi Cloud Foundry. Efektem pierwszej była kilkugodzinna przerwa w dostępie do usługi. Podczas szukania sposobu na zapobieganie kolejnym problemom tego typu, błąd zespołu zaowocował jeszcze groźniejszą awarią.

Cloud Foundry firmy VMware, oferuje usługę PaaS (platforma jako usługa). Deweloperzy mogą dzięki niej tworzyć aplikacje i zamieszczać je w sieci. Zaczęła działać 12 kwietnia, a już 25 i 26 kwietnia miały miejsce dwie przerwy w dostępie do tej platformy.

Pierwszy incydent był efektem czasowego braku prądu. Aplikacje deweloperów pozostały w sieci, ale deweloperzy nie mogli się logować ani tworzyć nowych programów. Przerwa w dostępie do usługi trwała prawie 10 godzin. Następnego dnia VMware przypadkowo doprowadziło do kolejnej awarii przy przygotowywaniu planu zapobiegania podobnym problemom.

26 kwietnia rozpoczęto tworzenie scenariusza postępowania na wypadek przerwy w dostawie prądu. Jego przygotowanie miało przebiegać teoretycznie, niestety jeden z inżynierów dotknął klawiatury. Rezultatem była awaria całej infrastruktury sieciowej Cloud Foundry. Przestały działać routery, firewalle, równoważenie obciążenia a częściowo także wewnętrzna infrastruktura DNS. Doprowadziło to do całkowitego zerwania połączeń zewnętrznych.

Druga awaria okazała się poważniejsza. Po raz pierwszy VMware musiało umieścić na stronie informacje o czasowym braku dostępu do usługi. Podczas przerwy z 26 kwietnia wszystkie aplikacje i komponenty systemu działały, ale wiedzieli o tym tylko inżynierowie firmy. Awarię udało się jednak szybko naprawić.

Drugi problem VMware był podobny do niedawnego związanego z chmurą Amazon, której awaria także spowodowana była błędem ludzkim. Wymagała ona jednak kilku dni do pełnej naprawy i miała poważniejsze skutki, gdyż usługa jest oferowana od dłuższego czasu i ma wielu klientów.
Ocena:
Twoja ocena:

Komentarze (5)

~walec51

04-06-2011 12:08

@rokko nie w dzień Kraków zbudowano po za tym ta chmura jest w fazie beta przecież !

~jero

05-05-2011 19:50

pytanie tylko ile awarii jest w srodowiskach fizycznych versus wirtualnych. Gdyby stalo sie to w tradycyjnym srodowisku, to ile czasu zajeloby przywrocenie do dzialania ?? RTO, RPO to wszystko wypada lepiej w wirtualnej infrze niz fizycznej wiec come on....

~Rav

05-05-2011 11:30

Zapewniają wyższy poziom niezawodności, ale jak widać nie we wszystkich chmurach. Włos na głowie się jeży jak się czyta wyjaśnienia awarii: - brak prądu - pracownik "dotknął klawiatury"

~rokko

05-05-2011 09:41

I to tyle na temat twierdzenia, że dostawcy usług "chmurowych", dzięki swej specjalizacji, zapewnią większy poziom niezawodności niż wewnątrzfirmowa infrastruktura. :)

~user

04-05-2011 15:33

to domyslam sie ze ten pracownik juz zostal wykopany za taka awarie :D coz bywa dobrze ze nie ukarali go kara smierci ;)

Reklama

Huawei celuje w rynek biznesowy

Huawei nieustannie rozwija się jako dostawca infrastruktury dla branży telekomunikacyjnej. W tym roku chiński koncern zamierza umocnić swoją pozycję również na rynku rozwiązań Enterprise.


Polecane

Koniec Windows XP początkiem problemów?

Microsoft oficjalnie potwierdził, że za dwa lata definitywnie zakończy się era Windows XP - systemu operacyjnego,...


Spokój i luz administratora

Wymagania wobec pracowników działów IT rosną proporcjonalnie do stopnia rozwoju teleinformatyki. Oczekuje się, że...


04-204 Warszawa ul. Jordanowska 12
tel.: (+48 22) 321 78 00 fax: (+48 22) 321 78 88
© copyright 2011 IDG Poland SA