Artykuły

Deduplikacja w ośmiu odsłonach

24 stycznia 2012 09:00,
Dariusz Niedzielewski, Logan G. Harbaugh

Wykonywanie kopii zapasowych z deduplikacją danych jest optymalnym rozwiązaniem w czasach, gdy ilość danych rośnie w tempie niemal geometrycznym. Oszczędności miejsca w pamięciach masowych mogą przekraczać 90%, a narzędzia przyspieszające proces deduplikacji są dostępne dla coraz większej liczby odbiorców.


Xiotech File Storage Controller i ISE Storage Blades

Xiotech File Storage Controller nie jest tradycyjnym systemem pamięci masowych. Jest to serwer zamknięty w obudowie o wysokości 1U, pracujący pod kontrolą systemu MS Windows Storage Server. Do urządzenia można podłączyć dowolną pamięć masową, zdolną przesyłać dane przez interfejsy iSCSI lub Fibre Channel. Na potrzeby testu rolę pamięci masowej odegrał system Xiotech ISE Storage Blade (Fibre Channel), dysponujący pamięcią wewnętrzną 9,6 TB.

Kliknij, aby powiększyćW odróżnieniu od innych testowanych urządzeń, deduplikacja została przeprowadzona na poziomie plików, a nie bloków danych. Oznacza to, że przy kopiowaniu dwóch plików wideo (oryginalny o rozmiarze 600 MB, a drugi - nieco zmieniony - mający 650 MB), miejsce potrzebne na backup będzie wynosiło 1,25 GB. W przypadku rozwiązania NetApp (deduplikacja na poziomie bloków danych) byłoby to ok. 655 MB.

Jedną z zalet deduplikacji na poziomie plików jest mała złożoność całego procesu i jego niewielki koszt. Xiotech File Storage Controller może obsługiwać do 256 systemów pamięci masowych. Zamiast tego kontrolera można użyć Xiotech Block Storage Controller, który wraz z technologią thin provisioningu, znacznie poprawi wydajność deduplikacji - kosztem obciążenia systemu.

Testowany system Xiotech oferuje prawie trzykrotnie większą pojemność wewnętrzną niż konkurencyjne rozwiązanie NetApp przy ponad dwukrotnie wyższej cenie. Pozwala tworzyć kopie migawkowe i udostępnia kilka innych funkcjonalności znanych z sieci SAN. Dysponuje przyzwoitą wydajnością, ale łączna efektywność tego rozwiązania jest nieco niższa niż NetApp FAS 2040.

Po pierwszym backupie wolumenu danych (589 GB) Xiotech zużył 581 GB (po deduplikacji). Skopiowanie drugiego wolumenu, zawierającego pliki .vmdk, spowodowało wzrost zajętego miejsca do 965 GB. Backup trzeciego wolumenu przyczynił się do przyrostu kolejnych 6 GB danych. W porównaniu z rozwiązaniem NetApp (odpowiednio: 566 GB, 604 GB i 605 GB), nie można uznać tych wyników za dobre. Mimo że urządzenie NetApp jest na początku droższe (stosunek ceny do gigabajta pamięci), to przeprowadza deduplikację znacznie efektywniej. W środowisku realnym otrzymane wartości mogą się nieco różnić - wszystko zależy od rodzaju przesyłanych danych i liczby takich samych plików w poszczególnych lokalizacjach.

Za 62 tys. USD klient otrzymuje system Xiotech, wyposażony w 9,6 TB pamięci wewnętrznej, który jest łatwy w użyciu, oferuje kilka ciekawych rozwiązań sieci SAN i jest stosunkowo efektywny w deduplikacji (biorąc pod uwagę ograniczenia deduplikacji na poziomie plików).

Warto również zwrócić uwagę na system Compellent (Dell) Storage Center S30 SAN, który nie był poddawany testom, ale sam posłużył do zademonstrowania efektów działania deduplikacji. Za jego pomocą stworzono dwie kopie migawkowe pamięci masowej serwera produkcyjnego. Między jednym snapshotem a drugim minęły 4 miesiące. Obie kopie migawkowe zajmowały 589 GB, ale różniły ich 32 GB danych (zmodyfikowanych, usuniętych, dodanych). Następnie stworzono z nich nowe wolumeny, które zamontowano na serwerze testowym. Jeśli pamięć masową serwera produkcyjnego (589 GB) oraz dwie kopie migawkowe (każda po 589 GB) utworzono by zupełnie oddzielnie, to łącznie zajmowałyby one 1767 GB. Dzięki zastosowaniu deduplikacji miejsce to ograniczono do 621 GB (589 GB + 32 GB zmodyfikowanych danych).
Compellent Storage Center S30 SAN umożliwia również deduplikowanie danych między wolumenami. Możliwe jest np. stworzenie 50 kopii migawkowych bootowalnego wolumenu o pojemności 100 GB i zamontowanie tych snapshotów jako odrębnych wolumenów. W ten sposób, dopóki nie zostaną one w żaden sposób zmodyfikowane, łączne miejsce zużyte na ich przechowanie zajmie nieco ponad 100 GB, a administratorzy będą dysponowali aż 50 bootowalnymi wolumenami.
Ocena:
Twoja ocena:

Komentarze (4)

Dariusz Niedzielewski

01-02-2012 09:15

Dziękuję za zwrócenie uwagi. Zamiast zwrotu "w locie" (czyli inline), we wskazanym przez Pana przypadku powinno się pojawić słowo "online", określające deduplikację dokonywaną na dyskach produkcyjnych (a nie na kopiach zapasowych - dlatego procedura testowa musiała ulec modyfikacji). NetApp dokonuje, jak Pan słusznie zauważył, deduplikacji "post-process" (różnice między inline a post-process zostały opisane we wstępie artykułu).

BoB

31-01-2012 13:58

Netapp nie posiada mozliwosci deduplikacji danych "w locie", to blad rzeczowy...

Autor

08-12-2011 10:06

Witam, Dziękujemy za zwrócenie uwagi. Rzeczywiście użyte wyrażenie nie jest jednoznaczne. Autor chciał podkreślić, że istnieje kilka typów deduplikacji danych (poziom plików, bloków, sub-bloków), dzięki czemu redukcji mogą podlegać także dane, które są w większości takie same (np. pliki dokumentów tekstowych, w których zmodyfikowano tylko część informacji). Pozdrawiam, DN

PABB

07-12-2011 13:35

Przykładem ewolucji takich rozwiązań jest deduplikacja danych, polegająca na eliminowaniu takich samych lub BARDZO PODOBNYCH DANYCH. Strasznie jestem ciekaw co autor miał na myśli pisząc "BARDZO PODOBNYCH DANYCH" :)

Polecane

Koniec Windows XP początkiem problemów?

Microsoft oficjalnie potwierdził, że za dwa lata definitywnie zakończy się era Windows XP - systemu operacyjnego,...


Spokój i luz administratora

Wymagania wobec pracowników działów IT rosną proporcjonalnie do stopnia rozwoju teleinformatyki. Oczekuje się, że...


04-204 Warszawa ul. Jordanowska 12
tel.: (+48 22) 321 78 00 fax: (+48 22) 321 78 88
© copyright 2011 IDG Poland SA