Artykuły

Deduplikacja w ośmiu odsłonach

24 stycznia 2012 09:00,
Dariusz Niedzielewski, Logan G. Harbaugh

Wykonywanie kopii zapasowych z deduplikacją danych jest optymalnym rozwiązaniem w czasach, gdy ilość danych rośnie w tempie niemal geometrycznym. Oszczędności miejsca w pamięciach masowych mogą przekraczać 90%, a narzędzia przyspieszające proces deduplikacji są dostępne dla coraz większej liczby odbiorców.

Sam backup nie wystarczy

Tworzenie kopii zapasowych danych serwerów czy stacji roboczych za pomocą bibliotek taśmowych może być uciążliwe i czasochłonne. Backup dokonywany za pomocą macierzy dyskowych jest niewątpliwie szybszy, ale o wiele kosztowniejszy. Ilość danych, które trzeba przechowywać, stale rośnie, dlatego wszelkie sposoby redukowania nadmiarowych informacji są ciągle poszukiwane i doskonalone.

Polecamy: Pamięci masowe - poradnik kupującego

Przykładem ewolucji takich rozwiązań jest deduplikacja danych, polegająca na eliminowaniu takich samych lub bardzo podobnych danych. Początkowo polegała ona na porównywaniu plików (deduplikacja plików) i zapisywaniu w kopii zapasowej jedynie oryginału oraz specjalnych wskaźników. Obecnie coraz częściej stosuje się deduplikację bloków danych lub nawet części bloków (chunks).

Przyglądamy się możliwościom ośmiu uniwersalnych rozwiązań, dedykowanym zarówno małym firmom, jak i dużym przedsiębiorstwom.

Im bardziej szczegółowa analiza zawartości plików, tym więcej miejsca można zaoszczędzić na docelowej kopii zapasowej. Ograniczeniem jest tu jednak wydajność całego systemu i możliwość przetwarzania ogromnych ilości danych.

Deduplikacja może być przeprowadzana "w locie" lub po skopiowaniu całego wolumenu danych na dysk. W pierwszej opcji (inline) dane są deduplikowane natychmiast po dotarciu do urządzenia, na którym są składowane - silnik deduplikujący przeprowadza całą operację "w locie" i na dyski zapisywane są tylko dane unikalne, już po usunięciu duplikatów.

Polecamy: Thin provisioning - niewykorzystany potencjał?

Inną możliwością jest uruchomienie deduplikacji dopiero po zakończeniu tworzenia kopii zapasowej (post-process). W tej metodzie dane przychodzące do urządzenia są najpierw zapisywane na dysk, a dopiero potem przetwarzane i zapisywane w formie zdeduplikowanej.

Specjaliści podkreślają, że obecnie deduplikacja używana jest nie tylko do optymalizowania standardowych sposobów backupu. Zaczyna się sprawdzać także tam, gdzie często dokonuje się kopii migawkowych (snapshots) czy replikacji danych. Niektóre urządzenia do deduplikacji umożliwiają wykonywanie snapshotów i replikacji, choć zwykle wiąże się to z dodatkowymi kosztami wykupu licencji. Pod tym względem "bezpłatna" deduplikacja zyskuje dodatkowe punkty.

Kliknij, aby powiększyć

Ocena:
Twoja ocena:

Komentarze (4)

Dariusz Niedzielewski

01-02-2012 09:15

Dziękuję za zwrócenie uwagi. Zamiast zwrotu "w locie" (czyli inline), we wskazanym przez Pana przypadku powinno się pojawić słowo "online", określające deduplikację dokonywaną na dyskach produkcyjnych (a nie na kopiach zapasowych - dlatego procedura testowa musiała ulec modyfikacji). NetApp dokonuje, jak Pan słusznie zauważył, deduplikacji "post-process" (różnice między inline a post-process zostały opisane we wstępie artykułu).

BoB

31-01-2012 13:58

Netapp nie posiada mozliwosci deduplikacji danych "w locie", to blad rzeczowy...

Autor

08-12-2011 10:06

Witam, Dziękujemy za zwrócenie uwagi. Rzeczywiście użyte wyrażenie nie jest jednoznaczne. Autor chciał podkreślić, że istnieje kilka typów deduplikacji danych (poziom plików, bloków, sub-bloków), dzięki czemu redukcji mogą podlegać także dane, które są w większości takie same (np. pliki dokumentów tekstowych, w których zmodyfikowano tylko część informacji). Pozdrawiam, DN

PABB

07-12-2011 13:35

Przykładem ewolucji takich rozwiązań jest deduplikacja danych, polegająca na eliminowaniu takich samych lub BARDZO PODOBNYCH DANYCH. Strasznie jestem ciekaw co autor miał na myśli pisząc "BARDZO PODOBNYCH DANYCH" :)

Polecane

Open source na ratunek Ziemi

Ambicje entuzjastów idei wolnego oprogramowania zawsze sięgały wysoko. Dzięki pracom w ramach projektu GNU,...


Spokój i luz administratora

Wymagania wobec pracowników działów IT rosną proporcjonalnie do stopnia rozwoju teleinformatyki. Oczekuje się, że...


04-204 Warszawa ul. Jordanowska 12
tel.: (+48 22) 321 78 00 fax: (+48 22) 321 78 88
© copyright 2011 IDG Poland SA