wyszukiwanie:
Podziel się opinią o serwisie
powiększ tekst >
ARCHIWUM

Filtrowanie stron internetowych

7 czerwca 2002

NetWorld
Internetowe oprogramowanie filtrujące jest na tyle efektywne, na ile jest zdolne do precyzyjnego określenia natury strony webowej, bez względu czy są to operacje giełdowe, elektroniczny handel, czy też portal prezentujący aktualności.
Internetowe oprogramowanie filtrujące jest na tyle efektywne, na ile jest zdolne do precyzyjnego określenia natury strony webowej, bez względu czy są to operacje giełdowe, elektroniczny handel, czy też portal prezentujący aktualności.

Kliknij, aby powiększyćJak to działa? Jeśli strony są błędnie sklasyfikowane, to funkcjonalność filtrów zawiedzie. Nasuwa się pytanie: jak można określić rodzaj filtru, który spełni nasze wymagania?

Dostawcy oprogramowania filtrującego używają dwu podstawowych metod - anulowanie (recall) i dokładność (precision).

Efektywne oprogramowanie powinno zidentyfikować wszystkie strony webowe, które należy przefiltrować, tak jak robi się to z umieszczanymi w Internecie stronami z treściami pornograficznymi. Na tym opiera się metoda zwana anulowaniem.

Ponadto skuteczne oprogramowanie filtrujące powinno poprawnie rozpoznawać strony. Przykładem może być rozróżnianie pomiędzy stronami traktującymi wprost o seksie a stronami poświęconymi edukacji w dziedzinie seksu. Tę metodę przyjęto nazywać dokładnością.

Teoretycznie relacja pomiędzy anulowaniem i dokładnością jest odwrotna. Jeśli filtr wychwyci wszystkie możliwe strony webowe określonej kategorii, to jest mało prawdopodobne, że strony te będą precyzyjnie sklasyfikowane. Przypomina to zarzucenie do oceanu ogromnej sieci i złowienie wszystkiego, począwszy od ryb, a kończąc na wodorostach. Z drugiej strony bardzo precyzyjny filtr często nie jest w stanie zebrać wszystkich możliwych stron danej kategorii. Przypomina to wędkę - zdolną do schwytania jednej ryby spośród wielu pływających obok.

Jaki jest najlepszy rodzaj filtru dla sieci w danej organizacji? Być może najważniejszym czynnikiem jest kultura tej organizacji. Na przykład łatwiej przyjąć mniejszą precyzję lub wprost zablokować strony webowe w domach lub szkołach, gdzie najważniejsze jest zabezpieczenie dzieci przed treściami obscenicznymi.

W środowisku przedsiębiorstwa zablokowanie stron jest nie do przyjęcia, ponieważ zmniejsza to wydajność i nie dopuszcza pracowników do legalnych stron webowych. Przykładem niech będzie mniej dokładny filtr, który może skutecznie anulować strony porno, ale również zablokować strony z kuchennymi przepisami, na przykład jak przyrządzić "kurze piersi" lub poświęconych selekcji piskląt przez sekserki.

Wybierając pomiędzy dokładnością a anulowaniem należy przede wszystkim określić, jak filtr klasyfikuje stronę - czy dynamicznie, czy z bazy danych. Dynamiczne filtrowanie kładzie nacisk na anulowanie, a nie na dokładność. Filtr dynamiczny sprawdza treść strony webowej podczas jej odzyskiwania i w czasie rzeczywistym algorytmicznie określa jej kategorię. Wadami tego podejścia są: mniejsza precyzja, większe blokowanie i spowolnienie sieci, wynikające z konieczności przetwarzania algorytmu klasyfikującego.

Druga metoda, nazwana filtrowaniem z bazy danych, polega na przeglądaniu adresów stron w bazie danych zawierającej sklasyfikowane adresy URL. Podejście to pomaga zgrupować strony webowe w przydatne kategorie, tworzone na podstawie zawartości stron, jak również minimalizuje dwuznaczność i nakładanie się kategorii, przez co zwiększa dokładność. Filtrowanie z bazy danych jest dokładne w stu procentach, ale istnieje ryzyko, że w tej bazie nie znajdują się wszystkie pojawiające się na bieżąco strony, tym samym narażając je na anulowanie.

Wyzwaniem dla filtrowania z bazy danych jest stałe jej aktualizowanie, tak by zawierała najnowsze strony webowe. Najlepsze filtry tego typu pozwalają klientom wysyłać identyfikatory adresowe URL do przedsiębiorstw filtrujących w celu przeprowadzenia analiz. Po przeanalizowaniu strony są dodawane do bazy danych klienta. W pewnym sensie baza danych, której używa filtr, rośnie wraz z przeglądaniem stron - pracownicy sami sobą zarządzają.

To, jak filtr określa naturę konkretnej strony, jest najważniejszym czynnikiem przy wyborze najbardziej skutecznego rozwiązania. Administrator sieci powinien być świadomy zalet i wad wyboru pomiędzy dokładnością a anulowaniem. Filtry dynamiczne, skuteczne przy blokowaniu stron pornograficznych i innych treści webowych w czasie rzeczywistym, są generalnie akceptowane w domach i szkołach. Filtrowanie z bazy danych jest chętniej stosowane w przedsiębiorstwach, które wymagają mniej radykalnego blokowania, większej precyzji, tudzież filtrów, które odzwierciedlają potrzeby pracowników w zakresie przeglądania stron webowych.

Wystaw ocenę:
   Średnia ocena (liczba głosów: 3)
AudioBot - odsłuchaj materiałAudioBot - odsłuchaj materiał wydrukuj wydrukuj wyslij do znajomego wyślij do znajomego rss
Wrzuć w Gwar Wykop to Dodaj do delicji Dodaj do Twittera! Dodaj do Blip! Dodaj do Flakera! Dodaj do Digg! Udostępnij na Facebooku! Dodaj do Śledzika!

Komentarze

Redakcja NetWorld nie ponosi odpowiedzialności za wypowiedzi Internautów opublikowane na stronach serwisu oraz zastrzega sobie prawo do redagowania, skracania bądź usuwania komentarzy zawierających treści zabronione przez prawo, uznawane za obraźliwie lub naruszające zasady współżycia społecznego. Osoby zamieszczające wypowiedzi naruszające prawo lub prawem chronione dobra osób trzecich mogą ponieść z tego tytułu odpowiedzialność karną lub cywilną.

Ten artykuł nie ma jeszcze żadnych komentarzy. Twój może być pierwszy...

Linki sponsorowane

Śpiesz się! Tylko przez miesiąc prenumerata PC Worlda za 99 zł lub 9,90 zł miesięcznie! Zamów  »
Szybkie i wygodne drukowanie: drukarka Brother QL-560 za 215 zł. Zamów teraz »
W prenumeracie na raty jeden numer PC Worlda tylko 13,90 zł zamiast 19,90 zł! Zamów dziś »
NetWorld poleca: Król netbooków w ekstracenie! Zobacz więcej »
Dobry Pracownik wanted! 10 000 ofert pracy z kraju i z zagranicy! PRACA.IDG.PL Sprawdź »
Prenumerata MIX PC World. Wygodne połączenie wydań papierowych i cyfrowych Szczegóły »
Książki teleinformatyczne w najlepszej cenie! Księgarnia IDG.pl zaprasza!
Zamów kartę kredytową Banku Millennium, a otrzymasz prenumeratę PC Worlda Szczegóły »
Prenumerata PC Worlda z DVD za darmo! Sprawdź to! »
04-204 Warszawa ul. Jordanowska 12
tel.: (+48 22) 321 78 00 fax: (+48 22) 321 78 88
© copyright 2010 IDG Poland SA
logo IDG