Professional Documents
Culture Documents
Przeszukujac Internet
Przeszukujac Internet
Przeszukujac Internet
PRZESZUKUJC INTERNET
Czy poczenie umiejtnoci bibliotekarza i komputerowego guru
pomoe w opanowaniu anarchii w Internecie?
Clifford Lynch
BRYAN CHRISTIE
JEFF BRICE
PRZESZUKIWARKA odwiedza (przeczesuje) rne miejsca w World Wide Web, pokazane tu jako niebieskie kule. te i niebieskie linie oznaczaj dane wejciowe i wyjciowe serwera przeszukiwarki (czerwona wiea), gdzie strony WWW s wgrywane. Oprogramowanie serwera tworzy indeks (beowa kartka), do ktrego ma dostp uytkownik.
RAPORT SPECJALNY
RAPORT SPECJALNY
INDEKSOWANIE
AUTOMATYCZNE
STRONA
INDEKSOWANIE
PRZEZ CZOWIEKA
pierwszego pochodzi od Dublina w stanie Ohio, drugiego natomiast od Warwick w Wielkiej Brytanii. Zatrudnione
przy nich zespoy zdefinioway zestaw
metadanych, ktre s prostsze ni w tradycyjnych katalogach bibliotecznych,
oraz opracoway sposoby ich wczania
do stron internetowych.
Klasyfikacja metadanych miaaby obejmowa rne kategorie: od tytuu i autora do typu dokumentu (np. tekst czy wideo). Ich wyszukiwaniem mogliby si
zajmowa zarwno ludzie, jak i programy indeksujce. Tak zdobyte metadane
BRYAN CHRISTIE
RAPORT SPECJALNY
si potrzebne, bdzie zaleao od uytkownikw Internetu i oceny opacalnoci przedsiwzicia przez wydawcw.
Dla wielu spoecznoci naukowych model zorganizowanego zbioru danych
cyfrowa biblioteka cigle wydaje si
odpowiedni. Dla innych pozbawione
kontroli, demokratyczne medium moe by najlepszym mechanizmem rozprowadzania informacji. Niektrym
uytkownikom, od analitykw finansowych do szpiegw, potrzebny jest dostp do baz zawierajcych dane surowe, nie kontrolowane oraz nie redagowane. Dla nich standardowe przeszukiwarki s najlepszym narzdziem
wanie dlatego, e nie selekcjonuj
informacji.
To nie tylko biblioteka
Rnorodno materiau w Sieci jest
znacznie wiksza ni w tradycyjnej bi-
IBM CORPORATION/ROMTECH/COREL
RAPORT SPECJALNY
BRYAN CHRISTIE
HARVEST, w ktrym zastosowano now architektur przeszukiwarki, moe utworzy indeks za pomoc programw zbieraczy (gatherers). Umieszczane s one
w orodkach Sieci (ciemne wieyczki obok niebieskich kul) lub w centralnym komputerze (wiksza szecioktna wiea). Dziki temu przeszukiwarka nie musi przegrywa wszystkich dokumentw z danego miejsca WWW, co znacznie odcia
Sie. Serwer przeszukiwarki (czerwony obiekt w centrum) moe po prostu poprosi roboty zbierajce (fioletowe strzaki) o plik ze sowami kluczowymi (czerwone strzaki) i przetworzy go w indeks (kartka), z ktrego skorzysta uytkownik.
trzebne nowe programy, ktre zmniejsz obcienia powodowane przez roboty internetowe, skanujce co pewien
czas kade miejsce w Sieci. Niektrzy
administratorzy serwerw stwierdzaj,
e ich komputery trac mnstwo czasu,
dostarczajc robotom informacji potrzebnej do indeksowania, zamiast powici go na obsug uytkownikw
czcych si z ich serwerem.
Prbujc rozwiza ten problem, Mike Schwartz i jego koledzy z University
of Colorado w Boulder stworzyli oprogramowanie o nazwie Harvest, ktre
pozwala serwerom WWW stworzy indeks danych dla stron na nich umieszczonych i wysa go na danie rnym
przeszukiwarkom. Dziki temu automatycznie indeksujcy robot Harvesta,
czyli robot zbierajcy, zwalnia przeszukiwarki z wysyania sieci caej zawartoci serwera.
Roboty, tworzc indeks, przenosz na
swj serwer kopi kadej strony, co
Informacje o autorze
zmniejsza przepustowo sieci (bandwidth). Robot zbierajcy informacje wysya natomiast tylko plik zawierajcy dane do indeksu. Co wicej, s to informacje
tylko o tych stronach, ktre zostay zmienione po ostatniej wizycie, co rwnie
znacznie zmniejsza obcienie sieci
i komputerw do niej podczonych.
Roboty takie jak robot zbierajcy Harvesta mog rwnie peni inne funkcje.
Dziki nim wydawcy zyskaj co w rodzaju ogranicznika zasobu informacji eksportowanych z serwerw. Kontrola taka
jest konieczna, poniewa WWW staje si
ju czym wicej ni medium swobodnego przekazywania darmowych informacji. Niejednokrotnie uatwia dostp do
danych patnych. Programy przeszukujce nie powinny penetrowa takich materiaw. Roboty zbierajce mogyby dystrybuowa tylko te informacje, ktre chce
udostpni wydawca, na przykad odnoniki do streszcze lub przykady zamieszczonych materiaw.
Literatura uzupeniajca
CLIFFORD LYNCH jest dyrektorem dziau automatyzacji bi- THE HARVEST INFORMATION DISCOVERY AND ACCESS SYSTEM. C. M. Bowman i in.,
bliotecznej rektoratu University of California i tam nadzoruje Computer Networks and ISDN Systems, vol. 28, nry 1-2, ss. 119-125, XII/1995.
MELVYL, jeden z najwikszych systemw publicznego udo- The Harvest Information Discovery and Access System jest dostpny
stpniania informacji. Lynch uzyska doktorat z informatyki w World Wide Web: http://harvest.transarc.com/
w University of California w Berkeley. Obecnie wykada w tam- THE WARWICK METADATA WORKSHOP: A FRAMEWORK FOR THE DEPLOYMENT OF REtejszej School of Information Management and Systems. Jest SOURCE DESCRIPTION. Lorcan Dempsey i Stuart L. Weibel, D-lib Magazine, VIIbyym prezesem American Society for Information Science VIII/1996. Dostpny w World Wide Web: http://www.dlib.org/dlib/jui czonkiem American Association for the Advancement of ly96/07contents.html
Science. Kieruje Architectures and Standards Working Group THE WARWICK FRAMEWORK: A CONTAINER ARCHITECTURE FOR DIVERSE SETS OF METADATA. Carl Lagoze, ibid.
z ramienia Coalition for Network Information.