Professional Documents
Culture Documents
Chapter 3
Chapter 3
Обичен текст
Текстуален документ се содржи од низа од карактери кои се интерпретираат на
стандарден начин: од лево кон десно, од горе кон доле.
Индексирање
Пребарувањето е една од основните функции која ги разликува дигиталните библиотеки
од обичните библиотеки.
Целосно индексирање на документи за секој збор ја дава позицијата каде тој збор се
појавил низ документите.
Обемен индекс кој може да пристапи до сите документи кои задоволуваат дадено
пребарување и голема податочна структура.
Основна намена е да овозможи за даден израз листа каде се појавува заедно со бројот на
појавувања.
Не сите зборови се индексираат. Некои зборови како на, од, до, итн (или на англиски of,
the, и and) не се индексираат и се нарекуваат стоп зборови.
Stemming и case-folding
Генерално се базира на одделување на зборови (т.е. карактери меѓу кои има празни места).
Но, некои јазици (како кинески и јапонски) се пишуваат без користење на празни места.
______________________________________________________________________________
__________________
Слики со текст
Во дигиталните библиотеки, обичниот текст вообичаено се креира со дигитализација на
хартиени документи.
Дигитализацијата се извршува во две фази:
Скенирање
Препознавање на карактери со OCR