Chapter 3

Chapter 3: Работа со текстуални документи
Презентација на текстуални документи
ASCII (American Standard Code for Information Interchange) претставува множество од

карактери (т.е. нивни вредности) за стандардизирана презентација на текст.
- Секој код – 7 бита
- Кодовите 0-32: контролни
- Кодовите 48-57: цифри
- Кодовите 65-90: големи букви
- Кодовите 97-122: мали букви
Проблем со останатите јазици.

Проширувања: Употреба на кодовите 128-255 за non-Roman карактери
- Пример, ISO 8859-1 – проширување за западно-европски земји
- Пример, ISO 8859-5 – проширување за кирилични писма
За не-европски јазици (како Hebrew и кинески) ASCII не е релевантен.
Unicode е универзален – секој документ со било кое постоечко множество од карактери

може да биде мапирано во Unicode.
 Наследник на ASCII
Главна цел: Претставување на текст од јазици од целиот свет.
Популарен метод за презентација на Unicode – UTF8 – шема за кодирање со варијабилна

должина.
Обичен текст
Текстуален документ се содржи од низа од карактери кои се интерпретираат на
стандарден начин: од лево кон десно, од горе кон доле.
Не постои заглавје (header) кое кажува кое множество од карактери се употребува.
При употреба на 8-битен ISO ASCII и употреба на истиот документ на различни

апликации или компјутери, карактерите во ранг 128-255 може да не се прикажат точно.
Се форматира на едноставен начин (т.е. со употреба на нови линии – line breaks).

- Параграфите се одделуваат со два последователни нови реда
- Табулација се употребува за интендација
- Се употребува фонт со фиксна должина
- Нагласување на текст со _ или * (пример, _вака, или *вака*)
Различни системи различно означуваат нова линија (line break).
 ASCII кодот 10 – LF (line-feed) го носи документот една линија погоре, но се чува
позицијата
 ASCII кодот 10 – CR (carriage-return) враќа на лева маргина
 Windows: Нова линија се креира со употреба прво на CR па LF
 Unix и Apple: прво LF па CR
Денешните програми ги кријат овие разлики.
Индексирање
Пребарувањето е една од основните функции која ги разликува дигиталните библиотеки
од обичните библиотеки.
Може да се пребаруваат дадени зборови, множество од зборови или низа од зборови.
Индексирањето отсекогаш овозможувало пребарување на даден збор.
Целосно индексирање на документи за секој збор ја дава позицијата каде тој збор се
појавил низ документите.
Обемен индекс кој може да пристапи до сите документи кои задоволуваат дадено
пребарување и голема податочна структура.
Основна намена е да овозможи за даден израз листа каде се појавува заедно со бројот на
појавувања.
Не сите зборови се индексираат. Некои зборови како на, од, до, итн (или на англиски of,
the, и and) не се индексираат и се нарекуваат стоп зборови.
 Stemming и case-folding
Генерално се базира на одделување на зборови (т.е. карактери меѓу кои има празни места).
Но, некои јазици (како кинески и јапонски) се пишуваат без користење на празни места.
______________________________________________________________________________
__________________
Слики со текст
Во дигиталните библиотеки, обичниот текст вообичаено се креира со дигитализација на
хартиени документи.
Дигитализацијата се извршува во две фази:
 Скенирање
 Препознавање на карактери со OCR
Втората фаза е потребна за креирање на индекс.

Chapter 3

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Chapter 3

Uploaded by

Copyright:

Available Formats

Chapter 3: Работа со текстуални документи

Презентација на текстуални документи

ASCII (American Standard Code for Information Interchange) претставува множество од

Проблем со останатите јазици.

За не-европски јазици (како Hebrew и кинески) ASCII не е релевантен.

Unicode е универзален – секој документ со било кое постоечко множество од карактери

Главна цел: Претставување на текст од јазици од целиот свет.

Популарен метод за презентација на Unicode – UTF8 – шема за кодирање со варијабилна

Не постои заглавје (header) кое кажува кое множество од карактери се употребува.

При употреба на 8-битен ISO ASCII и употреба на истиот документ на различни

Се форматира на едноставен начин (т.е. со употреба на нови линии – line breaks).

Денешните програми ги кријат овие разлики.

Може да се пребаруваат дадени зборови, множество од зборови или низа од зборови.

Индексирањето отсекогаш овозможувало пребарување на даден збор.

Втората фаза е потребна за креирање на индекс.

You might also like