Download as pdf or txt
Download as pdf or txt
You are on page 1of 46

Интернационализација: Глобален

предизвик
Содржина

• Повеќе-јазични интерфејси и
документи
• Unicode
• Хинди и индиски скрипти
• Сегментација и сортирање на зборови
Повеќе-јазични интерфејси и
документи
• Едноставно е да се прикажат документи
од било кој јазик во веб пребарувач
• Пр. За јазици кои се пишуваат од десно
во лево целата работа ја извршува веб
пребарувачот
• За внес на идиографски јазик, како
Кинески, кој не може да се внесе преку
тастатура, се употребува специјален
софтвер
Повеќе-јазични интерфејси и
документи
• Сите документи во ДБ систем
внатрешно се внесени со Unicode и
системот конвертира меѓу оваа
репрезентација и таа поддржана од
пребарувачот
SAHEL point DOC
SAHEL point DOC
Содржина

• Повеќе-јазични интерфејси и документи


• Unicode
• Хинди и индиски скрипти
• Сегментација и сортирање на зборови
Unicode

• Unicode стандардот е огромен


• Се содржи од 2 дела: ISO 10646-1 и ISO
10646-2
• ISO 10646-1 се фокусира на “живите”
јазици и се нарекува Basic Multilingual
Plane
• Последната верзија има повеќе од
120000 карактери кои покриваат 129
модерни и историски писма, како и
различни множества на симболи
Unicode
Unicode

• Unicode покрива огромен број на:


–западно-европски и централно-европски
јазици – латински
–Грчки
–Кирилични јазици
–Hebrew и арапски
–Кинески, јапонски и корејски писма
–И многу други како Bengali, Thai, Ethiopic…
–Вклучува и Браилово писмо, математички
симболи итн...
Unicode

• Кодниот простор генерално се дели на


пет зони:
–Алфабетски скрипти
–Идеографски скрипти
–Други карактери
–Сугогати
–Резервирани кодови
• Карактерите не се изделуваат според
јазик
–Пр. Интерпункцијата е споделена од
различни скрипти
Unicode - Basic Multilingual Plane

CJK = Chinese-Japanese-Korean
Unicode

• Пр. ASCII точката се користи и во грчко


и кирилично писмо

–Но, во други јазици како ерменски,


арапски, кинески и сл. точките се поинаку
преставени и имаат свои репрезентации
Unicode

• Unicode разликува букви од различни


скрипти иако може изгледаат исто
–Пр. Грчката голема буква алфа изгледа
исто како романската А, но има свој код во
грчкиот блок
Unicode – Кирилични писма
Unicode – Композиции и
комбинирање карактери
• Стандардно зборот карактер се
однесува на многу нешта: буква во
азбука, ознака на страница, симбол во
даден јазик итн...
• Во Unicode изразот се однесува на
апстрактна форма на буква
• Постои попрецизна терминологија
Unicode – Композиции и
комбинирање карактери
• Glyph се однесува на соодветно
рендерирање на карактер (или
композитен карактер) на страница на
екранот
• Различни фонтови имаат различни
glyph-и
• Unicode не разликува меѓу различни
glyph-и
Unicode – Композиции и
комбинирање карактери
• Кодна точка (code point) е Unicode
вредност специфицирана со префикс U+
на нумеричка вредност во
хексадецимален систем
• Коден ранг (code range) дава ранг на
вредности
–Пр. Карактерите во рангот U+0000–U+007F
соодветствуваат на ASCII и се нарекуваат
Basic Latin
Unicode – Композиции и
комбинирање карактери
• Кодна точка не мора да преставува
индивидуален карактер
–Пр. U+FB01 наречена LATIN SMALL
LIGATURE FI преставува секвенца на f
следена од i за да креира единствен симбол
наречен фи (ligature fi)
Unicode – Композиции и
комбинирање карактери
• Кодна точка не мора да преставува
индивидуален карактер
–Пр. За да се креира ü по малата латинска
буква u (U+0075) следат двете точки
(U+0308) и формираат секвенца (U+0075
U+0308)
Unicode – Композиции и
комбинирање карактери
• Постоењето на композитни и
комбинирани карактери го комплицира
процесирањето на Unicode текст
–Кога се пребарува даден збор треба да се
разгледуваат и алтернативни форми
–Споредбата на стрингови со регуларни
изрази претставува предизвик
–Дури и сортирањето не е тривијално
Unicode – Композиции и
комбинирање карактери
• Unicode дефинира 4 нормализирани
форми со употреба на 2 ортогонални
нотации: канонична и компатибилна
еквиваленција
• Канонична еквиваленција поврзува
кодни точки со секвенца од кодни точки
кои креираат ист карактер
–Пр. Комбинацијата U+0069 U+0308 како и
U+00EF ја преставуваат ï
Unicode – Композиции и
комбинирање карактери
• Unicode дефинира 4 нормализирани
форми со употреба на 2 ортогонални
нотации: канонична и компатибилна
еквиваленција
• Компатибилна еквиваленција поврзува
ligatures со нивните компоненти
–Пр. ligature fi (U+FB01) и нејзините
компоненти f (U+0066) и i (U+0069)
Unicode – Композиции и
комбинирање карактери
Unicode кодирање на карактери

• ISO стандардот формално специфицира


дека Unicode карактерите се
претставуваат со 32 бита по карактер
• Сите досегашни карактери може да се
претстават со 21 бит
• Според ISO стандардот кодирањето на
Unicode употребува 4 бајти за карактер
– оваа шема се нарекува UTF-32
Unicode кодирање на карактери

• Basic Multilingual Plane e 16-bitna


репрезентација, па рестиктирана
верзија на Unicode може да користи 2
бајти по карактер - – оваа шема се
нарекува UTF-16
• UTF-8 e шема на кодирање со
променлива должина
Unicode кодирање на карактери
UTF-8

• Бајт базирана шема на кодирање со


променлива должина
• Должината на кодовите варира од 1
бајт за ASCII до 4 бајти за вредности
надвор од Basic Multilingual Plane
UTF-8
Содржина

• Повеќе-јазични интерфејси и документи


• Unicode
• Хинди и индиски скрипти
• Сегментација и сортирање на зборови
Хинди и индиски скрипти

• Луѓето од европските земји


претпоставуваат дека со Unicode се
разрешуваат сите проблеми поврзани со
преставување на различни јазици
• Но тоа е важи за јазици со комплексни
скрипти
• Пр. Хинди и индиски скрипти
Хинди и индиски скрипти

• Unicode рангот од 0900 до 0DFF е


резервиран на 10 индиски скрипти
• Иако многу различни јазици се
зборуваат во Индија, официјално се
признаваат 15
• 12 од нив се пишуваат во еден од
деветте системи за пишување (на
сликата на следниот слајд)
• Останатите 3 примарно се пишуваат во
Persian Arabic скрипти
Хинди и индиски скрипти
Хинди и индиски скрипти

• Иако Unicode е дизајниран за адекватно


да ги престави индиските скрипти, не е
широко прифатен
• Во 70те е креиран ISCII: Indian Script
Code for Information Interchange со
стандардна тастатура за внесување на
сите официјални индиски скрипти
• Unicode се разликува
Unicode и ISCII
Surekh font
Хинди и индиски скрипти

• Иако има совпаѓања меѓу Unicode и


Surekh нема тотална кореспонденција
• Прифаќањето на Unicode во Индија е
одложено бидејќи некои луѓе
чувствуваат дека не е во ред
компромисот меѓу чистите принципи на
ISCII и практичните побарувања на
фонт
Хинди и индиски скрипти

• За чување на индиски документи во ДБ


во Unicode треба да се направат повеќе
мапирања:
–Од ISCII во Unicode
–Од различни фонтови (како ISFOC,
употребен во Surekh) во Unicode
–Од Unicode во различни фонтови (како
ISFOC)
Содржина

• Повеќе-јазични интерфејси и документи


• Unicode
• Хинди и индиски скрипти
• Сегментација и сортирање на
зборови
Сегментација на зборови

• Денес јазиците од CJK (Chinese-


Japanese-Korean) фамилијата се
пишуваат без употреба на празни места
или делимитери на зборови
• Преставува проблем (пр. На следниот
слајд)
Сегментација на зборови
Сегментација на зборови

• Пишаните кинески документи се


несегментирани
• За употреба во ДБ потребна е
сегментација (посебно за индексирање)
• Еден метод е употреба на јазичен
речник
Сортирање на кинески текст

• Неколку шеми се во употреба:


–Сортирање според бројот на црти што го
содржат
–Сортирање според radical, основниот
симбол врз кој се градени
–Сортирање според стандардна алфабетска
репрезентација наречена Pinyin (каде на
секој симбол се придружува еквивалент со
1 до 6 букви)
Сортирање според број на црти
Сортирање според Pinyin
Референци

• How to Build a Digital Library, I.H Witten,


D. Bainbridge,D.M.Nichols (Morgan
Kaufmann, 2009) – Глава 8

You might also like