Download as doc, pdf, or txt
Download as doc, pdf, or txt
You are on page 1of 32

Prepoznavanje znakova iz dokumenata

Povijesni razvoj OCR-a.


Trenutna OCR tehnologija.
Primjer korištenja OCR-a.

8. prosinca
2021
Optical Character Recognition

Sažetak
Software za optičko prepoznavanje znakova (Optical Character
Recognition, OCR) skenira i prepoznaje tekst te ga zatim zapisuje u
formatu pogodnom za za obradu dokumenata ili teksta (word procesora) u
kojem se dalje može obrađivati.
Prikazan je povijesni razvoj OCR tehnologije te stavljen naglasak na
prve komercijalne primjene.
Također je dan uvid na trenutno stanje OCR tehnologije s nekim
najnovijim postignućima, poglavito Intelligent Character Recognition
tehnologije.
OCR software postupak prepoznavanja radi na 3 glavna načina:
prepoznavanje uzoraka (Pattern Matching), prepoznavanje posebnosti
(Feature Extraction) i provjera pravopisa (Spell Checking).

Sadržaj
1. UVOD.............................................................................................................3
2. POVIJEST.......................................................................................................4
2.1. Prvi komercijalni sustavi............................................................................5
2.2. OCR-A, OCR-B..........................................................................................6
3. TRENUTNO STANJE OCR TEHNOLOGIJE..............................................................7
3.1. Intelligent Character Recognition (ICR)........................................................8
4. OCR U DRUGIM NAMJENAMA.............................................................................9
4.1. Music OCR...............................................................................................9
4.2. Magnetic Ink Character Recognition (MICR)................................................14
4.3. Bar Code Reader.....................................................................................16
4.4. Optical Mark Reader................................................................................17
5. OCR SOFTWARE............................................................................................18
6. NAČIN RADA.................................................................................................22
6.1. Prepoznavanje uzoraka (Pattern Matching).................................................22
6.2. Prepoznavanje posebnosti (Feature Extraction)...........................................22
6.3. Provjera pravopisa (Spelling Check)..........................................................23
6.4. Posebni simboli.......................................................................................23
6.5. Funkcionalni prikaz..................................................................................24
7. ZAKLJUČAK...................................................................................................30
8. Literatura.....................................................................................................31

Ovaj seminarski rad je izrađen u okviru predmeta „Podatkovni višemedijski prijenos i računalne
mreže“ na Zavodu za elektroničke sustave i obradbu informacija, Fakulteta elektrotehnike i
računarstva, Sveučilišta u Zagrebu.

Sadržaj ovog rada može se slobodno koristiti, umnožavati i distribuirati djelomično ili u cijelosti,
uz uvjet da je uvijek naveden izvor dokumenta i autor, te da se time ne ostvaruje materijalna
korist, a rezultirajuće djelo daje na korištenje pod istim ili sličnim ovakvim uvjetima.

2
Optical Character Recognition

1. Uvod

Optičko prepoznavanje teksta (eng. OCR = Optical Character


Recognition), je postupak mehaničkog ili elektroničkog prebacivanja
rukom pisanog, strojno ispisanog ili tiskanog teksta koristeći skener u
oblik koji računalo prepoznaje i može ga mijenjati.
OCR spada pod grupu istraživanja kao što je prepoznavanje
uzoraka, umjetna inteligencija i strojni vid. Iako se OCR još uvijek razvija i
pronalaze se novi smjerovi fokus se usmjerio na primjenu dokazanih
tehnika. Optičko prepoznavanje znakova (koje koristi optičke metode
poput ogledala i leća) i digitalno prepoznavanje znakova (koje koristi
skenere i računalne algoritme) su u početku smatrani različitim poljima
istraživanja. Zbog činjenice da je jako malo aplikacija koje su koristile
istinske optičke tehnike preživjelo, termin OCR danas obuhvaća i tehnike
digitalnog obrade slika.
Rane sustave je bilo potrebno naučiti (dati im poznati primjerak
svakog od znakova) kako čitati pojedini font. Trenutno su dostupni
"inteligentni" sustavi sa velikim stupnjem točnosti za veliku većinu
fontova. Neki sustavi su sposobni reproducirati i aproksimirati format
ulaznog skeniranog dokumenta koji se može sastojati od slika, stupaca i
drugih netekstualnih dijelova. [2]

3
Optical Character Recognition

2. Povijest

1929. Gustav Tauschek je patentirao OCR u Njemačkoj, a nakon


njega je to isto napravio Handel u SAD-u 1933. 1935. Tauscheku je
odobren patent za njegovu metodu i u SAD-u.

Tauschekov uređaj je bio mehanički stroj koji je koristio predloške.


Fotodetektor je bio postavljen tako da kad su predložak i znak koji se
trebalo prepoznati bili u točno određenom položaju te ih svjetlost
obasjavala ništa svijetla ne bi dolazilo do fotodetektora.

1950. Frank Rowlett, koji je dešifrirao japanski PURPLE diplomatski


kod, je zamolio kripto analitičara Davida H. Sheparda (člana Armed Forces
Security Agency, SAD) da u suradnji s dr. Louis Tordella da svoje
prijedloge za automatiziranu obradu podataka. To je uključivalo i problem
pretvorbe isprintanih poruka u strojni jezik za računalnu obradu. Shepard
je zaključio da mora biti moguće napraviti takav stroj i uz pomoć prijatelja
Harveya Cooka tijekom večeri i vikenda na svom tavanu napravio
“Gismo”. To su objavile novine Washington Daily News 27. 4. 1951. i New
York Times 26. 12. 1953. nakon što im je odobren patent U.S. Patent
Number 2,663,758.
Shepard tada osniva Intelligent Machines Research Corporation
(IMR) kompaniju, koja je zaslužna za razvoj prvih nekoliko komercijalnih
OCR sustava općenito u svijetu.
Iako su i Gismo i prvi IMR sustavi koristili analizu slike, za razliku od
uspoređivanja znakova, te su tolerirali varijaciju fontova, Gismo je bio
ograničen na usko vertikalno prepoznavanje, dok su kasniji komercijalni
modeli IMR skenera analizirali znakove bilo gdje u skeniranom polju što je
zapravo nužnost za stvarne dokumente.

4
Optical Character Recognition

2.1. Prvi komercijalni sustavi


Prvi komercijalni sustav je instaliran u Readers Digest 1955. Isti taj
sustav je kasnije doniran Smithsonianu gdje je postavljen kao izložak.
Drugi sustav su prodali Standard Oil Company iz Kalifornije koji se koristio
za čitanje oznaka na kreditnim karticama. Velik broj sustava je naknadno
prodan drugim naftnim kompanijama. Neki od ostalih korisnika IMR
sustava kasnih 1950. su i Ohio Bell Telephone Company, Zrakoplovstvo
SAD-a te IBM.

Tokom 1965. Readers Digest i RCA su zajednički proizveli OCR čitač


dokumenata koji je čitao serijske brojeve reklamnih kupona. Font koji se
koristio na tim dokumentima je bio OCR-A font i printao ga je RCA Drum
printer. Čitač je bio izravno spojen na RCA 301 računalo. Specijalizirani
čitač dokumenata je zatim postavljen na TWA gdje je obrađivao
zrakoplovne karte. Oba ova čitača su mogla obraditi i provjeriti 1500
dokumenata u minuti. U slučaju da neki nisu mogli obraditi, te su izbacili
iz daljnje obrade. Ovaj tip čitača je dalje nastavio prodavati RCA u
namjeni čitanja raznih računa

Od 1965. poštanska služba SAD-a koristi OCR uređaje temeljene na


tehnologiji izumitelja Jacoba Rabinowa za sortiranje pošte. U Europi prvi
OCR sustav je koristila Britanska pošta (British General Post Office, GPO),
a 1965. se u istoj zemlji počeo koristiti i u bankovnom sustavu. OCR
sustavi korišteni u pošti čitaju ime i adresu i zatim isprintaju određeni
barkod ovisan o poštanskom kodu na kuvertu. Zatim se samo pisma
sortiraju prema tom barkodu koji kako bi se izbjegle pogreške se ispisuje
tintom koja je vidljiva pod ultraljubičastom svjetlošću.

1974. Ray Kurzweil osniva kompaniju Kurzweil Computer Products,


Inc. i vodi razvoj prvog omni-font OCR sustava, tj. računalnog programa
sposobnog prepoznati tekst isprintan u bilo kojem normalnom fontu.
Namijenio je ovaj uređaj slijepima koji bi im omogućio čitanje dokumenata
pomoću računala. Ovo je zahtijevalo izum još dvije tehnologije CCD
skenera i text-to-speech (tekst-govor) sintetizatora. 13. 1. 1976. je
predstavljen gotov proizvod koji je u potpunosti funkcionirao kako je i
zamišljen.

5
Optical Character Recognition

1978. Kurzweil Computer Products su počeli sa prodajom


komercijalne verzije OCR računalnog programa. LexisNexis je bio jedan od
prvih kupaca koji je tu tehnologiju koristio za prijenos svojih pravnih i
ostalih dokumenata u online bazu podataka. Dvije godine kasnije Kurzweil
prodaje svoju kompaniju Xerox-u koji je izrazio interes za daljnji razvoj
ove tehnologije te je tako Kurzweil Computer Products postao podružnica
Xerox-a pod novim imenom Scansoft (danas Nuance).

2.2. OCR-A, OCR-B


U početcima računalnog OCR-a razvila se potreba za fontom koji će
moći prepoznati tada spora računala, ali koji će biti čitljiv i ljudima. Kao
rezultat tog kompromisa se pojavio OCR-A font koji se sastojao od
jednostavnih, debelih poteza koji su tvorili prepoznatljive znakove.
1968. American Type Founders proizvodi OCR-A, jedan od prvih
oblika znakova prilagođen za optičko prepoznavanje koji je zadovoljavao
kriterije ureda za standarde SAD-a (eng. U.S. Bureau of Standards).
Dizajn je tako jednostavan da ga je računalo moglo vrlo lako pročitati, tj.
prepoznati, ali je nešto nezgodniji za čitanje ljudima. OCR-B je europski
pandan tom fontu. Napravio ga je Adrian Frutiger iste godine. OCR-B font
je lakši ljudima za čitanje od OCR-A fonta.[14] [15]
Postoje besplatne[12], ali i komercijalne[13] inačice ovih fontova koje
prodaju različite kompanije. Iako je OCR tehnologija napredovala toliko da
više nema potrebe za ovim specijaliziranim fontovima oni i dalje ostaju u
upotrebi.

Slika 1 - Izgled OCR-A i OCR-B fontova.

6
Optical Character Recognition

3. Trenutno stanje OCR tehnologije

Točno prepoznavanje isprintane latinice se smatra uglavnom


riješenim problemom. Tipičan postotak točnosti prepoznavanja
prekoračuje 99% iako za određene aplikacije koje zahtijevaju još veću
točnost je potrebna ljudska intervencija i pregled grešaka. Ostala
područja, poput prepoznavanja rukopisa, kurziva i načina pisanja različitog
od latinice (posebno onih sa vrlo velikim brojem znakova) su i dalje
predmet aktivnog istraživanja.

Točnost ili preciznost može biti mjerena na nekoliko načina o kojima


jako ovisi krajnji rezultat i postotak točnosti. Npr., bez korištenja rječnika
za ispravljanje pogrešaka pri čitanju 1% pogreška (99% točnost) se moze
pretvoriti u 5% pogrešku (95% točnost). OCR se ponekad krivo
poistovjećuje sa on-line character recognition. OCR je tip off-line
prepoznavanja znakova, gdje sustav prepoznaje fiksne i statičke oblike
znakova, dok on-line prepoznavanje znakova prepoznaje dinamičke
pokrete tokom pisanja rukom. On-line prepoznavanje znakova se ponekad
naziva i dinamičko prepoznavanje znakova (dynamic character
recognition), prepoznavanje znakova u realnom vremenu (real-time
character recognition) i inteligentno prepoznavanje znakova (Intelligent
Character Recognition, ICR).

Slika 2 - Umjetnička vizualizacija OCR softwarea.

7
Optical Character Recognition

3.1. Intelligent Character Recognition (ICR)


On-line sustavi za prepoznavanje rukom ispisanog teksta u realnom
vremenu (DCR, ICR) su sve češći komercijalni proizvodi posljednjih
godina. Primjeri takvih proizvoda su uređaji poput digitalnih osobnih
asistenata koji koriste Palm OS. Apple Newton je bio pionir ovakvih
uređaja. Algoritmi koji se koriste u ovakvim uređajima iskorištavaju
činjenicu da su poredak, brzina i smjer pojedinih linija i segmenata
poznati. Također korisnika se može naučiti da koristi samo određene
oblike slova. Ove metode se ne mogu koristiti u software-u koji skenira
papirnate dokumente tako da je točno prepoznavanje rukom pisanih
dokumenata još uvijek otvoreni problem. Točnost je između 80% i 90%
za uredne, čisto rukom ispisane znakove, ali takva točnost svejedno znači
desetke grešaka po stranici što je veliko ograničenje za ovu tehnologiju i
ograničava njenu primjenu.

Prepoznavanje kurziva je aktivno područje istraživanja s postotkom


točnosti prepoznavanje još manjom od onog prepoznavanja rukom
pisanog teksta. Viši postotak točnosti prepoznavanja kurziva vjerojatno
neće biti moguć bez kontekstualnih ili gramatičkih informacija. Na primjer,
prepoznavanje cijele riječi iz rječnika je lakše nego obraditi individualne
znakove iz teksta. Poznavanje gramatike jezika u kojem je pisan tekst koji
se skenira također može pomoći pri određivanju je li riječ u pitanju
imenica ili glagol što omogućava veću točnost. Oblici individualnih znakova
kurziva ne sadržavaju dovoljno informacija da bi se točno (više od 98%)
prepoznao cijeli rukom pisani tekst u kurzivu.

Potrebno je shvatiti da je OCR osnovna tehnologija koja se koristi u


naprednim aplikacijama za skeniranje. Dakle, pojedino napredno
tehnološko rješenje može biti temeljeno na osnovnoj OCR tehnologiji. No,
zbog svojih posebnosti ga je moguće patentirati i time onemogućiti
neovlašteno kopiranje.

Za kompleksnije probleme pri prepoznavanju koriste se inteligentni


sustavi za prepoznavanje znakova poput neuronskih mreža.

8
Optical Character Recognition

4. OCR u drugim namjenama

Na MIT-u su se sredinom 1970. radila prva istraživanja


prepoznavanja glazbenih oblika na papiru. Ulagan je trud u uklanjanje
glazbenih linija kako bi ostali samo simboli za prepoznavanje i obradu.
Prvi komercijalni program za skeniranje glazbenih nota, MIDISCAN, je
izdan 1991. Trenutno postoji nekoliko proizvoda tog tipa. [4]

Jedino područje u kojem točnost i brzina računalnog ulaza znakovnih


informacija nadilazi sposobnosti ljudi je u području prepoznavanja
znakova ispisanih magnetskom tintom gdje je jedna pogreška na svakih
20 do 30 tisuća provjera. 1950. Bank of America je bila prva banka koja je
koristila OCR kako bi automatizirala obradu čekova koji su u sebi
sadržavali takav tip znakova.

4.1. Music OCR


Za razliku od prepoznavanja teksta, gdje se riječi obrađuju jedna za
drugom, glazbene oznake je potrebno obrađivati paralelno, zbog
prisutnosti višestrukih glasova i drugih glazbenih oznaka. Ovdje bitnu
ulogu igra razmak između nota, oznake za tempo i dinamiku te glazbene
oznake.

Suvremeni glazbeni OCR softwareski paketi imaju preciznost koja


prelazi 99% u slučaju čistog skena i ako su korištene standardne notacije.
Pošto glazbene notacije koriste točke za staccato oznake ili da bi se
produljilo trajanje note, artifakti kod skeniranja mogu dovesti do problema
pri prepoznavanju.

PhotoScore Ultimate 5 je prvi programski paket koji je u mogućnosti


prepoznavati rukom pisane note i druge glazbene oznake korištenjem 2
različita enginea za prepoznavanje. Oni koreliraju vlastite rezultate i tako
postižu značajno poboljšanje preciznosti.

9
Optical Character Recognition

Popis Optical Music Recognition Software-a[3]:

Ime Licenca Operacijski Komentari


sustavi
Musitek SmartScore Pro Komercijalna Windows, Mac OS X Evolucija MIDISCAN
399$ / 299$ (akademska programa.
licenca)
PhotoScore Ultimate 5 Komercijalna Windows, Mac OS X Lagan za korištenje, sa
249$ jeftinom inačicom za
nezahtjevne.
Vivaldi Scan Komercijalna Windows, Mac OS Lagan za korištenje, brz,
152$ 99% preciznost. Dolazi s
alatom za provjeru ritma.
Audiveris GNU Windows, Mac OS, Linux, Besplatan program pisan
besplatan[5] Solaris u JAVA-i. Potpuno
funkcionalan, ali
ograničen na
prepoznavanje tiskanih
notnih zapisa.
Capella-Scan Komercijalna Windows Vrlo brz program.
199.95$

Lista Music OCR software-a.

OMR se može ugrubo prikazati u tri koraka. Npr. koristeći Vivaldi


Scan[6] program:

Slika 3 - 1. korak skeniranje tiskanog notnog zapisa.

10
Optical Character Recognition

Slika 4 - 2. korak otvoriti snimljenu sliku u Vivaldi Scan programu koji će zatim
prepoznati notne zapise.

Slika 5 - 3. korak exportanje prepoznatog zapisa u neki od formata koji se mogu


reproducirati ili obrađivati.

11
Optical Character Recognition

Sam algoritam se sastoji od sljedećih koraka[7]:

Slika 6 - Skeniranje tiskanog notnog zapisa.

Slika 7 - Prepoznavanje i uklanjanje notnih linija.

Slika 8 - Prepoznavanje i uklanjanje teksta.

12
Optical Character Recognition

Slika 9 - Identifikacija uobičajenih simbola korištenjem heuristike.

Slika 10 - Kompletno prepoznavanje simbola koristeći bazu otprije poznatih


znakova.

Slika 11 - Semantičko prepoznavanje odnosa među simbolima i ispravljanje


metrike.

13
Optical Character Recognition

4.2. Magnetic Ink Character Recognition (MICR)


Prepoznavanje znakova pisanih magnetskom tintom (eng.
MICR=Magnetic Ink Character Recognition) je tehnologija prepoznavanja
znakova koju uglavnom koristi bankovna industrija pri obradi čekova.
Proces je prvi put 1956. prikazan organizaciji American Bankers
Association, a već je 1963. u SAD-u bio u masovnoj upotrebi. MICR je
standardiziran kao ISO 1004.

Glavni MICR fontovi korišteni širom svijeta su E-13B i CMC-7.


Gotovo svi čekovi koji se koriste u Indiji, SAD-u, Kanadi i Velikoj Britaniji
na sebi sadrže MICR znakove pisane E-13B fontom. CMC-7 MICR font se
uglavnom koristi u Europi, poglavito Francuskoj. [9]

Slika 12 - Primjer u MICR E13 fontu. Specijalni znakovi su redom: dash, transit,
amount, on-us.

Slika 13 - CMC-7 font. U donjem redu se nalazi otisak. Specijalni znakovi su


redom: internal, terminator, amount, routing i neiskorišteni znak. [8]

14
Optical Character Recognition

MICR fontovi su jedinstvenog izgleda i printaju se magnetskom


tintom ili tonerom koji obično sadržava željezni oksid. Pošto tinta kojom
su znakovi isprintani u sebi sadrži čestice željeza ona se može
magnetizirati te odatle naziv magnetska tinta. Znakovi su najprije
magnetizirani u ravnini s papirom, a sjevernim magnetski pol se nalazi s
desne strane svakog MICR znaka. Obično se čitaju pomoću MICR glave za
čitanje koja je po svojoj prirodi vrlo slična glavi za čitanje klasičnih audio
kazeta. Specifični oblik znakova osigurava da će svaki znak proizvesti
jedinstveni zvučni oblik čime sustav za prepoznavanje znakova ima
pouzdan rezultat pri prepoznavanju znakova.
Magnetsko printanje se koristi kako bi se znakovi mogli pouzdano
iščitati čak ako se preko njih nešto ispiše.

Pogreške kod magnetskog skeniranja brojeva na dnu tipičnog čeka


su manje nego kod sustava za optičko prepoznavanje.
Za dobro isprintane MICR znakove pogreške zbog neiščitavanja su
manje od 1%, a pogreška zbog krivo iščitanog znaka je 1 za svakih 100
000 znakova.

1991. Advantage Laser Products su postali prva kompanija tonera


koja je počela nuditi MICR toner za desktop laserske printere. Ovo je
donijelo svojevrsnu revoluciju jer su se čekovi mogli printati na gotovo
svakom laserskom printeru. [9]

Slika 14 - Primjer čeka sa vidljivim MICR znakovima na dnu. [10]

15
Optical Character Recognition

4.3. Bar Code Reader


Barkod (eng. Bar Code) je sačinjen od vertikalnih linija i razmaka
između njih. Niz linija i razmaka različitih širina predstavlja niz brojeva.
Barkodovi se obično nalaze na pakiranjima. Barkod daje informacije o
zemlji proizvodnje, imenu proizvođača i samom proizvodu.

Čitač barkoda koristi lasersku zraku da bi pročitao kod.


Laserska zraka se pomiče preko barkoda gdje ju svijetlije
linije reflektiraju, a tamnije upijaju. Čitač zatim pretvara
uzorak odbijenog i upijenog laserskog svijetla u digitalni kod
koji je jedinstven za taj proizvod.

Slika 15 - Prikaz barkoda i načina rada čitača barkoda.

Barkodovi su brza i pouzdana metoda unošenja podataka. Mogu se


čitati čak i sa oblih površina ili ako su naopako. Sadrže i nadzor pogrešaka
u obliku kontrolnog znaka. [11]

16
Optical Character Recognition

Slika 16 - Pisma na kuverti također imaju barkod radi lakše obrade.

4.4. Optical Mark Reader


Čitač optičkih oznaka je sličan čitaču barkoda, ali
koristi infracrveno svjetlo da bi skenirao oznake na otprije
pripremljenim formularima kao što su testovi sa
višestrukim izborom ili listićima lutrije.

Infracrveno svjetlo se ne odbija kad pređe preko oznake čija se


pozicija zatim daje računalu. Software zatim povezuje položaj oznake sa
pripadajućim informacijama ili podatcima na formularu

Ovo je vrlo brza i precizna metoda za unos velikih količina podataka


uz pretpostavku da su oznake točno i čisto označene. [11]

17
Optical Character Recognition

Slika 17 - Jedna od namjena Optical Mark Recognitiona je prepoznavanje


označenih brojeva na listićima lutrije.

5. OCR Software

18
Optical Character Recognition

Ime Licenca Operacijski Komentari


sustavi
ExperVision TypeReader Komercijalna Windows,Mac OS Prema nekim testovima
395$ X,Unix,Linux,OS/2 najbrži OCR software.
ABBYY FineReader OCR Komercijalna Windows Za rad sa lokaliziranim
400$ verzijama potreban je
addon s pripadajućim
jezikom.
OmniPage Komercijalna Windows, Mac OS Proizvod Nuance
500$ Communications.
Readiris Komercijalna Windows, Mac OS Postoje edicije za Aziju i
520$ Srednji Istok.
Cvision Technologies PDF Komercijalna Windows Brz, precizan, velikih
compressor and Maestro 500$ kapaciteta.
Recognition Server
Top Image Systems Komercijalna Windows Specijaliziraju za pravne
(N/A) dokumente.
CompuThink ViewWise Komercijalna Windows Sustav za upravljanje
8000$ dokumentima.
CuneiForm Pro BSD Windows Profesionalni sustav za
129$ tvrtke, podržava više
jezika, može prepoznati
složene tekstualne i
oblike tablica.
GOCR GPL Mnogi (OpenSource) U ranoj fazi razvoja.
Microsoft Office Komercijalna Windows, Mac OC
Document Imaging (N/A)
Microsoft Office One Note Komercijalna Windows
2007 (N/A)
Ocrad GPL Unix, OS/2
Brainware Komercijalna Windows Obrada poslovnih i
(N/A) profesionalnih
dokumenata
HOCR GPL Linux Hebrejski OCR
InstantOCR FreeWare Online Višejezični online sustav
za prepoznavanje.
OCRopus Apache Linux
ReadSoft Komercijalni Windows Specijaliziran za poslovne
(N/A) dokumente.
Scantron Cognition Pro Komercijalni Windows Za rad s lokaliziranim
8550$ sučeljima potreban je
odgovarajući addon.
SimpleOCR FreeWare/Komercijalna Windows Nudi besplatan program,
300$-2500$ ali naplaćuje source code.
OCR Terminal FreeWare Windows, Mac OS, Linux Web OCR usluga.

Tesseract Apache Windows, Mac OS, Linux, Projekt koji razvija


OS/2 Google.
MoreData FreeWare Windows Mogućnost skeniranja
jedne ili više slika te
pretrage za riječima.
NewSoft Presto! OCR Komercijalna Windows Provjera pravopisa,
100$ podrška za 52 jezika,
jednostavnost.
FreeOCR FreeWare Windows Besplatan i jednostavan.

Popis OCR software-a.

ABBYY FineReader 9 Professional - FineReader Professional je


vrlo precizan i lagan za korištenje OCR program koji u sebi sadržava
dodatne mogućnosti poput OCR-a za digitalne kamere, inteligentno

19
Optical Character Recognition

prepoznavanje izgleda dokumenata, poboljšavanje kvalitete slike,


prepoznavanje barkoda i naredbeno linijsku integraciju. Njegova glavna
značajka je očuvanje izgleda izvornog dokumenta što značajno ubrzava
pretvorbu i oblikovanje.

IRIS ReadIRIS Pro 11 – Pristupačno rješenje za poslovne ali i


kućne korisnike. ReadIRIS Pro nudi vrlo precizno OCR prepoznavanje za
nisku cijenu. No bez obzira na nisku cijenu, svejedno nudi pregršt
naprednih mogućnosti inače rezerviranih za mnogo skuplja profesionalna
rješenja.

Nuance OmniPage Pro 16 - OmniPage je prema mnogima


najbrža, najpreciznija i najsadržajnija OCR aplikacija. OmniPage 16
Professional sadrži jedinstvenu mogućnosti pretvaranja bilo kojeg tipa
dokumenta u pretraživi PDF ili Word Doc format.No, OmniPage nema
dostupnu demo verziju svoje aplikacije za download. Također ne pruža
besplatnu tehničku podršku nakon prvog poziva. Sve ovo ipak nude
konkurentska rješenja kompanija ABBYY i IRIS.

Presto! OCR Pro 4.0 - Presto! OCR ne samo da precizno


prepoznaje dokumente on i očuva njihov izgled i izvorni oblik. Dakle
sačuva izgled i pozicije kolumni, tablica i slika.
Moćna, ali iznenađujuće cjenovno pristupačna alternativa nekim
poznatijim i skupljim OCR rješenjima. Čita i prepoznaje 52 jezika, oblikuje
novi dokument prema izgledu starog, može skenirati i iz obojanih i tamnih
podloga, podržava višestruku obradu dokumenata te profesionalne alate
za analizu složenih izgleda dokumenata.

ExperVision TypeReader – Ovaj ExperVisionov software postoji u


raznim inačicama predviđenim za osnovnu i profesionalnu upotrebu.
Podržava skeniranje crno-bijelih i slika u boji, sadrži podršku za više jezika
te podršku za PDF.

Osim ovih aplikacija postoje još neke poput Top Image Systems,
CompuThink ViewWise, Brainware, ReadSoft i drugih koji su
specijalizirani za brzu obradu poslovnih dokumenata u vrlo velikim
količinama te svoju namjenu i nalazt u profesionalnim okruženjima poput
banaka ili srednjih i velikih tvrtki. Kao takve ove aplikacije nisu zanimljive
uobičajenom korisniku.

20
Optical Character Recognition

SimpleOCR – SimpleOCR je besplatna OCR aplikacija koja nudi


prihvatljivu preciznost za one koji žele pretvoriti samo par stranica i ne
mogu si priuštiti neki od komercijalnih softwarea.
Omogućava pretvorbu skeniranih slika u tekstualne datoteke ili
Word dokumente. SimpleOCR nudi mogućnosti TWAIN skeniranja, ručnog
određivanja zona sa slikama ili tekstom, nekoliko rječnika, interaktivno
ispravljanje pogrešaka sa prijedlozima iz rječnika, izlazne datoteke u
obliku običnog teksta ili RTF (MS Word) formatu.

Slika 18 - Izgled sučelja i prikaz rada SimpleOCR programa.

SimpleOCR nudi sve obično korištene OCR mogućnosti i usporedivu


sposobnost prepoznavanja s komercijalnim alatima. SimpleOCR može biti
jednako dobar kao i OmniPage Professional 16 ako si student ili netko
kome jako rijetko zatreba pretvoriti tiskani dokument u digitalni oblik.

21
Optical Character Recognition

Softi FreeOCR – FreeOCR je besplatni OCR program za Windows


platformu. Ovo je vrlo jednostavan i lak za korištenje program s
jednostavnom instalacijskom procedurom. Ima podršku za višestrane tiff
slike, fax dokumente i razne druge oblike kompresiranih slika. Jedini
nedostatak ovog programa je njegova nemogućnost čitanja PDF
dokumenata. Pošto neki PDF dokumenti imaju zaključanu mogućnost
copy-paste teksta tada je od koristi OCR program.

Slika 19 - Izgled sučelja i prikaz rada FreeOCR programa.

Free OCR je software otvorenog koda (eng. open source) te time


freeware, odnosno besplatna aplikacija. Za razliku od nekih OCR aplikacija
koje su besplatne samo za privatnu upotrebu, FreeOCR se može slobodno
koristiti i u komercijalne svrhe. Besplatni OCR engine je distribuiran pod
Apache v2.0 licencom što znači da će stalno imati potporu open source
razvojne zajednice. [16]

22
Optical Character Recognition

6. Način rada

Software za optičko prepoznavanje znakova (Optical Character


Recognition, OCR) skenira i prepoznaje tekst te ga zatim pretvara u
datoteku word procesora za daljnju obradu.
OCR software taj postupak čini na 3 glavna načina: prepoznavanje
uzoraka (Pattern Matching), prepoznavanje posebnosti (Feature
Extraction) i provjera pravopisa (Spell Checking). [1]
Najbolji programi za optičko prepoznavanje znakova koriste više od
jedne ovdje navedenih metoda kako bi odredili o kojem se skeniranom
znaku radi. Kombinirajući različite metode točnosti i preciznost drastično
poraste.

6.1. Prepoznavanje uzoraka (Pattern Matching)


Većina tekstova je u Times, Courier ili Helvetica tipu fonta, veličine
između 10 i 14 točaka. OCR programi koji koriste prepoznavanje uzoraka
(Pattern Matching) imaju slike za svaki znak u svakom fontu i veličini.
Uspoređujući snimljene slike koje dolaze sa OCR programom s onima
skeniranih znakova program pokušava prepoznati slova. Očiti nedostatak
ove metode je što je korisna samo za otprije poznate tipove i veličine
fontova.

6.2. Prepoznavanje posebnosti (Feature Extraction)


Umjesto da uspoređuje otprije snimljene slike znakova s onima
skeniranima ova metoda pokušava prepoznati slova tako što ih pokušava
rastaviti na osnovne posebnosti ili sastavne dijelove koji se zatim
uspoređuju s listom posebnosti ili sastavnih dijelova koji se nalaze u
programskom kodu.

Na primjer slovo "a" je sačinjeno od kruga, linije na


desnoj strani i luka na sredini. Taj luk nije obavezan sastavni
dio slova. Dakle, ako skenirano slovo ima te "posebnosti"
OCR program bi ga točno prepoznao kao slovo "a".

23
Optical Character Recognition

6.3. Provjera pravopisa (Spelling Check)


Ni jedan OCR software ne može prepoznati 100% skeniranih
znakova. Neki OCR programi koriste usporedbu uzoraka (Pattern
Matching) i/ili prepoznavanje posebnosti (Feature Extraction) kako bi
prepoznali što je više moguće znakova. Nakon što je obavljeno početno
prepoznavanje, neprepoznati znakovi često mogu biti određeni gledajući
susjedne znakove. Na primjer, ako OCR program nije mogao prepoznati
slovo “i” u riječi “nj~hovo” provjerom pravopisa program može utvrditi da
je slovo koje nedostaje slovo “i”.

6.4. Posebni simboli


U upotrebi uglavnom u bankarstvu, svaki od sljedećih simbola nakon
prepoznavanja nosi točno određeno značenje važno za posebne primjene.
Za prepoznavanje ovakvih znakova je potrebno koristiti neke od
navedenih profesionalnih ili specijaliziranih programa za poslovne
dokumente.

Ime Slika
OCR Hook
OCR Chair
OCR Fork
OCR Inverted Fork
OCR Belt Buckle
OCR Bow Tie
OCR Branch Bank
Identification
OCR Amount of Check
OCR Customer Account
Number
OCR Dash
OCR Double Backslash

Tablica sa posebnim OCR simbolima.

24
Optical Character Recognition

6.5. Funkcionalni prikaz

Slika 20 - Procedura kod skeniranja dokumenta.

1. Aplikacija za obradu dokumenata (poput Microsoft Word-a)


pozove TWAIN kompatibilnu aplikaciju kao što je npr. TextBridge. TWAIN
je standardni softwareski protokol i sučelje za programiranje aplikacija
(eng. Applications Programming Interface=API) koje nadzire komunikaciju
između aplikacija i grafičkih uređaja poput skenera i digitalnih kamera.
Prihvaćena je definicija akronima TWAIN kao "Technology Without An
Interesting Name.", tj. tehnologija bez zanimljivog imena. [17]
2. Po potrebi se namještaju razne mogućnosti i postavke u OCR
aplikaciji te se zatim poziva TWAIN modul.
3. TWAIN modul preuzima nadzor nad skenerom i omogučava
korisniku odabir kvalitete i raznih načina skeniranja.
4. Nakon što je pokrenuto skeniranje, skener počme slati sliku
TWAIN modulu.
5. TWAIN modul zatim šalje sliku OCR programu koji ga je u
početku i pozvao. OCR program zatim koristi jednu ili više gore opisanih
metoda kako bi pretvorio snimljenu sliku u znakove.
6. OCR program šalje prepoznate znakove programu za obradu
dokumenta. Ako OCR program nije mogao prepoznati neki znak, on
postavlja simbol ~ na mjesto neprepoznatog znaka. Ponekad OCR
programi krivo prepoznaju znakove. Tome je gotovo uvijek uzrok loša
kvaliteta izvornih dokumenata.

25
Optical Character Recognition

Slika 21 - Loše postavljen dokument (lijevo) i ispravljeni (desno).

Ovdje je primjer loše postavljenog izvornog dokumenta za


skeniranje. Samim time bi se dobila i loša kvaliteta OCR rezultata. Većina
navedenih programa ima razne filtre i mogućnosti za ispravljanje ukoso
postavljenog dokumenta te time popravlja rezultate i kvalitetu OCR
rezultata. U ovom slučaju bi se koristio deskew filtar koji bi zarotirao loše
postavljen dokument u dobru poziciju.

Slika 22 - Previše zatamnjen dokument (lijevo) i posvjetljen (desno).

Jedan od čestih problema je previše zatamnjena podloga dokumenta


zbog čega dolazi do loših rezultata prepoznavanja. Za ispravljanje ovog
problema također postoji prikladan filtar koji osvjetljuje pozadinu i tako
poboljšava rezultate.

26
Optical Character Recognition

Slika 23 - Problem sjene na rubovima skeniranog dokumenta.

Još jedan od tipičnih problema do kojeg dolazi kod nekih skeniranih


dokumenata je pojava sjene na rubovima dokumenata. Relativno lako se
rješavaja primjenom prikladnog filtra (Edge Shadow Removal Filter) koji
pronalazi zatamnjena mjesta i posvjetljuje ih.

Slika 24 - Ispravljanje artefakata i problemi koji se mogu pojaviti.

Despeckle filtar uklanja tamne točkice i ostale nasumične artefakte


sa pozadine koji se mogu pojaviti tokom skeniranja ako je dokument loše
osvijetljen ili staklo skenera prljavo. Treba biti oprezan sa postavljanjem
postavki ovog filtra jer prejako postavljen filtar može izbrisati, zamutiti i
učiniti neprepoznatljivim dijelove slova jer ih ne može kvalitetno
razlikovati od crnih točkica.

27
Optical Character Recognition

Slika 25 - Originalna stranica iz rječnika koju će se skenirati.

Slika 26 - Nakon skeniranja su vidljive tipične pogreške. Krivo prepoznavanje


točke i zareza, super i subscripta, rimskih brojeva, jedinica i malih slova l itd.

28
Optical Character Recognition

Većina ovih problema se može ispraviti ili smanjiti ako se pobrine da


je kvaliteta izvornog dokumenta dobra. Treba provjeriti je li papir zgužvan
ili na neki drugi način oštećen. Ako je zgužvan, može pomoći ako ga se
ispegla ili pritisne teškim predmetima. Bitno je i izbrisati, odnosno ukloniti
mrlje s dokumenta.
Treba učiniti sken dokumenta najboljim što je to moguće. Ovdje je
od ključne važnosti provjeriti je li staklo skenera i ostali dijelovi čisti i bez
mrlja. Dokument treba biti ravno i precizno postavljen kako ne bi došlo do
zakrivljene slike. Prilagodbom postavki za boje, kontrast i svjetlinu se
može postići svijetla, odnosno bijela pozadina čime se rješava problem
artefakata, odnosno crnih točkica na dokumentu. Bitno je da je tekst što
tamniji i uočljiviji. Kvaliteta skena ovisi i o rezoluciji pri kojoj se skenira.

Slika 27 - Primjer Helvetica fonta koji OCR sustav lako prepoznaje.

Slika 28 - Primjer Times New Roman fonta koji OCR sustav lako prepoznaje.

Slika 29 - Primjer Courier fonta koji OCR sustav lako prepoznaje.

Preporuča se skeniranje rezolucijom od najmanje 300dpi, odnosno


300 točaka po inču.

29
Optical Character Recognition

Nekada je od pomoći podijeliti veliki dokument u više manjih


dijelova te tako skenirati. Nekim starijim OCR programima slike, razne
linije, kolumne teksta i ostalo formatiranje može predstavljati problem.
Tada može pomoći podjela dokumenta na manje dijelove gdje se
problematični dijelovi odvojeno skeniraju i prepoznaju. Ponekad je korisno
problematične dijelove snimiti kao odvojenu sliku za daljnju obradu. Time
se gubi toćan oblik dokumenta, ali se dobiju precizniji rezultati. Noviji OCR
programi sve bolje prepoznaju ovakve problematične dijelove poput
tablica ili kolumni teksta te sve bolje očuvaju izgled dokumenta.
No bez obzira na sve značajniji napredak, i dalje postoje fontovi i
sustavi posebno prilagođeni da ih OCR sustav ne može prepoznati koji
služe za razlikovanje automatiziranog unosa od onog čovjeka. Taj sustav
se naziva CAPTCHA (eng. Completely Automated Public Turing test to tell
Computers and Humans Apart), odnosno potpuno automatizirani test za
razlikovanje računala i ljudi.[19]

Slika 30 - Pristup koji koristi grupiranje slova kako ih računalo ne bi moglo


razlikovati.

Slika 31 - Umjesto da slova grupira ovaj sustav ih namjerno "oštećuje" linijom


preko slova. Računalu je ovako oštećena slova vrlo teško prepoznati.

Slika 32 - Primjer distorzije slova i pozadine što onemogućuje automatsko


prepoznavanje slova.

Ponekad je teško točno odrediti koje su postavke najbolje za neki


problem te je tada najbolje eksperimentirati sa raznim mogućnostima dok
se ne dobije najbolji rezultat.

Vrlo je bitno nakon skeniranja i prepoznavanja teksta još pročitati


tekst. Bez obzira na preciznost pojedinog OCR programa svi su oni
podložni pogreškama koje treba ispraviti ručno.

30
Optical Character Recognition

7. Zaključak

Točno prepoznavanje isprintane latinice se smatra uglavnom


riješenim problemom. Tipičan postotak točnosti, tj. preciznosti
prepoznavanja prekoračuje 99%.
Postoje još problemi pri prepoznavanju rukom pisanog teksta u
realnom vremenu te pogotovo onog pisanog kurzivom. S vremenom i
kvalitetnim ulaganjem u razvoj će se vjerojatno i ti problemi savladati.
Već sada OCR tehnologija nalazi svoju krucijalnu primjenu u raznim
velikim korporacijama gdje štedi novac i vrijeme pri obradi velikih količina
specijaliziranih dokumenata, pravnih ili vezanih za bankarske poslove.
Takva rješenja su vrlo skupa i pristupačna samo financijski likvidnim
korporacijama kojima se takav ulog može isplatiti.
Za običnog, kućnog korisnika koji se povremeno koristi OCR
tehnologijom pri sporadičnom skeniranju dokumenata postoje razna
rješenja, od besplatnih pa do onih koji koštaju par stotina dolara.
Ako se potreba za OCR-om ne pokazuje vrlo često ili rijetko nema
potrebe za ulaganjem i plaćanjem relativno skupih rješenja kada tu mogu
dovoljno dobro zadovoljiti ona besplatna poput FreeOCR ili SimpleOCR
programa.
Za male i srednje kompanije koje moraju obrađivati nešto veće
količine dokumenata se preporučaju nešto skuplja, ali i moćnija rješenja
poput ABBYY FineReader ili OmniPage.
Većina ovih komercijalnih rješenja nudi i podršku za prepoznavanje
barkodova ili optičkih oznaka što ih čini sveobuhvatnim programima i
proširuje raspon njihove moguće primjene.
U budućnosti će trend poboljšanja preciznosti, kvalitete, što samih
programa što prepoznavanja, te integracije raznih dodatnih mogućnosti
još više rasti.
Za očekivati je da će se uskoro i pojaviti vrlo kvalitetni sustavi koji
će moći prepoznati rukopis, i kvalitetno automatski rješavati klasične
probleme kod skeniranja i prepoznavanja o kojima je bilo govora.

31
Optical Character Recognition

8. Literatura

[1] Mustek, Inc. Understanding OCR. URL:


http://www2.mustek.com/Class/ocrinfo.html
[2] Wikipedia. URL: http://en.wikipedia.org/wiki/Optical_character_recognition
[3] Music-Notation. URL: http://www.music-notation.info/en/compmus/omr.html
[4] Wikipedia. URL: http://en.wikipedia.org/wiki/Music_OCR
[5] Audiveris. URL: https://audiveris.dev.java.net/
[6] Vivaldi Studio. URL: http://www.vivaldistudio.com/Eng/VivaldiScan.asp
[7] OMR using GAMERA. URL: http://dkc.jhu.edu/gamera/demo/
[8] MICR Encoding Fonts. URL: http://www.micrencodingfonts.com/
[9] Wikipedia. URL: http://en.wikipedia.org/wiki/Magnetic_Ink_Character_Recognition
[10] PAYstation MICR 5000. URL:
http://www.evron.com/Accounting/PayStationMICR5000.asp
[11] Input Devices. URL:
http://www.klbschool.org.uk/ict/gcse/theory/5_3/5_3_1_input.htm
[12] Free OCR-A Font. URL: http://ansuz.sooke.bc.ca/software/ocra.php
[13] Morovia Fontware. URL: http://www.morovia.com/font/ocr.asp
[14] Wikipedia. URL: http://en.wikipedia.org/wiki/OCR-A_font
[15] Typographic Abbreviations. URL:
http://myfonts.wordpress.com/2006/09/18/typographic-abbreviations-series-1-ocr/
[16] GeckoAndFly. URL: http://www.geckoandfly.com/tag/ocr-sdk/
[17] Wikipedia. URL: http://en.wikipedia.org/wiki/TWAIN
[18] OCR Tips for Better Results. URL: http://desktoppub.about.com/cs/ocr/a/ocr.htm
[19] Wikipedia. URL: http://en.wikipedia.org/wiki/CAPTCHA

32

You might also like