Download as pdf or txt
Download as pdf or txt
You are on page 1of 3

Nhn dng k t quang hc (OCR)

Nhn dng k t quang hc


(OCR)
Bi:
L Vn Tm

OCR c hnh thnh t mt lnh vc nghin cu v nhn dng mu, tr tu nhn to


v machine vision. Mc d cng vic nghin cu hc thut vn tip tc, mt phn cng
vic ca OCR chuyn sang ng dng trong thc t vi cc k thut c chng
minh.

Nhn dng k t quang hc (dng cc k thut quang hc chng hn nh gng v ng


knh) v nhn dng k t s (s dng my qut v cc thut ton my tnh) lc u c
xem xt nh hai lnh vc khc nhau. Bi v ch c rt t cc ng dng tn ti vi cc k
thut quang hc thc s, bi vy thut ng Nhn dng k t quang hc c m rng
v bao gm lun ngha nhn dng k t s.

u tin h thng nhn dng yu cu phi c hun luyn vi cc mu ca cc k t


c th. Cc h thng "thng minh" vi chnh xc nhn dng cao i vi hu ht cc
phng ch hin nay tr nn ph bin. Mt s h thng cn c kh nng ti to li cc
nh dng ca ti liu gn ging vi bn gc bao gm: hnh nh, cc ct, bng biu, cc
thnh phn khng phi l vn bn

Hin nay, vi ch Vit, phn mm nhn dng ch Vit in VnDOCR 4.0 c kh nng
nhn dng trc tip cc loi ti liu c qut qua my qut, khng cn lu tr di
dng tp nh trung gian. Cc trang ti liu c th c qut v lu tr di dng tp
tin nhiu trang. Kt qu nhn dng c lu tr sang nh dng ca Microsoft Word,
Excel... phc v rt tt nhu cu s ha d liu.

Ngoi ra, cn c mt d n OCR Ting Vit c tn VietOCR, c pht trin da trn


nn tng m ngun m tesseract-ocr do Google ti tr. VietOCR c kh nng nhn dng
ch Vit rt tt. y l mt chng trnh ngun m Java/.NET, h tr nhn dng cho
cc dng nh PDF, TIFF, JPEG, GIF, PNG, v BMP.

ABBYY - mt hng cng ngh hng u trn th gii v lnh vc Nhn dng k t
quang hc tin hnh nghin cu v trin khai cng ngh nhn dng Ting Vit vo
thng 4 nm 2009. Vi cng ngh ny chnh xc trong vic nhn dng ti liu ch in

1/3
Nhn dng k t quang hc (OCR)

Ting Vit ln ti hn 99% (c nhn dng 100 k t th c cha n 1 k t sai). Cng


ngh ca ABBYY chp nhn hu ht cc nh dng nh u vo nh: PDF, TIFF, JPEG,
GIF, PNG, BMP, PCX, DCX, DjVu... Kt qu nhn dng c lu tr di cc nh
dng MS Word, MS Excel, HTML, TXT, XML, PDF, PDF 2 lp, trong nh dng
PDF 2 lp l mt nh dng hon ho cho vic lu tr v khai thc ti liu. Vi nh
dng ny, ngi c c th c trung thc nh gc nh lp nh bn trn, cc cng c
tm kim c th tm kim ton vn trn vn bn nh lp text nhn dng c bn di.

Ngi s dng c th th nghim cng ngh nhn dng ca ABBYY (min ph) ti trang
web: www.sohoa.com.vn

Trng thi hin thi ca cng ngh OCR

S nhn dng chnh xc k t Latin nh my c xem l vn c gii quyt.


T l chnh xc thc t t ti 99%, mc d mt s ng dng i hi t l chnh xc cao
hn na cn phi con ngi kim tra li li.

Vic nhn dng ch in bng tay, ch tho bng tay, v thm ch nhng phin bn nh
my c in ra ca vi ch (c bit l nhng ch c s ch ci ln), vn cn l mt
ti ca cc nghin cu.

Cc h thng nhn dng k t vit tay t c nhng thnh cng ln v mt thng


mi trong nhng nm gn y. Trong s l thit b nhp cho nhng thit b h tr
c nhn (PDA) nh nhng phn mm chy trn Palm OS. hng Apple Newton i tin
phong trong cng ngh ny. Nhng gii thut s dng trong nhng thit b ny s dng
nhng u im rng th t, tc , v hng ca nhng on dng n l c bit
trc. Tng t, ngi dng c th c yu cu s dng ch mt vi loi kiu ch nht
nh. Nhng phng php ny khng th dng c trong phn mm scan ti liu giy,
do s nhn dng chnh xc vn bn in bng tay vn l mt vn ln ang c b
ng. Vi mc chnh xc t 80% n 90%, nhng k t in bng tay sch s c th c
nhn ra, nhng chnh xc vn to ra hng t li mi trang, khin cho cng ngh
ch hiu qu trong vi trng hp no . S a dng ca OCR hin nay c bit n
trong cng nghip l ICR, (Intelligent Character Recognition - Nhn dng K t Thng
minh).

Nhn dng ch vit tay l mt lnh vc nghin cu si ni, vi t l nhn dng thm
ch cn thp hn c vn bn in bng tay. T l nhn dng cao hn ca nhng bn vit
tay chung chung hu nh l khng th nu khng s dng thng tin v ng php v vn
cnh. V d nh, nhn dng c mt ch t mt cun t in th d hn l vic c gng
ly ra nhng k t ri rc t on . c dng Tng cng ca mt t sc (lun lun
c vit bng s) l mt v d trong s dng nhng t in nh hn c th tng t
l nhn dng rt nhiu. Kin thc v ng php ca mt ngn ng c scan cng c th
gip xc nh mt t c th l ng t hay danh t, v d nh vy, s cho php chnh

2/3
Nhn dng k t quang hc (OCR)

xc cao hn. Hnh dng ca ch vit tay bn thn n khng cha thng tin v
nhn dng chnh xc (hn 98%) tt c nhng on ch vit tay.

Mt vn kh khn ca my tnh v con ngi l nhng bn lu ca nhng l thnh


v m ci ca nhng nh th c ch ton cha tn. Nhng trang c th b h hi do
thi gian, nc hay la v nhng tn trn c th li thi hoc cha nhng chnh t
him gp. Lnh vc nghin cu khc l tip cn hp tc, my tnh h tr con ngi
v ngc li. K thut x l hnh nh ca my tnh c th h tr con ngi trong vic
c nhng vn bn cc k kh c nh Bn vit trn da cu ca Archimede hay nhng
Cun giy da ly t vng Bin Cht.

Tm li, i vi nhng vn nhn dng phc tp hn mng n-ron c s dng rng


ri bi chng c th lm lm n gin ha c bin i affine ln bin i phi tuyn.

3/3

You might also like