Download as pdf or txt
Download as pdf or txt
You are on page 1of 80

B GIO DC V O TO

TRNG I HC BCH KHOA H NI


------------------------------------------------------

LUN VN THC S KHOA HC

NGHIN CU V NH GI CC
H TRUY XUT THNG TIN

NGNH: CNG NGH THNG TIN


M S:

CAO TH THU HNG

Ngi hng dn khoa hc: PGS.TS. NGUYN THANH THU

H NI - 2006
1

LI CM N
Em xin chn thnh gi li cm n su sc ti Thy gio hng dn,
PGS.TS.Nguyn Thanh Thu ngi c nhng hng dn tn tnh, qu
bu gip em hon thnh lun vn ny.
Em cng xin cm n cc Thy C khoa Cng ngh Thng tin trng
i hc Bch Khoa H Ni truyn t kin thc qu bu trong kho hc
ny.
Cui cng xin cm n gia nh v c quan ni ang cng tc to
iu kin thun li ti hon thnh kho hc ny.

H ni, thng 10 nm 2006


Cao Th Thu Hng
2

MC LC
Chng 1: TNG QUAN V H TRUY XUT THNG TIN ...........................5
1.1. Lch s truy xut thng tin v h thng truy xut thng tin.........................5
1.2. H truy xut thng tin...................................................................................9
1.2.1. Khi nim v h truy xut thng tin .....................................................9
1.2.2. Cch thc hot ng ca h thng truy xut thng tin .......................10
1.2.3. Cc phng tin truy xut thng tin ...................................................12
1.3. So snh truy xut thng tin c in v truy xut thng tin trn Web.........14
1.4. So snh truy xut thng tin vi truy xut d liu.......................................15
1.5. So snh IRS vi cc h thng thng tin khc.............................................16
Chng 2: XY DNG MT H TRUY XUT THNG TIN ........................19
2.1. Mt s m hnh xy dng mt h truy xut thng tin................................19
2.1.1. M hnh khng gian vector .................................................................19
2.1.2. Tm kim Boolean...............................................................................21
2.1.3. Tm kim Boolean m rng ................................................................22
2.1.4. M hnh xc sut.................................................................................23
2.1.5. nh gi chung v cc m hnh..........................................................23
2.2. Cc bc xy dng mt h truy xut thng tin ..........................................23
2.2.1. Tch t t ng cho tp cc ti liu. ...................................................23
2.2.2. Lp ch mc cho ti liu......................................................................25
2.2.3. Tm kim .............................................................................................25
2.2.4. Sp xp cc ti liu tr v (Ranking) ..................................................26
Chng 3: LP CH MC ...................................................................................27
3.1. Khi qut v h thng lp ch mc .............................................................27
3.2. Xc nh mc t quan trng cn lp ch mc.............................................28
3.3. Mt s hm tnh trng s mc t ...............................................................31
3.3.1. Tn s ti liu nghch o (Inverse Document Frequency) ................32
3.3.2. nhiu tn hiu (The Signal Noise Ratio) ....................................32
3.3.3. Gi tr phn bit ca mc t (Term Discrimination Value)...........34
3.4. Lp ch mc cho ti liu ting Anh ............................................................35
3.5. Lp ch mc cho ti liu ting Vit ............................................................37
3.5.1. Kh khn cho vic lp ch mc ting Vit..........................................38
3.5.2. c im v t trong ting Vit..........................................................40
3.5.3. Vic tch t .........................................................................................41
3.6. Lp ch mc t ng cho ti liu................................................................43
3.7. Tp tin nghch o ti liu..........................................................................44
3.7.1. Tp tin nghch o ..............................................................................44
3.7.2. Phn bit gia tp tin nghch o v tp tin trc tip .........................47
3.7.3. Ti sao s dng tp tin nghch o lp ch mc.............................48
Chng 4: TRUY XUT THNG TIN A PHNG TIN ............................50
4.1. Truy xut thng tin a phng tin............................................................50
4.2. Truy xut audio ngn ng ni ....................................................................51
3

4.3. Truy xut audio ..........................................................................................51


4.4. Truy xut ho.........................................................................................51
4.5. Truy xut nh..............................................................................................53
4.5.1. Truy xut nh da vo mu sc ..........................................................54
4.5.2. Truy xut nh da vo vn..................................................................54
4.5.3. Truy xut nh da vo hnh dng .......................................................55
Chng 5: NH GI CC H THNG TRUY XUT THNG TIN ...........58
5.1. L do tin hnh nh gi cc h thng truy xut thng tin ...................58
5.2. Cc tiu chun c dng nh gi.......................................................59
5.3. Cc m hnh nh gi.................................................................................59
5.4. Cc o dng nh gi .......................................................................62
5.4.1. Cc khi nim v o v lin quan ..................................................62
5.4.2. Cch tnh bao ph (R) v chnh xc (P)....................................63
5.5. Phng php tnh chnh xc da trn 11 im chun ca bao ph..65
5.5.1. th biu din hiu sut thc thi h thng truy xut........................65
5.5.2. ng cong bao ph v chnh xc RP......................................66
5.5.3. ng cong RP cho tp truy vn........................................................69
5.5.4. nh gi h thng truy xut thng tin da vo th ........................69
5.6. S lin quan gia cu hi v ti liu ..........................................................70
5.6.1. Cc lin quan..................................................................................70
5.6.2. Cc vn v lin quan .................................................................70
5.6.3. nh gi vi lin quan nhiu cp .............................................73
5.6.4. Phng php o bao ph (R), chnh xc (P) da trn lin
quan nhiu cp ..............................................................................................75
KT LUN ...............................................................................................................77
HNG PHT TRIN............................................................................................78
TI LIU THAM KHO.........................................................................................79
4

DANH MC CC HNH V

Hnh 1.1: H thng truy xut thng tin theo c ch c in 10


Hnh 1.2: C ch tm kim ca Search Engine 13
Hnh 3.1: Lu x l cho h thng lp ch mc 28
Hnh 3.2: Cc t c sp theo th t 30
Hnh 3.3: Qu trnh chn t lm ch mc 37
Hnh 5.1: Tp d liu v ti liu 63
Hnh 5.2: ng cong m t hiu sut thc thi ca h thng 64
Hnh 5.3: th RP cho cu hi th k 68
Hnh 5.4: th biu din 2 h thng vi cng 1 tp ti liu mu 69
v tp cu truy vn mu

DANH MC CC BNG
Bng 1.1: So snh IR c im vi Web IR 14
Bng 1.2: S khc nhau gia h truy xut thng tin v h truy xut 16
d liu.
Bng 1.3: So snh h truy xut thng tin vi cc h thng khc 18
Bng 3.1: Cch tp tin nghch o lu tr 47
Bng 3.2: Cch tp tin trc tip lu tr 48
Bng 3.3 Thm mt ti liu mi vo tp tin nghch o 48
Bng 5.1: Bng gi tr R, P tnh vi n ti liu c tr v 67
Bng 5.2: Bng ni suy cc gi tr P cho cu hi th k 68
5

Chng 1: TNG QUAN V H TRUY XUT


THNG TIN

1.1. Lch s truy xut thng tin v h thng truy xut thng tin

Truy xut thng tin c mt lch s lu i gn lin vi cc th vin v


trung tm tm kim thng tin. Trc y, khi my tnh v internet cha ra i,
nhng ngi c nhu cu thng tin ngoi vic nh s tr gip thng tin t bn
b, ngi thn cn c th tm n th vin hoc cc trung tm thng tin tm
kim thng tin cn thit. Cch biu din, lu tr, t chc v ph bin thng
tin ca th vin c xem l cch lm truyn thng ca mt h thng truy
xut thng tin. Khi tip nhn cc yu t thng tin hay ti liu mi, th vin s
tin hnh phn tch yu t thng tin . Sau , nhng m t thch hp s
c chn ra m t, phn nh ni dung ca yu t thng tin . Da trn
nhng m t ny, mi yu t thng tin s c phn loi theo nhng th tc
c thit lp ri xt nhp vo tp hp cc yu t thng tin tn ti. Cc
th tc ny c to ra h thng ha cc yu cu (cc yu cu c thit
k thay th cho mt nhu cu thng tin) v so snh nhng yu cu, truy
vn vi m t ca cc yu t thng tin lu tr.
Vic so snh ny chnh l c s quyt nh cc yu t thng tin thch
hp vi cu truy vn tng ng. Cui cng, mt c ch tm kim v ph bin
thng tin s c dng tr cc yu t thng tin cn thit n ngi s dng
h thng. Tuy nhin, phi xem xt vn ny sinh v v tr tht s ca mt
yu t thng tin mi c thm vo trong tp hp ti liu. C nhiu c ch
tip cn khc nhau gii quyt vn ny nhng chng u lin quan n
cch t chc vt l hoc lun l cc yu t thng tin. Trong th vin, cch t
6

chc vt l chnh l vic lp ch mc cho ti liu, tc l s sp xp cc con s


ca cc quyn sch, cch nh s thng c quy nh bi cc th vin ln.
Nhng quyn sch s c t vo nhng v tr xc nh da vo nhng con
s ny. Ngoi ra, cch t chc lun l d liu phi c thm vo vi cch t
chc vt l gip ngi s dng truy xut thng tin d dng hn. Chng
hn, nhng quyn sch n bn v truy xut thng tin c th c xc nh
bng cch nhn vo danh mc cc ch ca th vin vi thut ng cn tm l
truy xut thng tin. Mt khi ta tm thy thut ng thch hp, cc th s k
tip nhau s xc nh nhng quyn sch lin quan n ch ang tm kim.
Nhng quyn sch ny ph thuc vo cc con s v chng s c tm thy
ti nhng v tr xc nh. Bn cnh , mi khi mun thay i thut ng ch
ca sch, chng ta khng cn thay i v tr ca sch trn k sch; tc l,
cc yu t thng tin c th c t chc lun l li bng cch thay i danh
mc th vin m khng cn thay i sp xp vt l.
X hi ngy cng pht trin, do thng tin rt a dng phong ph. Bi
ton t ra l chng ta phi lm sao qun l c s lng thng tin khng
l mt cch c hiu qu. T dn n nhu cu lm gim mt lng cc yu
t thng tin n mt kch thc c th qun l, cc yu t thng tin cn li
c xem l c lin quan nhiu nht n lnh vc tm kim. Mt khc, chng
ta rt kh d on mu, trng thi pht trin tng lai ca thng tin, hoc nu
c th d on th t l ri ro rt cao. Kh khn tip theo trong vic t chc
thng tin hiu qu l c mun gi nhng yu t lin quan gn nhau. V d,
nhng ch lin quan n nhiu lnh vc nh phn tch h thng (n lin
quan n khoa hc my tnh, vn tr hc, k thut hc, khoa hc qun l, gio
dc v cc h thng thng tin) khng th gn nhau c m phi ring
ra theo tng lnh vc. y thc s l mt kh khn. Cn rt nhiu kh khn
na, chng hn cc kh khn trong phn loi, so snh ti liu, yu t thng
7

tin, lp ch mc, nh s cho ti liu. Nhng kh khn ny s khng c gii


quyt nu khng c s ra i ca my tnh. Qu tht, nh c my tnh m vic
lu tr, truy xut thng tin tr nn d dng hn. My tnh c th thao tc trn
tt c cc loi thng tin v c th lu tr mt cch nhanh chng mt s lng
thng tin khng l. Ngoi ra, c ch truy xut thng tin trn my tnh c th
rt nhanh chng v hiu qu ty thuc m hnh ci t, thut ton ca c ch
. C ch tm kim ny cng kh ging vi c ch truy xut thng tin ca
th vin. Trc ht, da trn ngn ng ch mc v cc yu t thng tin i
din cho ni dung ca ti liu, tp ti liu s c biu din di dng tp hp
cc ch mc i din cho tp ti liu . Trong khi , nhu cu truy xut thng
tin c biu din di dng cu truy vn c cu trc hoc khng cu trc m
my c th hiu c. Sau , my s so snh hai dng biu din trn, biu
din ti liu v biu din cu truy vn, bit c ti liu no ph hp vi
truy vn no. Sau khi so snh, my s nh v c v tr vt l ca yu t
thng tin cn tm kim v ph bin n n ngi s dng. y l c ch tm
kim chung cho mi h thng truy xut thng tin. Tuy nhin, cch y khng
qu 20 nm, sau khi my tnh ra i, cc h thng truy xut thng tin ch yu
c s dng trong phng th nghim tm kim mt kho ng liu sch v
ti liu. Mc d chng khng bao hm cc phng php ton phc tp, nhng
khi Internet pht trin, k thut tm kim ch yu trn World Wide Web chnh
l cc k thut truy xut thng tin. Qu tht, cc h thng truy xut thng tin
ngy cng pht trin v thut ton, k thut truy xut thng tin nh c s ra
i ca Internet. V nhu cu truy xut thng tin ca con ngi trn Internet l
mt nhu cu ph bin, thit thc, khng th thiu nn cc nh pht trin h
thng truy xut thng tin cng phi n lc mang li hiu nng, hiu qu
cho ngi s dng.
8

Chng ta thy r rng l nghin cu truy xut thng tin c truyn thng
tp trung vo truy xut thng tin dng vn bn (Text Retrieval) hay ti liu
vn bn (Document Retrieval). Trong mt thi gian di, truy xut thng tin
gn nh ng ngha vi tm kim ti liu hay tm kim vn bn. Trong thi
gian gn y, cc vin cnh ng dng mi nh ng dng tr li cu hi
(Question Answering), ng dng nhn dng ch (Topic Detection), hay
ng dng lu vt (tracking) tr thnh cc lnh vc hot ng mnh m trong
nghin cu truy xut thng tin. Cng ngy, ranh gii gia cng ng truy xut
thng tin hay cng ng truy xut thng tin v cc cng ng nghin cu x
l ngn ng t nhin, cng ng nghin cu c s d liu tr nn m nht khi
cc cng ng ny cng nhau pht trin cc lnh vc quan tm chung, v d
nh tr li cu hi, tm tt v truy xut thng tin t cc ti liu c cu trc.
Mt lnh vc pht trin khc m cc k thut truy xut thng tin ang
k tc v pht huy, l truy xut thng tin khng vn bn hay cn gi l truy
xut thng tin a phng tin. Loi hnh tm kim ny s da trn rt trch t
ng cc phn vn bn hay li ni ca cc ti liu a phng tin, sau
c x l bi cc k thut truy xut thng tin da vn bn (text-based IR
techniques). Tuy nhin, ngi ta ngy cng quan tm n s pht trin cc k
thut phi by c th thng tin phng tin truyn thng ri tch hp chng
vi cc phng php tm kim c thit lp tt hn l cch rt trch
chng.
Trong phm vi ti, s quan tm nhiu n truy xut thng tin trn vn bn.
9

1.2. H truy xut thng tin

1.2.1. Khi nim v h truy xut thng tin

Theo l thuyt, h thng truy xut thng tin l mt h thng thng tin.
N c s dng lu tr, x l, tra cu, tm kim, v ph bin cc yu t
thng tin n ngi s dng. H thng truy xut thng tin thng thao tc vi
cc d liu dng vn bn v khng c s gii hn v cc yu t thng tin
trong vn bn. H thng thng tin bao gm mt tp hp cc yu t thng tin,
mt tp cc yu cu v cc c ch tm kim quyt nh yu t thng tin no
lin quan n cc yu cu. Theo nguyn tc, mi quan h gia cc cu truy
vn v ti liu c c t s so snh trc tip. Nhng trn thc t, s lin
quan gia cc cu truy vn v ti liu xc nh khng phi c quyt nh
trc tip m gin tip bng cch: cc ti liu, yu t thng tin phi chuyn
sang ngn ng ch mc trc khi xc nh mc lin quan.
Sau y l nh ngha v h truy xut thng tin ca mt s tc gi:
Salton (1989):
H truy xut thng tin x l cc tp tin lu tr v nhng yu cu v
thng tin, xc nh v tm t cc tp tin nhng thng tin ph hp vi nhng
yu cu v thng tin. Vic truy xut nhng thng tin c th ph thuc vo s
tng t gia cc thng tin c lu tr v cc yu cu, c nh gi bng
cch so snh cc gi tr ca cc thuc tnh i vi thng tin c lu tr v
cc yu cu v thng tin.
Kowalski (1997):
H truy xut thng tin l mt h thng c kh nng lu tr, truy xut
v duy tr thng tin. Thng tin trong nhng trng hp ny c th bao gm
vn bn, hnh nh, m thanh, video v nhng i tng a phng tin khc.
10

Mt cch mt cch n gin h thng truy xut thng tin l mt h


thng h tr cho ngi s dng tm kim thng tin mt cch nhanh chng v
d dng. Ngi s dng c th a vo nhng cu hi, nhng yu cu (dng
ngn ng t nhin) v h thng s tm kim trong tp cc ti liu (dng ngn
ng t nhin) c lu tr tm ra nhng ti liu c lin quan, sau s
sp xp cc ti liu theo mc lin quan gim dn v tr v cho ngi s
dng.

1.2.2. Cch thc hot ng ca h thng truy xut thng tin

Hnh 1.1 minh ha cu trc, cch hot ng c bn ca mt h thng truy


xut thng tin c in.
Cc ti liu tr v c sp xp

Cu truy vn
X l cu truy vn
ca ngi dng
ca h thng
Cu truy vn

Ngi s dng

So khp Cc ti liu tr v Sp th t

Ti liu lp ch mc

Ch
mc V tr cc t
Kho ng liu

Cc ti liu Ti liu c
X l vn bn Lp ch mc
c trch ly phn on, tch t

Hnh 1.1: H thng truy xut thng tin theo c ch c in


11

1. giai on u tin, giai on tin x l, ti liu th ca ng liu c


x l thnh cc ti liu c tch t, phn on (tokenized
documents) v sau c lp ch mc thnh mt danh sch cc v tr
ca t (postings per terms).
2. giai on th hai, ngi s dng a ra mt cu truy vn (phi cu
trc bng ngn ng t nhin) m t nhu cu thng tin ca h. H thng
truy xut thng tin s biu din cu truy vn ny thnh nhng cu truy
vn c hoc khng c cu trc m my c th hiu c. H thng truy
xut thng tin bt u thc hin cht vn, i chiu tm ra ti liu,
cc yu t thng tin c th tr li v lin quan n cu truy vn. Cc th
tc c dng quyt nh cc yu t thng tin c lin quan n cu
truy vn u da trn biu din ca cc cu truy vn v cc yu t
thng tin c cha cc thnh phn ngn ng ch mc.
3. Cui cng, cc ti liu, yu t thng tin c tm thy c hin th
thnh mt danh sch ti liu v c sp xp theo th t lin quan
(ranked retrieved documents). Thng thng, nhng ti liu, yu t
thng tin c lin quan nhiu nht c xp trn nhng ti liu t lin
quan hn. Ty vo cc h thng truy xut thng tin khc nhau m
chng hin th thng tin lin quan theo nhng cch khc nhau. Chng
hn, c h thng ch hin th tn tiu v ng dn n ti liu ,
hoc c h thng va hin th tn, ng dn, va hin th mt t ni
dung lin quan n cu truy vn, hoc c nhng h thng phc v truy
xut thng tin trn mng th thm vo cc lin kt n cc trang web
khc nhau.
Nhiu h thng thng tin cn c c c ch cho php ngi s dng cung
cp phn hi n cht lng ca kt qu tr v. S dng phn hi, h thng c
gng thch ng v n lc tm ra nhng kt qu tt nht cho cu truy vn.
12

Vic lp ch mc trong giai on tin x l v nguyn tc th ging nhau


i vi tng h thng nhng v thut ton, cch thc th khc nhau. Nguyn
tc lp ch mc: Ti liu hay yu t thng tin phi cu trc khi thm mi s
c h thng truy xut thng tin chuyn sang mt th c bit, l ngn
ng ch mc. Vic chuyn i thnh phn thng tin thnh ngn ng ch mc
c thc hin th cng, hay t ng hoc c hai v n c gi l tin trnh
lp ch mc. Tin trnh lp ch mc ny c thc hin da trn cc yu t
thng tin i din cho ni dung ca ti liu. Do , kt qu ca tin trnh ny
l mt tp ch mc i din cho ti liu .

1.2.3. Cc phng tin truy xut thng tin

Hnh 1.2 minh ha cu trc c bn ca cc phng tin tm kim. Mt


phng tin tm kim l mt h thng truy xut thng tin, tuy nhin, n khng
ging hon ton vi h thng truy xut thng tin c in m t trn. S
khc bit gia cc h thng truy xut thng tin c in v cc phng tin tm
kim bt ngun t s khc bit ngun gc d liu, c ngha l mt kho lu tr
khp kn c nh ngha tt tri ngc vi World Wide Web. V khng c
cch tip cn trc tip n cc ti liu trn Web (nh l c trong kho ng liu
th vin), phng tin tm kim phi cn n thnh phn crawler. Thnh
phn phn mm ny chu trch nhim ly cc trang web v v lu tr chng
trong mt kho ni b. C ch crawling a ra cc thch thc cng ngh lin
quan n hiu nng ca qu trnh v n s lin quan ca ti liu v cc
trang web l ng, nn crawler phi gi cho kho ni b lun c cp nht
hng ngy.
Vic crawling cc ti liu ngoi Web th khng bi v d liu web
gm c nhiu thng tin d tha. Phn tch ton cc c trch nhim loi b d
liu khng quan trng nh cc trang Web ging nhau v cc trang bao gm
13

sch bo khng lnh mnh. Ngoi ra, phn tch ton cc cng chu trch
nhim tnh ton ton cc c dng trong cc h thng truy xut thng tin
nh sp xp th t trang (th t trang hu ht c xc nh bi nhng trang
c lin kt vi n v nhng trang n lin kt ti).

Cc ti liu tr v c sp xp

Cu truy vn
X l cu truy vn
ca ngi dng
ca h thng
Cu truy vn
Ngi s dng

Cc ti liu tr v
So khp Sp th t

Ti liu lp ch mc

Ch
mc V tr cc t

Ti liu c
X l vn bn Lp ch mc
phn on, tch t

Kho ng liu

Cc ti liu B phn tch


Spider Kho
c trch ly d liu ton cc

Hnh 1.2: C ch tm kim ca Search Engine


14

1.3. So snh truy xut thng tin c in v truy xut thng tin
trn Web

Bng di y biu din s khc bit gia cc h thng truy xut thng
tin c in (IR c in) v cc h thng truy xut thng tin trn Web (Web
IR).
Bng 1.1: So snh IR c in vi Web IR
IR c in Web IR
Kch thc Ln Khng l
Cht lng d liu Sch, khng trng lp Ln xn, trng lp
T l thay i d liu Him Lin tc
Kh nng truy cp d liu C th Truy cp mt phn
ng nht, cng ngun Rt a dng
a dng nh dng
gc
Ti liu Vn bn HTML
# lin quan Nh Ln
K thut IR Da ni dung Da lin kt

Khi lng d liu trong mt h thng IR c in kh ln, trong khi khi


lng d liu ny trong h thng Web IR l khng l. Khc bit ln nht
trong khi lng d liu, chnh l cc th t ca lng, nh hng n phn
cng c i hi (mt my tnh th khng bao gi , b nh khng th
cha ton b d liu) v cc thut ton (cc nh ngha hiu nng ca thi
gian v khng gian b thay i). Mt khc bit na l khc bit ca d liu.
Trong h thng IR c in d liu c lm sch, trong khi d liu trn
Web IR th phc tp, c hai u do s trng lp v v do cc spam c dng
tng th hng ca trang hoc ch to s ln xn.
15

Nh cp trn, s thay i d liu trong IR c in l khng


thng xuyn, do n thng c lp ch mc 1 ln. Ngc li, d liu
trn Web th thay i thng xuyn nn ch mc cng cn c cp nht. Hn
na, tnh kh truy cp ca d liu l khng quan trng trong Web IR.
Ti liu trong IR c in thng ng nht v nh dng cn ti liu
trong Web IR gm nhiu loi khc nhau: bt c ai cng c th to mt trang
web trong bt k nh dng no v bt k ngn ng no.
Mt im khc bit quan trng na l ti liu web khng thng xuyn
c vit dng vn bn th nh trong ti liu IR c in. Trang Web thng
c vit bng HTML (Hypertext Markup Language), va c nhng li ch
v bt li i vi h thng truy xut thng tin : mt mt, n bao gm d liu
c cu trc gip vic phn tch d dng hn ; mt khc, n thng khng cha
nhiu vn bn (h thng IR da trn th ny), do kh phn loi hn.
Kt qu tr v trong Web IR cng nhiu hn so vi IR c in, do
kh sp th t danh sch kt qu hn.
V cui cng, IR c in s dng k thut sp th t ch da trn ni
dung (content-based). Tuy nhin, k thut ny khng th p dng vi Web IR.
y l mt k thut thng dng trc khi Google gii thiu k thut sp th t
mi da trn lin kt (link-based). K thut sp th t da trn lin kt s
dng siu lin kt (hyperlink) gia cc ti liu web sp th t cc trang
web mt cch hiu qu v chc chn hn.

1.4. So snh truy xut thng tin vi truy xut d liu

Mt h thng truy xut thng tin khng phi l mt h thng truy xut
d liu. Bng di y trnh by mt s thuc tnh khc nhau gia h thng
truy xut thng tin v h thng truy xut d liu.
Bng 1.2: S khc nhau gia h truy xut thng tin v h truy xut d liu.
16

Truy xut thng tin Truy xut d liu


D liu Vn bn t do, khng cu trc Cc bng d liu, c cu trc
Truy vn T kha, ngn ng t nhin SQL, i s quan h
Lin quan tng i, xp x. Lin quan chnh xc.
Kt qu
Sp xp theo mc lin quan Khng sp xp
Ngi s dng c kin thc
Truy cp Nhng ngi khng phi chuyn gia
hoc cc tin trnh t ng

H thng truy xut thng tin thu thp ti liu da trn yu cu thng tin
ca ngi dng. Cu truy vn trn d liu khng c cu trc (thng l dng
vn bn t do), s dng t kha hoc ngn ng t nhin v do vy c th
c vit bi ngi dng khng thng tho. V c php ca cu truy vn
khng c nh ngha chnh xc nn kt qu c th bao gm cc kt hp
khng chnh xc v th t lin quan hay tng quan (relevance) ca chng
ch l gn ng.
H thng truy xut d liu thu thp mt tp hp cc ti liu ph hp v
mt c php vi cu truy vn ca ngi s dng. Cu truy vn trn d liu c
cu trc (thng l bng trong c s d liu) v thng s dng mt ngn
ng truy vn c nh ngha hon chnh nh l SQL hay i s quan h.
Ngi s dng phi quen thuc vi c php v hiu c ng ngha ca ngn
ng truy vn. V vy, cu truy vn thng c vit bi ngi am hiu hoc
mt qu trnh t ng. Kt qu tr v bao gm tt c cc ti liu chnh xc
ph hp vi ng ngha ca cu truy vn, th t bt k.

1.5. So snh IRS vi cc h thng thng tin khc

H truy xut thng tin cng tng t nh nhiu h thng x l thng


tin khc. Hin nay cc h thng thng tin quan trng nht l: h qun tr c s
17

d liu (DBMS), h qun l thng tin (MIS), h h tr ra quyt nh (DSS),


h tr li cu hi (QAS) v h truy xut thng tin (IR).
H qun tr c s d liu (DBMS)
Bt c h thng thng tin no cng da trn mt tp cc mc c lu
tr (gi l c s d liu) cn thit cho vic truy cp. Do h qun tr c s
d liu n gin l mt h thng c thit k nhm thao tc v duy tr iu
khin c s d liu.
DBMS t chc lu tr cc d liu ca mnh di dng cc bng. Mi
c s d liu c lu tr thnh cc bng khc nhau. Mi ct trong bng l
mt thuc tnh duy nht i din cho bng, n khng c trng lp v ta gi
l kha chnh. Cc bng c mi lin h vi nhau thng qua cc kha ngoi.
DBMS c mt tp cc lnh h tr cho ngi dng s dng truy vn n d
liu ca mnh. V vy mun truy vn n CSDL trong DBMS ta phi hc ht
cc tp lnh ny. Nhng ngc li n s cung cp cho ta cc d liu y v
hon ton chnh xc. Hin nay DBMS c s dng rng ri trn th gii.
Mt s DBMS thng dng: Access, SQL Server, Oracle.
H qun l thng tin (IMS)

H qun l thng tin l h qun tr c s d liu nhng c thm nhiu


chc nng v vic qun l. Nhng chc nng qun l ny ph thuc vo gi
tr ca nhiu kiu d liu khc nhau. Ni chung bt k h thng no c mc
ch c bit phc v cho vic qun l th ta gi l h qun l thng tin.
H h tr ra quyt nh (DSS)

H h tr ra quyt inh s da vo cc tp lut c hc, t nhng lut


hc rt ra nhng lut mi, sau khi gp mt vn n s cn c vo tp cc
lut a ra nhng quyt nh thay cho con ngi.
18

H thng ny ang c p dng nhiu cho cng vic nhn dng v


chn on bnh.
H tr li cu hi (QAS)

H tr li cu hi cung cp vic truy cp n cc thng tin bng ngn


ng t nhin. Vic lu tr c s d liu thng bao gm mt s lng ln cc
vn lin quan n cc lnh vc ring bit v cc kin thc tng qut. Cu
hi ca ngi dng c th dng ngn ng t nhin. Cng vic ca h tr li
cu hi l phn tch cu truy vn ca ngi dng, so snh vi cc tri thc
c lu tr v tp hp cc vn c lin quan li a ra cu tr li thch
hp.
Tuy nhin, h tr li cu hi vn ang giai on th nghim. Vic xc
nh ngha ca ngn ng t nhin dng nh vn l chng ngi ln c
th s dng rng ri h thng ny.
Bng 1.3: So snh h truy xut thng tin vi cc h thng khc
IRS DBMS QAS MIS
Tm kim Ni dung Cc phn t Cc s kin
trong cc ti c kiu d r rng Ging
liu liu c DBMS
nh ngha nhng h tr
Lu tr Cc vn bn Cc phn t Cc s kin thm nhng
ngn ng t d liu r rng v th tc (tnh
nhin dng bng cc kin thc tng, tnh
tng qut trung bnh,
X l Cc cu truy Cc cu truy Cc cu truy php
vn khng vn c cu vn khng chiu,)
chnh xc trc gii hn
19

Chng 2: XY DNG MT H TRUY XUT


THNG TIN

2.1. Mt s m hnh xy dng mt h truy xut thng tin

Mc tiu ca cc h truy xut thng tin l tr v cc ti liu cng lin


quan n cu hi cng tt. V th ngi ta a ra rt nhiu m hnh tm
kim nhm tnh ton mt cch chnh xc tng quan ny.
Sau y l mt s m hnh tm kim c bn:

2.1.1.M hnh khng gian vector

M hnh khng gian vector tnh ton tng quan gia cu hi v ti


liu bng cch nh ngha mt vector biu din cho mi ti liu, v mt vector
biu din cho cu hi. M hnh da trn tng chnh l ngha ca mt ti
liu th ph thuc vo cc t c s dng bn trong n. Vector ti liu v
vector cu hi sau s c tnh ton xc nh tng quan gia
chng. tng quan cng ln chng t ti liu cng lin quan ti cu
hi.
Gi s mt tp ti liu ch gm c hai t l t1 v t2. Vector xy dng
c s gm c 2 thnh phn: thnh phn th nht biu din s xut hin ca
t1, thnh phn th hai biu din s xut hin ca t2. Cch n gin nht xy
dng vector l nh 1 vo thnh phn nu n xut hin, v nh 0 nu t
khng xut hin. Gi s ti liu ch gm c 2 t t1. Ta biu din cho ti liu
ny bi mt vector nh phn nh sau: <1,0>. Tuy nhin, biu din nh vy
khng cho thy c tn s xut hin ca mi t trong ti liu. Trong trng
hp ny, vector c biu din nh sau: <2,0>
20

i vi mt cu hi cho, thay v ch cn c so snh cc t trong ti


liu vi tp cc t trong cu hi, ta nn xem xt n tm quan trng ca mi
t. tng chnh l mt t xut hin tp trung trong mt s ti liu th c
trng s cao hn so vi mt t phn b trong nhiu ti liu. Trng s c
tnh da trn tn s ti liu nghch o (Inverse Document Frequency) lin
quan ti cc t c cho:
n: s t phn bit trong tp ti liu
tfij: s ln xut hin ca t tj trong ti liu Di (tn s)
dfj: s ti liu c cha t tj
d
idf j = log10 trong d l tng s ti liu
df j

Vector c xy dng cho mi ti liu gm c n thnh phn, mi thnh phn


l gi tr trng s c tnh ton cho mi t trong tp ti liu. Cc t trong
ti liu c gn trng s t ng da vo tn s xut hin ca chng trong
tp ti liu v s xut hin ca mi t trong mt ti liu ring bit. Trng s
ca mt t tng nu t xut hin thng xuyn trong mt ti liu v gim
nu t xut hin thng xuyn trong tt c cc ti liu. tnh trng s
ca t th tj trong ti liu Di, da vo cng thc:
dij = tfij * idfj
dij : l trng s ca t tj trong ti liu Di
i vi h thng tm kim thng tin theo m hnh vector, mi ti liu l
mt vector c dng: Di(di1, di2,, din). Tng t, cu truy vn Q cng l mt
vector c dng: Q(wq1, wq2,, wqn)
Wqj: l trng s ca t tj trong cu truy vn Q.
tng quan (SC: Similarity Coeficient) gia cu truy vn Q v ti liu Di
c tnh nh sau:
21

n
SC (Q, Di ) = wqj d ij
j =1

2.1.2.Tm kim Boolean

M hnh tm kim Boolean kh n gin. Cu hi a vo c cho


di dng biu thc Boolean. Ngha l phi tha:
Ng ngha r rng
Hnh thc ngn gn
M hnh lin quan (relevance) c bn nht trong h thng truy xut
thng tin c in l m hnh i s Bool. Mt ti liu c nh ngha l mt
vector boolean d trong {0,1}k (trng lng boolean) trong di =1 khi di c
mt trong d. Mt cu truy vn c nh ngha l mt cng thc boolean q
trn cc tokens: q: {0,1}k {0,1}. Ngha l, q l mt hm sao cho vi mt
vector trong {0,1}k cho trc biu din mt ti liu, th hm s tr v mt gi
tr boolean ph thuc vo lin quan gia ti liu v cu truy vn. Hm tnh
lin quan c nh ngha n gin bng cch p dng hm ny trn mt
ti liu, f(d, q) = q(d).
V d, mt cu truy vn trong m hnh boolean c th l Micheal
Jordan AND (Not basketball). Li ch chnh ca m hnh boolean l tnh n
gin cho ngi s dng. Tuy nhin, hm tnh lin quan ca n qu ti khi
n ch tr v mt gi tr boolean.
Do cc t hoc xut hin hoc l khng xut hin, nn trng s wij
{0, 1}. Gi s a vo mt cu hi dng biu thc Boolean nh sau: t1 AND
t2. Sau khi tm kim ta xc nh c cc ti liu lin quan n t1 l {d1, d3,
d5} v cc ti liu lin quan n t2 l {d3, d5, d7}. Nh vy vi php AND, cc
ti liu tho yu cu ca ngi dng l {d3, d5}.
22

Phng php ny c mt s khuyt dim nh sau:


Cc ti liu tr v khng c sp xp (ranking).
Cu hi tm kim i hi phi ng nh dng ca biu thc
Boolean gy kh khn cho ngi dng.
Kt qu tr v c th l qu t hoc qu nhiu ti liu.

2.1.3.Tm kim Boolean m rng

M hnh tm kim Boolean khng h tr vic sp xp kt qu tr v bi


v cc ti liu hoc tho hoc khng tho yu cu Boolean. Tt c cc ti liu
tho mn u c tr v. y cha c c lng no c tnh ton mc
lin quan ca chng i vi cu hi.
M hnh tm kim Boolean m rng ra i nhm h tr vic sp xp
(ranking) kt qu tr v da trn tng c bn l nh trng s cho mi t
trong cu hi v trong ti liu. Gi s mt cu hi yu cu (t1 OR t2) v mt
ti liu D c cha t1 vi trng s w1 v t2 vi trng s w2. Nu w1 v w2 u
bng 1 th ti liu no c cha c hai t ny s c th t sp xp cao nht. Ti
liu no khng cha mt trong hai t ny s c th t sp xp thp nht.
tng n gin l tnh khong cch Euclide t im (w1, w2) ti gc:

SC (Q, Di ) = (w1 )2 + (w2 )2


Vi trng s 0.5 v 0.5, SC (Q, Di ) = (0.5)2 + (0.5)2 = 0.707
SC cao nht nu w1 v w2 u bng 1. Khi : SC (Q, Di ) = 2 =1.414
a SC vo khong [0, 1], SC c tnh nh sau:

( w1 )2 + ( w2 )2
SC (Qt1 t 2 , d i ) =
2
23

Cng thc ny gi s l cu hi ch c ton t OR. i vi ton t AND, thay


v tnh khong cch ti gc, ta s tnh khong cch n im (1, 1). Cu hi
no cng gn n im (1, 1) th n cng tho yu cu ca ton t AND:

(1 w1 )2 + (1 w2 )2
SC (Qt1 t 2 , d i ) = 1
2

2.1.4.M hnh xc sut

M hnh tm kim xc sut tnh ton tng quan gia cu hi v ti


liu da vo xc sut m ti liu lin quan n cu hi. Cc xc sut c
p dng tnh ton lin quan gia cu hi v ti liu. Cc t trong cu hi
c xem l mi xc nh ti liu lin quan. tng chnh l tnh xc sut
ca mi t trong cu hi v sau s dng chng tnh xc sut m ti liu
lin quan n cu hi.

2.1.5. nh gi chung v cc m hnh

M hnh Boolean c xem l m hnh yu nht trong cc m hnh bi


v nh trnh by n c rt nhiu nhc im.
Theo kinh nghim ca Salton v Buckley, nhn chung m hnh vector
lm tt hn m hnh xc sut.

2.2. Cc bc xy dng mt h truy xut thng tin

2.2.1. Tch t t ng cho tp cc ti liu.

i vi ting Anh, vic tch t n gin ch da vo khong trng. Tuy


nhin i vi ting Vit, giai on ny tng i kh khn. Cu trc ting
Vit rt phc tp, khng ch n thun da vo khong trng tch t. Hin
24

nay c rt nhiu cng c dng tch t ting Vit, mi phng php c u,


khuyt im ring. y ta xt mt s phng php hay s dng trong ting
Vit.
Cc phng php tch t ting Vit:
Phng php fnTBL (Fast Transformation Based Learning)
tng chnh ca phng php hc da trn s bin i (TBL) l
gii quyt mt vn no ta s p dng cc php bin i, ti mi bc,
php bin i no cho kt qu tt nht s c chn v c p dng li vi
vn a ra. Thut ton kt thc khi khng cn php bin i no c
chn. H thng fnTBL gm hai tp tin chnh:
Tp tin d liu hc (Training): Tp tin d liu hc c lm th cng,
i hi chnh xc. Mi mu (template) c t trn mt dng ring
bit.
Tp tin cha cc mu lut (rule-template): mi lut c t trn mt
dng, h thng fnTBL s da vo cc mu lut p dng vo tp tin
d liu hc.
Phng php Longest Matching
Phng php Longest Matching da vo t in c sn.
Theo phng php ny, tch t ting Vit ta i t tri sang phi v
chn t c nhiu m tit nht m c mt trong t in ri tip tc cho cc t
k tip cho n ht cu. Vi cch ny, ta d dng tch c chnh xc cc
ng/cu nh: hp tc| mua bn, thnh lp| nc| Vit Nam| dn ch| cng
ho,Tuy nhin, phng php ny s tch t sai trong trng hp nh:
hc sinh| hc sinh| hc, mt| ng| quan ti gii, trc| bn l| mt| ly
nc,
Kt hp gia fnTBL v Longest Matching
25

Chng ta c th kt hp gia hai phng php fnTBL v Longest


Matching c c kt qu tch t tt nht. u tin ta s tch t bng
Longest Matching, u ra ca phng php ny s l u vo cho phng
php fnTBL hc lut.

2.2.2. Lp ch mc cho ti liu

Sau khi c c tp cc t c trch, ta s chn cc t lm t ch


mc. Tuy nhin, khng phi t no cng c chn lm t ch mc. Cc t c
kh nng i din cho ti liu s c chn, cc t ny c gi l key word,
do trc khi lp ch mc s l giai on tin x l i vi cc t trch c
chn ra cc key word thch hp. Ta s loi b danh sch cc t t c kh
nng i din cho ni dung vn bn da vo danh sch gi l stop list. i vi
ting Anh hay ting Vit u c danh sch Stop list.
Lp ch mc bao gm cc cng vic: Xc nh cc t c kh nng i
din cho ni dung ca ti liu v nh trng s cho cc t ny, trng s phn
nh tm quan trng ca t trong mt ti liu.
Lp ch mc cho ti liu s c xem xt c th chng sau.

2.2.3. Tm kim

Mc ch ca tm kim l cho php nh x gia mt yu cu ring bit


ca ngi dng v cc item trong c s d liu thng tin tr li yu cu .
Ngi dng s dng cc cu truy vn tm kim giao tip m t cc thng
tin c yu cu vi h thng.
Ngi dng nhp cu hi v yu cu tm kim, cu hi m ngi dng
nhp vo cng s c x l, ngha l ta s tch t cho cu hi. Phng php
tch t cho cu hi cng nn l phng php tch t cho cc ti liu thu thp
26

c m bo s tng thch. Sau , h thng s tm kim trong tp tin


ch mc xc nh cc ti liu lin quan n cu hi ca ngi dng.

2.2.4. Sp xp cc ti liu tr v (Ranking)

Cc ti liu sau khi xc nh l lin quan n cu hi ca ngi dng


s c sp xp li, bi v trong cc ti liu c nhng ti liu lin quan n
cu hi nhiu hn. H thng s da vo mt s phng php xc nh ti
liu no lin quan nhiu nht, sp xp li (ranking) v tr v cho ngi dng
theo th t u tin.
27

Chng 3: LP CH MC

3.1. Khi qut v h thng lp ch mc

Cc trang ti liu sau khi thu thp v s c phn tch, trch chn
nhng thng tin cn thit (thng l cc t n, t ghp, cm t quan trng)
lu tr trong c s d liu nhm phc v cho nhu cu tm kim sau ny.
Mt cch tng tc tm kim thng tin ln l to ch mc cho cc
ti liu. Tuy nhin, vic lp ch mc c mt nhc im ln, l khi thm
mt ti liu mi, phi cp nht li tp tin ch mc. Nhng i vi h thng tm
kim thng tin, ch cn cp nht li tp tin ch mc vo mt khong thi gian
nh k. Do , ch mc l mt cng c rt c gi tr.
Lp ch mc bao gm cc cng vic sau:
Xc nh cc t c kh nng i din cho ni dung ca ti liu
nh trng s cho cc t ny, trng s phn nh tm quan trng
ca t trong mt ti liu.
Lp ch mc l qu trnh phn tch v xc nh cc t, cm t thch hp
ct li c kh nng i din cho ni dung ca ti liu. Nh vy, vn t ra
l phi rt trch ra nhng thng tin chnh, c kh nng i din cho ni dung
ca ti liu. Thng tin ny phi va , ngha l khng thiu tr ra kt
qu y so vi nhu cu tm kim, nhng cng phi khng d gim chi
ph lu tr v chi ph tm kim v loi b kt qu d tha khng ph hp.
Vic rt trch ny chnh l vic lp ch mc trn ti liu. Trc y, qu trnh
ny thng c cc chuyn vin qua o to thc hin mt cch th
cng nn c chnh xc cao. Nhng trong mi trng hin i ngy nay,
vi lng thng tin khng l th vic lp ch mc bng tay khng cn ph
hp, phng php lp ch mc t ng mang li hiu qu cao hn.
28

M hnh x l tng qut ca mt h thng c trnh by nh sau:

Danh sch cc Lc thng tin tha, chuyn


ti liu cn lp ti liu v dng vn bn
ch mc

T
Tch vn bn thnh cc t IN

Danh sch Loi b stop-word


cc t
stop-word
Tnh trng s v loi b
nhng t c trng s thp

Loi b hu t Danh sch


cc hu t

CSDL
ch mc Lp ch mc
thng tin

Hnh 3.1: Lu x l cho h thng lp ch mc

3.2. Xc nh mc t quan trng cn lp ch mc

Mc t hay cn gi l mc t ch mc, l n v c s cho qu trnh lp


ch mc. Mc t c th l t n, t phc hay mt t hp t c ngha trong
mt ng cnh c th. Ta xc nh mc t ca 1 vn bn da vo chnh ni
29

dung ca vn bn , hoc da vo tiu hoc tm tt ni dung ca vn bn


.
Hu ht vic lp ch mc t ng bt u vi vic kho st tn s xut
hin ca tng loi t ring r trong vn bn. Nu tt c cc t xut hin trong
tp ti liu vi nhng tn s bng nhau, th khng th phn bit cc mc t
theo tiu chun nh lng. Tuy nhin, trong vn bn ngn ng t nhin, tn
s xut hin ca t c tnh tht thng, Do nhng mc t c th c phn
bit bi tn s xut hin ca chng.
c trng xut hin ca t vng c th c nh bi hng s th
hng - tn s (Rank_Frequency ) theo lut ca Zipf :

Tn s xut hin * th hng = Hng s.

Biu thc lut Zipf c th dn ra nhng h s ngha ca t da vo nhng


c trng ca tn s xut hin ca mc t ring l trong nhng vn bn ti
liu.
Mt xut da theo s xem xt chung sau:
1. Cho mt tp hp n ti liu, trong mi ti liu tnh ton tn s xut hin
ca cc mc t trong ti liu .
K hiu Fik (Frequency): tn s xut hin ca mc t k trong ti liu i.
2. Xc nh tng s tp tn s xut hin TFk (Total Frequency) cho mi t
bng cch cng nhng tn s ca mi mc t duy nht trn tt c n ti
liu.
n
TFk = F
i
ik

3. Sp xp nhng th t gim theo tp tn s xut hin ca chng. Quyt


nh gi tr ngng cao v loi b tt c nhng t c tp tn s xut
30

hin cao trn ngng ny. Nhng t b loi b l nhng t xut hin
ph bin hu ht cc ti liu. chnh l cc Stop-Word.
4. Tng t, loi tr nhng t c xem l c tn s xut hin thp.
Ngha l, xc nh ngng thp v loi b tt c cc t c tn s nh
hn gi tr ny. iu ny s loi b cc t t xut hin trong tp ti liu,
nn s c mt ca cc t ny cng khng nh hng n vic thc hin
truy vn.
5. Nhng t xut hin trung bnh cn li by gi c dng cho vic n
nh ti nhng ti liu nh nhng mc t ch mc.

Hnh 3.2: Cc t c sp theo th t


Ch : mt khi nim xut hin t nht hai ln trong cng mt on th c
xem l mt khi nim chnh. Mt khi nim xut hin trong hai on vn lin
tip cng c xem l mt khi nim chnh mc d n ch xut hin duy nht
mt ln trong on ang xt. Tt c nhng ch gii v nhng khi nim chnh
c lit k theo mt tiu chun nht nh no .
Thc t cho thy rng tng trn kh cng nhc, v nu lai b tt c
nhng t c tn s xut hin cao s lm gim gi tr recall ( bao ph), tc
gim hiu qu trong vic tr v s lng ln ca nhng mc tin thch ng.
31

Ngc li, s loi b nhng mc t c tn s xut hin thp c th lm gim


gi tr ca chnh xc. Mt vn khc l s cn thit chn nhng
ngng thch hp theo th t phn bit nhng mc t hu ch c tn s
xut hin trung bnh trong phn cn li.

3.3. Mt s hm tnh trng s mc t

Trng s ca mt t phn nh tm quan trng ca t trong ti liu.


tng chnh l mt t xut hin thng xuyn trong tt c cc ti liu th t
quan trng hn l t ch xut hin tp trung trong mt s ti liu.
Trng s ca mc t: l s tn xut xut hin ca mc t trong ton b
ti liu. Phng php thng c s dng nh gi trng s ca t l da
vo thng k, vi tng l nhng t thng xuyn xut hin trong tt c
cc ti liu th t c ngha hn l nhng t tp trung trong mt s ti liu.
Ta xt cc khi nim sau:
Gi T={t1, t2,..., tn} l khng gian ch mc, vi ti l cc mc t.
Mt ti liu D c lp ch mc da trn tp T s c biu din di
dng:
T(D)={w1,w2,...wn} vi wi l trng s ca ti trong tp ti liu D.
Nu wi=0 ngha l ti khng xut hin trong D hoc mc t ti t quan
trng trong ti liu D ta khng quan tm ti.
T(D) c gi l vector ch mc ca D, n c xem nh biu din cho
ni dung ca ti liu D v c lu li trong c s d liu ca h thng tm
kim thng tin phc v cho nhu cu tm kim.
Mc d T(D) biu din ni dung ca ti liu D nhng khng phi bt
c t no c trong D u xut hin trong T(D) m ch c nhng t c trng
lng (c ngha quan trng trong ti liu D) mi c lp ch mc cho D.
Sau y ta xt mt s hm tnh trng s ca mc t:
32

3.3.1. Tn s ti liu nghch o (Inverse Document Frequency)

y l phng php tnh trng s m m hnh khng gian vector s dng


tnh trng s ca t trong ti liu.
N: s t phn bit trng tp ti liu
FREQik: s ln xut hin ca t k trong ti liu Di (tn s t)
DOCFERQk: s ti liu c cha t k
Khi trng s ca t k trong ti liu Di c tnh nh sau:
WEIGHTik = FREQik [log 2 (n) - log 2 (DOCFREQk )]
Trng s ca t k trong ti liu Di tng nu tn s xut hin ca t k trong ti
liu i tng v gim nu tng s ti liu c cha t k tng.

3.3.2. nhiu tn hiu (The Signal Noise Ratio)

Trng s ca t c o lng bng s tp trung hay phn tn ca t.


V d t hardware xut hin 1000 ln nhng trong 200 ti liu (tp trung)
th c trng lng cao hn t computer cng xut hin 1000 ln nhng
trong 800 ti liu.
Mt quan im tng t c xem xt l da vo thng tin nh
gi tm quan trng ca t. Trong thc t, ni dung thng tin ca mt on hay
mt t c th xc nh da vo xc sut xut hin ca cc t trong vn bn
cho. R rng, xc sut xut hin ca mt t cng cao th thng tin m n cha
cng t.
Ni dung thng tin ca mt t c xc nh nh sau:
INFORMATION = - Log2 p,
trong p l xc sut xut hin ca t.
V d: nu t vi tnh xut hin 1 ln sau 10000 t, xc sut xut hin ca n
l 0.0001, khi thng tin ca n s l:
33

INFORMATION = - Log2 (0.0001) = 13.278


Ngc li, t s xut hin 1 ln sau 10 t, xc sut xut hin ca n l 0.1,
khi thng tin ca n s l:
INFORMATION = - Log2 (0.1) = 3.223
Nu mt ti liu c cha t t, mi t c xc sut xut hin l pk, thng tin
trung bnh ca ti liu s l:
t
AVERAGE INFORMATION = p k log 2 p k
k =1

Ta nh ngha nhiu NOISEk ca t k trong tp ti liu nh sau:


n
FREG ik TOTFREQ k
NOISE k = log 2
i = 1 TOTFREQ k FREG ik

nhiu thay i nghch o vi s tp trung ca mt t trong tp ti liu.


Ngha l, nu mt t c phn phi u trong tt c cc ti liu th nhiu
ca n cng ln. Ngc li, nu mt t ch tp trung trong mt s ti liu no
th nhiu cng nh.
Gi s, t k xut hin mt ln trong mi ti liu (FREQik = 1), khi
nhiu ca n bng:
n
1 n
NOISE k = log 2 = log 2 n
i =1 n 1

Ngc li, gi s k ch xut hin trong mt ti liu, khi nhiu ca n


bng:
n
TOTFREQk TOTFREQk
NOISE k = log 2 =0
i = 1 TOTFREQ k TOTFREQk

Hm s nghch o ca nhiu, gi l signal, c tnh nh sau:


SIGNAL k = log 2 (TOTFREQ k ) NOISE k

Trng s ca t k trong ti liu i c tnh bng cch kt hp gia FREQik v


SIGNALk:
34

WEIGHTik = FREQ ik SIGNAL k

3.3.3. Gi tr phn bit ca mc t (Term Discrimination Value)

R rng l kt qu tm kim tr ln khng c gi tr khi tr v tp tt c


cc ti liu c trong tp hp (ngha l tp ch mc ca cc ti liu cha nhiu
t ging nhau). phn bit ca mc t l gi tr phn bit mc tng
ng gia cc ti liu. Nu mt mc t c trong ch mc m lm cho
tng t ca cc ti liu cao th n c phn bit km (ngha l t ny
thng xuyn xut hin trong cc ti liu) v ngc li. Nh vy, cc mc t
c phn bit cao nn c chn lp ch mc. Thc cht, vic s dng
phn bit ny cng cho kt qu tng ng vi vic s dng tn s
nghch o v t l tn hiu nhiu.
Mt chc nng khc xc nh tm quan trng ca mt t l tnh gi
tr phn bit ca t . Gi SIMILAR(Di, Dj) l tng quan gia cp ti
liu Di, Dj. Khi , tng quan trung bnh ca tp ti liu l:
n n
AVGSIM = CONSTANT i j SIMILAR(Di , D j )
i =1 j =1

Gi AVGSIMk l tng quan trung bnh ca tp ti liu khi b t k.


R rng, nu t k xut hin thng xuyn trong tp ti liu th khi b t k,
tng quan trung bnh s gim. Ngc li, nu t k ch tp trung trong mt s
ti liu, khi b t k, tng quan trung bnh s tng ln.
Gi tr phn bit DISVALUEk ca t k c tnh nh sau:
DISCVALUEk = (AVGSIM)k AVGSIM
Trng s ca t k trong ti liu thng tin c tnh bng cch kt hp gia
FREQik v DISCVALUEk:
WEIGHTik = FREQ ik DISCVALUEk
35

Php tnh DISCVALUEk cho tt c nhng mc t k, nhng mc t c


th c xp theo th t gim ca gi tr phn bit DISCVALUEk. Nhng
mc t ch mc c th thuc mt trong ba nhm da theo gi tr phn bit
ca chng nh sau:
phn bit tt i vi DISCVALUEk dng, nhng mc t c
phn bit cao.
i vi DISCVALUEk gn bng 0, phn bit gia cc ti liu
khng khc nhau khi thm vo hay bt i nhng mc t .
phn bit yu khi DISCVALUEk m, nhng mc t c phn
bit thp ( tng t cao).

3.4. Lp ch mc cho ti liu ting Anh

Mt qu trnh n gin lp ch mc cho ti liu c th c m t


nh sau:
Trc ht, xc nh tt c cc t to thnh ti liu. Trong ting Anh, ch
n gin l tch t da vo khong trng.
Loi b cc t c tn s xut hin cao. Nhng t ny chim khong 40-
50% cc t, nh cp trc y, chng c phn bit km do
khng th s dng i din cho ni dung ca ti liu. Trong ting
Anh, cc t ny c khong 250 t, do , n gin c th lu chng
vo t in gi l Stop List.
Sau khi loi b cc t c trong Stop List, xc nh cc t ch mc tt.
Trc ht cn loi b cc hu t a v t gc, v d cc t nh:
analysis, analyzing, analyzer, analyzed, analysing c th chuyn v t
gc l analy. T gc s c tn s xut hin cao hn so vi cc dng
thng thng ca n. Nu s dng t gc lm ch mc, ta c th thu
c nhiu ti liu lin quan hn l s dng t ban u ca n.
36

i vi ting Anh, vic loi b hu t c th c thc hin d dng


bng cch s dng danh sch cc hu t c sn (Suffix List).
Sau khi c c danh sch cc t gc, s dng phng php da vo
tn s (frequency based) xc nh tm quan trng ca cc t gc ny.
Chng ta c th s dng mt trong cc phng php c cp trn
nh: tn s ti liu nghch o (Inverse Document Frequency), nhiu tn
hiu (SIGNALk), phn bit t (DISCVALUEk).
Trong h thng ch mc c trng s, trng s ca mt t c s dng
xc nh tm quan trng ca t . Mi ti liu c biu din l mt
vector: Di = (di1, di2,, din) trong dij l trng s ca t j trong ti liu Di.
Gi s c 1033 ti liu ni v y hc. Qu trnh lp ch mc n gin
c thc hin theo hnh 3.3 (trong ch loi b hu t tn cng l s).
Qu trnh stemming: Trong qu trnh lp ch mc Ting Anh, Stemming l
qu trnh lc b cc suffix (phn hu t/tip v ng) ca cc t. Vic nm
lm tng gi tr recall ca chng trnh, lm cu trc cy t in chnh xc v
gn nh hn, ng nhin hiu qu truy vn cng cao hn.
V d: studies, studying, studied l cc bin th khc nhau ca t gc study,
nu khng c giai an stemming ny th tt c cc t ny u c lp ch
mc v b sung vo cy t in nu n cha c. R rng iu ny l khuyt
im ln ca chng trnh.
C nhiu thut ton ph bin cho vic loi b phn ui ca mt t ting
Anh, thng thng u da vo danh sch cc hu t i chiu.
37

Xc nh tt c cc t phn bit 13.471 t


trong tp hp gm 1033 ti liu

Loi b 170 t c trong Stop List 13.301 t

Loi b cc t c tng tn s xut


hin TOTFREQk bng 1 (ngha l 7.236 t
cc t ch xut hin trong mt ti
liu vi tn s l 1)

Loi b cc t tn cng l s
6.056 t

Loi b 30 t c tn s xut hin 6.026 t


cao

Loi b 255 t c gi tr phn bit 5.771 t


t km

Cc t chn lm ch mc

Hnh 3.3: Qu trnh chn t lm ch mc

3.5. Lp ch mc cho ti liu ting Vit

Lp ch mc cho ti liu ting Vit cng tng t nh cho ting Anh.


Tuy nhin c vi im khc bit sau:
38

Giai on tch t trong ting Anh ch n gin da vo khong trng,


cn ting Vit l ngn ng n lp, mt t c th c nhiu ting. Gi s
sau giai on tch t, ta s thu c mt danh sch cc t ring bit.
i vi ting Vit, khng phi qua giai on loi b hu t.
Lp ch mc cho ti liu ting Vit gm cc bc sau:
Xc nh cc t ring bit trong ti liu
Loi b cc t c tn s cao (Trong ting Vit, cng nh ting Anh, ta
c mt danh sch Stop List cha nhng t khng th l ni dung ca
vn bn nh: v, vi, nhng, g, sao, no,).
Loi b cc t c trng s thp
Cc t thu c s c chn lm cc t ch mc.

3.5.1. Kh khn cho vic lp ch mc ting Vit

Cc im kh khn khi thc hin qu trnh lp ch mc cho ti liu


ting Vit so vi ti liu ting Anh cn phi gii quyt :

Xc nh ranh gii gia cc t trong cu. i vi ting Anh iu


ny qu d dng v khong trng chnh l ranh gii phn bit cc t
ngc li ting Vit th khong trng khng phi l ranh gii xc
nh cc t m ch l ranh gii xc nh cc ting.

Chnh t ting Vit cn mt s im cha thng nht nh s dng


y hay i ( v d qu hay qu ), cch b du ( lng hay
lng ), cch vit hoa tn ring( Khoa hc T nhin hay Khoa
Hc T Nhin)... i hi qu trnh hiu chnh chnh t cho vn bn
cn lp ch mc v cho t in ch mc.
39

Tn ti nhiu bng m ting Vit i hi kh nng x l ti liu


cc bng m khc nhau. Cch gii quyt l a tt c v bng m
chun ca h thng.

S phong ph v ngha ca mt t (t a ngha). Mt t c th c


nhiu ngha khc nhau trong nhng ng cnh khc nhau nn vic tm
kim kh c c kt qu vi chnh xc cao.

T ng ngha hoc t gn ngha: c nhiu t khc nhau nhng li


c cng ngha. Do , vic tm kim theo t kho thng khng
tm thy cc websites cha t ng ngha hoc gn ngha vi t cn
tm. V vy, vic tm kim cho ra kt qu khng y .

C qu nhiu t m mt xut hin cao nhng khng mang ngha


c th no m ch l nhng t ni, t m hoc ch mang sc thi
biu cm nh nhng t ly. Nhng t ny cn phi c xc nh v
loi b ra khi tp cc mc t. N ging nh stop-word trong ting
Anh.

Cc vn bn c ni dung chnh l mt vn c th, mt ti


nghin cu khoa hc nhng i khi trng s ca cc t chuyn mn
ny thp so vi ton tp ti liu. V vy, mt s thut ton tnh trng
s b st nhng trng hp nh vy. Kt qu l cc t chuyn mn
khng c lp ch mc.

Trong cc vn trn, vic xc nh ranh gii t trong cu l quan


trng nht v n nh hng ln n hiu qu ca qu trnh lp ch mc (nu
qu trnh tch t sai c ngha l ni dung ca cu b phn tch sai) v
cng l vn kh khn nht. Cc vn cn li ch l thun tu v mt k
thut m hu nh chng ta c th gii quyt mt cch trit .
40

3.5.2. c im v t trong ting Vit

Ting Vit l ngn ng n lp. c im ny bao qut ting Vit c


v mt ng m, ng ngha, ng php. Khc vi cc ngn ng n-u, mi t
l mt nhm cc k t c ngha c cch nhau bi mt khong trng. Cn
ting Vit v cc ngn ng n lp khc, th khong trng khng phi l cn
c nhn din t.

Ting:

Trong ting Vit trc ht cn ch n n v xa nay vn quan


gi l ting. V mt ng ngha, ng m, ng php u c gi tr quan trng.

S dng ting to t c hai trng hp:

9 Trng hp mt ting: y l trng hp mt ting c


dng lm mt t, gi l t n. Tuy nhin khng phi ting no
cng to thnh mt t.

9 Trng hp hai ting tr ln: y l trng hp hai hay nhiu


ting kt hp vi nhau, c khi kt hp vi nhau gn b tng i
cht ch, mi c t cch ng php l mt t. y l trng hp t
ghp hay t phc.

T:

C rt nhiu quan nim v t trong ting Vit, t nhiu quan nim v t


ting Vit khc nhau chng ta c th thy c trng c bn ca t l s
hon chnh v mt ni dung, t l n v nh nht t cu.
41

Ngi ta dng t kt hp thnh cu ch khng phi dng ting do


qu trnh lp ch mc bng cch tch cu thnh cc t cho kt qua tt
hn l tch cu bng ting.

3.5.3. Vic tch t

Vic xc nh t trong ting Vit l rt kh v tn nhiu chi ph. Do ,


cch n gin nht l s dng t in c lp sn. Tch ti liu thnh cc
t, loi b cc t ly, t ni, t m, cc t khng quan trng trong ti liu.
Mt cu gm nhiu t ghp li. Tuy nhin, trong mt cu c th c nhiu cch
phn tch t khc nhau.

V d : xt cu Tc truyn thng tin s tng cao c th phn tch


t theo cc cch sau:

Tc / truyn/ thng tin / s / tng cao.


Tc / truyn thng / tin / s / tng cao.

Hin c nhiu gii php cho vn ny vi kt qu thu c rt cao.


Tuy nhin thi gian, chi ph tnh ton, x l ln khng thch hp cho vic lp
ch mc cho h thng tm kim thng tin v s lng ti liu phi x l l rt
ln.

Cch gii quyt: lp ch mc cho cc t c th c trong mt ti liu.


V d cu trn ta nn lp xem xt cc t : tc , truyn, truyn thng, thng
tin, tin, s, tng cao.

Sau s dng ngng chn loi b cc t, gi s t truyn


thng khng phi l mt t xut hin tht s trong ti liu (ch c c do s
kt hp ngu nhin t truyn v thng tin) th xc sut xut hin ca t
ny trong ti liu s khng cao nn khi tnh ton trng lng th t ny s b
42

loi b. Mt t trong ting Vit l s kt hp ca hai hay nhiu ting. Phng


php xc nh mt t c ghp li thng qua nhiu ting da trn vic xem
xt gn kt (cohesion) gia chng:

Cohension(nij) = size_factor*pair_freqij/(ni*nj)

Trong :
size_factor: kch thc tp ch mc
pair_freqij : tn s xut hin t
ni, nj : tn s xut hin ting i, j

Hai ting c kh nng to thnh mt t cao khi chng thng xut hin
chung vi nhau, ngha l cohension ca chng cao.

Phng php ny khng tch t chnh xc hon ton nhng c th chp


nhn trong h thng tm kim thng tin v trong qu trnh lp ch mc ch cn
xc nh ng cc t c trng lng cao, trong trng hp vic tch t l
sai th t sai ch c lp ch mc khi n c trng lng cao, vic lp ch
mc mt t sai s lm tng chi ph lu tr nhng khng nh hng ln
tnh chnh xc kt qu tm kim v d sao t ny cng c trng lng ln.

Cn trong trng hp mt t ghp c tch thnh nhiu t n v d


t thng tin khi c lp ch mc s lun c 3 t thng, tin, thng
tin. iu ny gy nh hng n tnh chnh xc ca vic lp ch mc v thc
s cc t thng, tin khng cn thit lp ch mc. Ta gii quyt vn ny
bng cch nu t thng tin c lp ch mc th khi s ln xut hin ca
cc t thng v tin s c tnh ton li bng cch tr i cc trng hp
xut hin trong t thng tin tnh ton trng lng cho cc t n.
Nu t n tin ch lun xut hin trong t thng tin th s ln xut hin
43

ca t tin v thng tin l bng nhau nn khi lp ch mc cho t thng


tin th s ln xut hin ring ca t n tin s bng 0 nn khng c lp
ch mc.

3.6. Lp ch mc t ng cho ti liu

Vn chnh ca lp ch mc t ng l xc nh t ng mc t ch
mc cho cc ti liu. Trong cc ngn ng gc n u th tch t c th ni
l n gin v khong trng l k t phn bit t. Vn cn quan tm l
xc nh nhng t ny l t kho, c th i din cho ton b ni dung ca ti
liu. Loi b cc t stop-word c tn s xut hin cao, nhng t ny thng
chim n 40-50% trong s cc t ca mt vn bn. Nhng t ny c phn
bit km v khng th s dng xc nh ni dung ca ti liu. Trong ting
Anh, c khong 250 t. S lng t ny khng nhiu lm nn gii php n
gin nht l lu cc t ny vo trong mt t in, v sau ch cn thc hin
so snh t cn phn tch vi t in loi b.
Bc tip theo l nhn ra cc ch mc tt. gim bt dung lng lu
tr, cc mc t cn c bin i v nguyn gc (step of stemming i vi
ting Anh), phi loi b i cc tin t, hu t, cc bin th s nhiu, qu
khGii php l s dng mt danh sch cc hu t. Trong khi loi b hu t
th nhng hu t di c u tin loi b trc, ri sau mi loi b nhng
hu t ngn hn. Sau y l mt s vn khi loi b trong ting Anh:
1. Ch r chiu di ti thiu ca mt t gc sau khi loi b hu t. V
d: vic loi b hu t ability ra khi computability hay loi b
ing ra khi singing l hp l. Tuy nhin, nhng hu t khng
cn phi loi b trong cc t ability v sing.
2. Nu nhiu hu t c kt hp vo mt gc th ta s p dng quy
cho qu trnh loi b hu t vi ln hoc lp t in hu t ri loi b
44

nhng hu t di hn trc ri n cc hu t ngn sau. V d:


effectiveness effective effect.
3. Trong ting Anh, t gc c th b bin i sau khi loi b hu t.
Do , ta cn phi c nhng lut nht nh phc hi t gc. Chng
hn loi b mt trong hai k t trng nhau ca nhng t c s xut hin
b, d, d, l, m, n, p, r, s, t cui ca cc t gc sau khi loi b hu t.
V du nh beginning beginn begin.
4. Mt s ngoi l ph thuc vo ng cnh c bit phi c ch , s
dng cc quy tc cm ng cnh. V d: mt quy tc cho hu t allic
ch r chiu di cc tiu ca t gc l ba v khng loi b hu t sau
met hoc ryst, hoc quy tc ch loi b hu t yl sau n hoc
r.
Tm li, gii quyt vn hu t khng qu kh nu chng ta c sn mt
danh sch cha cc hu t, mt danh sch cha cc lut thm cc hu t v
phc hi t gc sau khi thm hu t.

3.7. Tp tin nghch o ti liu

3.7.1. Tp tin nghch o


Gi s cu truy vn ca ngi s dng sau khi lp ch mc l mt tp
cc mc t { t1, t2, .., tn}. V d: truy vn cng ngh phn mm s c lp
ch mc gm hai t cng ngh v phn mm vi gi tr n thng khng
ln ( 2, 3, 4..).

Yu cu ca ngi s dng l mong mun tm kim cc ti liu c cha


tt c cc mc t t1, t2,..., tn. Nh th ta khng cn kho st tt c cc vector
ch mc m ch cn tm cc vector no c cha t1, t2, ..., tn. iu ny c th
thc hin d dng bng cch lu cc nhm vector (ti liu) theo tng mc t.
45

t1 : 1, 3, 4

t2 : 1, 2, 4, 5

t3 : 2, 4, 5

Ngha l:

Mc t t1 c trong cc ti liu 1, 3, 4.

Mc t t2 c trong cc ti liu 1,2,4,5

Mc t t3 c trong cc ti liu 2, 4, 5

Khi qu trnh tm kim (t1, t3) s c thc hin theo cc bc sau:

Tm tp cc ti liu c cha t1, gi l T1={1,3,4}

Tm tp ti liu c cha t3, gi l T2={2,4,5}

Tp cc ti liu c cha c t1 v t3 l T=T1 T2={4}

Tnh ton tng t gia cu truy vn v cc ti liu c trong tp T

S dng cng thc tnh tng t :

Sim(D, Q) = vi*wi, i=1..n

vi ti l mc t c trong Q

(do wi=0 vi mc t ti khng c trong Q v wi =1 nu ti c trong Q)

R rng vic tnh tng t ch cn ti trng lng ca cc mc t c


trong Q nn c th tng thm hiu qu ta s lu thm gi tr trng lng
ca mc t trong tp tin nghch o.

t1 : (1, 0.5) (3, 0.7) (4, 0.2)

t2 : (1, 0.4) (2, 0.8) (4, 0.9) (5, 0.1)

t3 : (2, 0.3) (4, 0.2) (5, 0.5)


46

Ngha l mc t t1 c trong ti liu 1 vi trng lng l 0.5, trong ti


liu 3 vi trng lng l 0.7 v...v...

Khi tm kim cho cu truy vn (t1, t3) ch cn c 2 khi d liu


ca t1 v t3 l (gim truy xut a v gim thi gian x l).

M hnh tp tin nghch o hin nay c s dng rt rng ri


trong cc h thng tm kim thng tin v vi cch t chc ny v cc d liu
cn c c lu tr lin tc nn gim vic di chuyn u c ca a cng,
cng nh nu ta lu li v tr bt u ca cc mc t th c th truy xut trc
tip n v tr c d liu.

Kh khn: ca vic s dng tp tin nghch o l khi cn thm mt ti


liu vo mc t, gi s cn thm ti liu 6 vo mc t t1.

t1 : 1,3,4,6

t2 : 1,2,4,5

t3 : 2,4,5

Vi ch rng cc khi d liu ca t1, t2, t3 c lu tr lin tip nhau


trn a cng v dung lng ca tp tin nghch o ny rt ln (cha hng
trm ngn mc t vi hng triu ti liu), hn na vic thm ti liu ny rt
thng xuyn (lp ch mc cho cc Web site mi, cp nht li cc Web site c
thay i) cho nn khng th s dng phng php chn bng cch di d liu
ra sau to khong trng chn ti liu 6 vo.

Cch gii quyt: cp pht khng gian cho cc mc t theo trang, khi
mt mc t cha ht trang ny th s cp pht thm vo cui tp tin v c
mt link ch n trang cui ny.
47

t1 134

t2 124

t3 125

Phng php ny mc d lng ph khng gian cho cc trang cha dng


n, gi s c 100.000 mc t, trang dung lng l 1K, dung lng a lng
ph ln nht l 100.000 K (100 M) v phi di chuyn u c nhiu nhng
gii quyt c vn thm ti liu cng nh d dng c c d liu cn
thit cho mt mc t no (c theo cc link). C th iu chnh gia dung
lng lng ph v vic phi di chuyn u c (tnh bng s trang cp pht
cho mt mc t) bng cch tng hoc gim dung lng cp pht cho mt
trang. Nu tng dung lng cp pht cho mt trang th s gim vic di chuyn
u c v ngc li.

3.7.2. Phn bit gia tp tin nghch o v tp tin trc tip

Tp tin trc tip (Direct File) l tp tin m chnh cc mc thng tin


cung cp th t chnh ca tp tin.
Ngc li, tp tin nghch o (Inverted File) c sp xp theo ch ,
mi ch li bao gm mt tp cc mc thng tin.
Gi s c mt tp cc ti liu, mi ti liu cha danh sch cc t. Nu
mt t xut hin trong mt ti liu, ghi s 1. Ngc li, ghi 0. Khi , tp tin
trc tip v tp tin nghch o s lu tr nh sau:
48

Bng 3.1: Cch tp tin nghch o lu tr


Ti liu 1 Ti liu 2 Ti liu 3
T 1 1 0 1
T 2 1 1 0
T 3 0 1 1
T 4 1 1 1
Bng 3.2: Cch tp tin trc tip lu tr
T 1 T 2 T 3 T 4
Ti liu 1 1 1 0 1
Ti liu 2 0 1 1 1
Ti liu 3 1 0 1 1

3.7.3. Ti sao s dng tp tin nghch o lp ch mc


Trong h thng truy xut thng tin, tp tin nghch o c ngha rt
ln, gip vic truy cp n cc mc thng tin c nhanh chng. Gi s khi
ngi dng nhp mt cu truy vn, h thng s tch thnh 2 t l t 1 v
t 2. Da vo tp tin nghch o, ta d dng xc nh c cc ti liu c
lin quan n hai t ny tr v cho ngi tm kim. Tuy nhin, kh khn
chnh ca tp tin nghch o l khi thm mt ti liu mi, tt c cc t c lin
quan n ti liu ny u phi c cp nht li. V d khi thm ti liu 4 c
cha 2 t t 3 v t 4 vo tp tin nghch o:
Bng 3.3 Thm mt ti liu mi vo tp tin nghch o
Ti liu 1 Ti liu 2 Ti liu 3 Ti liu 4
T 1 1 0 1 0
T 2 1 1 0 0
T 3 0 1 1 1
T 4 1 1 1 1
49

R rng vic ny tn mt chi ph ln nu tp tin nghch o rt ln. Trong


thc t, tp tin nghch o ti liu c th cha hng trm ngn t. Tuy nhin,
trong cc h thng truy xut thng tin, ngi ta ch cp nht li tp tin ti mt
khong thi gian nht nh k. V vy, tp tin nghch o vn c s dng
lp ch mc.
50

Chng 4: TRUY XUT THNG TIN A PHNG


TIN

4.1. Truy xut thng tin a phng tin

Truy xut thng tin truyn thng tp trung vo vo tm kim thng tin
dng vn bn (Text Retrieval) hay ti liu vn bn (Document Retrieval).
Trong mt thi gian di, truy xut thng tin gn nh ng ngha vi tm kim
ti liu hay tm kim vn bn. Trong thi gian gn y, cc vin cnh ng
dng mi nh ng dng tr li cu hi (question answering), ng dng nhn
dng ch (Topic detection), hay ng dng lu vt (tracking) tr thnh cc
lnh vc hot ng mnh m trong nghin cu truy xut thng tin.
Mt lnh vc pht trin khc m cc k thut truy xut thng tin ang
k tc v pht huy, l truy xut thng tin khng vn bn hay cn gi l truy
xut thng tin a phng tin. Loi hnh tm kim ny s da trn rt trch t
ng cc phn vn bn hay li ni ca cc ti liu a phng tin, sau
c x l bi cc k thut truy xut thng tin da vn bn (text-based IR
Techniques). Tuy nhin, ngi ta ngy cng quan tm n s pht trin cc k
thut phi by c th thng tin a phng tin truyn thng ri tch hp
chng vi cc phng php tm kim c thit lp.
nh ngha: Truy xut thng tin a phng tin l qu trnh lm tha
mn cc thng tin m ngi dng yu cu bi vic ch ra tt c cc vn bn,
ha, audio (li ni lin tc, cc hnh nh hoc cc ti liu video c lin
quan) hoc v tr ca cc ti liu t mt kho ti liu.
51

4.2. Truy xut audio ngn ng ni

Mt ngi dng c th mun tm kim trong mt kho d liu vn


bn ln, kh nng tm kim ni dung ca cc ngun audio chng hn nh
li ni, radio qung b v cc on hi thoi c th nh gi cho mt phm vi
cc ng dng. Mt s phn loi cc k thut c pht trin h tr cho vic
nhn dng t ng li ni. C nhiu ng dng trong mt phm vi cc lnh vc
ng dng chng hn nh xc minh ngi ni, transcription, iu khin bng
li ni,

4.3. Truy xut audio

Thm vo truy cp da ni dung ti m thanh li ni, truy xut


nhiu/ting ng cng quan trng trong cc lnh vc sn xut m nhc v
phim/video/. Mt h thng m t mt s phn loi ting ng user-
extensible v h thng truy xut, c gi l Sound Fisher
(www.musclefish.com), n c a ra t mt s mn hc bao gm x l tn
hiu, Psychoacoustics, nhn dng ting ni, m nhc my tnh v cc c s d
liu a phng tin. Cc thut ton nh ch mc hnh nh s dng cc vector
c trng to ch mc v i snh cc nh, tc gi s dng mt vector
o c trc tip cc c trng m hc (nh khong thi gian, loudness,
pitch, sng-brightness) lp ch mc cc m thanh. iu ny lm cho
ngi s dng c th tm kim cc m thanh trong cc phm vi c trng
c ch r.

4.4. Truy xut ho

Lp phng tin quan trng khc l ho, bao gm cc bng v cc


th (v d th ct, thanh, line, hnh trn, scatter,). th c to
52

thnh t cc thnh phn d liu chng hn nh cc im, dng, nhn. Mt v


d v mt h thng truy xut ho l Sagebook c a ra bi trng i
hc Carnegie Mellon. Sagebook, c th bao gm c tm kim theo yu cu t
cc d liu ho c lu tr. Ta c th yu cu mt truy vn audio trong
truy xut audio. Sagebook h tr cc truy vn d liu ho, vic biu din
(v d m t ni dung), nh ch s, tm kim v cc kh nng thch ng.
Thm vo , cc d liu ho c truy xut c th c sa li cho
thch hp bng tay. Sagebook cha mt s biu din bn trong v ng ngha
v c php ca cc d liu ho, bao gm cc quan h khng gian gia cc
i tng, mi quan h gia cc min d liu (v d interval, ta 2 chiu),
cc th bin thin v cc thuc tnh d liu. Tm kim c thc hin trong
c cc th v cc thuc tnh ca d liu, vi 3 v 4 chin lc tm kim
lun phin, theo th t nh sn c th bin i mc ca s i snh.
Khi cc b su tp hnh nh vn bn ln, c mt s cc k thut nhm cc d
liu ho da vo cc thuc tnh d liu v th c thit k c th
phn cm cho vic trnh duyt cc b su tp.
Sagebook cng cung cp cc k thut thch ng t ng m c th sa
i cc th c truy xut (v d vic loi b cc thnh phn th) m
khng ph hp vi truy vn ch ra.
Kh nng truy xut cc th bi ni dung c th a ra cc kh nng
mi trong mt phm vi cc min da vo cc th thng mi. Chng hn,
cc th hin th mt quy tc chim u th hn (predominant) trong cc
min chng hn nh nghin cu bn (a hnh, cc c trng), kin trc
(bn thit k nh), truyn thng v mng (cc router v cc lin kt), cc h
thng my mc (cc thnh phn v cc kt ni) v cc k hoch vn ng cho
lc lng v trang (v d: nh hng v s phng th che ph trn cc bn
). Trong mi trng hp ca cc trng hp cc thnh phn ca th,
53

cc thuc tnh ca chng, cc quan h v cu trc c th c phn tch cho


mc ch truy xut d liu.

4.5. Truy xut nh

Cc cun sch tng nhiu hnh nh - t hnh nh trong cc trang web ti


cc b su tp c nhn t cc my nh s - c leo thang cc yu cu truy
nhp hnh nh hiu qu v hiu sut cao hn. Cc nh nghin cu ch r
cc yu cu cho vic lp ch mc v tm kim khng ch metadata kt hp vi
cc hnh nh (v d: cc tn, cc ch gii) m cn truy xut trc tip trong c
ni dung ca cc hnh nh. S pht trin ca cc thut ton ang tp trung vo
vic lp ch mc t ng cho cc c trng visual ca hnh nh (v d: mu,
vn, hnh dng) c th c s dng nh cc ngha cho vic truy xut cc
hnh nh trong ch lp ch mc th cng. Tuy nhin, mc tiu cui cng l
da vo ng ngha truy nhp vo hnh nh.
Ly thng tin t d liu nh c lin quan n rt nhiu cc lnh vc
khc, t nhng phng trng by tranh ngh thut cho ti nhng ni lu tr
tranh ngh thut ln nh vin bo tng, kho lu tr nh chp, kho lu tr
nh ti phm, c s d liu nh v a l, y hc, ... iu lm cho lnh
vc nghin cu ny pht trin nhanh nht trong cng ngh thng tin.
Ly thng tin t d liu nh t ra nhiu thch thc nghin cu mi
cho cc khoa hc gia v cc k s. Phn tch nh, x l nh, nhn dng
mu, giao tip gia ngi v my l nhng lnh vc nghin cu quan trng
gp phn vo phm vi nghin cu mi ny.
Kha cnh tiu biu ca ly thng tin t d liu nh da trn nhng
cng b c sn nh l nhng i tng nhn thc nh mu sc, vn
(texture), hnh dng, cu trc, quan h khng gian, hay thuc v ng ngha
cn bn nh: i tng, vai tr hay s kin hay lin quan n thng tin v
54

ng ngha quan h nh cm gic, cm xc, ngha ca nh. Tht ra phn tch


nh, nhn dng mu, hay x l nh ng mt vai tr cn bn trong h thng
ly thng tin t nh. Chng cho php s trch rt t ng hu ht nhng
thng tin v nhn thc, thng qua phn tch s phn b im nh v s
phn tch o.

4.5.1. Truy xut nh da vo mu sc

Mu sc l vn cn tp chung gii quyt nhiu nht, v mt nh mu


th thng tin quan trng nht trong nh chnh l mu sc. Hn na thng tin
v mu sc l thng tin ngi dng quan tm nht; qua c trng mu sc, c
th lc c rt nhiu lp nh, thng qua v tr, khng gian, nh lng ca
mu trong nh.
Phng php ph bin tm kim nh trong mt tp nhng nh hn
tp cho trc l da vo lt mu ca chng. y l cch lm kh n
gin, tc tm kim tng i nhanh nhng khuyt im l kt qu tm
kim li c chnh xc khng cao. Nhng y c th c xem nh l
bc lc u tin cho nhng tm kim sau. Mun c kt qu chnh xc
cao i hi s kt hp ng thi vi vn (texture) v hnh dng (shape). Cho
n nay, gii quyt vn v mu sc, cch tip cn chnh vn l da vo
lt mu.

4.5.2. Truy xut nh da vo vn


Vn (texture), n ny vn cha c mt nh ngha chnh xc c th v
vn, l mt i tng dng phn hoch nh ra thnh nhng vng c
quan tm v phn lp nhng vng . Vn cung cp thng tin v s sp
xp v mt khng gian ca mu sc v cng ca mt nh. Vn c c
trng bi s phn b khng gian ca nhng mc cng trong mt khu vc
55

lng ging vi nhau. Vn ca nh mu v vn i vi nh xm l nh nhau.


Vn gm nhiu vn gc hay vn phn t gp li, i khi c gi l texel.
C nhng lp nh m mu sc khng th gii quyt c, i hi phi
dng c trng vn. V d nh nhng nh lin quan n cu trc ca im
nh nh: c, my, , si. Vn s gii quyt tt cho vic tm kim i vi lp
nh ny.
Trong hu ht cc trng hp, phn on nhng nh tht ra nhng
texel kh hn nhiu i vi trng hp t nhin sinh ra nhng hoa vn thin
nhin.
Thay v vy, vic nh lng v s hay thng tin thng k bng s m
t cho mt vn c th c tnh t chnh mc xc, hay mc mu ca chng.
Tuy cch tip cn ny t trc quan nhng n c hiu sut tnh ton cao, hn
na cch tip cn ny cng ph hp vi ng thi cho vic phn on vn
v phn loi vn.

4.5.3. Truy xut nh da vo hnh dng


Mu sc v vn l nhng thuc tnh c khi nim ton cc ca mt
bc nh. Trong khi , hnh dng khng phi l mt thuc tnh ca nh.
Thay v vy, hnh dng c khuynh hng ch nh ti mt khu vc c bit
ca nh. Hay hnh dng ch l bin ca i tng no trong nh
i vi nhng lp nh cn tm m lin quan n hnh dng ca i
tng th c trng vn v mu khng th gii quyt c. V d nh tm
mt vt c hnh dng ellipse hay hnh trn trong nh.
Tm kim theo hnh dng tht s l mt ci ch ca h thng tm
kim da vo ni dung mun t ti.
Hnh dng l mt cp cao hn mu sc v vn. N i hi s phn
bit gia cc vng tin hnh x l v o ca hnh dng. Trong nhiu
56

trng hp, s phn bit ny cn thit phi lm bng tay. Nhng s t


ng ha trong mt s trng hp c th kh thi. Trong , vn chnh
yu nht l qu trnh phn on nh. Nu qu trnh phn on nh c lm
mt cch chnh xc, r rng v nht l hiu qu th s tm kim thng tin
da vo hnh dng c th c hiu lc rt ln.
Nhn dng nh hai chiu l mt kha cnh quan trng ca qu trnh
phn tch nh. Tnh cht hnh dng ton cc m ch n hnh dng nh
mc ton cc. Hai hnh dng c th c so snh vi nhau theo tnh cht
ton cc bi nhng phng php nhn dng theo hoa vn, mu v. S so
khp hnh dng nh cng c th dng nhng k thut v cu trc, trong
mt nh c m t bi nhng thnh phn chnh ca n v quan h khng
gian ca chng. V s hin th nh l mt qu trnh lin quan n th,
do nhng phng php so khp v th c th c dng cho vic so
snh hay so khp. S so khp v th rt chnh xc, v n da trn
nhng quan h khng gian hu nh bt bin trong ton th cc php bin
i hai chiu. Tuy nhin, qu trnh so khp v th din ra rt chm,
thi gian tnh ton tng theo cp s m tng ng vi s lng cc phn
t. Trong vic tm kim d liu nh da vo ni dung, ta cn nhng
phng php c th quyt nh s ging v khc nhau mt cch nhanh
chng. Thng thng, chng ta lun i hi s bt bin c i vi kch
thc ca nh cng nh hng ca nh trong khng gian. V vy, mt i
tng c th c xc nh trong mt s hng. Tuy nhin, tnh cht ny
khng thng c yu cu trong tm kim nh. Trong rt nhiu cnh vt,
hng ca i tng thng l khng i. V d nh: cy ci, nh ca, ...
o v hnh dng rt nhiu trong phm vi l thuyt ca b mn x
l nh. Chng tri rng t nhng o ton cc dng th vi s tr gip ca
vic nhn dng i tng, cho ti nhng o chi tit t ng tm kim
57

nhng hnh dng c bit. Lt hnh dng l mt v d ca o n


gin, n ch c th loi tr nhng i tng hnh dng khng th so khp,
nhng iu s mang li khng nh sai, v ch nh l vic lm ca lt
mu. K thut dng ng bin th c hiu hn phng php trc, chng
lm vic vi s hin hu ca ng bin ca hnh dng i tng v ng
thi cng tm kim nhng hnh dng i tng gn ging vi ng bin
nht. Phng php v phc ha c th l phng php c nhiu c trng r
rng hn, khng ch tm kim nhng ng bin i tng n, m cn i
vi tp nhng i tng c phn on trong mt nh m ngi dng
v hay cung cp.
58

Chng 5: NH GI CC H THNG TRUY


XUT THNG TIN

5.1. L do tin hnh nh gi cc h thng truy xut thng


tin

Khi nhu cu truy xut thng tin pht trin, c rt nhiu m hnh, thut
ton, h thng truy xut thng tin ra i. Do , vic nh gi cc m hnh,
thut ton, h thng truy xut thng tin l iu bt buc phi lm.
Chng ta so snh mt h thng (c th l mt h thng mi) vi cc h
thng khc tn ti v phng din: tnh hiu qu, chi ph, thi gian, tc
x lH thng truy xut thng tin thng thc hin hai qu trnh: qu trnh
lp ch mc v qu trnh tm kim. Mi mt qu trnh s c nhiu phng
php thc hin, nh gi h thng cng c th dng xc nh tnh ti u
ca cc phng php trn.
L do khc tin hnh nh gi l so snh cc thnh phn ca h
thng. Do h thng gm nhiu thnh phn, nh gi h thng xc nh
cch mi thnh phn ca h thng thc thi khi c s thay i mt thnh
phn bi mt thnh phn khc th s thay i nh hng n h thng nh
th no, t ta c th quyt nh c nn thay i thnh phn khng.
nh gi tm kim thnh phn no l tt nht cho hm xp th t
(dot-product, cosine); thnh phn no l tt nht cho la chn thut ng
(loi b stopword, phng php ly gc t stemming); thnh phn no l
tt nht trong la chn phng php nh gi thut ng (term weighting) nh
TF, IDF...
59

So snh bit ngi s dng cn danh sch cc ti liu tr v (ranked list)


di c bao nhiu h c th nhn d dng nht. nh gi bit h thng
no tht s tt, ngi dng c th tin tng kt qu tr v c.

5.2. Cc tiu chun c dng nh gi

Hin nay, trn th gii c ba tiu chun c dng nh gi h


thng truy xut thng tin:
Tiu chun v tnh hiu qu tc s chnh xc, tnh y ca kt qu
tr v so vi mc ch tm kim ca ngi s dng, v gi tr vn c th
on c trong cc tnh hung khc c ngha l khi a vo cc cu
truy vn khc, tp ti liu khc th h thng vn c th tm ra kt qu
chnh xc.
Tiu chun v hiu nng, gm c tc tm kim ca thut ton, kh
nng lu tr, thi gian tr v cho ngi s dng, thi gian lp ch mc,
kch thc ch mc
Tiu chun v kh nng s dng h thng tc l c th nghin cu,
hc hi trn h thng tm kim, ngi khng bit tin hc hay cc
chuyn gia tin hc u c th s dng h thng.

5.3. Cc m hnh nh gi

C tt c bn m hnh nh gi cc h thng truy xut thng tin. Chng


bao gm: nh gi hp knh, nh gi hp en, nh gi hng h thng,
nh gi hng ngi dng hay cn gi l nh gi nghin cu ngi dng.
nh gi hp trng (Glass Box Evaluation) : nh gi h thng da
trn vic nh gi tt c mi thnh phn ca h thng. C ngha l khi
bit r cc thnh phn ca h thng, chng ta tin hnh nh gi cc
thnh phn .
60

nh gi hp en (Black Box Evaluation) : nh gi h thng bng


cch xem h thng nh l mt thc th hp nht, khng nh gi chnh
xc cc thnh phn bn trong h thng.
nh gi hng h thng (System-Oriented Evaluation) l xu hng
nh gi chnh t khi cc h thng tm kim v lp ch mc t ng
c pht trin vo nhng nm 1960. Mt trong nhng mc ch chnh
ca hng nh gi ny l kim tra cc h thng t ng cng nh cc
th tc th cng thc thi nh th no. Ngoi ra, m hnh ny cn nh
gi so snh cc cch thc hin lin quan n cc ngn ng ch mc, x
l tm kim ca h thng ca cc h thng khc nhau hay nh gi so
snh cc lc ch mc t ng khc nhau. nh gi hng h thng
c mt im li l iu kin mi trng kim tra c qun l cht
ch, s dng phng php nh gi theo l hay cn gi l nh gi da
trn tp cu truy vn; c ngha l h thng truy xut thng tin ln lt
thc hin cc cu truy vn, tm kim trn tp d liu c xy dng
v ghi li kt qu nhng ti liu no lin quan n cu truy vn no ri
em so snh vi Bng nh gi lin quan chun (Relevance judgment)
c xy dng. Vi mi cu truy vn tnh ton chnh xc v
bao ph da trn kt qu tr v v bng nh gi lin quan chun
nhn xt hiu qu tm kim ca h thng truy xut thng tin. Hng
nh gi ny c thc hin rt ph bin cc d n, hi ngh v
nghin cu h thng truy xut thng tin nh: Cranfield, MEDLARS,
SMART, STAIRS v TREC.
nh gi hng ngi dng (User Studies Evaluation): Hng
nghin cu ngi dng ra i vo nhng nm 1970 khi m nhiu h
thng truy xut thng tin thng mi ra i. Mc ch chnh ca hng
nghin cu ny l nhm xc nh cch thc tm kim ca ngi s
61

dng. Hng nh gi ny cn cho php xem xt h thng kha cnh


ngi dng; tc l nh gi v mt tng tc vi ngi s dng nh
giao din ca h thng truy xut thng tin, thi gian h thng tm kim
i vi mt cu truy vn, mc hi lng ca ngi s dng Hng
nghin cu ny cho rng nhu cu ca ngi dng c tho mn tng
ng vi hiu qu ca h thng. Ch khi nhu cu thng tin ngi dng
c tha mn, khi y truy xut thng tin mi c gi l c ch. Hi
ngh quc t v truy xut thng tin trong Ng cnh (Information
Seeking in Context) c t chc nh l mt din n cho cc nh
nghin cu lnh vc ny khm ph cc phng php v cc kt qu
nghin cu. Mt hi ngh khc mi c thnh lp tn l Nhm Quan
tm c bit (Special Interest Group - SIG) n tm kim, nhu cu v
s dng thng tin ca X hi Hoa K v Khoa hc Thng tin
(American Society of Information Science). Nhng hi ngh ny cng
tng t nh TREC trong vic c gng khuyn khch nghin cu
hng ngi dng, pht trin mi lin h gia cc nh nghin cu
trong k thut, gio dc v chnh ph, v xc nh, ci tin cc k
thut tm kim thch hp. Nhng cc hi ngh ny khc nhau ch cc
hi ngh mi cha c phng php lun nh gi chun no c xc
tin. nh gi hng ngi dng c ng gp rt ln n lnh vc truy
xut thng tin. ng gp ny gm c vic xc nh cch thc truy xut
thng tin ca con ngi, ni lin khong cch gia nhu cu thng tin
gia cc c nhn v cc h thng truy xut thng tin, dn n mt th
h mi ca cc h thng truy xut thng tin bao gm cc giao din
ho my tnh-ngi s dng.
Hin nay, trong s bn m hnh trn th hai m hnh nh gi hng h
thng v hng ngi dng ang c s dng chnh v rng ri nht. V m
62

hnh nh gi hng ngi dng cn c s hp tc ca rt nhiu ngi dng


ly thng tin phn hi sau khi s dng h thng truy xut thng tin hoc
cn phi tham gia trao i v hiu nng tm kim ti cc hi ngh. Nhng cc
hi ngh dnh cho m hnh nh gi hng ngi dng a s cha c mt
phng php lun c th no dng nh gi.

5.4. Cc o dng nh gi

bao ph (Recall) v chnh xc (Precision) l 2 n v o c bn


nht nh gi cht lng mt h thng truy xut thng tin. bao ph l t
l gia cc ti liu lin quan c tr v trn tng s cc ti liu lin quan tht
s. Trong khi , chnh xc l t l gia cc ti liu lin quan c tr v
trn tng s ti liu c tr v.
C nhiu phng php s dng mt hoc cc o ny tnh ton
nh gi, chng hn phng php chnh xc trung bnh (Mean Average
PrecisionMAP) ch s dng chnh xc, khng quan tm n bao ph.
Phng php o da trn gi tr n Swets E-Measure hoc chiu di tm
kim trung bnh th cng ch s dng mt gi tr tnh ton. Phng php
tnh chnh xc da trn 11 im chun ca bao ph s dng c hai
o bao ph v chnh xc.

5.4.1. Cc khi nim v o v lin quan

Tnh lin quan ca ti liu (relevant ):


Mt ti liu c gi l c lin quan khi ni dung ca ti liu c
cp n vn m cu truy vn ca ngi dng quan tm.
bao ph (Recall - R):
Cho bit kh nng h thng tm kim c nhng ti liu c lin quan.
chnh xc (Precision - P):
63

Cho bit kh nng ca h thng tm c nhng ti liu chnh xc

C lin quan Khng lin quan


(Relevant) (non- relevant)
A A
AB B Tm thy (retrieved)
A B

A B A B B Khng tm thy (not retrieved)

Kh nng loi b: (Fall out - F):


Cho bit kh nng ca h thng loi b nhng ti liu khng lin quan.

5.4.2. Cch tnh bao ph (R) v chnh xc (P)

Hnh 5.1: Tp d liu v ti liu


bao ph (R):

A B
R=
B
chnh xc (P):

A B
P=
A
64

Kh nng loi b: (Fall out - F):

A B
F=
A

Mi lin h gia R, P, F:
R G
F=
R G + F (1 G )
G : l nhn t tng qut o dy c ca ti liu lin quan trong tp d liu
G cho bit lin quan ca ti liu so vi cu truy vn l cao hay thp:

A
G=
S
Vi S l tp ti liu.
Vn o bao ph:
Tnh bao ph l mt vn kh khn trong vic nh gi h thng
tm kim thng tin bi v n lin quan n vic nh gi th cng tng s ti
liu lin quan trong tp ti liu i vi mi cu truy vn (vn to bng lin
quan l thuyt), vic nh gi nh vy rt tn km nu tp d liu ln. gii
quyt vn ny ngi ta a ra phng php pooling. tng ca
phng php pooling l trong danh sch ti liu tr v ch ly n ti liu u,
n c gi l chiu di ca pool.
Vic to bng lin quan l thuyt p dng phng php pooling c
tin hnh nh sau: tin hnh tm kim trn nhiu h thng p dng phng
php
pooling, c th ti liu lin quan c tr v ca mt h thng l cao, ta tin
hnh giao cc tp ti liu lin quan tr v ca cc h thng v ch ly n ti
liu u.
65

Bi v tp kt qu tr v c sp xp theo th t nn chnh xc v
bao ph c th tnh c ti cc ngng v tr th t th i ti liu.
Vn bng lin quan thc t:
i vi cch tnh trn ta phi quan nim v lin quan ca ti liu
trn 2 mc : hoc l ti liu c lin quan hoc l ti liu khng lin quan.
Cch quy c nh vy nhm lm n gin ho cch nh gi. Trn thc t,
lin quan ca ti liu khng ch l 2 mc m c th c nhiu mc .

5.5. Phng php tnh chnh xc da trn 11 im chun ca


bao ph

5.5.1. th biu din hiu sut thc thi h thng truy xut
ng vi 1 cu truy vn c thc hin bi h thng s c 1 bao ph
(Ri), chnh xc (Pi) c th.
Vi 1 cp (Ri, Pi) biu din trn h trc to ROP tng ng vi 1
im.
Biu din kt qu ca tp cu truy vn trn ROP ta s c 2 ng cong
m t hiu sut thc thi ca h thng. ng cong c dng:

Hnh 5.2: ng cong m t hiu sut thc thi ca h thng


66

T th ta c th rt ra kt lun: bao ph v chnh xc c mi


quan h gn nh t l nghch, khi R tng th P c th s gim v ngc
li.
Khi ta c gng lm tng R bng cch tng s ti liu tr v (N), N tng
nn c may s ti liu c lin quan s tng trn tng s ti liu c lin
quan so vi cu truy vn trong bng lin quan chun l khng i.
R s c th tng
Do N tng c ngha l s ti liu tr v tng mc d s ti liu c lin
quan tng nhng khng ng k so vi s ti liu tr v (lc ny cng
tng) nn P s gim.
Ni cch khc, khi cho h thng thc thi 1 cu truy vn m ta tng s ti liu
tr v th kt qu s c c nhiu ti liu c ch nhiu hn nhng s ti liu
khng lin quan (ti liu rc) cng s tng.

5.5.2. ng cong bao ph v chnh xc RP


C s tnh bng gi tr cho ng cong RP da vo bng lin quan l
thuyt v danh sch ti liu lin quan c sp th t do h thng truy xut
thng tin tr v (cn gi l bng lin quan thc t).
Xt v d sau:
Thc hin kim tra h thng tm kim thng tin vi tp cu hi. Xt cu
hi th k.
Cch tnh nh sau:
Ti liu lin quan c tr v l phn giao ca danh sch ti liu lin quan
theo l thuyt v theo thc t.
Do , tng s ti liu lin quan c tr v : 5.
Bng gi tr R, P tnh vi n ti liu c tr v sau:
67

Bng 5.1: Bng gi tr R, P tnh vi n ti liu c tr v


Lin quan S ti liu
Doc S ti liu bao ph chnh
n theo l lin quan
ID tr v (R) xc (P)
thuyt ? c tr v
1 588 true 1 1 1/5=0.2 1/1=1.00
2 589 true 2 2 2/5=0.4 2/2=1.00
3 576 false 2 3 2/5=0.4 2/3=0.67
4 590 true 3 4 3/5=0.6 3/4=0.75
5 986 false 3 5 3/5=0.6 3/5=0.60
6 592 true 4 6 4/5=0.8 4/6=0.67
7 984 false 4 7 4/5=0.8 4/7=0.57
8 988 false 4 8 4/5=0.8 4/8=0.50
9 578 false 4 9 4/5=0.8 4/9=0.44
10 985 false 4 10 4/5=0.8 4/10=0.40
11 103 false 4 11 4/5=0.8 4/11=0.36
12 591 false 4 12 4/5=0.8 4/12=0.33
13 772 true 5 13 5/5=1.0 5/13=0.38
14 990 false 5 14 5/5=1.0 5/14=0.36

Nhn bng gi tr trn, ta thy ti gi tr R=0.6 c 2 gi tr P (P=0.75 v P=0.6)


v ngc li ti gi tr P=1.0 c 2 gi tr R (R=0.2, R=0.4)
xy dng ng cong cho mt cu truy vn ta dng phng php tnh ni
suy chnh xc da trn 11 im chun ca bao ph:
Xt cc gi tr R ti cc im chun 0.0, 0.1, 0.2, 0.3, 0.4,0.5,0.6,0.7,0.8,0.9,
1.0.
Ti cc v tr tnh gi tr P theo cng thc sau:
PR(i) = max PR( j ) vi j i
Ta c bng ni suy cc gi tr P cho cu hi th k nh sau:
68

Bng 5.2: Bng ni suy cc gi tr P cho cu hi th k


bao ph chnh bao ph chnh xc
N ID
(R) xc (P) chun ho ni suy
1 588 1/5=0.2 1/1=1.00 ho 1.00
2 589 2/5=0.4 2/2=1.00 0.1 1.00
3 576 2/5=0.4 2/3=0.67 0.2 1.00
4 590 3/5=0.6 3/4=0.75 0.3 1.00
5 986 3/5=0.6 3/5=0.60 0.4 1.00
6 592 4/5=0.8 4/6=0.67 0.5 0.75
7 984 4/5=0.8 4/7=0.57 0.6 0.75
8 988 4/5=0.8 4/8=0.50 0.7 0.67
9 578 4/5=0.8 4/9=0.44 0.8 0.67
10 985 4/5=0.8 4/10=0.40 0.9 0.38
11 103 4/5=0.8 4/11=0.36 1.0 0.38
12 591 4/5=0.8 4/12=0.33
13 772 5/5=1.0 5/13=0.38
14 990 5/5=1.0 5/14=0.36
th RP cho cu hi th k

Hnh 5.3: th RP cho cu hi th k


69

5.5.3. ng cong RP cho tp truy vn


Xt tp cu truy vn gm N cu truy vn.
Ln lt tnh bng gi tr RP ni suy nh trn (tnh P da trn 11 im chun
ca R)
Tnh gi tr trung bnh P ti cc im chun ca R nh sau:
N F(R )
P(R ) =
=1 N
Nhn xt: Phng php nh gi h thng da vo bng gi tr RP ni suy
khng nh gi mt cch chnh xc hiu sut tm kim thng tin ca h thng
truy xut thng tin bi v cc gi tr ca R, P l cc gi tr ni suy.

5.5.4. nh gi h thng truy xut thng tin da vo th


Ta tin hnh kim tra 2 h thng vi cng 1 tp ti liu mu v tp cu
truy vn mu. Gi s th biu din ca 2 h thng nh sau:

Hnh 5.4: th biu din 2 h thng vi cng 1 tp ti liu mu v tp cu


truy vn mu
Nhn trn th :
ng cong A biu din hiu sut thc thi ca h thng A
70

ng cong B biu din hiu sut thc thi ca h thng B


Do ng A nm trn ng B nn hiu sut ca h thng A ln hn
h thng B.
Mt cch tng qut : ng cong no cng gn v pha gc trn bn
phi ca h trc to (c ngha l chnh xc v bao ph l ln nht)
th chnh l ng cong biu din hiu sut thc thi tt nht.
Vi cch biu din trn th nh vy ta c th nh gi nhiu h
thng hoc nh gi 1 h thng trong nhng iu kin thc thi khc nhau.

5.6. S lin quan gia cu hi v ti liu

5.6.1. Cc lin quan


Cc lin quan gm c:
lin quan nh phn (binary relevance): l lin quan ch c 2 gi
tr: hoc l c lin quan (relevant: 1), hoc khng lin quan (not
relevant: 0).
lin quan nhiu mc ( lin quan a cp ): (multiple degree
relevance, multiple level relevance): lin quan c xt nhiu mc
, c nhiu gi tr. V d lin quan 3 mc :
- Mc c lin quan (relevant): 2
- Mc lin quan b phn (partically relevant): 1
- Khng lin quan (not relevant) : 0

5.6.2. Cc vn v lin quan


C s nh gi h thng truy xut thng tin:
- Mt tp ti liu (document) i din
- Mt tp ch (topic) i din
- Mt vi cu truy vn cho mi ch
71

- Bng nh gi lin quan ca mi ti liu vi mi ch


Do vn c bn ca vic nh gi l phi thng nht quan im v
mc lin quan.
lin quan l mt khi nim a kha cnh (multifaceted), a chiu
(multidimensional). Khi nim v lin quan n nay vn l mt vn kh
khn trong lnh vc khoa hc thng tin. Nhng cuc nghin cu gn y
tp trung vo nhn t nh hng ln vic nh gi lin quan v chiu (hoc
tiu chun) ca lin quan. C nhiu loi lin quan: lin quan thut
ton, lin quan ch , lin quan nhn thc, lin quan tnh hung,
lin quan ng c.
lin quan vn mang tnh ch quan, nh gi lin quan thng
khng thng nht do tnh c nhn v nhn t thi gian :
- Mt ti liu c nh gi l c lin quan vi t l no nhng i
vi ngi khc t l ny s khc => lin quan ph thuc tnh c
nhn
- Mt ti liu c nh gi l c lin quan vi t l no ti thi
im t, nhng ti thi im t t l s thay i => lin quan
ph thuc nhn t thi gian. Tuy nhin s thay i ny c th chp
nhn c do n tng i thp. Trong hu ht cc th nghim nh
gi h thng tm kim thng tin (bao gm c nhng th nghim ca
TREC) ngi ta thng quan tm lin quan nh phn (c ngha l
ti liu hoc l c nh gi l c lin quan (1) hoc khng c lin
quan (0)). u im ca d lin quan nh phn l vic tnh ton R, P
n gin; khuyt im l khng th phn nh c kh nng lin
quan ca ti liu nhiu mc ng vi thc t.
72

Trong cch nh gi tm kim thng tin ca TREC, khi nim lin


quan l mt khi nim tuyt i: mt ti liu hoc l lin quan hoc l khng
lin quan.
iu gi s ny nhm lm n gin ha vic tnh ton cc o. Nhiu
cuc kim tra khc tin hnh nh gi vi t l lin quan nhiu mc .
lin quan 3 cp c thc hin Hi ngh NTCIR 1999 (NII-
NACSIS Test Collection for IR systems), WEB track ca TREC-9.
lin quan 4 cp c dng trong NTCIR 2000.
T l lin quan ca mt ti liu ti v tr th N s c tr hao, iu
ny phn nh mt tnh trng l ti liu tr v cng pha di danh sch cng
c t gi tr hn i vi ngi s dng : mc d do mc tng quan khng
gim nhng s trng lp thng tin vi nhng ti liu pha trn cng lm cho
ti liu pha di km phn gi tr hn.
Gi s rng s lin quan ca mt ti liu l c lp vi cc ti liu khc
l khng thc t trong hu ht cc trng hp. Trong hu ht cc nhim v
tm kim thng tin c bn ging nh tm kim trn mng, tm kim cu tr li
cho mt cu hi c bit no hoc cho mt vi s tham kho no , gi s
rng mt ngi dng c lt qua cc ti liu c tr v s bt u vi ti
liu d thy nht, ni bt nht ( pha trn danh sch) do lin quan ca
ti liu pha di danh sch s ph thuc vo nhng ti liu c c. Kh
nng mt ti liu cha nhng thng tin mi s gim xung n cui danh sch
ti liu. S ph thuc ny thng c b qua trong nhng ln nghin cu
tm kim thng tin.
Ngoi ra vic nh gi lin quan ny mang tnh ch quan. Chng ta
thng c nhiu kin khc nhau v mc lin quan. Do mc lin
quan ca ti liu c phn bit:
73

- Bng lin quan c nh gi do tc gi ca ti liu hay khng phi


tc gi
- Bng lin quan c nh gi bi mt nhm nh gi
- Bng lin quan c nh gi trong cng iu kin hay c nh
gi trong cc iu kin khc nhau.

5.6.3. nh gi vi lin quan nhiu cp


(Multiple degree relevance or non-binary relevance)
Trong mt vi th nghim v nh gi lin quan nhiu cp ch c
mt vi th nghim thc s cho thy li ch ca vic nh gi lin quan
nhiu cp khc nhau.
bao ph (R), chnh xc (P) l phng php c in nh gi
kh nng thc thi ca IR v thng c tnh da trn vic nh gi lin
quan nh phn. Do vic nh gi lin quan nhiu cp ch c tin
hnh bc u, sau nhng gi tr mc s c qui v 2 gi tr 0, 1
nh gi.
V d : nh gi lin quan c tin hnh 3 mc :
- c lin quan (relevant) => k hiu A
- lin quan mt phn (partically relevant ) => k hiu B
- khng lin quan (not relevant) => k hiu C
Mc lin quan s c qui v 2 gi tr tnh R, P. C 2 cch tnh:
A, B mang gi tr 1 (c lin quan) C mang gi tr 0 (khng lin
quan) hoc
A mang gi gi tr 1 (c lin quan) B, C mang gi tr 0 (khng
lin quan)
Vi cch tin hnh nh vy duy tr mc lin quan ca ti liu,
nh dng mt tp tin nh gi lin quan (relevant judgement) nh sau:
74

topic-ID dumy doc-ID relevant assessment


Trong :
topic-ID : ch s ca ch (topic)
dumy : l trng cho bit ti liu c mc lin quan l bao nhiu
(A, hoc B, hoc C)
doc-ID : ch s ti liu
relevant assessment: mang gi tr 0 hoc 1, gi tr nh gi lin quan
sau khi c qui v lin quan nh phn.
Mt v d khc v o lin quan ca ti liu 4 mc :
- lin quan cao (highly relevant)
- lin quan va (fairly relevant)
- lin quan trung bnh (marginally relevant)
- khng lin quan (irrelevant)
Tuy nhin trong cc Hi ngh v nh gi cc h thng thng tin gn
y, lin quan nh phn vn cn c xem l mt cch nh gi chun,
thm ch nhiu trng hp nh gi lin quan nhiu cp nhng cng
c qui v nh gi nh phn tnh bao ph v chnh xc. Cch tin
hnh ny c khuyt im l n khng kim tra c tng mc c th ca
lin quan. Mt s ngi c quan im l cch o R v P da vo vic
nh gi nh phn l nn trnh v cch tnh nh vy khng quan tm n s
thay i v phc tp ca mc lin quan, lm sai lch tnh t nhin v
thc t ca lin quan. Mt gii php gii quyt vn ny l tng qut
ho R v P.
Da vo l thuyt, thc nghim, nghin cu, mc lin quan ca ti
liu thay i mt cch r rng, mt vi ti liu th lin quan nhiu hn, mt s
khc th t hn. Tht l kh xc nh mc lin quan khi tin hnh nh
gi. iu ny cn tu thuc vo tnh hung nh gi h thng ca chng ta.
75

5.6.4. Phng php o bao ph (R), chnh xc (P) da trn


lin quan nhiu cp
Phng php o da vo bao ph (R) v chnh xc (P) l mt
phng php truyn thng nhng o R, P ch c tnh da vo lin
quan nh phn.
i vi trng hp lin quan nhiu cp ta c 2 cch gii quyt
sau:
Qui tt c mc lin quan v 2 gi tr 0, 1 (ging nh a v d
lin quan nh phn) => cch ny theo Schamber l nn trnh.
Tng qut ho R v P
bao ph tng qut v chnh xc tng qut:
(generalized, non-binary recall and precision)
Gi R l tp n ti liu c phc hi t c s d liu ti liu
D={ d1, d2, , dN } vi mt cu truy vn thuc v mt ch no , R D
Gi ti liu di trong c s d liu ti liu c t l lin quan l r(di)
bao ph tng qut gR v chnh xc tng qut gP c tnh theo cng
thc nh sau:

r(d)
d D
gP =
n

r(d)
d R
gR =
r(d)
dD

Cch tnh ny cng tng t tnh R, P nh phn truyn thng, n cng cho
php tnh R trung bnh v P trung bnh ca tp cu truy vn, tnh P da trn R,
hoc tnh da trn ngng gii hn s ti liu tr v v cng cho php biu
din ng cong PR
76

Ghi ch: r(d) l mt con s thc c gi tr trong khong (0.0, 1.0). V


d vi mc lin quan l 4. Tnh r(d)
Mc lin quan cao : 3 => r(d)=3/4
Mc lin quan va : 2 => r(d)=2/4
Mc lin quan trung bnh : 1 => r(d)=1/4
Khng lin quan :0 => r(d)=0
77

KT LUN

Hin nay c rt nhiu h thng truy xut thng tin (Information


Retrieval system) ang tn ti tr gip con ngi. Tuy nhin, kh nng tm
kim thng tin ca cc h thng ny chc chn khc nhau. Do , vic nh
gi cc h thng truy xut thng tin (Evaluation of Information Retrieval
systems) l mt nhu cu khng th thiu nhm xc nh cc h thng truy
xut thng tin hiu qu.
Lun vn nghin cu cc vn v cc h truy xut thng tin v
nh gi v cc h truy xut thng tin. Vic nh gi ny c ngha rt ln
i vi s tn ti v pht trin ca cc h thng truy xut thng tin. N gip
xc nh kh nng tm kim ca cc h thng truy xut thng tin. T m
cc t chc, cng ty, trng hc to ra h thng ny c th pht trin, thay i
h thng a ra kh nng tm kim thng tin tt nht.
Vic nh gi h truy xut thng tin (IR) l bit c im mnh,
im yu ca tng h thng IR m t ta chn ra c h thng IR ti u
phc v cho nhu cu tm kim thng tin mt cch c hiu qu.
Ti hy vng ti ny s l mt ng gp nh, c ngha cho vic
nghin cu v lnh vc truy xut thng tin.
78

HNG PHT TRIN


Vic nghin cu nh gi cc h thng tm kim thng tin rt a dng
vi nhiu phng php, m hnh nh gi khc nhau. Nhng m hnh,
phng php ny ang c tip tc nghin cu, bn lun trn th gii.
Trn c s nhng phn nghin cu, ti c hng pht trin v
phng php nh gi: Ngoi cch nh gi da vo 11 im chun ca
bao ph, ti c th pht trin thm cc phng php nh gi khc nh
phng php nh gi da trn chnh xc trung bnh nghim ngt (Mean
Average Precision MAP), o da trn gi tr n Swets E-Measure (Single-
valued Measure) hoc chiu di tm kim trung bnh.
79

TI LIU THAM KHO


Ting Vit:

1. Nguyn Duy Hip - Hong Minh Ngc Hi (2004), Xy dng ta


son in t c h tr ly tin t cc website khc, lun vn c
nhn, trng i hc Khoa hc T nhin.
2. Nguyn Th Thanh H Nguyn Trung Hiu (2005), Xy dng h
thng tm kim thng tin ting Vit da trn cc ch mc l cc t
ghp, lun vn c nhn, trng i hc Khoa hc T nhin.

Ting Anh:

1. Gerald J.Kowalski, Mark T.Maybury, Information Storage and


Retrieval System, 2004
2. Gerard Salton, Michael J.McGill, Introduction to Modern
Information Retrieval, International Student Edition, New York,
1983.
3. William B.Frakes, Ricardo Baeza Yakes, Information Retrieval
Data Structures & Algorithms, 1992.
4. Ricardo Baeza Yakes, Berthier Ribeiro-Neto, Modern Information
Retrieval , Addison Press, Anh, 1999.
5. Dong Thi Bich Thuy, Ho Bao Quoc, Marie-France Bruandet, Jean-
Pierre Chevallet, An approach to Vietnamese Information
Retrival.

You might also like