Professional Documents
Culture Documents
Minh Day Nek 2
Minh Day Nek 2
NGHIN CU V NH GI CC
H TRUY XUT THNG TIN
H NI - 2006
1
LI CM N
Em xin chn thnh gi li cm n su sc ti Thy gio hng dn,
PGS.TS.Nguyn Thanh Thu ngi c nhng hng dn tn tnh, qu
bu gip em hon thnh lun vn ny.
Em cng xin cm n cc Thy C khoa Cng ngh Thng tin trng
i hc Bch Khoa H Ni truyn t kin thc qu bu trong kho hc
ny.
Cui cng xin cm n gia nh v c quan ni ang cng tc to
iu kin thun li ti hon thnh kho hc ny.
MC LC
Chng 1: TNG QUAN V H TRUY XUT THNG TIN ...........................5
1.1. Lch s truy xut thng tin v h thng truy xut thng tin.........................5
1.2. H truy xut thng tin...................................................................................9
1.2.1. Khi nim v h truy xut thng tin .....................................................9
1.2.2. Cch thc hot ng ca h thng truy xut thng tin .......................10
1.2.3. Cc phng tin truy xut thng tin ...................................................12
1.3. So snh truy xut thng tin c in v truy xut thng tin trn Web.........14
1.4. So snh truy xut thng tin vi truy xut d liu.......................................15
1.5. So snh IRS vi cc h thng thng tin khc.............................................16
Chng 2: XY DNG MT H TRUY XUT THNG TIN ........................19
2.1. Mt s m hnh xy dng mt h truy xut thng tin................................19
2.1.1. M hnh khng gian vector .................................................................19
2.1.2. Tm kim Boolean...............................................................................21
2.1.3. Tm kim Boolean m rng ................................................................22
2.1.4. M hnh xc sut.................................................................................23
2.1.5. nh gi chung v cc m hnh..........................................................23
2.2. Cc bc xy dng mt h truy xut thng tin ..........................................23
2.2.1. Tch t t ng cho tp cc ti liu. ...................................................23
2.2.2. Lp ch mc cho ti liu......................................................................25
2.2.3. Tm kim .............................................................................................25
2.2.4. Sp xp cc ti liu tr v (Ranking) ..................................................26
Chng 3: LP CH MC ...................................................................................27
3.1. Khi qut v h thng lp ch mc .............................................................27
3.2. Xc nh mc t quan trng cn lp ch mc.............................................28
3.3. Mt s hm tnh trng s mc t ...............................................................31
3.3.1. Tn s ti liu nghch o (Inverse Document Frequency) ................32
3.3.2. nhiu tn hiu (The Signal Noise Ratio) ....................................32
3.3.3. Gi tr phn bit ca mc t (Term Discrimination Value)...........34
3.4. Lp ch mc cho ti liu ting Anh ............................................................35
3.5. Lp ch mc cho ti liu ting Vit ............................................................37
3.5.1. Kh khn cho vic lp ch mc ting Vit..........................................38
3.5.2. c im v t trong ting Vit..........................................................40
3.5.3. Vic tch t .........................................................................................41
3.6. Lp ch mc t ng cho ti liu................................................................43
3.7. Tp tin nghch o ti liu..........................................................................44
3.7.1. Tp tin nghch o ..............................................................................44
3.7.2. Phn bit gia tp tin nghch o v tp tin trc tip .........................47
3.7.3. Ti sao s dng tp tin nghch o lp ch mc.............................48
Chng 4: TRUY XUT THNG TIN A PHNG TIN ............................50
4.1. Truy xut thng tin a phng tin............................................................50
4.2. Truy xut audio ngn ng ni ....................................................................51
3
DANH MC CC HNH V
DANH MC CC BNG
Bng 1.1: So snh IR c im vi Web IR 14
Bng 1.2: S khc nhau gia h truy xut thng tin v h truy xut 16
d liu.
Bng 1.3: So snh h truy xut thng tin vi cc h thng khc 18
Bng 3.1: Cch tp tin nghch o lu tr 47
Bng 3.2: Cch tp tin trc tip lu tr 48
Bng 3.3 Thm mt ti liu mi vo tp tin nghch o 48
Bng 5.1: Bng gi tr R, P tnh vi n ti liu c tr v 67
Bng 5.2: Bng ni suy cc gi tr P cho cu hi th k 68
5
1.1. Lch s truy xut thng tin v h thng truy xut thng tin
Chng ta thy r rng l nghin cu truy xut thng tin c truyn thng
tp trung vo truy xut thng tin dng vn bn (Text Retrieval) hay ti liu
vn bn (Document Retrieval). Trong mt thi gian di, truy xut thng tin
gn nh ng ngha vi tm kim ti liu hay tm kim vn bn. Trong thi
gian gn y, cc vin cnh ng dng mi nh ng dng tr li cu hi
(Question Answering), ng dng nhn dng ch (Topic Detection), hay
ng dng lu vt (tracking) tr thnh cc lnh vc hot ng mnh m trong
nghin cu truy xut thng tin. Cng ngy, ranh gii gia cng ng truy xut
thng tin hay cng ng truy xut thng tin v cc cng ng nghin cu x
l ngn ng t nhin, cng ng nghin cu c s d liu tr nn m nht khi
cc cng ng ny cng nhau pht trin cc lnh vc quan tm chung, v d
nh tr li cu hi, tm tt v truy xut thng tin t cc ti liu c cu trc.
Mt lnh vc pht trin khc m cc k thut truy xut thng tin ang
k tc v pht huy, l truy xut thng tin khng vn bn hay cn gi l truy
xut thng tin a phng tin. Loi hnh tm kim ny s da trn rt trch t
ng cc phn vn bn hay li ni ca cc ti liu a phng tin, sau
c x l bi cc k thut truy xut thng tin da vn bn (text-based IR
techniques). Tuy nhin, ngi ta ngy cng quan tm n s pht trin cc k
thut phi by c th thng tin phng tin truyn thng ri tch hp chng
vi cc phng php tm kim c thit lp tt hn l cch rt trch
chng.
Trong phm vi ti, s quan tm nhiu n truy xut thng tin trn vn bn.
9
Theo l thuyt, h thng truy xut thng tin l mt h thng thng tin.
N c s dng lu tr, x l, tra cu, tm kim, v ph bin cc yu t
thng tin n ngi s dng. H thng truy xut thng tin thng thao tc vi
cc d liu dng vn bn v khng c s gii hn v cc yu t thng tin
trong vn bn. H thng thng tin bao gm mt tp hp cc yu t thng tin,
mt tp cc yu cu v cc c ch tm kim quyt nh yu t thng tin no
lin quan n cc yu cu. Theo nguyn tc, mi quan h gia cc cu truy
vn v ti liu c c t s so snh trc tip. Nhng trn thc t, s lin
quan gia cc cu truy vn v ti liu xc nh khng phi c quyt nh
trc tip m gin tip bng cch: cc ti liu, yu t thng tin phi chuyn
sang ngn ng ch mc trc khi xc nh mc lin quan.
Sau y l nh ngha v h truy xut thng tin ca mt s tc gi:
Salton (1989):
H truy xut thng tin x l cc tp tin lu tr v nhng yu cu v
thng tin, xc nh v tm t cc tp tin nhng thng tin ph hp vi nhng
yu cu v thng tin. Vic truy xut nhng thng tin c th ph thuc vo s
tng t gia cc thng tin c lu tr v cc yu cu, c nh gi bng
cch so snh cc gi tr ca cc thuc tnh i vi thng tin c lu tr v
cc yu cu v thng tin.
Kowalski (1997):
H truy xut thng tin l mt h thng c kh nng lu tr, truy xut
v duy tr thng tin. Thng tin trong nhng trng hp ny c th bao gm
vn bn, hnh nh, m thanh, video v nhng i tng a phng tin khc.
10
Cu truy vn
X l cu truy vn
ca ngi dng
ca h thng
Cu truy vn
Ngi s dng
So khp Cc ti liu tr v Sp th t
Ti liu lp ch mc
Ch
mc V tr cc t
Kho ng liu
Cc ti liu Ti liu c
X l vn bn Lp ch mc
c trch ly phn on, tch t
sch bo khng lnh mnh. Ngoi ra, phn tch ton cc cng chu trch
nhim tnh ton ton cc c dng trong cc h thng truy xut thng tin
nh sp xp th t trang (th t trang hu ht c xc nh bi nhng trang
c lin kt vi n v nhng trang n lin kt ti).
Cc ti liu tr v c sp xp
Cu truy vn
X l cu truy vn
ca ngi dng
ca h thng
Cu truy vn
Ngi s dng
Cc ti liu tr v
So khp Sp th t
Ti liu lp ch mc
Ch
mc V tr cc t
Ti liu c
X l vn bn Lp ch mc
phn on, tch t
Kho ng liu
1.3. So snh truy xut thng tin c in v truy xut thng tin
trn Web
Bng di y biu din s khc bit gia cc h thng truy xut thng
tin c in (IR c in) v cc h thng truy xut thng tin trn Web (Web
IR).
Bng 1.1: So snh IR c in vi Web IR
IR c in Web IR
Kch thc Ln Khng l
Cht lng d liu Sch, khng trng lp Ln xn, trng lp
T l thay i d liu Him Lin tc
Kh nng truy cp d liu C th Truy cp mt phn
ng nht, cng ngun Rt a dng
a dng nh dng
gc
Ti liu Vn bn HTML
# lin quan Nh Ln
K thut IR Da ni dung Da lin kt
Mt h thng truy xut thng tin khng phi l mt h thng truy xut
d liu. Bng di y trnh by mt s thuc tnh khc nhau gia h thng
truy xut thng tin v h thng truy xut d liu.
Bng 1.2: S khc nhau gia h truy xut thng tin v h truy xut d liu.
16
H thng truy xut thng tin thu thp ti liu da trn yu cu thng tin
ca ngi dng. Cu truy vn trn d liu khng c cu trc (thng l dng
vn bn t do), s dng t kha hoc ngn ng t nhin v do vy c th
c vit bi ngi dng khng thng tho. V c php ca cu truy vn
khng c nh ngha chnh xc nn kt qu c th bao gm cc kt hp
khng chnh xc v th t lin quan hay tng quan (relevance) ca chng
ch l gn ng.
H thng truy xut d liu thu thp mt tp hp cc ti liu ph hp v
mt c php vi cu truy vn ca ngi s dng. Cu truy vn trn d liu c
cu trc (thng l bng trong c s d liu) v thng s dng mt ngn
ng truy vn c nh ngha hon chnh nh l SQL hay i s quan h.
Ngi s dng phi quen thuc vi c php v hiu c ng ngha ca ngn
ng truy vn. V vy, cu truy vn thng c vit bi ngi am hiu hoc
mt qu trnh t ng. Kt qu tr v bao gm tt c cc ti liu chnh xc
ph hp vi ng ngha ca cu truy vn, th t bt k.
n
SC (Q, Di ) = wqj d ij
j =1
( w1 )2 + ( w2 )2
SC (Qt1 t 2 , d i ) =
2
23
(1 w1 )2 + (1 w2 )2
SC (Qt1 t 2 , d i ) = 1
2
2.2.3. Tm kim
Chng 3: LP CH MC
Cc trang ti liu sau khi thu thp v s c phn tch, trch chn
nhng thng tin cn thit (thng l cc t n, t ghp, cm t quan trng)
lu tr trong c s d liu nhm phc v cho nhu cu tm kim sau ny.
Mt cch tng tc tm kim thng tin ln l to ch mc cho cc
ti liu. Tuy nhin, vic lp ch mc c mt nhc im ln, l khi thm
mt ti liu mi, phi cp nht li tp tin ch mc. Nhng i vi h thng tm
kim thng tin, ch cn cp nht li tp tin ch mc vo mt khong thi gian
nh k. Do , ch mc l mt cng c rt c gi tr.
Lp ch mc bao gm cc cng vic sau:
Xc nh cc t c kh nng i din cho ni dung ca ti liu
nh trng s cho cc t ny, trng s phn nh tm quan trng
ca t trong mt ti liu.
Lp ch mc l qu trnh phn tch v xc nh cc t, cm t thch hp
ct li c kh nng i din cho ni dung ca ti liu. Nh vy, vn t ra
l phi rt trch ra nhng thng tin chnh, c kh nng i din cho ni dung
ca ti liu. Thng tin ny phi va , ngha l khng thiu tr ra kt
qu y so vi nhu cu tm kim, nhng cng phi khng d gim chi
ph lu tr v chi ph tm kim v loi b kt qu d tha khng ph hp.
Vic rt trch ny chnh l vic lp ch mc trn ti liu. Trc y, qu trnh
ny thng c cc chuyn vin qua o to thc hin mt cch th
cng nn c chnh xc cao. Nhng trong mi trng hin i ngy nay,
vi lng thng tin khng l th vic lp ch mc bng tay khng cn ph
hp, phng php lp ch mc t ng mang li hiu qu cao hn.
28
T
Tch vn bn thnh cc t IN
CSDL
ch mc Lp ch mc
thng tin
hin cao trn ngng ny. Nhng t b loi b l nhng t xut hin
ph bin hu ht cc ti liu. chnh l cc Stop-Word.
4. Tng t, loi tr nhng t c xem l c tn s xut hin thp.
Ngha l, xc nh ngng thp v loi b tt c cc t c tn s nh
hn gi tr ny. iu ny s loi b cc t t xut hin trong tp ti liu,
nn s c mt ca cc t ny cng khng nh hng n vic thc hin
truy vn.
5. Nhng t xut hin trung bnh cn li by gi c dng cho vic n
nh ti nhng ti liu nh nhng mc t ch mc.
Loi b cc t tn cng l s
6.056 t
Cc t chn lm ch mc
Ting:
T:
Cohension(nij) = size_factor*pair_freqij/(ni*nj)
Trong :
size_factor: kch thc tp ch mc
pair_freqij : tn s xut hin t
ni, nj : tn s xut hin ting i, j
Hai ting c kh nng to thnh mt t cao khi chng thng xut hin
chung vi nhau, ngha l cohension ca chng cao.
Vn chnh ca lp ch mc t ng l xc nh t ng mc t ch
mc cho cc ti liu. Trong cc ngn ng gc n u th tch t c th ni
l n gin v khong trng l k t phn bit t. Vn cn quan tm l
xc nh nhng t ny l t kho, c th i din cho ton b ni dung ca ti
liu. Loi b cc t stop-word c tn s xut hin cao, nhng t ny thng
chim n 40-50% trong s cc t ca mt vn bn. Nhng t ny c phn
bit km v khng th s dng xc nh ni dung ca ti liu. Trong ting
Anh, c khong 250 t. S lng t ny khng nhiu lm nn gii php n
gin nht l lu cc t ny vo trong mt t in, v sau ch cn thc hin
so snh t cn phn tch vi t in loi b.
Bc tip theo l nhn ra cc ch mc tt. gim bt dung lng lu
tr, cc mc t cn c bin i v nguyn gc (step of stemming i vi
ting Anh), phi loi b i cc tin t, hu t, cc bin th s nhiu, qu
khGii php l s dng mt danh sch cc hu t. Trong khi loi b hu t
th nhng hu t di c u tin loi b trc, ri sau mi loi b nhng
hu t ngn hn. Sau y l mt s vn khi loi b trong ting Anh:
1. Ch r chiu di ti thiu ca mt t gc sau khi loi b hu t. V
d: vic loi b hu t ability ra khi computability hay loi b
ing ra khi singing l hp l. Tuy nhin, nhng hu t khng
cn phi loi b trong cc t ability v sing.
2. Nu nhiu hu t c kt hp vo mt gc th ta s p dng quy
cho qu trnh loi b hu t vi ln hoc lp t in hu t ri loi b
44
t1 : 1, 3, 4
t2 : 1, 2, 4, 5
t3 : 2, 4, 5
Ngha l:
Mc t t1 c trong cc ti liu 1, 3, 4.
Mc t t3 c trong cc ti liu 2, 4, 5
vi ti l mc t c trong Q
t1 : 1,3,4,6
t2 : 1,2,4,5
t3 : 2,4,5
Cch gii quyt: cp pht khng gian cho cc mc t theo trang, khi
mt mc t cha ht trang ny th s cp pht thm vo cui tp tin v c
mt link ch n trang cui ny.
47
t1 134
t2 124
t3 125
Truy xut thng tin truyn thng tp trung vo vo tm kim thng tin
dng vn bn (Text Retrieval) hay ti liu vn bn (Document Retrieval).
Trong mt thi gian di, truy xut thng tin gn nh ng ngha vi tm kim
ti liu hay tm kim vn bn. Trong thi gian gn y, cc vin cnh ng
dng mi nh ng dng tr li cu hi (question answering), ng dng nhn
dng ch (Topic detection), hay ng dng lu vt (tracking) tr thnh cc
lnh vc hot ng mnh m trong nghin cu truy xut thng tin.
Mt lnh vc pht trin khc m cc k thut truy xut thng tin ang
k tc v pht huy, l truy xut thng tin khng vn bn hay cn gi l truy
xut thng tin a phng tin. Loi hnh tm kim ny s da trn rt trch t
ng cc phn vn bn hay li ni ca cc ti liu a phng tin, sau
c x l bi cc k thut truy xut thng tin da vn bn (text-based IR
Techniques). Tuy nhin, ngi ta ngy cng quan tm n s pht trin cc k
thut phi by c th thng tin a phng tin truyn thng ri tch hp
chng vi cc phng php tm kim c thit lp.
nh ngha: Truy xut thng tin a phng tin l qu trnh lm tha
mn cc thng tin m ngi dng yu cu bi vic ch ra tt c cc vn bn,
ha, audio (li ni lin tc, cc hnh nh hoc cc ti liu video c lin
quan) hoc v tr ca cc ti liu t mt kho ti liu.
51
Khi nhu cu truy xut thng tin pht trin, c rt nhiu m hnh, thut
ton, h thng truy xut thng tin ra i. Do , vic nh gi cc m hnh,
thut ton, h thng truy xut thng tin l iu bt buc phi lm.
Chng ta so snh mt h thng (c th l mt h thng mi) vi cc h
thng khc tn ti v phng din: tnh hiu qu, chi ph, thi gian, tc
x lH thng truy xut thng tin thng thc hin hai qu trnh: qu trnh
lp ch mc v qu trnh tm kim. Mi mt qu trnh s c nhiu phng
php thc hin, nh gi h thng cng c th dng xc nh tnh ti u
ca cc phng php trn.
L do khc tin hnh nh gi l so snh cc thnh phn ca h
thng. Do h thng gm nhiu thnh phn, nh gi h thng xc nh
cch mi thnh phn ca h thng thc thi khi c s thay i mt thnh
phn bi mt thnh phn khc th s thay i nh hng n h thng nh
th no, t ta c th quyt nh c nn thay i thnh phn khng.
nh gi tm kim thnh phn no l tt nht cho hm xp th t
(dot-product, cosine); thnh phn no l tt nht cho la chn thut ng
(loi b stopword, phng php ly gc t stemming); thnh phn no l
tt nht trong la chn phng php nh gi thut ng (term weighting) nh
TF, IDF...
59
5.3. Cc m hnh nh gi
5.4. Cc o dng nh gi
A B
R=
B
chnh xc (P):
A B
P=
A
64
A B
F=
A
Mi lin h gia R, P, F:
R G
F=
R G + F (1 G )
G : l nhn t tng qut o dy c ca ti liu lin quan trong tp d liu
G cho bit lin quan ca ti liu so vi cu truy vn l cao hay thp:
A
G=
S
Vi S l tp ti liu.
Vn o bao ph:
Tnh bao ph l mt vn kh khn trong vic nh gi h thng
tm kim thng tin bi v n lin quan n vic nh gi th cng tng s ti
liu lin quan trong tp ti liu i vi mi cu truy vn (vn to bng lin
quan l thuyt), vic nh gi nh vy rt tn km nu tp d liu ln. gii
quyt vn ny ngi ta a ra phng php pooling. tng ca
phng php pooling l trong danh sch ti liu tr v ch ly n ti liu u,
n c gi l chiu di ca pool.
Vic to bng lin quan l thuyt p dng phng php pooling c
tin hnh nh sau: tin hnh tm kim trn nhiu h thng p dng phng
php
pooling, c th ti liu lin quan c tr v ca mt h thng l cao, ta tin
hnh giao cc tp ti liu lin quan tr v ca cc h thng v ch ly n ti
liu u.
65
Bi v tp kt qu tr v c sp xp theo th t nn chnh xc v
bao ph c th tnh c ti cc ngng v tr th t th i ti liu.
Vn bng lin quan thc t:
i vi cch tnh trn ta phi quan nim v lin quan ca ti liu
trn 2 mc : hoc l ti liu c lin quan hoc l ti liu khng lin quan.
Cch quy c nh vy nhm lm n gin ho cch nh gi. Trn thc t,
lin quan ca ti liu khng ch l 2 mc m c th c nhiu mc .
5.5.1. th biu din hiu sut thc thi h thng truy xut
ng vi 1 cu truy vn c thc hin bi h thng s c 1 bao ph
(Ri), chnh xc (Pi) c th.
Vi 1 cp (Ri, Pi) biu din trn h trc to ROP tng ng vi 1
im.
Biu din kt qu ca tp cu truy vn trn ROP ta s c 2 ng cong
m t hiu sut thc thi ca h thng. ng cong c dng:
r(d)
d D
gP =
n
r(d)
d R
gR =
r(d)
dD
Cch tnh ny cng tng t tnh R, P nh phn truyn thng, n cng cho
php tnh R trung bnh v P trung bnh ca tp cu truy vn, tnh P da trn R,
hoc tnh da trn ngng gii hn s ti liu tr v v cng cho php biu
din ng cong PR
76
KT LUN
Ting Anh: