Professional Documents
Culture Documents
Tiểu luận Khai Phá Dữ Liệu Sử Dụng Weka để Phân Lớp trên Dataset
Tiểu luận Khai Phá Dữ Liệu Sử Dụng Weka để Phân Lớp trên Dataset
Tiểu luận Khai Phá Dữ Liệu Sử Dụng Weka để Phân Lớp trên Dataset
34.word_freq_415
35.word_freq_85
36.word_freq_technology
37.word_freq_1999
38.word_freq_parts
39.word_freq_pm
40.word_freq_direct
41.word_freq_cs
42.word_freq_meeting
43.word_freq_original
44.word_freq_project
45.word_freq_re
46.word_freq_edu
47.word_freq_table
48.word_freq_conference
49.char_freq_;
50.char_freq_(
51.char_freq_[
52.char_freq_!
53.char_freq_$
54.char_freq_#
55.capital_run_length_average
56.capital_run_length_longest
57.capital_run_length_total
58.class
Sau khi d liu c np ln, panel bn tri th hin cc thuc tnh ca file d liu, panel
bn phi th hin cc thng k tng ng vi thuc tnh bn tri
C S L THUYT
Cng thc xc sut c iu kin
Xc sut iu kin ca bin c A vi iu kin bin c B xy ra l mt s khng m,
k hiu l P( A/B ) n biu th kh nng xy ra bin c A trong tnh hung bin c B
xy ra.
P( A/B ) = (P( AB ))/(P( B ))
Suy ra
P( A/B ) . P( B ) = P( B/A ) . P( A ) = P( AB )
Cng thc xc sut y
Gi s B1, B2, Bn l 1 nhm y cc bin c. Xt bin c A sao cho A xy ra ch
khi mt trong cc bin c B1, B2, Bn xy ra. Khi :
P(A) = P(Bi) . P(A/Bi)
Cng thc xc sut Bayes
T cc cng thc trn ta c cng thc xc sut Bayes :
Thay vo vic tnh xc sut ny da theo s ln xut hin ca token trong tng kho ng
liu ta c th da vo s email cha token trong tng kho ng liu. V d mt token w c
s email cha n trong kho ng liu spam v non-spam l ns v nn th xc sut spam ca
token w ny s l :
P(X=w | C=spam) = (s/Ns)/(ns/Ns+nn/Nn)
Nhc im ca phng php ny l kh nng spam ca mt token xut hin 1 ln trong
1 email l bng vi kh nng spam ca mt token xut hin 100 ln trong 1 email.
V vy chng ta s dng cch th ba l tng hp ca hai cch trn :
P(X=w | C=spam) = ((s*ns)/Ns)/((ns*s)/Ns+(nn*n)/Nn))
Cn i vi cc token ch xut hin trong kho ng liu ny m khng xut hin trong kho
ng liu kia th khng th kt lun mt token ch xut hin kho ng liu spam th khng
bao gi xut hin trong kho ng liu non-spam v ngc li. Cch thch hp th ta s gn
cho chng mt gi tr ph hp. Vi nhng token ch xut hin trong kho ng liu spam
th ta gn xc sut spam cho n l gi tr N gn vi 1 ( chng hn 0,9999) v ngc li th
gn xc sut spam l gi tr M gn vi 0 ( chng hn 0,0001).
Nh vy ta c cng thc tnh xc sut spam ca token da trn s ln xut hin v s
email cha n l :
P = Max ( M, Min ( N, ((ns*s)/Ns)/((ns*s)/Ns+(nn*n)/Nn) ) )
ns : s email cha token trong kho spam
nn : s email cha token trong kho non-spam
s : s ln token xut hin trong kho spam
n : s ln token xut hin trong kho non-spam
Ns : tng s email trong kho spam
Nn : tng s email trong kho non-spam
2.2.2. Phn lp trn weka
Trn giao din weka, chn classify/Choose/bayers/NaiveBayers
Mc Cross-validation mc nh 10
Chn More option thit lp ouput. Ti y ta tch thm vo mc output predictions
hin thm phn d bo.
n start
Kt qu:
Classify output cn cung cp cho chng ta thy Confusion Matrix biu din rng:
-
Ouput cng hin th chi tit d on trong qu trnh thc hin thut ton.
2.2.3. Nhn xt
Nu so snh vi thut ton khc v d nh C4.5 (phn lp bng cy quyt nh j48) th
vic phn lp bng Naive Bayers i vi dataset Spambase nhanh hn nhiu v cng
chnh xc hn, c th