SiberGuvenlikveVeriMadenciliği Hafta3

Sınıflandırma Modelini
Değerlendirme
Sınıflandırma Metodu tarafından oluşturulan modelin
başarısını ölçmek için (Biyoistatistik terimleri)
Doğruluk (Accuracy)
Hata Oranı (Error rate)
Özgüllük (Specificity)
Duyarlılık (Sensitivity)
gibi ölçüler kullanılır.
Sınıflandırma Modelini Değerlendirme:
* Doğruluk (Accuracy)
* Hata Oranı (Error Rate)
Bir M sınıflayıcısı için doğruluk;

acc(M) doğru sınıflanmış örneklerin toplam örnek
sayısına oranından bulunur.
Bir M sınıflayıcısı için hata oranı;

1-acc(M) olarak hesaplanır.
Sensitivity (also called the true positive rate, or the
recall rate in some fields) measures the proportion of
actual positives which are correctly identified as such
(e.g., the percentage of sick people who are correctly
identified as having the condition
Specificity (sometimes called the true negative rate)
measures the proportion of negatives which are
correctly identified as such (e.g., the percentage of
healthy people who are correctly identified as not
having the condition)
3
Duyarlılık - Sensitivity(aynı zamanda gerçek pozitif
oran veya bazı alanlarda Recall- Anma oranı olarak da
adlandırılır), doğru bir şekilde tanımlanan gerçek
pozitiflerin oranını ölçer (örneğin, doğru şekilde
tanımlanan spam e-maillerin yüzdesi)
Özgüllük- Specificity (gerçek negatif oran olarak
adlandırılır), doğru bir şekilde tanımlanan negatiflerin
oranını ölçer (örneğin, spam olmadığı doğru şekilde
tanımlanan e-maillerin yüzdesi)
4
5
6
Sınıflandırma Modelini Değerlendirme:
Karışıklık Matrisi (Class Confusion Matrix)
Öngörülen sınıf
(Predicted Class)
C1 (Positive) C2 (Negative)
Gerçek Sınıf C1 Doğru Pozitif

(Positive) True positive Yanlış Negatif
(Actual Class) TP False negative ΣPositive
FN
C2 Yanlış Pozitif Doğru Negatif ΣNegative
(Negative) False positive True negative
FP TN
sensitivity = TP /pos /* true positive recognition rate */

specificity = TN /neg /* true negative recognition rate */
accuracy= (TP +TN) / (pos + neg)

8
Duyarlılık Özgüllük
9
False pozitif paradoks
nedir?
Entropi nedir?
Bir sınıf için saflık-
prutiy nasıl hesaplanır?
10
Kesinlik ve Duyarlılık
Kesinlik (Precision):Seçilenlerin
ne kadarı doğru pozitif
Precision = TP / (TP + FP)
Duyarlılık(Sentivite, Recall):
Pozitiflerden ne kadarı seçildi .
Recall = TP / (TP + FN)
11
Kesinlik/Duyarlılık
Kesinlik İyi, Duyarlılık kötü
yüksek duyarlılık modeli (kırmızı balığın çoğunu

precision good,
yakaladık),
recall bad.
düşük kesinlik
(ayrıca çok sayıda mavi balık yakaladık).
12
Kesinlik (Precision):Seçilenlerin ne kadarı doğru pozitif
Precision = TP / (TP + FP)
Duyarlılık(Sentivite, Recall): Pozitiflerden ne kadarı seçildi .
Recall = TP / (TP + FN)
A Kesinlik 25/50 =%50 Duyarlılık=25/50=%50
B kesinlik 50/75 =%66 Duyarlılık 50/50=%100
C Kesinlik 25/ 25=%100 Duyarlılık 25/50=%50
13
14
15
'There's A Math For That' - The
Paradox Of The False Positive
https://www.youtube.com/watch?v=6WuTNMleuQI
16
17
18
19
Genel F Formülü
 Buradaki β değeri, kesinlik ve hassasiyet arasındaki dengeyi belirler. Örneğin β = 2 için

bulunan değer, hassasiyeti iki misli etkili kılarken, β = 0.5 için bulunan değer, kesinlik
etkisini iki misline çıkarır. Unutulmaması gereken bir durum β değerinin pozitif tam sayı
olduğudur.
 https://deepai.org/machine-learning-glossary-and-terms/f-score
20
Kesinlik ve duyarlılık ölçütleri tek başına anlamlı bir
karşılaştırma sonucu çıkarmamıza yeterli değildir. Her
iki ölçütü beraber değerlendirmek daha doğru
sonuçlar verir.
Bunun için f-ölçütü tanımlanmıştır. F-ölçütü,
kesinlik ve duyarlılığın harmonik ortalamasıdır.
21
F ölçütü, kesinlik ve recall değerlerinin dengelenmesi
için kullanılır.
Bazı problemlerde, yanlış pozitiflerin en aza
indirilmesinin daha önemli olduğu, durumlarda,
kesinliğe daha fazla dikkat edilen bir F-ölçütü gerekir.
 F0.5-Measure (beta=0.5): More weight on precision,
less weight on recall.
Bazen de yanlış negatiflerin en aza indirilmesinin daha
önemli olduğu, durumlar olabilir o zaman da , recall
değerine daha fazla dikkat çeken bir F-ölçütü gerekir.
F2-Measure (beta=2.0): Less weight on precision,
more weight on recall
22
Kesinlik/Duyarlılık
23
24
25
Sınıflama Analizi Teknikleri
Yapay Sinir Ağları (Neural Networks)

K-En Yakın Komsu (K-Nearest Neighbor)
Bayesian Ağları (Naive-Bayesian Networks)
Karar Ağaçları (Decision Trees)
Kaba Küme Teorisi (Rough Set Theory)
Olay Temelli Çıkarsama (Case-Based Reasoning)
Genetik Algoritmalar (Genetic Algorithms)
Bulanık Küme Yaklaşımları (Fuzzy Set Approach)
Sınıflandırma İşlemi
Sınıflandırma işlemi üç aşamadan oluşur:
1. Model oluşturma

2. Model değerlendirme
3. Modeli kullanma
Sınıflandırma İşlemi: Model
Oluşturma
1. Model Oluşturma:
Her nesnenin sınıf etiketi olarak tanımlanan niteliğinin
belirlediği bir sınıfta olduğu varsayılır
Model oluşturmak için kullanılan nesnelerin oluşturduğu
veri kümesi öğrenme kümesi olarak tanımlanır
Model farklı biçimlerde ifade edilebilir
IF – THEN – ELSE kuralları İle
Karar ağaçları ile
Matematiksel formüller ile
Sınıflandırma İşlemi: Model
Değerlendirme
2. Model Değerlendirme:
Modelin başarımı (doğruluğu) sınama kümesi örnekleri
kullanılarak belirlenir
Sınıf etiketi bilinen bir sınama kümesi örneği model
kullanılarak belirlenen sınıf etiketiyle karşılaştırılır
Modelin doğruluğu, doğru sınıflandırılmış sınama kümesi
örneklerinin toplam sınama kümesi örneklerine oranı olarak
belirlenir.
Sınama kümesi model öğrenirken kullanılmaz
Sınıflandırma İşlemi: Modeli
Kullanma
3. Modeli kullanma:
Model daha önce görülmemiş örnekleri sınıflandırmak
için kullanılır
 Örneklerin sınıf etiketlerini tahmin etme
Karar Ağaçlarında Dallanma Kriterleri
Entropiye dayalı algoritmalar
 ID3 Algoritması
 C4.5 Algoritması
Sınıflama ve regresyon ağaçları (CART)

 Twoing Algoritması
 Gini Algoritması

Örnek bir karar ağacı
32
Karar ağaçları
Karar ağacı oluşturma yöntemleri genel
olarak iki aşamadan oluşur:
–1. ağaç oluşturma
en başta bütün öğrenme kümesi örnekleri kökte seçilen
niteliklere bağlı olarak örnek yinelemeli olarak bölünüyor
– 2. ağaç budama
öğrenme kümesindeki gürültülü verilerden oluşan ve
sınama kümesinde hataya neden olan dalları silme
(sınıflandırma başarımını artırır)
Karar Ağacı Oluşturma
 Ağaç yukarıdan aşağıya tekrarlı yapı ile böl ve keşfet (divide-and-
conquer)
metodolojisiyle oluşturulur.
 – ağaç bütün verinin oluşturduğu tek bir düğümle başlıyor
 – nitelikler kategorik (eğer sürekli nitelikler varsa önceden ayrıştır)
 – eğer örnekleri hepsi aynı sınıfa aitse düğüm yaprak olarak
sonlanıyor ve sınıf etiketini alıyor
 – eğer değilse örnekleri sınıflara en iyi bölecek olan nitelik
 seçiliyor (???)
 – işlem sona eriyor
 örneklerin hepsi (çoğunluğu) aynı sınıfa ait
 örnekleri bölecek nitelik kalmamış
 kalan niteliklerin değerini taşıyan örnek yok
En iyi bölen nitelik seçimi
İyilik Fonksiyonu (Goodness Function)
– Farklı algoritmalar farklı iyilik fonksiyonları kullanabilir:
 Bilgi kazancı (information gain): ID3
 Kazanç oranı (gain ratio): C4.5
 – bütün niteliklerin ayrık değerler aldığı varsayılıyor
 – sürekli değişkenlere uygulamak için değişiklik yapılabilir
• Gini index: CART, IBM IntelligentMiner

Bilgi kazancı (Information gain)
 Bir torbadaki topların renkleri farklı ise belirsizlik
fazladır
Topların hepsi aynı renkte ise belirsizlik yoktur
 Information theory (bilgi kuramı) dayanır
 Entropi veya bilgi entropisi belirsizliğin bir ölçütüdür.
Örneğin sepetteki toplar farklı renklerde belirsizlik
fazla, topların hepsi aynı renkte ise daha belirsizlik
yoktur.
Entropi
 Entropi rastgeleligin, belirsizliğin ve
 beklenmeyen durumun ortaya çıkma olasılığını gösterir.
 Sınıflandırmada
örneklerin tümü aynı sınıfa ait ise entropy=0
 örnekler sınıflar arasında eşit dağılmış ise entropi=1
 örnekler sınıflar arasında rastgele dağılmış ise
0<entropi<1
 Bütün örnekler aynı sınıfa ait ise E(S)=0 (homojen)
 Bütün örnekler sınıflara esit dagılmıs ise E(S)=1 (heterojen)
Örnek Veri
 J. Ross Quinlan’ın
geliştirdiği ID3
modeline uyarlanmış:
hava tenis oynamaya
uygun mu?
Örnek Karar Ağacı
Örnek
S veri kümesinde 14 örnek:
C0 sınıfına ait 9 ,
C1 sınıfına ait 5 örnek
ID3 (Iterative Dichotomiser 3)
Verinin tamamının entropisi hesaplanır. Ancak bu
veri çeşitli alt sınıflara ayrıldığında her alt grubun
entropisi de hesaplanmaktadır.
ID3 veri bölünmeden önce sınıflandırma yapmak
için gelen bilgiyle, veri bölündükten sonra gelen
bilgi arasındaki farkı kullanarak öncelikli düğümü
ve dallanmalara karar verir.
Veri bölündükçe, yani dallanma oluştukça doğru
sınıflama için gerekli bilgi sayısı da azalacaktır.
ID3
ID3 algoritmasında kazanım şu şekilde
hesaplanmaktadır:
Verilerin başlangıçtaki halinin entropisi ile her bir alt
bölümün entropilerinin ağırlıklı toplamı arasındaki fark
alınır. Bu fark hangi bölüm için büyükse o alt bölüme
dallanma yapılır.
Örnek1
14 veri örneği , 9 evet and 5 hayır
Birinci Dallanma
Isı niteliğinin kazanç ölçütü için aşağıdaki değerler
yazılabilir: burada her niteliğin tekrar değeri
hesaplanmıştır
ISI soğuk: 4
ISI Ilık 6
ISI sıcak=4
Isı niteliğine göre ayırma gerçekleştirildiğinde elde edilecek
kazancın hesaplanması gerekmektedir. Kazancı
hesaplamak için öncelikle bu niteliğin entropilerinin
ağırlıklı toplamı hesaplanmalıdır.
Isı niteliğine ait kazancın hesaplanması
Hava niteliğine ait kazancın hesaplanması
HAVA güneşli=5
HAVA yağmurlu=5
HAVA bulutlu=4
Hava niteliğinin entropi değeri aşağıdaki gibi
hesaplanabilir:
Hava niteliğine ait kazancın hesaplanması
H(HAVA, OYUN) entropisi aşağıdaki gibi

hesaplanmaktadır.
Kazanç Değerleri
 KAZANÇ(RÜZGAR, OYUN)= 0.048
 KAZANÇ(NEM, OYUN) =0.151
 KAZANÇ (ISI, OYUN)=0.029
 KAZANÇ(HAVA, OYUN)=0.247
 Elde edilen sonuca göre karar ağacı şu şekilde olmaktadır:
İkinci Adım: Hava niteliğinin Güneşli değeri için
dallanma
Yukarıdaki veriler için OYUN’un entropisini

hesaplamak gerekir.
Isı niteliği için kazanç
Nem niteliği için kazanç
Rüzgar niteliği için kazanç
Karar Ağacı
Sonuç Karar Ağacı
Karar ağacından elde edilen kurallar
Karar ağacından aşağıdaki kurallar elde edilebilir:

IF outlook = sunny AND humidity = high THEN playball = no
IF outlook = rain AND humidity = high THEN playball = no
IF outlook = rain AND wind = strong THEN playball = yes
IF outlook = overcast THEN playball = yes
IF outlook = rain AND wind = weak THEN playball = yes
Karar Ağaçları Tekniğinin Avantaj Ve
Dezavantajları
 Avantajları
 Karar ağacı kurmak için geliştirilen teknikler, eğitim kümesinin boyutu
çok büyük olmasına rağmen, modellerin çabuk kurulmasını
sağladıkları için hesapsal açıdan maliyetli değildir .
 Bir özellik, verilerdeki başka bir özellikle güçlü bir şekilde ilişkiliyse bir
gereksiz özelliktir. Özellik seçimi teknikleri, ön işleme süresince ilgisiz
özellikleri eleyerek, karar ağaçlarının doğruluğunun artmasına
yardımcı olur.
 Bir sinir ağı ya da Bayes sınıflandırıcısı ile karşılaştırıldığında, karar
ağaçları uygulamacılar tarafından daha kolay anlaşılır.
 Karar ağacı geliştirme algoritmaları, eğitim verilerinde var olan bilgiler
dışında ek bilgiye gerek duymazlar .
 Anlaşılabilir kurallar oluşturulabilir.
 Dezavantajları
 Bir en iyi karar ağacının inşası çok zordur. Birçok karar ağacı
algoritması aç gözlü, yukarı-aşağı ve yinelemeli ayırma stratejileri gibi
sezgisel tabanlı bir yaklaşım uygular .
 Karar ağacındaki bir alt ağaç birden fazla yerde tekrarlanabilir. Bu
durum, karar ağacını olması gerekenden daha karmaşık hale getirir ve
ağacı yorumlamak da daha zor hale gelir .
 Sınıf sayısı fazla ve öğrenme kümesi örnekleri az olduğunda model
oluşturma çok başarılı değildir.
 Hem ağaç oluşturma karmaşıklığı hem de ağaç budama karmaşıklığı
fazladır.
Karar Ağaçlarında Sorunlar
59
Karar Ağaçlarında Sorunlar
60
Entropi =-(4/7 log2(4/7)+3/7log2(3/7))= 0,99
Kazanç=0.99-0=0.99
61
62
Kazanç oranı-Gain Ratio
63
64
Added social security number attribute
college_ support_
ss age income veteran educated hillary
215-98-9343 youth low no no no
238-34-3493 youth low yes no no
234-28-2434 middle_aged low no no yes
243-24-2343 senior low no no yes
634-35-2345 senior medium no yes no
553-32-2323 senior medium yes no yes
554-23-4324 middle_aged medium no yes no
523-43-2343 youth low no yes no
553-23-1223 youth low no yes no
344-23-2321 senior high no yes yes
212-23-1232 youth low no no no
112-12-4521 middle_aged high no yes no
423-13-3425 middle_aged medium yes yes yes
423-53-4817 senior high no yes no
Will Information Gain split on ss?
ss no
no
215-98-9343……..423-53-4817
no yes
yes no
yes no
no no yes
yes no no
Will Information Gain split on ss?
ss no
no
215-98-9343……..423-53-4817
no yes
yes no
yes no
no no yes
yes no no
Yes, because Entropyss (D) = 0.

C 4.5.GainRatio
Özellik Seçiminde Alternatif
Ölçütler
 “Day” niteliği ile ilgili yanlış olan durum nedir?

 Bu nitelik eğitim verilerini çok küçük alt veri kümelerine bölmektedir.
 Buna bağlı olarak bilgi kazancı çok yüksek olacaktır
Gain Ratio
 Gain ratio (Quinlan, 1986), bilgi kazancı değerlerini, bölünme
bilgisi(split information) kullanarak bir çeşit normalizasyona tabi
tutar.
 Bu terim nitelik değerinin veriyi nasıl böldüğü konusunda
hassastır.
İncome için Gain Ratio hesabı
“income” için Gain Ratio
 Veriyi 3’e bölmektedir.
 “low” (4 satır)
 ”medium” (6 satır),
 ”high” (4 satır)
 Daha önce hesaplanmıştı
 Gain(income)=0.029
 GainRatio(income)0.029/0.926=0.031
CART
Binary splitting (CART)
Detecting the best
combination in two subsets
77
CART-Gini Index
DT Öğrenmesindeki Sorunlar
Karar ağaçları ile ilgili pratik sorunlar,

ağacın hangi derinliğe kadar ilerleyeceği,
sürekli verileri handle etmek,
uygun bir nitelik seçim yöntemi belirlemek,
eğitim verisini kayıp veriler ile handle etmek,
işlemsel(computational) etkinliği sağlamak.
Overfitting
 Ağaca yeni düğüm eklendikçe eğitim verilerinden sağlanan
doğruluk oranı artar
 Ancak eğitim verilerinden bağımsız test verileri ile ölçülen
doğruluk önce artar sonra ise azalır.
Veriye aşırı uyumun önüne
geçme
ID3 algoritması, eğitim verilerini en iyi
sınıflandıracak şekle kadar her dalını derinleştirir.
Bu mantıklı bir stratejiyken, veriler arasında
gürültü varsa zorluklara sebep olabilir.
Gürültü varken, her yaprak saf (pure) olana dek
bölünmeye izin vermek, veriyi ezberleyen
(overfitting) çok büyük bir karar ağacı oluşmasına
neden olabilir.
Budama (Pruning)
Karar ağacı uygulamasında overfitting’i önleyen
yöntemler iki gruba ayrılırlar:
Pre-pruning (erken budama)
Post-pruning (geç budama)
Hangi yaklaşım daha geçerlidir?
ilki daha direk bir yaklaşım gibi görünürken
ikincisi pratikte daha kabul edilir sayılmaktadır.
Budamanın Gerekliliği
Budanmış ağaçlar daha kısa ve daha az karmaşık olma
eğilimindedirler.
Daha kolay anlaşılırlar.
Genellikle daha hızlıdırlar.
Test verilerini sınıflamada daha başarılıdırlar.
Pre-Pruning
Ağacın büyümesini erken durduran yaklaşımlar
(eğitim verilerini çok iyi sınıflayan noktaya
erişmeden önce)
Bir düğüme ulaşan örnek sayısı, eğitim verilerinin
belirli bir yüzdesinden daha küçükse o düğüm
artık bölünmez.
Az sayıda örneğe bağlı olarak alınan kararlar
genelleme hatasını artırır.
Daha hızlı çözüm.
Post Pruning
Ağacın veriye oturmasına izin veren ve daha sonra
ağacı budayan yaklaşımlar.
Karar ağaçlarında uygulanan “greedy” algoritması:
her adımda bir düğüm ekler, geriye dönüp başka
bir seçenek düşünmez.
Bu durumun tek istinası: gereksiz alt ağaçların
bulunup budanmasıdır.
Daha doğru çözüm.
…
 Ağaç tüm yapraklar saf olana dek büyütülür.
 Sonra ezberlemeye neden olan alt ağaçlar bulunur ve budanır.
 İlk eğitim verilerinin bir kısmını “budama kümesi” (prune set) olarak
ayırırız.
 Her alt ağaç yerine o alt ağacın öğrenme kümesinde kapsadığı
örneklerle eğitilmiş bir yaprak koyarız.
 Ve budama kümesi üzerinde bu iki seçeneği karşılaştırırız.
 Eğer yaprak budama kümesi üzerinde daha az hataya neden oluyorsa,
ağaç budanıp yaprak kullanılır.
 Değilse, alt ağaç kalır.
 Yaprak yer değiştirilecek olan alt ağaçtaki en sık görülen sınıf ile
etiketlenir.
Tree Pruning
Ağacı Kurallara Dönüştürmek
Karar ağaçları boyut indirgeme için kullanılabilir.
Karar ağacı kendisi önemsiz olan nitelikleri çıkarır.
Ayrıca köke yakın olan düğümlerdeki nitelikler daha
önemlidir.
Ağaç oluşturulduktan sonra, başka bir öğrenme algoritması
sadece ağaçta bulunan nitelikleri kullanabilir.
Başka bir üstünlüğü kolay yorumlanabilmesidir.
Kuralların confidence değerleri hesaplanabilir.
Örn
IF (Outlook = Sunny) And (Humidity = High)

THEN PlayTennis = No
IF (Outlook = Sunny) And (Humidity = Normal)
THEN PlayTennis = Y es
Örn
Overfitting
Learning a tree that classifies the training data perfectly
may not lead to the tree with the best generalization to
unseen data.
 There may be noise in the training data that the tree is erroneously
fitting.
 The algorithm may be making poor decisions towards the leaves of
the tree that are based on very little data and may not reflect
reliable trends.
A hypothesis, h, is said to overfit the training data is there
exists another hypothesis which, h´, such that h has less
error than h´ on the training data but greater error on
independent test data.
on training data
accuracy
on test data
hypothesis complexity 101

Overfitting Example
Testing Ohms Law: V = IR (I = (1/R)V)
Experimentally
measure 10 points current (I)
Fit a curve to the

Resulting data.
voltage (V)
Perfect fit to training data with an 9th degree polynomial

(can fit n points exactly with an n-1 degree polynomial)
Ohm was wrong, we have found a more accurate function!

102
Overfitting Example
Testing Ohms Law: V = IR (I = (1/R)V)
current (I)
voltage (V)
Better generalization with a linear function

that fits training data less accurately.
103
Overfitting Noise in Decision
Trees Category or feature noise can easily
cause overfitting.
 Add noisy instance <medium, blue,
circle>: pos (but really neg)
color
red green blue
shape
neg neg
circle square triangle
pos neg pos
104
Overfitting Noise in Decision
Trees
Category or feature noise can easily cause overfitting.
 Add noisy instance <medium, blue, circle>: pos (but really neg)
color
red green blue <big, blue, circle>: 
shape <medium, blue, circle>: +
neg
circle square triangle small med big
pos neg pos neg pos neg
• Noise can also cause different instances of the same

feature vector to have different classes. Impossible to fit
this data and must label leaf with the majority class.
– <big, red, circle>: neg (but really pos)
• Conflicting examples can also arise if the features are
incomplete and inadequate to determine the class or if the
target concept is non-deterministic. 105
• Bayes’ Teoremi
• Naive Bayes Sınıflama

• Bayes Ağları (Bayesian Belief
Networks)
106
Roc Eğrileri
İlk ROC eğrisi 2. Dünya Savaşı’nda “radar
sinyalleri”nin
analizi için kullanılmıştır. Düşman uçaklarını, radar
sinyallerini kullanarak daha doğru bir şekilde
saptamak amacıyla araştırmalara başlanmıştır.
ROC eğrileri tıpta 1960’larda kullanılmaya
başlanmıştır.
ROC üzerindeki her nokta bir sınıflandırıcının
oluşturduğu bir modele karşı düşer
108
109
110
111
112
Another ROC example
 Hypothyroidism
 TSH (thyroid stimulating hormone or
thyrotropin) levels are the “gold standard.”
 How good are blood levels of T4 (thyroxine)

at predicting hypothyroidism?
Another ROC example
 Using measured TSH levels as the “gold
standard,” we obtained the following
results:
T4 value Hypothyroid Euthyroid (normal)
5 or less 18 1
5.1 - 7 7 17
7.1 - 9 4 36
9 or more 3 39
Totals: 32 93
Another ROC example
ROC and hypothyroidism
1. We can say T4<=5 is hypo; T4>5 is normal.
2. We can say T4<=7 is hypo; T4>7 is normal.
3. We can say T4<9 is hypo; T4>=9 is normal.
Calculate the sensitivity and specificity of each.

1. Let T4<=5 be hypo; T4>5 be normal.

 Calculate the sensitivity (true abnormals
called abnormal by the observer):

 TPF = TP / (TP+FN) = 18 / (18+7+4+3) =
18/32 = 0.56 TP
s
T4 value Hypothyroid Normal-Euthyroid
5 or less 18 1
5.1 - 7 7 17
FNs
7.1 - 9 4 36
9 or more 3 39
Totals: 32 93
1. Let T4<=5 be hypo; T4>5 be normal.

 Calculate the specificity (true normals
called normal by the observer) =TN /

(TN+FP) = (17+36+39) / (17+36+39+1)
= 92 / 93 = 0.99 TNs TNs + FPs
T4 value Hypothyroid Normal-Euthyroid FPs
5 or less 18 1
5.1 - 7 7 17
7.1 - 9 4 36
9 or more 3 39
Totals: 32 93
Cutpoint (t) Sensitivity Specificity
5 0.56 0.99
7 0.78 0.81 1-specificity
9 0.91 0.42
Cutpoint (t) True Positives FalsePosRate

5 0.56 0.01
7 0.78 0.19
9 0.91 0.58
Sınıflandırma Öğrenme sınama
120
Tekrarlı Holdout
Veri kümesini farklı altkümelere bölerek holdout
yöntemini tekrarlama
􀂄 Her eğitme işleminde veri kümesinin belli bir
bölümü öğrenme kümesi olarak rasgele ayrılır
􀂄 Modelin hata oranı, işlemler sonunda elde edilen
modellerin hata oranlarının ortalaması
􀂄 Problem: Farklı eğitme işlemlerindeki sınama
kümeleri örtüşebilir
121
K çapraz katlama
122
Başarı artırma
123
Bootstrap Yöntemi
124
Bagging (Bootstrap
aggregating)
125
Bagging
126
Boosting
127
128
C4.5 Sınıflama Başarısı ve
Bayes Sınıflama
129
ödev
Sınıflamanın Başarısını Değerlendirirken kullanılan
aşağıdaki kavramları açıklayınız.

Precision(Kesinlik)
F-measure
Confusion Matrix
Roc Eğrisi
Hava durumu verisi için GainRatio değerlerini
hesaplayınız.
130
Bayesain Classification
• Bayes sınıflandırıcı nedir?
• İstatistiksel bir sınıflandırıcıdır.
• Sınıf üyelik olasılıklarını hesaplayabilmektedir. Mesela
verilen bir kaydın belli bir sınıfa ait olma olasılığı.
• Bayes sınıflama “Bayes teoremi”ne dayanmaktadır.
• Sınıflandırma algoritmalarının karşılaştırmasını yapan
çalışmalar “naive Bayesian classifier” olarak bilinen basit
Bayes sınıflandırıcıyı ortaya çıkarmıştır.
•Bu algoritmanın performansı karar ağaçları ve seçilmiş bazı
yapay sinir ağ sınıflandırıcılarla mukayese edilebilir
131
• Büyük çaptaki veritabanlarına uygulandığında Bayes
sınıflandırıcılar yüksek hassasiyet(doğruluk) ve hız sergilemiştir.
• “Naive Bayesian Calssifier”

• bir nitelik(attribute) değerinin verilen bir sınıf üzerindeki
etkisi, diğer niteliklerin değerlerinden bağımsızdır.
• Bu varsayım “class conditional independence” olarak
adlandırılır.
• Bu varsayım gereken hesaplamaları basitleştirmek için
yapılır.
• bu nedenle “naive” olarak adlandırılır. 132
• “Bayesian belief networks”
• grafik modeldir.
• Naive Bayes sınıflandırıcıdan farkı
• niteliklerin alt kümeleri arasındaki bağımlılıkları temsil
etmeye olanak tanır.
• sınıflandırma için kullanılabilmektedir.
133
• Bayes’ Theorem
• Naive Bayesian Classification
• Bayesian Belief Network
134
Bayes’ Theorem
•18.yy’da yaşayan Thomas Bayes adlı kişinin çalışmalarından sonra
Bayes teoremi olarak adlandırılmıştır.
• X veri demeti (data tuple) olsun.
• Bayes terimleriyle X, kanıt (“evidence”) olarak nitelendirilir.
• n adet nitelikten oluşan bir set üzerinde yapılan ölçümlerle
tanımlanır.
• H ; “X veri demeti belirli bir C sınıfına aittir” gibi bir hipotez olsun.
• Sınıflandırma problemlerinde, biz P(H |X) değerini bulmaya
çalışıyoruz.
• P(H |X): verilen kanıt(“evidence”) yada diğer bir ifadeyle
gözlemlenen X veri demeti için H hipotezinin tutma olasılığıdır.135
Bayes’ Theorem
• P(H |X):
• Posterior probability
• X şartına bağlı H’ın “posterior probability”si
• Mesela bizim veri demetlerimiz sırasıyla “yaş” ve “gelir”
nitelikleriyle tanımlanmış müşteriler olsun.
• ve X, geliri 3000 TL olan 35 yaşında bir müşteri olsun.
• H, “müşterimiz bilgisayar alacaktır” hipotezi olsun.
• Bu durumda P(H |X), gelirini ve yaşını bildiğimiz X
müşterisinin bilgisayar alma olasılığını yansıtmaktadır.
136
Bayes’ Theorem
• Buna karşın P(H):
• H’ın “prior probability”si
• Bizim örneğimiz için bu, (yaşına ve gelirine bakmaksızın)
herhangi bir müşterinin bilgisayar alma olasılığıdır.
• Posterior probability P(H |X), X’ den bağımsız olan prior
probability P(H)’den daha fazla bilgiye (mesela müşteri bilgisine)
ihtiyaç duymaktadır.
• Benzer bir şekilde P(X |H):
• H şartına bağlı X’ in “posterior probability”si
• yani bilgisayar alacağı bilinen X müşterisinin yaşının 35 ve
137
Bayes’ Theorem
• P(X) :
•X’in “prior probability” si
• bizim örneğimizde bu, müşteri setimizdeki bir kişinin 35
yaşında 3000 TL gelire sahip olma olasılığıdır.
• Peki bu olasılıklar nasıl hesaplanır?
• P(H), P(X|H) ve P(X) verilen data’lardan
hesaplanabilmektedir.
• Bayes teoremi, P(H|X) “posterior probability”sini P(H),
P(X|H) ve P(X) olasılıklarını kullanarak hesaplamaya
yarar. 138
Bayes’ Theorem
• Bayes Theorem,
139
Bayes’ Theorem
p( X | H ) × p( H )
p(H | X ) =
p( X )
p(H) is a probability distribution over

the variable of interest prior to the
addition of your new observation
140
Bayes’ Theorem
p ( X | H ) × prior
p(H | X ) =
p( X )
p(H|X) is the probability of any value of

H given our observation of X. or as
they say, the probability distribution
posterior to our observation.
141
Bayes’ Theorem
p ( X | H ) × prior
posterior =
p( X )
P(X |H) likelihood(olabilirlik) of obtaining our
particular observation X, under the
supposition that any of the possible states
of the variable H were actually the case.
142
Bayes’ Theorem
liklihood × prior
posterior =
p( X )
p(X) is a constant of proportionality.
p(X) is the probability of making our observation, period.

p(X) is a normalization constant.
p(X) is NOT a probability distribution,

it’s just a single number. 143
Bayes’ Theorem
liklihood  prior
posterior 
normalizat ion
posterior  liklihood  prior
144
145
Naive Bayesian Classification
Naive Bayesian classifier yada diğer adıyla simple Bayesian
classifier şu şekilde çalışır.
1. D, veri demetleri ve onların ilgili sınıf etiketlerinden oluşan
eğitim seti olsun.
• Alışıldığı gibi, her bir veri demeti n-boyutlu nitelik vektörüyle
temsil edilir.
2. olmak üzere m adet sınıf olduğunu düşünelim.
• Verilen bir veri demeti (X) için, sınıflandırıcı en büyük posterior
olasılığına sahip olan sınıfı tahmin edecektir.
146
Naive Bayesian Classification ( ) ( )
p X |H ×p H
( ) pH|X =
2. …. p( X )
• Yani “naive Bayesian classifier” ancak ve ancak
olduğunda X veri demetinin Ci ’ye ait olduğunu tahmin eder.

• Dolayısıyla ’yi maksimuma çıkarırız.
• değeri maksimum olan sınıf ( ) “maximum
posteriori hypothesis” olarak adlandırılır.
• Bayes teoremi
147
3. P(X) bütün sınıflar için sabit olduğundan sadece ,
maksimize edilmelidir.
• Eğer sınıfların evvelki(prior) olasılıkları bilinmiyorsa,
genellikle sınıfların eşit dağıldığı kabul edilir. Yani,
• ve dolayısıyla ’yi maksimize ederiz. Aksi takdirde

’ yi maksimize ederiz.
• Sınıfların evvelki olasılıkları şu şekilde hesaplanabilir:
: D’deki Ci sınıfına ait eğitim veri demetlerinin sayısı

148
4. Çok sayıda nitelik içeren data seti için ’yi hesaplamak
çok uzun zaman alacaktır.
• bulmak için yapılan hesaplama miktarını azaltmak
için “class conditional independence” (basit) varsayımı
yapılır.
• Bu varsayım şunu öngörür:
(Verilen bir veri demetinin sınıf etiketi için) niteliklerin
değerleri birbirlerinden (şartlı olarak) bağımsızdır.
• Yani nitelikler arasında bağımlılık ilişkileri yoktur.
149
4. …
• Dolayısıyla,
• Buradaki olasılıkları eğitim

veri demetlerinden kolaylıkla hesaplayabiliriz.
• Formüldeki , X veri demetindeki niteliğinin değerine
işaret eder. Her bir nitelik için o niteliğin kategorik mi yoksa
sürekli değerli mi olduğuna bakılır.
150
4. …
• Örneğin yi hesaplamak için şunlar dikkate alınır:
a) Eğer kategorik ise , D içindeki sınıfına
ait olan kayıtlardan niteliğinin değeri olanların
adedinin ye bölünmesiyle bulunur.
: D’deki Ci sınıfına ait eğitim veri demetlerinin sayısı
b) Eğer sürekli değerlere sahip ise, biraz daha fazla

işlem yapılması gerekir. Bir sürekli-değerli niteliğin
genellikle ortalaması ve standart sapması olan bir
Gaussian dağılıma sahip olduğu kabul edilir. 151
4. …
b) Bu Gaussian dağılım aşağıdaki denklemle tanımlıdır.
Böylece sürekli değerler için,
 Örneğin X=(35, 3000 TL) olsun. ve sırasıyla “yaş” ve

“gelir” nitelikleri olsun.
 X için ilgili sınıf etiketi de “evet” (bilgisayar_alir=evet) olsun.
“yaş” niteliğinin ayrıklaştırılmadığını ve dolayısıyla sürekli-
değerli nitelik olarak varolduğunu düşünelim. 152
4. …
b)
 Eğitim setine bakarak bilgisayar alan müşterilerin
yaşının
olarak bulduğumuzu farzedelim.
 Diğer bir ifadeyle “yaş” niteliği ve bu sınıf için, ve
dir.
 bilgisiyle birlikte bulduğumuz bu büyüklükleri
önceki denklemde yerine koyarak ,
P(yaş=35 | bilgisayar_alir=evet) koşullu olasılığını 153
5. X’in sınıf etiketini tahmin etmek için her bir sınıf ( ) için
hesaplanır.
• Sınıflandırıcı, X veri demetinin sınıf etiketini ancak ve
ancak
şeklinde tahmin eder.

• Diğer bir ifadeyle tahmin edilen sınıf , değeri
maksimum olan sınıfıdır.
154
How effective are Bayesian classifiers?
• Karar ağaçları ve yapay sinir ağları sınıflandırıcılarıyla
karşılaştırmalı olarak bu sınıflandırıcı ile ilgili yapılan çeşitli
deneysel çalışmalar, bazı alanlarda kıyaslanmaya değer
olduğunu göstermiştir.
• Teoride Bayes sınıflandırıcılar, diğer bütün sınıflandırıcılara
kıyasla minimum hata oranına sahiptir.
• Fakat pratikte durum tam olarak böyle değildir.
• Kullanımında yapılan bazı varsayımlardan kaynaklanan
bazı kusurlar…
• Mesela “class conditional independence” ve yeterli olasılık
verisinin olmayışı… 155
Örnek: predicting a class label using naive Bayesian classification
• “Naive Bayesian classification” kullanarak bir veri demetinin
sınıf etiketini tahmin etmek istiyoruz.
Nitelikler Sınıf etiket

niteliği (iki
farklı değeri
vardır: {yes,
no})
156
• : sınıfına
• : sınıfına karşılık gelsin.
• Sınıflandırmak istediğimiz veri demeti: 1
2
3
• için ’yi maksimum yapmalıyız. 5

6
• Eğitim veri demetlerine dayanarak her bir sınıfın evvelki7
8
olasılıkları ( prior probability , ) hesaplanabilir: 9
157
• için ’ yi hesaplamak için aşağıdaki koşullu olasılıklar
hesaplanır:
158
hesaplanır:
159
hesaplanır:
160
hesaplanır:
161
• Hesaplanan koşullu olasılıkları kullanarak
• Hesaplanan koşullu olasılıkları kullanarak
• ’ yi maksimum yapan sınıfı ( ) bulmak için,
• Dolayısıyla “naive Bayesian classifier” , X veri demetini

olarak tahmin eder.
• Yani bilgisayar alacağını tahmin eder.
Bayes Sınıflandırıcı için Örnek
Table 10.4 • Data for Bayes Classifier
Magazine Watch Life Insurance Credit Card

Promotion Promotion Promotion Insurance Sex
Yes No No No Male
Yes Yes Yes Yes Female
No No No No Male
Yes Yes Yes Yes Male
Yes No Yes No Female
No No No No Female
Yes Yes Yes Yes Male
No No No No Male
Yes No No No Male
Yes Yes Yes No Female
Sınıflandırılacak örnek:
Magazine Promotion = Yes
Watch Promotion = Yes
Life Insurance Promotion = No
Credit Card Insurance = No
Sex = ?
Table 10.5 • Counts and Probabilities for Attribute Sex
Magazine Watch Life Insurance Credit Card

Promotion Promotion Promotion Insurance
Sex Male Female Male Female Male Female Male Female
Yes 4 3 2 2 2 3 2 1
No 2 1 4 2 4 1 4 3
Ratio: yes/total 4/6 3/4 2/6 2/4 2/6 3/4 2/6 1/4
Ratio: no/total 2/6 1/4 4/6 2/4 4/6 1/4 4/6 3/4
 Sex = Male için olasılık hesabı
P ( E | sex  male ) P ( sex  male )

P ( sex  male | E ) 
P( E )
Bayes

Sınıflandırıcı için Örnek
Sex = Male için koşullu olasılıklar;
 P(magazine promotion = yes | sex = male) = 4/6

 P(watch promotion = yes | sex = male) = 2/6
 P(life insurance promotion = no | sex = male) = 4/6
 P(credit card insurance = no | sex = male) = 4/6
 P(E | sex =male) = (4/6) (2/6) (4/6) (4/6) = 8/81
P(sex = male | E)  (8/81) (6/10) / P(E)

P(sex = male | E)  0,0593 / P(E)
 Sex = Female için olasılık hesabı
P ( E | sex  female) P ( sex  female)

P ( sex  female | E ) 
P( E )
 Sex = Female için koşullu olasılıklar;
 P(magazine promotion = yes | sex = female) = 3/4

 P(watch promotion = yes | sex = female) = 2/4
 P(life insurance promotion = no | sex = female) = 1/4
 P(credit card insurance = no | sex =f emale) = 3/4
 P(E | sex =female) = (3/4) (2/4) (1/4) (3/4) = 9/128
P(sex = female | E)  (9/128) (4/10) / P(E)

P(sex = female | E)  0,0281 / P(E)
 P(sex = male | E)  0,0593 / P(E)
 P(sex = female | E)  0,0281 / P(E)
Bayes sınıflayıcı 0,0593 > 0,0281 olduğu için E davranışını gösteren

kart sahibi erkektir.
172
Bayesian Belief Networks
• “Naive Bayesian classifier” sınıf etiketi verilen bir veri demeti için
niteliklerinin birbirlerinden bağımsız olduğunu varsayar.
class conditional independence varsayımı
Bu varsayım hesaplamayı kolaylaştırır.
 Varsayım tuttuğunda “naive Bayesian classifier” diğer
sınıflandırıcılara kıyasla en hassas (accurate) sonucu verir.
• Buna karşın pratikte değişkenler arasında bağımlılıklar var olabilir.
• “Bayesian belief networks” ortak koşullu olasılık (joint conditional
probability) dağılımlarını belirtir.
• değişkenlerin alt kümeleri arasında “class conditional
173
• Üzerinde öğrenme gerçekleştirilebilen rastgele ilişkilerin grafiksel
modelini oluşturmayı sağlar. (graphical model of casual relationships)
• Eğitilen “Bayesian belief network” sınıflandırma için
kullanılabilmektedir.
• Aynı zamanda şu isimlerle de anılır:
 belief networks
Bayesian networks
probabilistic networks
174
• Bir “belief network” iki bileşen ile tanımlanır:
 A directed acycylic graph (DAG)
A set of conditional probability tables
• DAG’daki her bir düğüm, bir rastgele değişkeni (random variable)
temsil eder.
 Değişkenler ayrık yada sürekli-değerli olabilir.
 Değişkenler verilen data’daki gerçek niteliklere karşılık gelir,
 ya da bir ilişkiyi şekillendirdiğine inanılan “gizli değişkenler”e
(hidden variables) karşılık gelir. (mesela medikal verilerle ilgili
bir örnekte bir gizli değişken, bir sendromu gösterebilir.)
175
• Her bir ok, bir olasılıksal bağımlılığı
Y
temsil eder.
• Eğer Y düğümünden Z düğümüne bir
ok çizilirse,
• Y ebeveyn olur ya da başka bir Z
deyişle Z’nin birincil atası olur.
•Z ise Y’nin soyundan gelendir.
176
A variable (node) is conditionally independent of its non-
descendants given its parents
Age Gender Non-Descendants
Exposure Smoking Parents Cancer is

to Toxics
independent of Age
Cancer
and Gender given
Exposure to Toxics
and Smoking.
Serum Lung
Calcium Tumor Descendants
177
• Yandaki şekil basit bir “belief network” ü
göstermektedir.
•Şekildeki oklar sıradan bilgileri temsil

etmektedir.
•Mesela akciğer kanseri (LungCancer)

olma, kişinin aile (FamilyHistory)
geçmişinde bu hastalığın olup
olamamasına ve kişinin sigara içip
içmemesine (Smoker) bağlıdır.
178
• Eğer hastanın akciğer kanseri
olduğunu biliyorsak PositiveXRay,
hastanın aile geçmişinde bu hastalığın
olup olmamasından veya kişinin sigara
içip içmemesinden bağımsızdır.
 Diğer bir ifadeyle LungCancer
değişkeninin sonucunu biliyorsak,
FamilyHistory ve Smoker
değişkenleri PositiveXRay’e
ilişkin bize ilave bir bilgi sağlamaz.
179
• Ebeveynleri (FamilyHistory ve Smoker)
verilidiğinde, LungCancer değişkeni
koşullu olarak Emphysema değişkeninden
bağımsızdır.
• Belief network’te her değişkenin bir
CPT(conditional probability table)’si vardır.
• Bir değişkenin CPT’si, P(Y | Parents(Y))
koşullu dağılımını belirtir.
•Burada Parents(Y), Y’nin
ebeveynleridir.
CPT for the variable LungCancer 180
• LungCancer değişkeninin
ebevenylerinin değerlerinin bütün
kombinasyonları için bir koşullu olasılık
değeri verilir.
CPT for the variable LungCancer 181

• : Sırasıyla nitelikleri yada
değişkenleri tarafından tanımlanan bir veri kümesidir. ( a data tuple)
• Ebeveynleri verilen her bir değişken “non-descendant” larından
bağımsızdır.
• Bu da ağın, var olan ortak olasılık dağılımlarını aşağıdaki
denklemle temsil etmesine olanak tanır.
• , : X’in değerlerinin belli bir kombinasyonunun

olasılığı.
• ’ nin değerleri: ’ ye ait CPT’deki
• Ağdaki herhangi bir düğüm “çıkış” olarak seçilebilir.
sınıf etiket niteliğini temsil eder
• ayrıca birden fazla çıkış düğümü de olabilir.
Bayesian Network Examples
P ( A, G , E , S , C , L, SC ) 
Age Gender
P ( A )  P (G ) 
Exposure Smoking
to Toxics P (E | A)  P (S | A, G ) 
Cancer P (C | E , S ) 
Serum Lung
Calcium Tumor P (SC | C )  P (L | C )
Alarm system example
• Farz edelim ki bir evde hırsız alarm sistemi kurulu olsun.
• Bu sistem soygunları (burglary) iyi tespit etmesinin yanı sıra,
bazen küçük çaplı depremlerde (earthquake) de tetiklenmektedir.
• Ev sahibinin iki komşusu vardır: John ve Mary. Ve bunlar
birbirlerini tanımamaktadır.
• Bu komşular evdeki alarmı duyunca ev sahibini aramaktadırlar.
 John alarmı duyunca ev sahibini aramaktadır. Fakat bazen
telefon sesisye alarmı karıştırmaktadır ve bu durumda da
aramaktadır.
 Mary ise yüksek sesle müzik dinlemeyi seven bir kişi olduğundan
bazen alarmı duymamaktadır. Ama duyduğunda aramaktadır.
Alarm system example
• Olayların olasılık dağılımlarını temsil etmek istersek.
 Burglary, Earthquake, Alarm, Mary calls ve John calls
• Casual relations
Bayesian belief network
• Değişkenler arasındaki doğrudan bağımlılıkları yansıtan grafik.
• Değişkenler ve onların ebeveynleri arasındaki lokal koşullu
dağılımlar.
Soygun ve Deprem, alarmın

çalma olasılığını doğrudan
etkiler.
Fakat Jonh ve Mary’nin ev

sahibini araması ise sadece
alama bağlıdır.
• What is the probability that the alarm has sounded but neither a
burglary nor an earthquake has occured, and both John and Mary call?
•P(JC, MC, A, ¬B, ¬E)

= P(JC | A) P(MC | A) P(A | ¬B, ¬E) P(¬B) P(¬E)
= 0.90 x 0.70 x 0.001 x 0.999 x 0.998
= 0.00062
Independences in BBNs
• 3 basic independence structure
1. JohnCalls is independent of Burglary given Alarm

2. Burglary is independent of Earthquake (not knowing Alarm)
Burglary and Earthquake become dependent given Alarm!!
3. MaryCalls is independent of JohnCalls given Alarm
Another Bayesian belief network example
• Çimlerin ıslak olmasının iki tane nedeni olabilir: ya su fıskiyesi açıktır

(S=true) yada yağmur yağmıştır (R=true)
Another Bayesian belief network example
• Suppose we observe the fact that the grass is wet. There are
two possible causes for this: either it rained, or the sprinkler
was on. Which one is more lilely?
•We see that it is more lilely that the grass is wet because it
rained.
Belief Network Tools-örnekler
Suppose we
observe the fact
that the grass is
wet. There are
two possible
causes for this:
either it rained,
or the sprinkler
was on. Which
one is more
lilely
http://www.aispace.org/downloads.shtml
Model acquisition problem
• BBN’nin yapısı tipik olarak rastgele ilişkileri yansıtır.
• BBN’ler bazen de “casual networks” olarak anılırlar.
• “casual structure”, çoğu uygulama alanlarında sezgiseldir
ve bu yapıyı ilgilenilen alanın uzmanından elde etmek
oldukça kolaydır.
•BBN’nin olasılık parametreleri, rastgele değişkenler ve
onların ebeveynleriyle ilgili koşullu dağılımlara karşılık
gelmektedir.
 olasılık parametrelerini bulmak:
• Uzman kişiye danışarak
•
Application of Bayesian Networks
• Örnek uygulamalar:
Machine learning Speech recognition
Statistics Error-control codes
Computer vision Bioinformatics
Natural language Medical diagnosis
processing Wheater forecasting
• Örnek sistemler:
 PATHFINDER medical diagnosis system at Stanford
Microsoft Office assistant and trobleshooters
Space shuttle monitoring at NASA Mission Control Center
in Huston
Types of inference
(1) Predictive - a can cause b
(2) Diagnostic - b is evidence of a
(3) Intercasual - a and b can cause c
a explains c so its evidence against
b
(“explaining away”,“Berkson's paradox”, or "selection
bias“) (3)
a a a b
(1)
(2)
b b c
Kaynaklar
1. Data Mining: Concepts and Techniques, Second Edition
2. Lecture Notes: Parametric models: Part IV Bayesian Belief Networks, CS 551,
Spring 2006, Selim Aksoy, Bilkent University
3. Lecture Notes: Parametric models: Part IV Bayesian Belief Networks, CS
2001, Spring 2001, Milos Hauskrecht
4. Tutorial on Bayesian Networks, Jack Breese, Microsoft Research & Daphne
Koller, Stanford University
5. Lecture Notes: Bayesian Classification, Qiang Yang , Hong Kong University of
Science and Technology
6. Lecture Notes:Bayesian Belief Networks Compound Bayesian Decision Theory,
CSE 555
7. Bayesian Networks and Causal Modelling, Ann Nicholson, School of
Computer Science and Software Engineering Monash University

SiberGuvenlikveVeriMadenciliği Hafta3

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

SiberGuvenlikveVeriMadenciliği Hafta3

Uploaded by

Copyright:

Available Formats

Sınıflandırma Modelini

Bir M sınıflayıcısı için doğruluk;

Bir M sınıflayıcısı için hata oranı;

Gerçek Sınıf C1 Doğru Pozitif

sensitivity = TP /pos /* true positive recognition rate */

accuracy= (TP +TN) / (pos + neg)

Kesinlik İyi, Duyarlılık kötü

yüksek duyarlılık modeli (kırmızı balığın çoğunu

 Buradaki β değeri, kesinlik ve hassasiyet arasındaki dengeyi belirler. Örneğin β = 2 için

Yapay Sinir Ağları (Neural Networks)

1. Model oluşturma

Sınıflama ve regresyon ağaçları (CART)

• Gini index: CART, IBM IntelligentMiner

H(HAVA, OYUN) entropisi aşağıdaki gibi

Yukarıdaki veriler için OYUN’un entropisini

Karar ağacından aşağıdaki kurallar elde edilebilir:

Yes, because Entropyss (D) = 0.

 “Day” niteliği ile ilgili yanlış olan durum nedir?

Karar ağaçları ile ilgili pratik sorunlar,

IF (Outlook = Sunny) And (Humidity = High)

hypothesis complexity 101

Fit a curve to the

Perfect fit to training data with an 9th degree polynomial

Ohm was wrong, we have found a more accurate function!

Better generalization with a linear function

• Noise can also cause different instances of the same

• Naive Bayes Sınıflama

 How good are blood levels of T4 (thyroxine)

2. We can say T4<=7 is hypo; T4>7 is normal.

3. We can say T4<9 is hypo; T4>=9 is normal.

Calculate the sensitivity and specificity of each.

1. Let T4<=5 be hypo; T4>5 be normal.

called abnormal by the observer):

1. Let T4<=5 be hypo; T4>5 be normal.

called normal by the observer) =TN /

Cutpoint (t) True Positives FalsePosRate

• “Naive Bayesian Calssifier”

• Naive Bayesian Classification

• Bayesian Belief Network

p(H) is a probability distribution over

p(H|X) is the probability of any value of

p(X) is the probability of making our observation, period.

p(X) is NOT a probability distribution,

posterior  liklihood  prior

• Naive Bayesian Classification

• Bayesian Belief Network

olduğunda X veri demetinin Ci ’ye ait olduğunu tahmin eder.

• ve dolayısıyla ’yi maksimize ederiz. Aksi takdirde

: D’deki Ci sınıfına ait eğitim veri demetlerinin sayısı

• Buradaki olasılıkları eğitim

b) Eğer sürekli değerlere sahip ise, biraz daha fazla

Böylece sürekli değerler için,

 Örneğin X=(35, 3000 TL) olsun. ve sırasıyla “yaş” ve

şeklinde tahmin eder.

Nitelikler Sınıf etiket

• için ’yi maksimum yapmalıyız. 5

• ’ yi maksimum yapan sınıfı ( ) bulmak için,

• Dolayısıyla “naive Bayesian classifier” , X veri demetini

Magazine Watch Life Insurance Credit Card

Magazine Watch Life Insurance Credit Card

Sex Male Female Male Female Male Female Male Female

 Sex = Male için olasılık hesabı

P ( E | sex  male ) P ( sex  male )