Professional Documents
Culture Documents
DM Chap4 Classification - III
DM Chap4 Classification - III
Bu hafta
Sınıflandırma (Classification)
Karar Ağacı (Decision Trees)
Naive Bayes
Karar Ağaçları (Decision Trees)
Karar ağaçları kolay ve etkin olması sebebiyle yaygın bir şekilde kullanılır.
Karar ağaçlarında öğrenme fonksiyonu, bir ağaç şeklinde ifade edilir.
Öğrenmiş bir karar ağacı modeli daha sonra IF - ELSE kuralları şeklinde
gösterilebilir.
Ayrık ifadeler ve gürültülü veri üzerinde etkin bir şekilde kullanılabilir.
ID3, C4.5 gibi popüler olmuş pek çok karar ağacı vardır.
Karar Ağaçları (Decision Trees)
• Tipik bir karar ağacı
(hava = güneşli nem = normal) V
(hava = bulutlu) V
(hava = yağmurlu rüzgar = zayıf)
hava
• Verilen öğrenme veri kümesinden kök nitelik belirlenir, seçilen niteliklere bağlı olarak
örnek küme yinelenerek (recursive) bölünür.
• Ağaç budama
! Entropi:
• Sepetteki toplar farklı renklerde ise belirsizlik fazladır.
• Eğer topların hepsi aynı renkte ise belirsizlik yoktur.
Karar Ağaçları (Decision Trees)
• Bilgi Kazancı (Information gain)
• Entropi (Entropy) belirsizliğin veya beklenmeyen durumun ortaya çıkma
olasılığını gösterir.
• Shannon’a göre bir sistemdeki durum değişikliği entropiyi ve bilgiyi tanımlar.
• Buna göre;
• Sınıflandırmada örneklerin tümü aynı sınıfa ait ise entropi=0
• Örnekler sınıflar arasında eşit dağılmış ise entropi=1
• Örnekler sınıflar arasında rastgele dağılmış ise 0<entropi<1
olacaktır.
Karar Ağaçları (Decision Trees)
• Bilgi Kazancı (Information gain)
• Shannon Bilgi (information) şöyle ifade edilir.
• Shannon Entropisi (H), tüm x durumlarına ait P olasılıklarına bağlı bir değerdir.
hava
nitelik kazanç
ısı 0,570
nem 0,970
rüzgar 0,019
hava
nem
yüksek normal
hayır evet
! nem niteliği yüksek ise “hayır”, normal ise “evet” olduğu görüldüğünden ağacın ilerlemesi
durdurulur.
! yüksek olması durumunda hayır ve normal olması durumunda evet artık yaprak değerdir.
Karar Ağaçları (Decision Trees)
Adım 2.2: Hava niteliği bulutlu durumu için
• Diğer bir ifade ile hava niteliği için bulutlu durumu her zaman evet olduğu için evet artık
yapraktır.
Karar Ağaçları (Decision Trees)
Adım 2.2: Karar hava niteliği bulutlu evet yaprak
hava
nem evet
yüksek normal
hayır evet
! nem niteliği yüksek ise “hayır”, normal ise “evet” olduğu görüldüğünden ağacın ilerlemesi durdurulur.
! yüksek olması durumunda hayır ve normal olması durumunda evet artık yaprak değerdir.
Karar Ağaçları (Decision Trees)
Adım 2.3: Hava niteliği yağmurlu durumu için
• Değerlerden de görüldüğü gibi rüzgar hafif iken sonuç evet, kuvvetli iken hayır elde edilmektedir.
Karar Ağaçları (Decision Trees)
• Adım 2.3: Hava niteliği yağmurlu durumu için.
hava
A ve B gibi iki bağdaşan olayı varsayarsak, bu iki olay için ortak bir noktadan söz edilebilir.
Olasılık
Olasılık, bir olayın gerçekleşme olasılığının ölçülmesi.
P (Probability) ile gösterilir.
Bir A olayının olasılığı ise P(A) şeklinde gösterilir ve 0 ile 1 arasında bir
değer alır.
o Deney: Belirli koşullar altında farklı sonuçlar elde edilebilen ve olası sonuçların çok iyi
tanımlandığı bir süreçtir.
o Sonuç: Deney sonucunda elde edilen veriye sonuç denir.
o Örnek Uzay: herhangi bir deney sonucunda elde edilebilecek mümkün (olası) sonuçlar
örnek uzay olarak tanımlanır ve S ile gösterilir.
o Olay: Örnek uzayın belirli bir koşulu sağlayan herhangi bir alt kümesine “Olay” denir.
Olasılık
Olasılığın Klasik Tanımı: S, olası sonuçlardan her birinin gerçekleşme şanslarının
eşit olduğu bir örnek uzayı ve A ise bu uzayda tanımlı bir olayı göstersin.
! Koşullu Olasılık
o Bir olayın gerçekleştiği bilindiğinde diğerinin gerçekleşme olasılığına koşullu olasılık
denir. Örneğin A bilindiğinde B olayının koşullu olasılığı P(B|A) olarak ifade edilir.
Bayes sınıflandırıcı (Naive Bayes)
• Bayes teoremi
?
Örnek: Golf oyunu.
Örnek: Golf oyunu.
Örnek: Golf oyunu.
Pr[ E|yes ] x Pr[ yes ] = 2/9 x 3/9 x 3/9 x 3/9 x 9/14 = 0,0053
Örnek: Golf oyunu.
• Sürekli değerler
• Nitelik değerleri Sürekli olması durumunda yukarıdaki işlemler geçerli
değildir.
• Sürekli değerler için standart olasılık yoğunluk fonksiyonu kullanılır.
• x : nitelik değeri
• µ : ortalama
• σ : standart sapma
• e = 2,71
Örnek
Örnek eğitim Yaş cinsiyet kabul
1. P(örnek|c1) = P(örnek|kabul=evet)
• P(örnek|c1) = P(eğitim=yüksek|kabul=evet) * P(yaş=44|kabul=evet) *
P(cinsiyet=kadın|kabul=evet)
• P(örnek|c1) = 1/5 * P(yaş=44|kabul=evet) * 2/5
Örnek
Örnek eğitim Yaş cinsiyet kabul
• P(yaş=44|kabul=evet)
• µc1 = 48,4
• σc1 = 10,62
Örnek
Örnek eğitim Yaş cinsiyet kabul
• P(örnek|c1) = P(örnek|kabul=evet)
• P(X|C1) = P(X|kabul=evet)
• P(X|C1) = 1/5 * (0,0344) * 2/5 = 0,0027
Örnek
Örnek eğitim Yaş cinsiyet kabul
1. P(örnek|C2) = P(örnek|kabul=hayır)
• P(örnek|C2) = P(eğitim=yüksek|kabul=hayır) * P(yaş=44|kabul=hayır) *
P(cinsiyet=kadın|kabul=hayır)
• P(örnek|C2) = 1/3 * P(yaş=44|kabul=hayır) * 2/3
örnek
Örnek eğitim Yaş cinsiyet kabul
• P(yaş=44|kabul=hayır)
• µc2 = 26,66
• σc2 = 9,86
örnek
Örnek eğitim Yaş cinsiyet kabul
• P(örnek|c2) = P(örnek|kabul=hayır)
• P(X|c2) = P(X|kabul=hayır)
• Bu durumda
• P(X|C1)=P(X|kabul=evet)=1/5 x (0,0344) x (2/5) = 0,0027
• sonuç
• 0.0027 > 0.0011 EVET olacaktır.