Professional Documents
Culture Documents
YBSMLSunum MLOgrenYapayZeka
YBSMLSunum MLOgrenYapayZeka
Giriş
Dr. Öğr. Üyesi Hikmet MARAŞLI
Kapsam ve İçerik
• Giriş
• Ders İçeriği
• Kavramlar
• İnsan Gibi Düşünen Sistemler
• Yapay Zeka
• Makine Öğrenmesi
Giriş
Zeka nedir?
• İnsanın; öğrenme, anlama, düşünme, sorgulama, planlama, problem
çözme gibi zihinsel işlevleri zeka olarak tanımlanmıştır.
• Zeka zaman içinde; eğitim, öğrenme ve çevresel etkenlere bağlı
olarak gelişebilmektedir.
• Akıl: Düşünme, kavrama, anlama yetisidir.
Bilgisayar Bilimi (Computer Science)
• Bilgisayar Bilimi
• Bilgisayar bilimleri çalışma alanı sadece “bilgisayar” ile kısıtlı olmayan bir
bilim dalıdır.
Bilgisayar Sistemleri:
• CPU (Mikroşlemci), Bellek, I/O Birimleri ve Sistem Bus
• Sistem Bus: Adres Bus, Data Bus, Control Bus
• Adres Bus bellek gözü ve I/O Birimlerini seçer. Data Bus: Birimlerin CPU ile veriş haberleşmesi yapar. Control Bus:
CPU’nun
komutları işlemisi durumunda değişimler hakkındaa bilgi verir.
• Analog dünya ile Bilgisayar sistemleri arasındaki I/O birimleri:
Algılayıcılar, detektörler, ölçerler ve sürücü kartlardır.
• Sürücü kartları: Motor, piston, makara, kol kontrolunda
kullanılır.Training Data Machine Learning Algorithm
Training
Prediction
“Live” Data Trained Model Prediction
Makine Öğrenmesi KonusundaUzmanlık için
Önkoşullar
• Bir kuruluşta makine öğrenimini devreye almanın, teknolojiye ilişkin pratik operasyonel
içgörü ve ekipler arasında işbirliğini geliştirme becerisi gerektirmektedir.
• Teknik yetenekler gerektirmez ve size kod yazmayı öğretmez - daha ziyade,
kuruluşunuzun veri yığınına ulaşmasına yardımcı olmak için makine öğrenimi
kullanılarak işinizdeki sorunları çözme becerisi ile donatmayı amaçlamaktadır.
• Machine Learning is Everywhere: Image Recognition, Speech Recognition, Stock
Prediction, Medical Diagnosis, Data Analytics, Robotics and more…
Kuantum Makine Öğrenmesi
• Son yıllarda veri analizi uygulamaları ve akıllı makineler ilgili araştırmalar güçlü bir şekilde
yeniden ortaya çıkmıştır.
• Bu güçlenen ilgi kısmen klasik hesaplama yöntemlerindeki gelişmeler ve kısmen de Kuantum
Hesaplama (QC - Quantum Computing) ve ilgili kuantum teknolojileri tarafından sunulan
muazzam paralellik potansiyelinden kaynaklanmaktadır.
• Hesaplama yöntemlerindeki bu gelişmeler, Makine Öğrenmenin (ML – Machine Learning),
veri güdümlü öğrenme ve kuantum destekli hesaplama yöntemleri, hizmet odaklı tamamen
akıllı bir iletişim ağının isteklerini gerçekleştirmede güçlü bir potansiyele sahiptir.
• Ortaya çıkan insan ve makine arası bağlantıyı artırma paradigmasında, ağ düğümü sayısı ve
veri trafiğinde önemli bir artış beklenmektedir.
• Makine Öğrenmesi (ML ) ve Quantum Hesaplama (QC) yöntemleri hacimli verilerin verimli bir
şekilde işlenmesine yönelik olarak, Quantum ML (QML) teknolojilerini sağlayan yeni bir
çerçeve sunacaktır.
• IOT
• 5G ve 6G
Pattern Neurocomputing
Recognition
Statistics
Deep
Learning
+
Artificial
Data Intelligenc
Mining e
Machine
Databases Learning
Knowledge
Discovery
Makine Öğrenmesi
Tarihi
Makine Öğreniminin Kısa Tarihi
• 1950s • 1980s:
– Samuel’s checker player - Gelişmiş karar ağacı ve kural öğrenme
– Selfridge’s Pandemonium - Açıklamaya Dayalı Öğrenme (EBL)
• 1960s: - Öğrenme ve planlama ve problem çözme
– Neural networks: Perceptron - Yardımcı program sorunu
– Pattern recognition - Analoji
– Learning in the limit theory - Bilişsel mimariler
– Minsky and Papert prove limitations of - Sinir ağlarının yeniden dirilişi (bağlantısallık, geri
Perceptron yayılım)
• 1970s: - Valiant’ın PAC Öğrenme Teorisi
– Symbolic concept induction - Deneysel metodolojiye odaklanın
– Winston’s arch learner
– Expert systems and the knowledge acquisition • 1990s
bottleneck - Veri madenciliği
– Quinlan’s ID3 - Uyarlanabilir yazılım aracıları ve web
– Michalski’s AQ and soybean diagnosis uygulamaları
– Scientific discovery with BACON - Metin öğrenme
– Mathematical discovery with AM - Takviye öğrenme (RL)
- Endüktif Mantık Programlama (ILP)
-
Makine Öğreniminin Kısa Tarihi
• 2000s
- Vektör makinelerini ve çekirdek yöntemlerini destekleyin
- Grafik modeller
- İstatistiksel ilişkisel öğrenme
- Transfer öğrenimi
- Sıra etiketleme
- Toplu sınıflandırma ve yapılandırılmış çıktılar
- Bilgisayar Sistemleri Uygulamaları (Derleyiciler, Hata Ayıklama, Grafikler,
Güvenlik)
- E-posta yönetimi
- Öğrenen kişiselleştirilmiş asistanlar
- Robotik ve vizyonda öğrenme
• 2010s
- Derin öğrenme sistemleri
- Büyük veri için öğrenme
- Bayesci yöntemler
- Çok görevli ve yaşam boyu öğrenme
- Görme, konuşma, sosyal ağlar, okumayı öğrenme vb. Uygulamalar
Ders İçeriği
Ders İçeriği
• Öğrenme problemi
- hipotez sınıfı, tahmin algoritması • Parametre belirsizliği
- kayıp ve tahmin kriteri - regresyon modeli, temel
- örnekleme, ampirik ve beklenen kayıplar model
• Regresyon, örnekleme - ML tahmincisinin
• Doğrusal regresyon ortalama
- tahmin, hatalar, analiz ve varyansı
• Doğrusal regresyon modellerinin ötesi • Aktif öğrenme
- toplamsal regresyon modelleri, - belirsizlik ölçüleri
örnekler - seçim kriterleri,
- genelleme ve çapraz doğrulama algoritmalar
- nüfus küçültücü
• İstatistiksel regresyon modelleri
- model formülasyonu, motivasyon
- maksimum olasılık tahmini
Ders İçeriği
Sınıflandırma ve regresyon
- sınıflandırmaya regresyon yaklaşımı
- Fisher doğrusal ayırt edici
- temel karar teorisi
Lojistik regresyon
- model, gerekçe
- tahmin, stokastik gradyan
- katkı uzantısı
- genelleme
Düzenlilik
- önceden, cezalar, MAP tahmini
- düzenlileştirmenin etkisi, genelleme
- düzenleme ve ayrımcılık
Ayrımcı sınıflandırma
- kriter, marj
- destek vektör makinesi
Bu Derste Neleri Ele Alacağız
Düşünen bir insan için hayati öneme sahip olan şey nedir?
• Berber Paradoksu: Köyde kendi kendine tıraş olmayan herkesi köy berberi tıraş eder? Berberi kim
tıraş eder.
• Epimenides (Girit ’linin) Paradoks’u : Bütün Girit’liler yalancıdır.
Turing’in muhteşem fikri ilk kez 24 yaşındayken 1936 yılında yazdığı günümüzde efsane
“Hesaplanabilir
olan sayılarda karar veren problemlerin uygulanması” 36 sayfalık
isimli yayınlandı. kitapta
Turing bir soru sordu:
• Hesaplama yapan, bir insanın zihninde neler olur?
• Hesaplama yapan kişi için hayati öneme sahip olan şey nedir?
• Hesaplama işleminde insan beyninde anahtar işlev nedir?
Hesaplama işleminde belirli kuralların tekrar edildiğini fark etti. Turing tüm
hesaplamaların
İnsan Gibi Davranma: Turing
Testi
Zekânın tanımlanmasına işlevsel yaklaşım: zeki varlıklardan ayırt edilemezlik üzerine kurulu bir
test. Testi geçecek bilgisayar programının sahip olması gereken yetenekler:
1) Doğal Dil İşleme
2) Bilgi Gösterimi
3) Otomatik Akıl Yürütme
4) Öğrenme
5) Algılama
6) Robotik hareket
Karar Problemi
Artificial Intelligence
insan zekasının
Ancak yapay zekanın
karakteri olan asıl isim babası 1956
işlemleri
gerçekleştirebile
yılında konu ile ilgili
n makinalar bir akademik
konferans
düzenleyen John
McCarthy’dir.
Yapay Zeka
Katmanları
Sorun
Bilgi Nedensellik Algılama Öğrenme Planlama
çözm
e
Makine öğrenmesi
yapısal işlev olarak öğrenebilen ve veriler
üzerinden tahmin yapabilen
algoritmaların çalışma ve inşalarını
araştıran bir sistemdir.
Denetimli
Öğrenme
Denetimsi
z
Öğrenme
Makine Yarı
öğrenmesi Denetimli
Öğrenme
Takviyeli
Öğrenme
Yoğun
Öğrenme
Makine Öğrenmesi
Computer Machine
Program Learning
Predictiv
Why did it
e
Happen? Analytics
Valu
Diagnostic
e
What Analytics
Happened ?
Descriptive
Analytics
Difficulty
Classificatio
n
Algorithm
Regression
Algorithm
1Which other customers have similar
preferences to this one? Clusterin
2What are the most common
patterns in gasoline price changes? g
Algorithm
• Leo Breiman iki istatistiksel modelleme paradigmasını ayırt etti: veri modeli
ve algoritmik model, ki burada "algoritmik model", Rastgele orman gibi
makine öğrenme algoritmaları aşağı yukarı.
object parts
(combinatio
n of edges)
edge
s
pixel
Based on s
materials
by Andrew Ng
İki dünyayı birleştirmek
• Veri Bilimi
• Yeni, güçlü, saf veri tabanlı metodolojiler
• Derin teorik anlayış
• Modelleme, Simülasyon, Optimizasyon
• Geleneksel (diferansiyel denklem tabanlı)
metodolojiler
• Mevcut fiziksel veya mühendislik
sistemlerinin karmaşıklığı çok büyük
Machine Learning Problem
Data Data Feature Algorithm Select ion Making
Gathering Preprocessing Engineering & Tra ining Predictions
Collect data from Clean data to Making your Selecting the right Evaluate
various sources have data more useful machine learning model t he
homogeneity model
Data Preprocessing
9000
• Missing va lues 6000
4000
• Outliers
2000
• Wrongly-labeled examples
• Biased dat a
• Do I have many more samples of one
class tllan tile rest?
• Tahmin Edici Modeller : Tahmin edici modellerde, sonuçları bilinen verilerden hareket edilerek bir
model geliştirilmesi ve kurulan bu modelden yararlanılarak sonuçları bilinmeyen veri kümeleri için sonuç
tahmin edilmesi amaçlanmaktadır.
• Tanımlayıcı Modeller : Tanımlayıcı modellerde, veri kümesinde bulunan gizli örüntülerin (olayların ve
nesnelerin ortaya çıkardığı davranış değişikliklerinin desenleri) tanımlanması amaçlanmaktadır.
Veri Madenciliği Süreci
Veri madenciliği süreci dört aşama ile tanımlanabilir.
• İlk aşamada problem tanımlanarak veri kaynakları değerlendirilir.
• İkinci aşamada veriler kullanıma uygun hale getirilmek için
hazırlanır.
• Arkasından model kurulur ve
• nihai aşamada model değerlendirilerek kullanıma hazır hale getirilir.
Problemin Tanımlanması
Amaç, işletme problemine verileri kullanarak çözüm getirmek olduğundan, ilk olarak ihtiyaç duyulan şey
tam olarak tanımlanmalıdır. Bu problem, işletmenin ayrılmakta olan müşterisinin belirli özelliklerini
tanımlayarak ona uygun davranmak olabildiği gibi, kendi kaynaklarını optimum kullanabilmek için yapacağı
bir planlamada gelecek dönemdeki harcamalarını tahmin etmek şeklinde de olabilir.
“Bu adımda ihtiyaç duyulan şeyin tanımlanması için cevaplanması gereken sorular neyin otomatize
edilmeye değer olduğu ve neyin insan içeren süreçlere bırakılması gerektiği, amacın ne olduğu ve hangi
performans kriterlerinin daha önemli olduğu, sürecin sonucunda elde edilecek çıktının keşif, sınıflandırma,
özetleme gibi şeyler için kullanılıp kullanılmayacağı olabilir.”10
Problemin tanımlanması durumunda ihtiyaç duyulan iş modelinin kalıbı da belirlenmiş olur.
Problemin Tanımlanması
Amaç, işletme problemine verileri kullanarak çözüm getirmek olduğundan, ilk olarak ihtiyaç duyulan şey
tam olarak tanımlanmalıdır. Bu problem, işletmenin ayrılmakta olan müşterisinin belirli özelliklerini
tanımlayarak ona uygun davranmak olabildiği gibi, kendi kaynaklarını optimum kullanabilmek için yapacağı
bir planlamada gelecek dönemdeki harcamalarını tahmin etmek şeklinde de olabilir.
“Bu adımda ihtiyaç duyulan şeyin tanımlanması için cevaplanması gereken sorular neyin otomatize
edilmeye değer olduğu ve neyin insan içeren süreçlere bırakılması gerektiği, amacın ne olduğu ve hangi
performans kriterlerinin daha önemli olduğu, sürecin sonucunda elde edilecek çıktının keşif, sınıflandırma,
özetleme gibi şeyler için kullanılıp kullanılmayacağı olabilir.”
Problemin tanımlanması durumunda ihtiyaç duyulan iş modelinin kalıbı da belirlenmiş olur.
Verilerin
Hazırlanması
Modelin kurulması için gerekli bilgilerin hazırlandığı aşamadır. Öncelikle toplam, maksimum, minimum değer
gibi dağılım ölçüleri; aritmetik ortalama, ağırlıklı ortalama gibi cebirsel ölçüler veya serpilme,dağılma
diyagramı gibi grafiksel öğeler kullanılarak verilerin durumu hakkında bilgi edinilir. Verilerde eksik, hatalı,
gürültülü bilgi olup olmadığı bu şekilde kontrol edilmiş olur. Eksik değerlerde kaydı dikkate almama, global
sabit ile eksik değerleri doldurma, eksik değere o değişkenin ortalama değerini verme, gürültülü değerlerde
regresyon ile belirli fonksiyonel kalıba sokma gibi yöntemler ile verilerdeki sıkıntı giderilebilir.
Farklı kaynaklardan gelen, aynı değişkene ait verilerin tiplerinde, alan isimlerinde uyuşmazlık olması halinde
gerekli değişikliklere gidilerek tüm verileri bir arada tutabilecek yapı oluşturulmalıdır.
Bazı modellerin gereksinimlerini göz önünde bulundurmak açısından farklı dönüşümlere gitmek de veri
hazırlanırken dikkate alınması gereken hususlardan olabilir. Örneğin bazı değişkenlerdeki değerler çok
yüksek ise, bu değerleri normalize ederek, uzaklıklar ile çalışan kümeleme algoritmalarının öğrenme fazını
hızlandırarak modelin oluşturulma aşaması için kolaylık sağlanmalıdır.
Değişken sayısının çok yüksek olduğu, hangi değişkenlerin öneminin daha yüksek olduğuna karar
verilemediği durumlarda faktör analizi, temel bileşenler analizi gibi yöntemler kullanılarak boyut
indirgemeleri yapılmalıdır. Zira bu indirgemeler modele girecek değişken sayısını azaltarak modeli gereksiz
bilgilerden ayıklar ve daha sağlıklı bir sonucun çıkmasına zemin hazırlarlar.
Gerektiğinde kategorik değişkenlerde kategori aralıklarını genişleterek kategori sayısını azaltma veya sürekli
bir değişkeni kategorik hale getirmek de verinin hazırlanmasında dikkat edilmesi gereken unsurlardandır. Çok
kategorili değişkenler duruma göre modelin çalışma süresini ve sürecin performansını olumsuz
etkileyebilmektedir.
Modelin Kurulması
Modelin kurulması aşamasında birçok model denenerek veriyi en iyi temsil eden model seçilir. Verileri
temsil eden en iyi modeli bulabilmek için çok sayıda model kurulmalı, en iyi sonucu alana kadar denemeye
devam edilmelidir.
Modelin kuruluşu, amacımızın ne olduğuna, problemimizi ne şekilde çözmek istediğimize ve sonucun ne
kadar işimize yarar olacağına göre değişebilir. Örneğin görmek istediğimiz gelecek dönemdeki tahmini
ciromuz ise, sürekli bir değişkeni tahmin edeceğimiz doğrusal regresyon modelini; müşterilerimizin
pasifleşme eğiliminde olup olmadıkları ise kategorik bir değişkeni tahmin edeceğimiz sınıflandırma modelleri
olan karar ağaçlarını, yapay sinir ağını veya kategorik değişkenin olasılığını tahmin edeceğimiz lojistik
regresyon modelini, hangi ürünlerimizin diğerlerine oranla daha çok beraber alındığı ise birliktelik analizi,
beraber alınan bu ürünlerin hangi sırayla alındığı, nedensellikleri ise sıralı örüntü algoritmaları kullanılabilir.
Ayrıca müşterilerimizin sahip oldukları alışveriş özelliklerine göre (gelme sıklıkları, uğradıkları mağazalar, satın
aldıkları ürünler vb.) belirli gruplara ayırmak için kümeleme algoritmaları kullanılabilir.
Model kurulurken denetimli veya denetimsiz öğrenmeye göre farklı aşamalar uygulanmaktadır. Örneğin
sınıflandırma algoritmaları kullanılırken tüm veri kümesi öğrenme ve test kümesi olarak ayrılmalı;
modelin verilerden öğrenerek oluşturulması öğrenme kümesi, doğruluğunun kontrolü ise test kümesi ile
gerçekleştirilmelidir.
Kurulan modellerde birbiri ile ilişkili olan veya anlamsız olan değişkenlerin elenmesine dikkat edilmelidir.
Amaç bilgi çıkarımı olduğundan ve birbiri ile ilişkili olan değişkenler bize ekstra bilgi vermediğinden, diğerine
göre daha anlamlı olan değişkeni modele katmak faydamıza olacaktır.
Modelin Değerlendirilmesi
Kurulan modellerin karşılaştırılarak veri kümesini en iyi temsil eden modelin seçildiği aşamadır.
Karşılaştırma için, sınıflayıcının tahmin ettiği sınıfların oranını belirten doğruluk oranı kullanılır. Sınıflayıcının
doğruluk oranının görece yüksek olması, diğer modellere göre veri kümesini daha iyi ifade ettiğini
gösterebilir. Doğruluğun testi için kullanılan geçerlilik yöntemleri basit geçerlilik yöntemi, çapraz geçerlilik
yöntemi, n-katlı geçerlilik yöntemi olarak sıralanabilir.
Basit geçerlilik yönteminde verilerin bir kısmı test verisi olarak ayrılır, kalan kısım üzerinde modelin öğrenimi
gerçekleştirildikten sonra ayrılan kısım üzerinde test işlemi yapılır. “Bir sınıflama modelinde yanlış olarak
sınıflanan olay sayısının, tüm olay sayısına bölünmesi ile hata oranı, doğru olarak sınıflanan olay sayısının
tüm olay sayısına bölünmesi ile doğruluk oranı hesaplanır.”11 Çapraz geçerlilik yöntemi daha az sayıda veri
kümesine sahip olunduğu durumlarda kullanılabilir. Bu yöntemde veri kümesi rastgele seçilerek iki eşit
gruba ayrılır, gruplar sırayla öğrenme ve test kümesi yapılarak elde edilen doğruluk oranlarının ortalaması
kullanılır.
N-katlı geçerlilik yöntemi de çapraz geçerlilik yöntemi gibi küçük veri kümeleri için kullanılmaktadır. Veri
kümesi birden fazla gruba ayrılır, bir tanesi test diğerleri öğrenim için kullanılır. Test kümesi değiştirilerek
doğruluk
oranı hesaplanır ve elde edilen oranların ortalaması kullanılır.
Risk matrisi geçerlilik yöntemlerini görselleştirmek için kullanılabilen bir araç olabilir. Yeni çıkan bir ürünü
piyasaya sürmeden önce belli sayıda kişi ile görüşülerek ürünün tutup tutmayacağı konusunda bir
araştırma yapıldığını ve ürün hakkındaki fikirleri iyi ya da kötü olarak sınıflandırmak istediğimizi düşünelim.
Sonuçta karşılaştıracağımız sınıflandırma algoritmalarının doğruluğunu aşağıdaki şekilde görselleştirebiliriz.
Veri Madenciliğinin Kullanım Alanları
• Bankacılık sektöründe veri madenciliği yoğunlukla kredi sahtekârlıkları tespiti, kredi risklerini
değerlendirme,
karlılık analizi, trend analizi ve müşteri yönetimi içindirektpazarlama kampanyalarında kullanılmaktadır.
• Son tüketiciyedirektulaşan perakende sektörü için veri madenciliği güçlü bir araçtır. Sektördeki firmalar,
müşteri yönetimi için veri toplamayı plastik kartlar aracılığı ile yapabilmekte, müşterilerin her türlü
bilgisini ve alışverişlerini, veri ambarı altyapılarında saklayarak, kişiye özel, hedef kitleli kampanyalar
tasarlayabilmekte; bunun için ise bankalarda olduğu gibi kümeleme yöntemleri kullanarak kişilerin
özelliklerini anlama ve buna göre müşterileri belirlenen yaşam tarzlarına atama veya değerine göre
segmentlere ayırma, mağazalara uğrama sıklıklarına göre skorlama, sınıflandırma algoritmaları, regresyon
gibi yöntemler ile müşteri ömrünü belirleme, pasifleşme eğilimi olanları tahminleme, müşterilerin geri
dönüşlerinin belirlenmesi veya beraber alınan ürünleri yakalamak için birliktelik tespiti gibi çok çeşitli
analizler kullanılabilmektedir.
Veri Madenciliğinin Kullanım Alanları
• Telekomünikasyon sektörü zaman içerisinde hizmet içeriğini farklılaştırarak sadece yerel ve uzun mesafeli
telefon hizmeti sunmaktan çıkmış, fax, internet erişimi yolu ile veri transferi, cep telefonu ve bunun gibi
diğer veri trafiklerinin alt yapısını sağlayan bir sektör haline dönüşmüştür.” Bundan başka,
telekomünikasyon sektörünün bazı ülkelerde yeniden düzenlenmesi, yeni bilgisayarların ve iletişim
teknolojilerinin gelişmesi ile birlikte sektör daha da hızlı bir şekilde büyümekte ve rekabetçi bir hale
gelmektedir. 14 Bu noktada veri madenciliği iş içeriğini anlamak, iletişim desenlerini tanımlayabilmek,
sahtekârlıkları yakalayabilmek, veri kaynaklarını daha iyi kullanabilmek ve hizmet kalitesini arttırabilmek
açısından önem kazanmıştır.
Veri Madenciliğinde Kullanılan Yazılımlar
• Enterprise Miner
• SAS
• Clementine çözümü
• SPSS
• Intelligent Miner,
• Viscovery,
• Unica,
• Angoss Knowledge
Seeker
Makine Öğrenimi
Gerekli Alanlar
Makine öğrenimi için gerekli matematik alanları
• Makine öğrenimi hem istatistiğin hem de bilgisayar biliminin bir
parçasıdır
- Olasılık
- İstatiksel
veri
analizi
- Doğrulam
a
- Hata
tahminleri
, güven
aralıkları
• Doğrusal
cebir
- Veriler
Veri konuları
• Öznitelik türleri
• Veri kümesi türleri
• Veri kalitesi sorunları
• Ön işleme
• Dönüşümler
• Özet istatistikler
• Görselleştirme
Veri konuları
• Kayıt
- Veri matrisi
- Belge verileri
- Işlem verileri
• Grafik
- Dünya çapında Ağ
- Moleküler yapılar
• Sipariş verilmesi
- Konumsal
veriler
- Zamansal
(zaman serisi)
verileri
- Sıralı veriler
- Genetik dizi
verileri
Sınıflandırma teknikleri
Basic Concepts, Decision Trees, and Model
Evaluation
• Karar ağaçları • Decision trees
• Kural tabanlı yöntemler • Rule-based methods
• Lojistik regresyon • Logistic regression
• Diskriminant analizi • Discriminant analysis
• k-En yakın komşu (örnek tabanlı • k-Nearest neighbor (instance-based
öğrenme) learning)
• Bayes Yaklaşımı • Bayes
• Nöral ağlar • Neural networks
• Vektör makineleri desteklemek • Support vector machines
• Bayes tahmin ağları • Bayesian belief networks
Öznitelik
Vektörü
Öznitelik (makine öğrenmesi)
• Makine öğrenmesi ve örüntü tanıma alanlarında, gözlemlenen bir olgunun ölçülebilir bir niteliğine özellik
(ya da öznitelik) denir. Anlaşılır, ayırt edici ve bağımsız özellikler seçmek etkili örüntü tanıma,
sınıflandırma ve regresyon algoritmaları için kritik bir adımdır. Özellikler genellikle sayısaldır ancak
sentaktik örüntü analizinde kelimeler ve çizgeler de kullanılır.
• Bir sayısal öznitelikler kümesinin tanımlanması için öznitelik vektörü kullanılabilir. Bir öznitelik
vektörü kullanılarak iki ihtimalli sınıflandırma yapılması öznitelik vektörü ve bir ağırlıklar vektörünün
skaler çarpımının alınması ve çarpım sonucunun bir eşik değeri ile karşılaştırılması ile mümkün olur.
• Bir öznitelikler vektörü kullanılarak yapılan sınıflandırma algoritmalarından bazıları en yakın
komşu sınıflandırması, yapay sinir ağları ve Bayes yaklaşımlarıdır.
• Makine öğreniminde ve örüntü tanımada bir özellik, gözlemlenen bir olgunun bireysel ölçülebilir bir
özelliği veya karakteristiğidir. Bilgilendirici, ayırt edici ve bağımsız özellikler seçmek, örüntü tanıma,
sınıflandırma ve regresyonda etkili algoritmalar için çok önemli bir adımdır. Özellikler genellikle sayısaldır,
ancak dizeler ve grafikler gibi yapısal özellikler sözdizimsel örüntü tanımada kullanılır. "Özellik" kavramı,
doğrusal regresyon gibi istatistiksel tekniklerde kullanılan açıklayıcı değişkenle ilgilidir.
Öznitelikler
• Ortalama ve Toplam
• Markov Katsayıları
• Varyans ve Standart Sapma
• Entropi
• Etkinlik
• Varyans
• Basıklık (Kurtosis)
• Çarpıklık (Skewness) • Frekans Bandları
• Polinom Uydurma • Genlik Değerleri
• Willison Genliği • Filtreleme
• Sıfır Geçiş Sayısı Yöntemleri
• Min. ve Max. Noktalar
Varyans - Standart Sapma
• Aritmetik Ortalama: Alınan örnekleme değerlerinden bir ya da iki tanesi çok yüksek ya da
düşük olursa aritmetik ortalama davranışın eğilimini yansıtmaz.
• Varyans - Standart Sapma: Standart sapma, değerlerin aritmetik ortalamasından kaynaklanan
kök ortalama karesi (RMS) sapmasıdır. Olasılık ve istatistikte, bir olasılık dağılımının standart
sapması, rasgele değişken veya popülasyon veya değerlerin yayılmasının bir ölçüsüdür.
Genellikle σ harfi ile belirtilir (küçük harf sigma). Standat sapma, varyansın karekökü olarak
tanımlanır. Varyans, veriler ile aritmetik ortalama farklarının karlerinin toplamıdır. Ölçülen
verilerin ortalamaya yayılmasını ölçer. Standart sapma, aritmetik ortalamadan olan sapmayı
verir.
• Veri değerleri aritmetik ortalamaya yakınsa, standart sapma küçüktür. Ayrıca, birçok veri
noktası ortalamanın uzağındaysa, standart sapma büyüktür. Tüm veri değerleri eşitse, standart
sapma sıfırdır.
• Bir veri dağılımındaki değişimin önemli bir ölçüsü varyanstır. Varyansın karekökü alınarak
standart
sapma elde edilir.
• Standart sapma dizideki herbir değerin aritmetik ortalamaya yakınlığını gösterir. Standart
sapmanın küçük olması ortalamalarda sapmaların ve riskin az olduğunu, standart sapmanın
büyük olması ortalamalarda sapmaların ve riskin çok olduğunu gösterir.
Öznitelik (makine öğrenmesi)
• Makine öğrenmesi ve örüntü tanıma alanlarında, gözlemlenen bir olgunun ölçülebilir bir niteliğine özellik
(ya da öznitelik) denir. Veri yığınından anlaşılır, ayırt edici ve bağımsız özellikler seçmek etkili örüntü
tanıma, sınıflandırma ve regresyon algoritmaları için kritik bir adımdır. Özellikler genellikle sayısaldır ancak
sentaktik örüntü analizinde kelimeler ve çizgeler de kullanılır.
• İşlenmemiş öznitelikler kümesi gereksiz öğeler içerebilir ve büyüklüğünden ötürü yönetilmesi zor olabilir.
Bu yüzden, makine öğrenmesi ve örüntü tanıma uygulamalarından çoğu özniteliklerin bir alt
kümesinin seçilmesini ya da yeni ve indirgenmiş bir öznitelikler kümesinin oluşturulmasını içerir.
Kullanılacak özniteliklerin öğrenmeyi kolaylaştırması, genelliği ve yorumlanabilirliği artırması
amaçlanır.
Denetimsiz öğrenme
• Doğrudan öğrenme sinyali yoktur. Biz sadece veride yapı bulmaya çalışıyoruz.
• Örneğin. kümeleme, boyutluluk azaltma.
Pekiştirmeli öğrenme
• Öğrenme sinyali (skaler) bir ödüldür ve bir gecikmeyle gelebilir.
• Örneğin. labirentte bir fare, satranç oynamayı öğrenmeye çalışıyor.
Classificatio
n
Algorithm
Regressio
n
Algorithm
Clustering
Algorithm
Öğrenme
• Denetimli Öğrenme : “Örnekten öğrenme olarak da isimlendirilen denetimli öğrenimde, analizi yapan kişiler
tarafından ilgili sınıflar önceden belirlenen bir kritere göre ayrılarak, her sınıf için çeşitli örnekler verilir.
Sistemin amacı, verilen örneklerden hareket ederek her bir sınıfa ilişkin özelliklerin bulunması ve bu
özelliklerin belirli kural cümleleri ile ifade edilmesidir.” Bu amaçla, bütün veri kümesinden bir öğrenme
kümesi ayrılır ve model bu küme üzerinden kurulur. Ayrılan test kümesi ile de doğruluğu araştırılır. Modelin
doğruluğu yeterli görülüp kullanılmak istendiği takdirde yeni gelen örneklere model uygulanır ve o
örneklerin hangi sınıfa ait olduğunu kullanılan model belirler. Denetimli öğrenme sürecinin işlediği
tekniklere karar ağaçlarını örnek verebiliriz.
• Denetimsiz Öğrenme : Denetimsiz öğrenmede sınıflar önceden belirli olmayıp, veri kümesindeki
verilerin özelliklerine göre sınıfların oluşturulması söz konusu olmaktadır. Denetimsiz öğrenme sürecinin
işlediği tekniklere kümeleme tekniklerini örnek verebiliriz.
Machine learning structure
• Supervised learning
Karar Komutları:
• If then else
• For
• Switch Case
• While
• Do while
Algorithms
• Supervised learning:
• Prediction
• Classification (discrete labels), Regression (real
values)
• Unsupervised learning:
• Clustering
• Probability distribution estimation
• Finding association (in features)
• Dimension reduction
• Semi-supervised learning
• Reinforcement learning
• Decision making (robot, chess machine)
Machine Learning Approaches
• Denetimli (endüktif) öğrenme
- Verilen: eğitim verileri + istenen çıktılar (etiketler)
- Etiketli bir eğitim seti ile öğrenme
- Örnek: etiketli e-postalardan oluşan eğitim setine sahip e-posta spam
algılayıcısı
• Denetimsiz öğrenme
- Verilen: eğitim verileri (istenen çıktılar olmadan)
- Etiketsiz verilerdeki kalıpları keşfetme
- Örnek: benzer belgeleri metin içeriğine göre kümeleme
• Yarı denetimli öğrenim
- Verilen: eğitim verileri + istenen birkaç çıktı
• Pekiştirmeli öğrenme
- Bir dizi eylemden elde edilen ödüller
- geri bildirime veya ödüle dayalı öğrenme
- Örnek: Kazanarak veya kaybederek satranç oynamayı öğrenin
Machine learning structure
• Unsupervised learning
Denetimli Öğrenme
• Denetimli öğenmede bilgisyardan beklediğimiz çıktıyı elde edebilmek için
girdiler veriyoruz. Bu veriler ile ne yapacağının kodunu yazıyoruz. Herbir
adımda herbir komut için detaylı kod yazmak zorundayız.
• Bilgisayara nasıl anlamlandıracağı öğretiliyor. Matemetiksel
modeller geliştiriyoruz. Algoritmalar yazıyoruz.
• Bilgisayar sistemleri ya da bilgisayarların kontrol ettiği makineler yazılan
kodlar ile çok kaleteli, hızlı, güvenilir işler yapabilirler.
Gözetimli Öğrenme
• Linear classifier
• Techniques:
• Perceptron
• Logistic regression
• Support vector machine (SVM)
• Ada-line
• Multi-layer perceptron (MLP)
Learning techniques
• Non-linear case
• Clustering
• K-means clustering
• Spectral clustering
• Density Estimation
• Gaussian mixture model (GMM)
• Graphical models
• Dimensionality reduction
• Principal component analysis (PCA)
• Factor analysis