Professional Documents
Culture Documents
Veri Madenciligi Ve Uygulama Alanlari
Veri Madenciligi Ve Uygulama Alanlari
net/publication/312653084
CITATIONS READS
0 8,664
1 author:
Murat Altun
Milli Eğitim Bakanlığı
25 PUBLICATIONS 6 CITATIONS
SEE PROFILE
Some of the authors of this publication are also working on these related projects:
Öğrenci Akademik Performansının Kestirilmesine İlişkin Bir Model Önerisi: Veri Madenciliğine Dayalı Bir Çalışma (Model Proposal Related To Predıcting Student
Academic Performance: A Study Based On Data Mining) View project
All content following this page was uploaded by Murat Altun on 06 November 2017.
Murat Altun
Danışman: Doç. Dr. Kemal Kayıkçı
5.1.2017
Veri Madenciliği ve Uygulama Alanları
Murat Altun
1.1 Amaç
1.2 Önem
Günümüzde birçok alanda yaygın bir şekilde kullanılan veri madenciliği yaklaşımı
karar verme, strateji oluşturma gibi kritik konularda yöneticilere engin bir bilgi kaynağı
olarak destek sağlayabilmektedir. Veri madenciliği yaklaşımı ile örgütlerin etkililiğini ve
verimliliğini artırmada yöneticiler ihtiyaç duydukları “veriye dayalı bilgi” sağlamak için
kullanılabilirler. Buradaki “veriye dayalı bilgi” den kasıt verilerde gizli olan ve kolayca
görülemeyen bilgilerdir. Bu yüzden bilgi keşif sürecinin bir parçası olarak ta adlandırılan
“veri madenciliği” önemli bir konu olarak karşımıza çıkmaktadır. Örgütlerin
ANA BÖLÜM
2
dergide yayınlanan çalışmada, dünyadaki veri depolama kapasitesinin ise her üç yılda
bir iki katına çıktığı belirtilmektedir (SDN, 2016).
Üretilen ve depolanan veri miktarının artması, verilere erişimin kolaylaşması ve
ucuzlaması sayesinde, bu kadar büyük ölçekteki veriye yakından bakmak ve onlardan
daha fazla yararlanmak için sürekli yeni yöntemler geliştirilmekte ve uygulanmaktadır.
Bir değer ve enerji olarak bilgi ve bilginin kullanılması çok büyük veri depolarına sahip
olduğumuz günümüzde daha da önemli hale gelmiştir.
1. Veriden, Enformasyon, Bilgi ve Bilgelik Kavramları Üzerine
4
yetisi, programlama bilgisi ve analiz ve yorumlama yeteneği ise bilgelik olarak
düşünülebilir.
2. Veri Madenciliği Kavramı
Veri madenciliği için alanyazında birçok kavram kullanılmaktadır (veritabanlarında
bilgi madenciliği (knowledge mining from databases), bilgi çıkarımı-knowledge
extraction, veri ve örüntü analizi (data/pattern analysis), veri arkeolojisi,
veritabanlarında bilgi keşfi (knowledge discovery from databases). Bunların arasındaki
en yaygın kullanım “veri tabanlarından bilgi keşfi”dir (Akgöbek & Kaya, 2011).
5
Genellikle, veri madenciliği (çoğu zaman veri veya bilgi keşfetme olarak
adlandırılır) değişik açılardan verileri analiz eden ve onları gelirleri artıran, maliyetleri
düşüren veya her ikisini de yapan kullanışlı bilgi şeklinde özetleme sürecidir (Frand).
Veri madenciliği büyük miktarda veri içinden gelecekle ilgili tahmin yapmamızı
sağlayacak bağıntı ve kuralların bilgisayar programları kullanarak aranmasıdır
(Alpaydın, 2000).
Veri madenciliğinde büyük veri depolarından, verilerdeki örüntüleri (pattern) ve
eğilimleri (trend) keşfetmek için basit analizlerin ötesinde analizler uygulanmaktadır.
Veriden bilgi keşfi olarak ta bilinir. Verileri bölümlemek ve geleceğe yönelik tahminlerde
bulunmak için karışık matematiksel algoritmalar kullanır, 4 anahtar kavrama sahiptir
(Oracle, 2016).
Desenlerin keşfi, olası çıktıları tahmin etme, işe yarar bilginin üretilmesi, büyük veri
setlerine/veritabanlarına odaklanma.
Veri madenciliği, büyük hacimli veri yığınları içerisinden karar alabilmek için potansiyel
olarak faydalı olabilecek, uygulanabilir ve anlamlı bilgilerin çıkarılmasına odaklanır. Tek
başına bir çözüm değil veri analiz teknikleri bütünüdür. Mevcut problemleri çözmek,
kritik kararları almak veya geleceğe yönelik tahminleri yapmak için gerekli olan bilgileri
elde etmeye yarayan bir araçtır. Ortaya çıkarılması hedeflenen bilgiler; üstü kapalı, çok
net olmayan, önceden bilinmeyen, daha önce keşfedilmemiş ancak potansiyel olarak
kullanışlı anlamlı ve kritik bilgilerdir (Argüden & Erşahin, 2008).
6
gücüne kavuşmaktadır. Problem çözme ya da karar verme gibi bir amaca
hizmet edebilecek duruma gelmektedir (Wikipedia, 2016).
b. Veri tabanları (data bases): Birbirleriyle ilişkili bilgilerin depolandığı
alanlardır. Bilgi artışıyla birlikte bilgisayarda bilgi depolama ve bilgiye
erişim konularında yeni yöntemlere ihtiyaç duyulmuştur. Veri tabanları;
büyük miktardaki bilgileri depolamada geleneksel yöntem olan ‘‘dosya-
işlem sistemine’’ alternatif olarak geliştirilmiştir. Telefonlarımızdaki kişi
rehberi günlük hayatımızda çok basit bir şekilde kullandığımız veri tabanı
örneği olarak kabul edilebilir. Bunların dışında internet sitelerindeki
üyelik sistemleri, akademik dergilerin ve üniversitelerin tez yönetim
sistemleri de veri tabanı kullanımına örnektir. Veri tabanları sayesinde
bilgilere ulaşır ve onları düzenleyebiliriz. Veri tabanları genellikle bireysel
olarak satın alınamayacak kadar yüksek meblağlara sahip olmasına
karşın; ücretsiz kullanıma açılan akademik veri tabanları da
bulunmaktadır. Akademik veri tabanları aracılığıyla bazen bibliyografik
bilgi bazen de tam metinlere erişmek mümkündür. Veri tabanları, veri
tabanı yönetim sistemleri aracılığıyla oluşturulur ve yönetilir. Bu
sistemlere; Microsoft Access, MySQL, IBMB2, Informix, Interbase,
Microsoft SQL Server, PostgreSQL, Oracle ve Sysbase örnek olarak
verilebilir (Wikipedia, 2016).
c. Veri ambarı (Data Warehouse): Günümüzde yaygın olarak kullanılmaya
başlanan veri ambarları günlük kullanılan veri tabanlarının birleştirilmiş
ve işlemeye daha uygun bir özetini saklamayı amaçlar (Alpaydın, 2000).
d. Büyük Veri (Big Data): Büyük veri en basit anlamıyla, bilgisayarların
işleyemeyeceği kadar büyük veri demektir. Bu yüzden büyük verinin
boyutu sürekli olarak artmaktadır. Yani bir bilgisayar tarlasının (computer
farm) işleyebileceği miktar, işlemcilerde, yazılım dünyasında, bağlantı
hızlarında v.b. olan teknolojik yeniliklerle sürekli arttırılmakta bu yüzden
de işlenebilecek azami veri tanımı sürekli artmaktadır. Büyük veri
kavramı 3 farklı boyutta incelenebilir[1] (3 boyut da İngilizce V harfi ile
başladığı için alanyazında bu yaklaşıma 3V ismi de verilmektedir) (Şeker,
2014)
7
Şekil 3 Büyük Veri (Şeker, 2014)
Şekil 4 Veri Madenciliğinin Diğer Disiplinlerle İlişkisi (Savaş, Topaloğlu, & Yılmaz,
2011)
8
Günümüzde karar verme sürecine ihtiyaç duyulan birçok alanda veri madenciliği
uygulamaları yaygın olarak kullanılmaktadır. Örneğin pazarlama, biyoloji, bankacılık,
sigortacılık, borsa, perakendecilik, telekomünikasyon, genetik, sağlık, bilim ve
mühendislik, kriminoloji, sağlık, endüstri, istihbarat vb. birçok dalda başarılı
uygulamaları görülmektedir. Son 20 yıldır Amerika Birleşik Devletleri’nde çeşitli veri
madenciliği algoritmalarının gizli dinlemeden, vergi kaçakçılıklarının ortaya
çıkartılmasına kadar çeşitli uygulamalarda kullanıldığı bilinmektedir. Kaynaklar
incelendiğinde veri madenciliğinin en çok kullanıldığı alan olarak tıp, biyoloji ve genetik
görülmektedir (Savaş, Topaloğlu, & Yılmaz, 2011).
Bilgi keşfinin adımları aşağıda verilmiştir (i) Veri Seçimi (Data Selection): Bu adım
birkaç veri kümesini birleştirerek, sorguya uygun örneklem kümesini elde etmeyi
gerektirir. (ii) Veri Temizleme ve Önişleme (Data Cleaning & Preprocessing): Seçilen
örneklemde yer alan hatalı tutanakların çıkarıldığı ve eksik nitelik değerlerinin
değiştirildiği aşamadır ve keşfedilen bilginin kalitesini artırır. (iii)Veri İndirgeme (Data
Reduction): Seçilen örneklemden ilgisiz niteliklerin atıldığı ve tekrarlı tutanakların
ayıklandığı adımdır. Bu aşama ile seçilen veri madenciliği sorgusunun çalışma zamanını
9
iyileştirir. (iv)Veri Madenciliği (Data Mining): Verilen bir veri madenciliği sorgusunun
(sınıflama, güdümsüz öbekleme, eşleştirme, vb.) işletilmesidir. (v)Değerlendirme
(Evaluation): Keşfedilen bilginin geçerlilik, yenilik, yararlılık ve basitlik kıstaslarına göre
değerlendirilmesi aşamasıdır (Sever & Oğuz, 2002).
10
Şekil 7 CRISP-DM Modeli (SVE, 2016) Uyarlayan (Özmen, 2016)
İşi Anlama (Business understanding): (i) İşin amaçlarını belirleme, (ii) mevcut
durumu değerlendirme, (iii) veri madenciliği hedeflerini belirleme ve (iv) proje planı
geliştirmeyi kapsamaktadır (Olson & Delen, 2008).
Veriyi Anlama (Data understanding): İkinci adım veri kalite ve yeterliliğiyle
ilgilenme aşamasıdır. Hedef çalışmada kullanılacak veriler açıklık kazanmaktadır. Veriyi
anlamak ile işi anlamak iç içe geçmiş alt süreçlerdir. İşi anladıkça farklı verilere bakmak
veya verilerin gösterdiklerini anlamak, verilere baktıkça iş ile ilgili farklı bakış açıları
kazanmak mümkündür. Bu döngü kendi içinde devam ettikçe çalışmada kullanılacak
verilerin netlik kazanır. Veriyi anlamanın alt süreçleri: (i) Başlangıç Verilerini
Toplamak: Proje kaynaklarında tanımlanmış olan başlangıç verilerinin toplanması
aşamasıdır. (ii) Veriyi Tanımlamak: Toplanan verinin tanımlanması ve ihtiyaçları
karşılama yeterliliğinin değerlendirilmesi aşamasıdır. (iii) Veriyi Keşfetmek: Başlangıç
aşamasında toplanan veriler ile başlangıç hipotezlerinin oluşturulması limitli bir şekilde
veriden çıkarımlar yapılması aşamasıdır. Bu aşamada sonuca yönelik bilgilerin elde
edilmesinden daha çok çalışmanın gerçekleştirilebilmesi için veri anlamında
eksikliklerin tespit edilmesi amaçlanır. (iv) Verinin Kalitesini Belirlemek: Veri tam mı,
doğru mu, hatalar içeriyor mu, hatalar içeriyorsa ne tür hatalar içeriyor, veride eksik
11
bölümler var mı şeklindeki sorular ile verinin kalitesinin tespit edilmesi aşamasıdır
(SVE, 2016).
Veri hazırlama süreci (data preparation): Veri seçme, veri temizleme, verilerin
yapılandırılması ve bütünleştirilmesi aşamalarından oluşur. Ulaşılabilir tanımlanmış
veri kaynaklarından projede ihtiyaç duyulan veri setleri seçilir, bunlar içinden ihtiyaç
duyulmayan veriler temizlenir ihtiyaç ve isteklere göre yapılandırılarak biçimlendirilir.
Veri temizleme ve veri dönüştürme bu aşamada ortaya çıkar. Veri keşfi bu aşamada
derinlemesine uygulanmalıdır. İşe yönelik desenleri anlamayı sağlayacak ek modeller
geliştirilmelidir (Olson & Delen, 2008).
Modelleme (modelling): Veri madenciliği uzmanları, veri madenciliği için
geliştirilmiş farklı matematiksel modelleri uygulamalıdırlar çünkü aynı sorunu çözmeyi
amaçlayan birden fazla yöntem olabilir. Veri madenciliği uzmanlarının, her modeli
değerlendirmesi gerekir. (Akküçük, 2011). Modelleme süreci modelin seçilmesi, test
tasarımının hazırlanması, modelin kurulması ve modelin değerlendirilmesi
aşamalarından oluşur (SVE, 2016). Modelleme aşamasında, veri hazırlama aşamasında
çalışmış alan uzmanları ile sık sık görüşmek gereklidir. Modelleme aşaması ve
değerlendirme aşaması birleşik gibidir, birden fazla defa tekrarlanabilirler. En iyi
değerler elde edilene kadar birkaç kez modeldeki matematiksel parametreleri
değiştirmek gerekebilir. Son modelleme aşaması tamamlandığında, yüksek kaliteli bir
model kurulmuştur (Akküçük, 2011).
Değerlendirme (Evulation): Model sonuçları ilk aşamada (işi anlama) belirlenen iş
hedefleri bağlamında değerlendirilmelidir. Bu yüzden sıklıkla CRISP-DM'nin önceki
safhalarına dönerek diğer ihtiyaçların tanımlanması gerekebilir. İşi anlamak örgütsel
operasyonlar için daha derin bir anlayış sağlayan yeni ilişkileri görselleştirme,
istatistiksel ve yapay zeka araçlarıyla kullanıcıya gösteren veri madenciliğinde
tekrarlayan bir prosedürdür (Olson & Delen, 2008). Değerlendirme süreci sonuçları
değerlendirme, süreci değerlendirme ve sonraki adımları planlama aşamalarından
oluşur (Argüden & Erşahin, 2008).
Uygulama/Yayma (Deployment): Veri madenciliği uzmanları, sonuçları diğer
uygulamalara aktarırlar. Bu uygulamalar şirket çalışanları tarafından kolayca
kullanılabilen veritabanları ya da elektronik çizelge uygulamaları olabilir (Akküçük,
2011). Uygulama (yayma) süreci yayma planı oluşturma, takip ve bakımı planlamak,
12
final raporu hazırlama ve projeyi değerlendirme süreçlerinden oluşur (Argüden &
Erşahin, 2008).
7. Veri Madenciliğinin İşlevleri
Veri madenciliğinin tahmin (öngörü) ve tanımlama olmak üzere 2 temel işlevi vardır.
Tahmin edici modeller, sonuçları bilinen verileri kullanarak ilgili unsurlar için bir
tahmin modeli oluşturur. Elde edilen bu model, sonuçları bilinmeyen unsurların tahmin
edilmesinde kullanılır. Örneğin bir hastanede bir hastalığa ilişkin veri setini düşünelim.
Veri madenciliği teknikleri uygulanarak hastalığa ilişkin geçmiş olaylardan elde edilmiş
tıbbi veriler ve hasta durumu verilerinden bir tahmin modeli oluşturulabilir. Bu model
sayesinde, hastaneye yeni gelmiş bir hastanın hastalığına ilişkin tahmin testler sonrası
oluşan tıbbi veriler kullanılarak yapılabilir. (Aydın, 2007).
Tanımlama fonksiyonların amacı belirli bir hedefi tahmin etmek değildir. Amaç
veri setinde yer alan veriler arasındaki ilişkileri, bağlantıları ve davranışları bulmaktır.
Var olan verileri yorumlayarak davranış biçimleri ile ilgili tespitler yapmayı ve bu
davranış biçimini gösteren alt veri setlerinin özelliklerini tanımlamayı hedefler. Tanımı
bilmek; tekrarlanan bir faaliyete veya tanımı bilinen yeni bir verinin yapıya katılmasında
ne şekilde hareket edileceği konusunda karar almaya destek olur (Argüden & Erşahin,
2008).
8. Veri Madenciliği Modelleri
Şekil 8 Veri Madenciliği Modelleri Margaret H. Dunham’dan uyarlanmıştır (Aydın, 2007, s. 10)
13
a. Tahmin (Predictive) modelleri
Tahmin edici modeller sınıflama, regresyon, zaman serisi analizi ve
kestirim olmak üzere dört grup halinde incelenebilir (Aydın, 2007).
i. Sınıflama (Classification) “Genç kadınlar küçük araba satın alır,
yaşlı, zengin erkekler büyük, lüks araba satın alır (Argüden &
Erşahin, 2008). Sınıflama, veri sınıfı ve kavramlarını tanımlama ve
ayırt etmeyi sağlayan bir model kümesini bulma sürecidir.
Türetilen model, “eğitim veri kümesi” (sınıf adı bilinen veri
nesneleri) analizine dayalıdır. Sınıflama modelleri, sınıflar önceden
incelenen veriler vasıtasıyla oluşturulduğundan, denetimli
öğrenme olarak da ifade edilir. Örüntü tanımlama da bir sınıflama
modelidir ve bu modelde de bir girdi örüntüsü önceden
tanımlanmış sınıflara benzer çeşitli sınıflardan birisine yerleştirilir.
Örneğin örüntü tanımlama modeli bir güvenlik tarama
istasyonunda yolcuların potansiyel bir suçlu olup olmadığını
belirlemek için kullanılabilir. Bu işlem için her yolcunun yüzü
taranarak göz, beden, ağız ve baş şekli gibi özellikleri tanımlanır.
Elde edilen bu veriler daha önceden özellikleri tanımlanmış suçlu
bilgilerinin yer aldığı veritabanındaki verilerle karşılaştırılarak
kimliğini saklamış olan suçlunun tespiti yapılabilir (Aydın, 2007).
ii. Regresyon (Eğri Uydurma) “Ev sahibi olan, evli, aynı iş yerinde beş
yıldan fazladır çalışan, geçmiş kredilerinde geç ödemesi bir ayı
geçmemiş bir erkeğin kredi skoru 825’dir.” Süreklilik gösteren
değerleri tahmin etmek için kullanılan fonksiyonlardır. Regresyon
ile amaç girdiler ile çıktıyı ilişkilendirecek modeli oluşturup, en iyi
tahmine ulaşmaktır. Sonuç “bağımlı değişken”, girdiler “bağımsız
değişken” olarak adlandırılır. Sonucun alacağı değer genellikle bir
güvenlik aralığı içinde belirtilir. Girdiler, çözülecek probleme göre
bir veya birden fazla olabilir. Örneğin; bir inşaat firması konut
satışlarının, faaliyet gösterdiği bölgede elde edilen toplam gelir ile
ilişkili olduğunu düşünüyorsa, sadece bölgesel gelire dayalı bir
model oluşturarak, bölgesel gelirdeki değişime göre satacağı ev
14
sayısını tahmin etme yoluna gidebilir. Ancak gerçek hayatta
çözülecek problemlerin hemen hepsinde doğru tahmine ulaşmak
için birden fazla girdiden faydalanmak gereklidir. Bu noktada
önemli olan konu girdilerin sonucun doğru tahmin edilmesine
yaptıkları katkıdır. Bazı durumlarda sonuca katkısı limitli olan
girdileri modelden çıkarmak, daha etkin bir model oluşturmak için
önemli bir gerekliliktir (Argüden & Erşahin, 2008).
iii. Zaman Serisi Analizleri (Time Series Analysis) “Dondurma satışları
yazın artıyor, kışın düşüyor”. Bir hisse senedinin veya borsa
endeksinin gelecek değeri tahmini zaman serisi problemlerine
örnek oluşturur. Zaman serisi problemlerinin çözümünde
istatistiksel ve istatistiksel olmayan birçok veri madenciliği
algoritması kullanılmaktadır. Tahmin modellerinin
oluşturulmasında geçmiş verilerden yararlanılması nedeniyle bu
modeller denetimli öğrenme modeli olarak nitelendirilirler (Aydın,
2007). Zaman serisi analizlerinin kullanıldığı en yaygın alan borsa
işlemleridir, borsada bir hisse senedinin değerinin günlük, aylık ve
yıllık değişimlerinin incelenmesi örnek olarak verilebilir.
Örneğin yıllara göre reklam harcamaları ve yine yıllara göre bir
firmanın ürettiği veya sattığı mallara olan talep değerleri birer
zaman serisi örneğidir (Özcan, 2014).
iv. Kestirim (Prediction) Pek çok veri madenciliği uygulaması geçmiş
ve güncel verilere dayalı olarak gelecekteki veri değerlerini tahmin
etme gayretindedir. Kestirim modelleri bir sınıflama modeli gibidir
ancak bu modeli tahmin ve sınıflama modellerinden ayıran özellik
gelecekteki verilerin tahmin etmesidir. Kestirim modellerini bu
anlamda teknik özellik değil de uygulamanın bir özelliği olarak
tanımlamak yerinde olacaktır. Örneğin su baskını tahmini oldukça
güç bir problemdir. Bir yaklaşıma göre nehrin farklı noktalarına
yerleştirilen alıcılar nehrin su seviyesini, yağmur miktarı, zaman,
nem gibi verileri toplayarak su baskınına ilişkin tahmin modeli
oluşturulabilmektedir (Aydın, 2007).
15
b. Tanımlayıcı (Descriptive) modeller
i. Kümeleme (Clustering) “Müşterilerin büyük bir kısmı düzenli
olarak pazartesi akşamları kredi kartıyla alışveriş yaparlar”
(Argüden & Erşahin, 2008). Verilerin kendi aralarındaki
benzerliklerin göz önüne alınarak gruplandırılması işlemidir ve
kümeleme yöntemlerinin çoğu veri arasındaki uzaklıkları kullanır.
Hiyerarşik Kümeleme yöntemleri en yakın komşu algoritması ve en
uzak komşu algoritmasıdır. Hiyerarşik olmayan kümeleme
yöntemleri arasında k-ortalamalar yöntemi sayılabilir (Coşlu,
2013). Örneğin müşteri verisi ile yapılacak bir analizde kümeleme
yöntemi kullanıldığında tüm müşteriler kendileri ile ortak
özellikleri gösteren müşterilerle aynı kümeye toplanır. Kendi içinde
çok çeşitli açılardan benzer özellikler, benzer tutum ve davranışlar
gösteren bu grupların pazarlama faaliyetlerinde de benzer
harcama eğilimleri göstereceği düşünülür (Özcan, 2014).
ii. Özetleme (Summarization) veriyi ilgili basit açıklamalarla alt
kümelere eşlemektedir. Özetleme, genelleme veya nitelendirme
olarak ta isimlendirilmektedir. Veri tabanı hakkındaki temsil edici
bilgiyi çıkarmaktadır. Bu işlem verinin çeşitli parçalarına ulaşılarak
yapılabilir. Alternatif olarak veriden özet tipli bir bilgi (örneğin
numerik değerler için ortalama) çıkarılabilir. Özetleme veri tabanı
içeriğini kısa olarak nitelendirir (Çüllüoğlu Gülen).
iii. Birliktelik Analizi (Association Rules) “Çocuk bezi alan müşterilerin
30%’u süt de alır” (Argüden & Erşahin, 2008) Büyük veri kümeleri
arasında birliktelik ilişkilerinin bulunması esasına dayanır.
İncelenen veriyle aynı anda ikinci ya da üçüncü verinin birlikte
bulunma durumlarının incelenmesi ve orantılanması yapılarak
kurulan modelleme tekniğidir. Birliktelik kuralları alanyazında
market sepeti analizi (market basket analysis) olarak da geçer.
Örneğin; bir A ürününü satın alan müşteriler aynı zamanda B
ürününü da satın alıyorlarsa, bu durum Birliktelik Kuralı ile
gösterilir. Market sepet analizi denmesinin nedeni; bu tip
16
birlikteliklerin modellenerek müşterilerin hangi ürünleri bir arada
aldıkları bilgisinin ortaya çıkması ve market yöneticilerinin de bu
bilgi ışığında daha etki satış stratejileri geliştirebilmesidir. Bağlantı
Analizi aynı zamanda kişi davranışlarından hareketle sahtekârlık
tespitinde, hangi davranışın hangi eylem ile beraber yapıldığında
olağan dışı değerlendirilmesi gerektiğine öngörü sağlamaya da
yardımcı olur (Özcan, 2014).
iv. Sıra örüntüleri (sequence discovery) Sıra örüntülerinde olayların
zaman sıralarıyla ilgilenilir ve birbiriyle ilişkili olan verilerdeki
birliktelik kurallarına benzer bir yapıdadır. Fakat burada veriler
arasındaki ilişki zamana bağlıdır. Birliktelik analizinde olayların
aynı anda alınmasına karşın sıra örüntüleri analizinde belirli bir
zaman periyodunda olayların ilişkileriyle ilgilenilir.
Telekomünikasyon ağları, bilgisayar ağları gibi fiziksel izleme
sistemlerinden veya bilimsel deneylerden toplanan olay-tabanlı
verilerde sistemin doğası gereği olaylar arasında sıralı bir ilişki
mevcuttur. Bu tür zamana dayalı olayların sıra örüntülerinin
keşfedilmesinde tanımlayıcı model olan sıra örüntüleri analizleri
kullanılır (Aydın, 2007). Bir beyaz eşya perakendecisinin
veritabanından buzdolabı alımını takip eden beyaz eşya alımının
bulaşık makinesi olduğunun belirlenmesi, doğal afetler
veritabanından 6 büyüklüğünde bir deprem olduktan 3 gün sonra
Klimanjaro dağının püskürmesi, banka veritabanından ilk üç
taksitinden iki veya daha fazlasını geç ödemiş olan müşterilerin
%60 olasılıkla kanuni takibe gidiyor olduklarının belirlenmesi gibi
örnekleri vardır (Argüden & Erşahin, 2008).
9. Veri Madenciliğinin Kullanım Alanları
Çok yaygın kullanım olan veri madenciliğinin kullanıldığı başlıca alanlar
aşağıdaki gibidir (Özcan, 2014, s. 43-44; Aydın, 2007, s. 8-9).
Bilimsel ve mühendislik: Günümüzde laboratuar veya bilgisayar ortamında
sistemlerin benzetimi ve analizi sürecinde yüksek miktarda bilimsel veri
17
üretilmektedir. Elde edilen bu verilerin anlamlandırılması için veri madenciliği
çok uygun bir platform sağlar (Akgöbek & Çakır, 2009).
Bankacılık ve Finans: Müşteri profili belirlenir, kredibilite ve risk
değerlendirmesi yapılır, ürün segmentasyon ve penetrasyonları buna göre
yapılır. Bankalar veri madenciliği tekniklerini kredi kartı satışlarında
müşterilerin davranış ve güvenilirliklerini ölçmek ya da belirli bir müşterinin
ödemelerini aksatma ihtimalini öngörmek amacıyla da kullanabilir (Özcan,
2014).
En iyi müşterilerin belirlenmesi, kredi kartı harcamalarına göre müşteri
gruplarının belirlenmesi, kredi kartını değiştirmesi muhtemel müşterilerin
belirlenmesi, farklı finansal göstergeler arasındaki gizli korelasyonun bulunması,
benzer davranışlar gösteren müşterilerin sınıflandırılması, müşteri kredi
taleplerinin değerlendirilmesi, döviz fiyatlarındaki değişikliklerin önceden
tahmin edilmesi, vergi dolandırıcılığı vakalarının tespit edilmesi gibi olaylarda
kullanılmaktadır (Aydın, 2007, s. 8-9).
Müşteri İlişkileri Yönetimi: (Customer Relationship Management, CRM): Bütün
müşterilerin e-mail, işlem, çağrı merkezi ve anket gibi erişim noktalarından elde
edilen metin bilgilerinden nitelikli bilgi çıkarılır. Bu nitelikli bilgi müşterinin terk
etme ve çapraz satışlarını tahmin etmek üzere kullanılır (Özcan, 2014, s. 43-44).
Sahtekârlık tespiti: Sağlık, sigorta, bankacılık, güvenlik ve istihbarat kısacası her
alanda oluşabilecek anormallikler aranarak sahtekârlıklar tespit edilir. Özellikle
sağlık sigortası sektöründe yapılan sahtekârlık analizlerinde, bankacılık
sistemindeki kredi kartı ve ATM sahtekârlıklarının tespitinde kullanılmaktadır
(Özcan, 2014, s. 43-44).
Güvenlik/istihbarat: Sosyal güvenlik alanlarında suç olay analizleri, terör
faaliyetleri analizi, organizasyonlar ve bireyler arasındaki kalıplar ve bağlantılar,
terörist atak tehlikeleri, kriminal davranışları tahmin etmek ve engelleyebilmek
için büyük çaptaki metin, konuşma, sosyal içerikli veriler içerisinde örüntüler
aranır (Özcan, 2014, s. 43-44; Aydın, 2007, s. 8-9).
Eğitim Alanında: Öğrenci işlerinde veriler analiz edilerek öğrencilerin başarı ve
başarısızlık nedenleri, başarının arttırılması için hangi konulara ağırlık verilmesi
gerektiği, üniversite giriş puanları ile okul başarısı arasında bir ilişkinin var olup
18
olmadığı gibi soruların cevabı bulunarak eğitim kalitesi ve performansı
arttırılabilir (Akgöbek & Çakır, 2009).
Öğrenci profillerine göre başarısını tahmin etme, öğrencinin başka bir
eğitim kurumuna geçme olasılığını tahmin etme, zeki ölçme ve değerlendirme
sistemleri için bilgi üretme, benzer özellik gösteren öğrencileri gruplama
Öğrenme ortamlarının iyileştirilmesine yönelik gerekli araştırmaların yapılması,
daha etkin e-öğrenme ortamlarının tasarımı için web madenciliği uygulamaları
(Aydın, 2007).
Sağlık ve Biyomedikal Alanında kullanımı: Sağlık ve tıp alanı veri
madenciliğinin en yaygın kullanıldığı alanlardan biridir. Özellikle tarama
testlerinden elde edilen verileri kullanarak çeşitli kanserlerin ön tanısı, kalp
verilerini kullanarak kalp krizi riskinin tespiti, acil servislerde hasta belirtilerine
göre risk ve önceliklerin tespiti gibi çok geniş bir uygulama sahası söz konusudur
(Dalkılıç & Türkmen, 2002).
19
tanımlamaktadır ve bu süreci şekildeki gibi göstermektedirler (Akt: Akçapınar,
2014).
21
bulunmuştur. Ayrıca CHAID algoritmasıyla oluşturulan karar ağacı modellerinde
okulların kümelere ayrışmasında (1) MF için Kimya testinin (2) TM için
Matematik testinin (3) TS için Türk Dili ve Edebiyatı testinin birinci derece etkili
olduğu belirlenmiştir.
Akçapınar (2014) tarafından yapılan “çevrimiçi öğrenme ortamındaki
etkileşim verilerine göre öğrencilerin akademik performanslarının veri
madenciliği yaklaşımı ile modellenmesi” adlı doktora tezi çalışmasında
öğrencilerin derse ilişkin akademik performanslarını “geçti/kaldı” olarak
sınıflandıran, dersten başarısız olacakları tahmin eden, benzer öğrenci profiline
sahip öğrencileri gruplandıran bir model geliştirmeye çalışılmıştır.
Alan (2014) tarafından yapılan “Karar Ağaçlarıyla Öğrenci Verilerinin
Sınıflandırılması” adlı çalışmada ağaçları yöntemiyle Cumhuriyet Üniversitesi
İktisadi ve İdari Bilimler Fakültesi öğrencilerine ait veriler kullanılarak veri
madenciliği yapılmıştır. Öğrencilere ait verilerden yararlanarak, hem bu verileri
en başarılı sınıflandıran karar ağaçlarına ait algoritma, hem de bu algoritmanın
üreteceği sınıflar tespit edilmeye çalışılmıştır. Öğrenciler öğrenim kredisi alma
durumlarına, kayıt yıllarına, sınıflarına, burs alıp almama durumlarına karar
ağaçları yöntemiyle sınıflandırılmıştır.
Çöllüoğlu Gülen (2014) tarafından yapılan “Veri madenciliği teknikleri ile
üstün yetenekli öğrencilerin ilgi alanlarının analizi” adlı araştırma üstün
yetenekli öğrencilerin ilgi alanlarını tahmin etmek ve birliktelik analizi ile bu
öğrencilerin sıklıkla bir arada ilgi duydukları alanları belirlemek amacıyla
yapılmıştır.
Aksu ve Güzeller (2016) tarafından yapılan “PISA 2012 matematik
okuryazarlığı puanlarının karar ağacı yöntemiyle sınıflandırılması: Türkiye
örneklemi” adlı çalışmada matematik okuryazarlığı bakımından başarılı ve
başarısız öğrencileri derse ilişkin ilgi, tutum, motivasyon, algı, öz yeterlik, kaygı
ve çalışma disiplini değişkenlerine göre sınıflandırarak ve bu değişkenlerin
sınıflandırmada etkisini veri madenciliği tekniklerinden karar ağacı kullanılarak
araştırılmıştır. Çalışma sonucunda matematik okuryazarlığında Türkiye
örneklemi için özellikle öz yeterlik algısı, derse ilişkin tutum ve kaygı durumları
ile çalışma disiplini değişkenlerinin etkisi olduğu belirlenmiştir.
22
SONUÇ, TARTIŞMA VE DEĞERLENDİRME
23
Kaynakça
Ackoff, R. L. (1989). From data to wisdom. Journal of applied system analysis , 16, 3-9.
Akçapınar, G. (2014). Çevrimiçi öğrenme ortamındaki eğitim verilerine göre öğrenclerin akademik
performanslarını veri madenciliği yaklaşımı ile modellenmesi. Ankara: Hacettepe Üniversitesi
Bilgisayar ve Öğretim Teknolojileri ABD.
Akgöbek, Ö., & Çakır, F. (2009). Veri madenciliğinde uzman bir sistem tasarımı. Akademik bilişim
konferansları. Şanlıurfa: İnternet Teknolojileri Derneği.
Akgöbek, Ö., & Kaya, S. (2011). Veri madencliği teknikleri ile veri kümlerinden bilgi keşfi:medikal veri
madenciliği uygulaması. e-Journal of New World Sciences Academy , 6 (1), 237-245.
Akküçük, U. (2011). Veri madenciliği kümeleme ve sınıflama algoritmaları. İstanbul: Yalın yayıncılık.
Aksu, G., & Güzeller, C. O. (2016). PISA 2012 matematik okuryazarlığı puanlarının karar ağacı
yöntemiyle sınıflandırılması: Türkiye örneklemi. Eğitim ve bilim (185), 101-122.
Aktan, C. C., & Vural, İ. Y. (2005). Bilgi çağı, bilgi yönetimi ve bilgi sistemleri. Konya: Çizgi kitabevi.
Alan, M. A. (2014). Karar Ağaçlarıyla Öğrenci Verilerinin Sınıflandırılması. Atatürk Üniversitesi İktisadi
ve İdari Bilimler Dergisi , 28 (4), 101-112.
Alan, M. A. (2012). Veri madenciliği ve lisansüstü öğrenci verilerine üzerine bir uygulama. Dumlupına
Üniversitesi Sosyal Bilimler Dergisi (33), 165-174.
Albayrak, A. S., & Koltan Yılmaz, Ş. (2009). Veri madenciliği: karar ağacı algoritmaları ve İMKB verileri
üzerine bir uygulama. Süleyman Demirel Üniversitesi iktisadi ve idari bilimler fakültesi dergisi , 14 (1),
31-52.
Alpaydın, E. (2000). Zeki veri madenciliği: ham bilgiden altın bilgiye ulaşma yöntemleri. Bilişim 2000
eğitmi semineri. ?: ?
Argüden, Y., & Erşahin, B. (2008). Veri madenciliği veriden bilgiye masraftan değere. ARGE
danışmanlık.
Avcı, U., & Avcı, M. (2004). Örgütlerde bilginin önemi ve bilgi yönetim süreci. Mevzuat dergisi , 7 (74).
Aydın, S. (2007). Veri madenciliği ve Anadolu Üniversitesi uzaktan eğitm sisteminde bir uygulama.
Eskişehir: Eskişehir Anadolu Üniversitesi Sosyal Bilimler Enstitüsü.
Ayık, Y. Z., Özdemir, A., & Yavuz, U. (2007). Lise türü ve lise mezuniyet başarısının, kazanılan fakülte
ile ilişkisinin veri madenciliği tekniği işe analizi. Atatürk Üniversitesi sosyal bilimler dergisi , 10 (2),
441-454.
Balkar, B., & Şahin, S. (2012). Okul müdürlerinin bilgi yönetim süreç yeterliklerinin ve liderlik
becerilerinin incelenmesi. Eğitim ve öğretim araştırmaları dergisi , 1 (2).
24
Baykal, A. (2006). Veri madenciliği uygulama alanları. Dicle Üniversitesi Ziya Gökalp eğitim fakültesi
dergisi (7), 95-107.
Bilen, Ö., Hotaman, D., Aşkın, Ö. E., & Büyüklü, A. H. (2014). LYS başarılarına göre okul
performanslarının eğitsel veri madenciliği teknikleriyle incelenmesi: 2011 İstanbul örneği. Eğitim ve
bilim , 39 (172), 78-94.
Bilge, U., Bozkurt, S., Oğuz Yolcular, B., & Özel, D. (2011). Sosyal medya araçları Türkiye'deki grip
benzeri hastalıkları saptayabilmek için kullanılabilir mi? XVI. Türkiye'de İnternet Konferansı. İzmir.
Coşlu, E. (2013). Veri madenciliği. Akademik bilişim 2013-XV. akademik bilişim konferansı bildirleri, (s.
615-619). Akdeniz Üniversitesi.
Çankırı, S., Kartal, E., Yıldırım, K., & Sevinç, G. (2009). Organizasyonlarda blgi yönetimi sürecinde veri
madenciliği yaklaşımı. ÜNAK 2009, (s. 148-167). İstanbul.
Çöllüoğlu Gülen, Ö. (2014). Veri madenciliği teknikleri ile üstün yetenekli öğrencilerin ilgi alanlarının
analizi. Ankara: Gazi Üniversitesi bilişim enstitüsü.
Çüllüoğlu Gülen, Ö. (tarih yok). Veri madenciliği teknikleri ile üstün yetenekli öğrencilerin ilgi
alanlarının analizi. Ankara: Gazi Üniversitesi bilişim enstitüsü.
Dalkılıç, G., & Türkmen, F. (2002). Karınca kolonisi optimizasyonu. Bildiriler. Kocaeli: YPBS2002–
Yüksek Performanslı Bilişim Sempozyumu.
Demir, K. (2009). İlköğretim okullarında verilere dayalı karar verme. Kuram ve uygulamada eğitim
yönetimi , 15 (59), 367-397.
Dener, M., Dörterler, M., & Orman, A. (2009). Açık kaynak kodlu veri madenciliği programları wekada
örnek uygulama. XI. Akademik bilişim konferansı bildirileri. Şanlıurfa: İnternet Teknolojilrei Derneği.
Doğan, S., & Yiğit, Y. (2014). Okul yöneticileri ve öğretmenlerin bilgi yönetimi tutumları ile öğrenen
okul algıları arasındaki ilişki. Ondokuz Mayıs Üniversitesi eğitim fakültesi dergisi , 33 (1), 159-171.
Ergün, C. (2002). Metadata ve Kutuphanelerde Kullanımı. İ. T. Derneği (Dü.), VIII. "Türkiye'de Internet"
Konferansı içinde, (s. ?). İstanbul.
Frand, J. (2016). Data mining: what is the data mining? 12 26, 2016 tarihinde
http://www.anderson.ucla.edu/faculty/jason.frand/teacher/technologies/palace/datamining.htm
adresinden alındı
Gürak, H. (2006). Önce Bilgili İnsan : nitelikli emek (beşeri sermaye) hakkında. 12 31, 2016 tarihinde
Academia:
https://www.academia.edu/4117662/%C3%96nce_Bilgili_%C4%B0nsan_nitelikli_emek_be%C5%9Fer
i_sermaye_hakk%C4%B1nda adresinden alındı
25
Gürünlü, B. (2016, 12 25). Giriş düzeyinde örnek bir veri madenciliği projesi-1.
http://docplayer.biz.tr/1896490-Giris-duzeyinde-ornek-bir-veri-madenciligi-projesi-1.html
adresinden alınmıştır
Hatipoğlu, B., Aslan, Z., & Zontul, M. (2011). Dershane eğitiminin, öğrencinin üniversiteye
yerleşmesindeki etkisi. İstanbul Aydın Üniversitesi dergisi (12), 13-50.
IDC. (2016). IDC Global Research. 12 25, 2016 tarihinde http://www.idc.com adresinden alındı
IEDMS. (2016). International Educaton Data Mining Society. 12 31, 2016 tarihinde
http://www.educationaldatamining.org/ adresinden alındı
Karakoçak, K. (2007). Bilgi yönetimi ve verimliliğe etkisi: Türkiye Büyük Millet Meclisi uygulaması.
Ankara: Ankara Üniversitesi Sosyal Bilimler Enstitüsü İşletme ABD.
Kaya, H., & Öymen, K. (2008). Veri madenciliği kavramı ve uygulama alanları. Doğu anadolu bölgeis
araştırmaları , 159-164.
Olson, D. L., & Delen, D. (2008). Advanced data mining techniques. Springer.
Özbay, Ö. (2015). Veri madenciliği kavramı ve eğitimde veri madenciliği uygulamaları. Uluslararası
eğitim bilimleri dergisi (5), 262-272.
Özcan, C. (2014). Veri madenciliğinin güvenlik uygulama alanları ve veri madenciliği ile sahtekarlık
analizi. İstanbul: İstanbul Bilgi Üniversitesi Sosyal Bilimler Enstitüsü Bilişim Teknoloji Hukuku Yüksek
Lisans Programı.
Özen, Ü. (2014). Bilgi sistemlerine giriş:temel kavramlar. Erzurum: Atatürk Üniversitesi AOF Yayınevi.
Sağsan, M. (2014). Bilgi Yönetimi Bakış Açısından Bilgi Süreçleri ve Bir Model Önerisi. 12 25, 2016
tarihinde Dokuz Eylül Üniversitesi Strateji Dairesi Başkanlığı: http://strateji.deu.edu.tr/wp-
content/uploads/2014/09/Bilgi-Y%C3%B6netimi-Bak%C4%B1%C5%9F-A%C3 adresinden alındı
Savaş, S., Topaloğlu, N., & Yılmaz, M. (2011). Veri madenciliği ve Türkiye'deki uyuglama örnekleri.
İstambul Ticaret Üniversitesi fen bilimleri dergisi (21), 1-23.
26
SDN. (2016). Shift Delete Net. 12 31, 2016 tarihinde http://shiftdelete.net/dunyada-ne-kadar-bilgi-
var-27154 adresinden alındı
Sever, H., & Oğuz, B. (2002). Veri tabanlarında bilgi keşfine formel bir yaklaşım kısım 1: eşleştirme
sorguları ve algoritmalar. Bilgi dünyası , 3 (2), 1-33.
SVE. (2016). What is the CRISP-DM methodology? 12 26, 2016 tarihinde Smart vision Europe:
http://www.sv-europe.com/crisp-dm-methodology/ adresinden alındı
Terzi, Ö. (2012, Temmuz). Monthly rainfall estimation using data-mining process. Applied
Computational Intelligence and Soft Computing , 1-6.
Turhan, S. (2002). Teknolojinin okul yönetiminde etkin kullanımında eğitim yöneticisinin rolü. Kuram
ve uygulamada eğitim yönetimi (30), 271-281.
27