Download as pdf or txt
Download as pdf or txt
You are on page 1of 28

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/312653084

Veri Madenciliği ve Uygulama Alanları

Working Paper · December 2016

CITATIONS READS

0 8,664

1 author:

Murat Altun
Milli Eğitim Bakanlığı
25 PUBLICATIONS 6 CITATIONS

SEE PROFILE

Some of the authors of this publication are also working on these related projects:

Öğrenci Akademik Performansının Kestirilmesine İlişkin Bir Model Önerisi: Veri Madenciliğine Dayalı Bir Çalışma (Model Proposal Related To Predıcting Student
Academic Performance: A Study Based On Data Mining) View project

All content following this page was uploaded by Murat Altun on 06 November 2017.

The user has requested enhancement of the downloaded file.


Veri Madenciliği ve
Uygulama Alanları
Doktora Semineri Raporu

Eğitim Bilimleri Bölümü


EYTEPE ABD Doktora Programı

Murat Altun
Danışman: Doç. Dr. Kemal Kayıkçı
5.1.2017
Veri Madenciliği ve Uygulama Alanları

Murat Altun

1.1 Amaç

Bu araştırmanın amacı veri yığınlarından değerli bilgi çıkarma süreci olarak


özetlenebilecek “veri madenciliği” ile ilgili genel bir çerçeve çizmek, ilgili terimleri
açıklamak, veri madenciliğinin kullanım amaçlarını, kullanıldığı alanları, bilgi keşfi
süreci açısından yeri ve veri madenciliği sürecinin aşamalarını ortaya koymak ve
değerlendirmektir.

Bu amaçla alanyazın araştırması yapılarak konuyla ilgili yerli ve yabancı kaynaklar


taranmıştır. Araştırmada veri madenciliğinin “eğitim” alanında kullanımı ayrı bir başlık
altında incelenerek Türkiye’de yapılan çalışmalardan örnekler verilmiştir.

1.2 Önem

Günümüzde birçok alanda yaygın bir şekilde kullanılan veri madenciliği yaklaşımı
karar verme, strateji oluşturma gibi kritik konularda yöneticilere engin bir bilgi kaynağı
olarak destek sağlayabilmektedir. Veri madenciliği yaklaşımı ile örgütlerin etkililiğini ve
verimliliğini artırmada yöneticiler ihtiyaç duydukları “veriye dayalı bilgi” sağlamak için
kullanılabilirler. Buradaki “veriye dayalı bilgi” den kasıt verilerde gizli olan ve kolayca
görülemeyen bilgilerdir. Bu yüzden bilgi keşif sürecinin bir parçası olarak ta adlandırılan
“veri madenciliği” önemli bir konu olarak karşımıza çıkmaktadır. Örgütlerin

ANA BÖLÜM

Teknolojik gelişmeler dünyada gerçekleşen birçok işlemin elektronik olarak kayıt


altına alınmasını, bu kayıtların kolayca saklanabilmesini ve gerektiğinde erişilebilmesini
hem kolaylaştırıyor, hem de bu işlemlerin her geçen gün daha ucuza mal edilmesini
sağlıyor (Coşlu, 2013).
IDC’nin dünya çapında yaptığı araştırma sonuçlarına göre 2013-2020 yılları arasında
üretilecek veri miktarı 44 Zettabayt olarak tahmin edilmektedir. Bu rakam, 2013’e kadar
üretilen tüm verilerin 10 katı büyüklüğünde (IDC, 2016). Science Express adlı dijital

2
dergide yayınlanan çalışmada, dünyadaki veri depolama kapasitesinin ise her üç yılda
bir iki katına çıktığı belirtilmektedir (SDN, 2016).
Üretilen ve depolanan veri miktarının artması, verilere erişimin kolaylaşması ve
ucuzlaması sayesinde, bu kadar büyük ölçekteki veriye yakından bakmak ve onlardan
daha fazla yararlanmak için sürekli yeni yöntemler geliştirilmekte ve uygulanmaktadır.
Bir değer ve enerji olarak bilgi ve bilginin kullanılması çok büyük veri depolarına sahip
olduğumuz günümüzde daha da önemli hale gelmiştir.
1. Veriden, Enformasyon, Bilgi ve Bilgelik Kavramları Üzerine

Şekil 1 Anlam Şeması (Aktan & Vural, 2005, s. 6)


Veri, enformasyon bilgi ve bilgelik kavramlarını ve aralarındaki ilişkiyi gösteren Şekil
1’ de gösterildiği üzere, veri-enformasyon-bilgi-anlayış-bilgelik sıradüzen içinde bir
zincirdir (Ackoff, 1989). En alt basamakta veri yani ham gerçekler yer almaktadır üst
basamaklara doğru veriler işlendikçe değerlenmektedir. Anlam şemasındaki kavram
TDK’ye (2016) göre şu şekilde tanımlanmaktadır: (i)Veri: olgu, kavram veya
komutların, iletişim, yorum ve işlem için elverişli biçimli gösterimi, (ii) enformasyon:
haber alma, haber verme, haberleşme, (iii) bilgi: veriye yöneltilen anlam, insan aklının
erebileceği olgu, gerçek ve ilkelerin bütünü olarak, (iv) anlayış: “görüş ve inanış
etmenlerinin etkisiyle beliren düşünme yolu, düşünüş biçimi, zihniyet, mantalite” olarak
tanımlanmaktadır, (v) bilgelik: herkesin ulaşamadığı derin kapsamlı, bütünsel bilgi.
Veri (data) sayılar, rakamlar, sözcükler, metinler, resimler, olaylar vb.
biçiminde temsil edilen ham gerçekliklerdir. Veriler gözlem, araştırma, deney,
ölçüm ve sayım gibi değişik yöntemlerle elde edilir. Ölçüm ya da sayım yolu ile
toplanan ve sayısal bir değer ifade eden veriler “nicel veriler”, sayısal bir değerle
3
gösterilemeyen veriler ise “nitel veriler” olarak adlandırılır (Özen, 2014). Veri ham bilgi,
anlamsız bilgi olarak ifade edilirken, enformasyon genel olarak insanın dış dünyayla
ilişkisinde, belirsizlik düzeyini azaltan her tür uyaran şeklinde, daha özel olarak ise
formatlanmış ve yapılandırılmış veriler bütünü olarak tanımlanabilir (Yılmaz, 2011).
Enformasyon ve bilgi terimlerinde kavram karmaşası yaşanmaktadır. Yanlış bir
şekilde, bilgi (knowledge) ve enformasyon (information) eşanlamlıymış gibi
kullanılmaktadır. Bunun neticesi olarak bilgi toplumu (knowledge society) ile
enformasyon toplumu (information society) kavramları da birbirine karıştırılmaktadır.
Enformasyon, herhangi bir konu ile ilgili bir bilinmeyeni (belirsizliği) giderme
konusunda yardımcı olan betimleyici ifadelerdir. Örneğin, bir sinemada hangi filmin
gösterildiği, havanın nasıl olacağı veya aradığımız bir kitabın hangi kütüphanede veya
kitapçıda olduğu gibi (Gürak, 2006).
Bilgi ise bilgi, bir öğrenme kapasitesi ve bilişsel kapasite gerektirmektedir,
birbirinden farklı gerçeklikleri kapsar (Yılmaz, 2011).
Bilgi, olguları ve olayları tanıma, anlama ve özellikle açıklamaya yönelik, eğitim,
gözlem, araştırma veya deneyim yoluyla elde edilen ve bütün bunların insanın
zihinsel değerlendirmesi neticesinde ortaya çıkan olgular veya fikirlerdir.
Bilgiye, bir çeşit işlenmiş enformasyon da diyebiliriz. Örneğin, kredi
kartlarının sağladığı “veriler/enformasyon” kullanılarak, kredi kart sahiplerinin
hakkında cinsiyet, yaş ve gelir durumlarına göre harcama alışkanlıkları
konusunda bilgi sahibi olabiliriz. Gazeteler, reklamlar, bilgisayarlar, büro araç-
gereçleri "enformasyon sektörü" ürünleridir, "bilgi sektörü değil" (Gürak, 2006).
Bilgelik başka bir bakış açısıyla, değişen şartlar çerçevesinde ileriyi görebilme
yeteneğine sahip olmaktır. Bilgelik, bir ihtisas alanındaki tecrübelerin toplamıdır.
Bilgelik ayrıca, sağlıklı değerlendirme ve karar verme konusunda bilginin nasıl
kullanacağı konusundaki anlayış olarak da tanımlanmaktadır. Konuyla ilgili aşağıdaki
örnekleri incelemek yararlı olacaktır (Özen, 2014).
Örnek: Bir öğrenci veri tabanındaki ad, soyad, doğum yeri, öğrencilerin her birinin
bilgisayar dersinden aldığı notlar, öğrencilerin bölüme giriş puanları, mezun oldukları lise
türleri vb. gerçeklikler veri; öğrenci listesi, notlar, harf notları, sınıf ortalamasından oluşan
liste enformasyon; öğrencilerin mezun olduğu lise ya da üniversiteye giriş puanına göre
başarı durumlarının analiz edilerek bir örüntü çıkarılması bilgi; bu örüntüleri çıkarabilme

4
yetisi, programlama bilgisi ve analiz ve yorumlama yeteneği ise bilgelik olarak
düşünülebilir.
2. Veri Madenciliği Kavramı
Veri madenciliği için alanyazında birçok kavram kullanılmaktadır (veritabanlarında
bilgi madenciliği (knowledge mining from databases), bilgi çıkarımı-knowledge
extraction, veri ve örüntü analizi (data/pattern analysis), veri arkeolojisi,
veritabanlarında bilgi keşfi (knowledge discovery from databases). Bunların arasındaki
en yaygın kullanım “veri tabanlarından bilgi keşfi”dir (Akgöbek & Kaya, 2011).

Şekil 2 Verilerin Tutulması (Aydın, 2007)

1960’larda veriler elektronik ortamda toplanmaya ve geçmiş veriler


bilgisayarlar ile analiz edilmeye başlanmıştır. 1980’lerde bağıntılı (relational)
veritabanları ve SQL (Select Query Language) yapısal sorgulama dili ile verilerin dinamik
ve anlık analiz edilmesine olanak sağlanmıştır. 1990’lara gelindiğinde toplanmakta olan
verinin hacmi çok büyük boyutlara ulaşmış ve verilerin depolanması için veri ambarları
kullanılmaya başlanmıştır (Argüden & Erşahin, 2008). 2000’li yıllar ise tüm alanlarda
veri madenciliğinin kullanıldığı yıllar olmaktadır.
Veri madenciliği toplanan bu büyük veri kütlelerinin değerlendirilmesi için istatistik
ve yapay zekâ tekniklerinin kullanılması sonucunda ortaya çıkmıştır (Argüden &
Erşahin, 2008).

5
Genellikle, veri madenciliği (çoğu zaman veri veya bilgi keşfetme olarak
adlandırılır) değişik açılardan verileri analiz eden ve onları gelirleri artıran, maliyetleri
düşüren veya her ikisini de yapan kullanışlı bilgi şeklinde özetleme sürecidir (Frand).
Veri madenciliği büyük miktarda veri içinden gelecekle ilgili tahmin yapmamızı
sağlayacak bağıntı ve kuralların bilgisayar programları kullanarak aranmasıdır
(Alpaydın, 2000).
Veri madenciliğinde büyük veri depolarından, verilerdeki örüntüleri (pattern) ve
eğilimleri (trend) keşfetmek için basit analizlerin ötesinde analizler uygulanmaktadır.
Veriden bilgi keşfi olarak ta bilinir. Verileri bölümlemek ve geleceğe yönelik tahminlerde
bulunmak için karışık matematiksel algoritmalar kullanır, 4 anahtar kavrama sahiptir
(Oracle, 2016).
Desenlerin keşfi, olası çıktıları tahmin etme, işe yarar bilginin üretilmesi, büyük veri
setlerine/veritabanlarına odaklanma.
Veri madenciliği, büyük hacimli veri yığınları içerisinden karar alabilmek için potansiyel
olarak faydalı olabilecek, uygulanabilir ve anlamlı bilgilerin çıkarılmasına odaklanır. Tek
başına bir çözüm değil veri analiz teknikleri bütünüdür. Mevcut problemleri çözmek,
kritik kararları almak veya geleceğe yönelik tahminleri yapmak için gerekli olan bilgileri
elde etmeye yarayan bir araçtır. Ortaya çıkarılması hedeflenen bilgiler; üstü kapalı, çok
net olmayan, önceden bilinmeyen, daha önce keşfedilmemiş ancak potansiyel olarak
kullanışlı anlamlı ve kritik bilgilerdir (Argüden & Erşahin, 2008).

3. Veri madenciliğiyle ilgili temel kavramlar


a. Veri (data): Ölçüm, sayım, deney, gözlem ya da araştırma yolu ile elde
edilmektedir. Ölçüm ya da sayım yolu ile toplanan ve sayısal bir değer
bildiren veriler nicel veriler, sayısal bir değer bildirmeyen veriler
de nitel veriler olarak adlandırılmaktadır. Her sembolik gösterim gibi, veri
de belirli bir nesne, birey ya da olguya ilişkin bir soyutlamadır.
Ancak enformasyon ve bilginin soyutluk düzeyleri ile karşılaştırıldığında,
verilerin soyutluk düzeyi daha düşüktür. Bir verinin tek başına bir anlamı
ve işlevi bulunmamaktadır. Veriler toplandıktan sonra gruplanarak,
sıralanarak ve özetlenerek, elle ya da bilgisayarla işlenip enformasyona
dönüştürüldüklerinde anlam kazanmakta; ait oldukları bağlamı açıklama

6
gücüne kavuşmaktadır. Problem çözme ya da karar verme gibi bir amaca
hizmet edebilecek duruma gelmektedir (Wikipedia, 2016).
b. Veri tabanları (data bases): Birbirleriyle ilişkili bilgilerin depolandığı
alanlardır. Bilgi artışıyla birlikte bilgisayarda bilgi depolama ve bilgiye
erişim konularında yeni yöntemlere ihtiyaç duyulmuştur. Veri tabanları;
büyük miktardaki bilgileri depolamada geleneksel yöntem olan ‘‘dosya-
işlem sistemine’’ alternatif olarak geliştirilmiştir. Telefonlarımızdaki kişi
rehberi günlük hayatımızda çok basit bir şekilde kullandığımız veri tabanı
örneği olarak kabul edilebilir. Bunların dışında internet sitelerindeki
üyelik sistemleri, akademik dergilerin ve üniversitelerin tez yönetim
sistemleri de veri tabanı kullanımına örnektir. Veri tabanları sayesinde
bilgilere ulaşır ve onları düzenleyebiliriz. Veri tabanları genellikle bireysel
olarak satın alınamayacak kadar yüksek meblağlara sahip olmasına
karşın; ücretsiz kullanıma açılan akademik veri tabanları da
bulunmaktadır. Akademik veri tabanları aracılığıyla bazen bibliyografik
bilgi bazen de tam metinlere erişmek mümkündür. Veri tabanları, veri
tabanı yönetim sistemleri aracılığıyla oluşturulur ve yönetilir. Bu
sistemlere; Microsoft Access, MySQL, IBMB2, Informix, Interbase,
Microsoft SQL Server, PostgreSQL, Oracle ve Sysbase örnek olarak
verilebilir (Wikipedia, 2016).
c. Veri ambarı (Data Warehouse): Günümüzde yaygın olarak kullanılmaya
başlanan veri ambarları günlük kullanılan veri tabanlarının birleştirilmiş
ve işlemeye daha uygun bir özetini saklamayı amaçlar (Alpaydın, 2000).
d. Büyük Veri (Big Data): Büyük veri en basit anlamıyla, bilgisayarların
işleyemeyeceği kadar büyük veri demektir. Bu yüzden büyük verinin
boyutu sürekli olarak artmaktadır. Yani bir bilgisayar tarlasının (computer
farm) işleyebileceği miktar, işlemcilerde, yazılım dünyasında, bağlantı
hızlarında v.b. olan teknolojik yeniliklerle sürekli arttırılmakta bu yüzden
de işlenebilecek azami veri tanımı sürekli artmaktadır. Büyük veri
kavramı 3 farklı boyutta incelenebilir[1] (3 boyut da İngilizce V harfi ile
başladığı için alanyazında bu yaklaşıma 3V ismi de verilmektedir) (Şeker,
2014)

7
Şekil 3 Büyük Veri (Şeker, 2014)

Volume (hacim): Verinin kapladığı alan, Velocity (hız): Verinin değişim


veya birikme hızı, Variety (çeşitlilik): Verinin geldiği kaynakların çeşitliliği
(email, facebook, videolar, resimler, ses kayıtları gibi)

4. Veri Madenciliğinin Diğer Disiplinlerle İlişkisi

Şekil 4 Veri Madenciliğinin Diğer Disiplinlerle İlişkisi (Savaş, Topaloğlu, & Yılmaz,
2011)

8
Günümüzde karar verme sürecine ihtiyaç duyulan birçok alanda veri madenciliği
uygulamaları yaygın olarak kullanılmaktadır. Örneğin pazarlama, biyoloji, bankacılık,
sigortacılık, borsa, perakendecilik, telekomünikasyon, genetik, sağlık, bilim ve
mühendislik, kriminoloji, sağlık, endüstri, istihbarat vb. birçok dalda başarılı
uygulamaları görülmektedir. Son 20 yıldır Amerika Birleşik Devletleri’nde çeşitli veri
madenciliği algoritmalarının gizli dinlemeden, vergi kaçakçılıklarının ortaya
çıkartılmasına kadar çeşitli uygulamalarda kullanıldığı bilinmektedir. Kaynaklar
incelendiğinde veri madenciliğinin en çok kullanıldığı alan olarak tıp, biyoloji ve genetik
görülmektedir (Savaş, Topaloğlu, & Yılmaz, 2011).

5. Bilgi keşfi ve bilgi yönetim sürecinde veri madenciliği


Veri madenciliği yaygın olarak bilgi keşfi sürecinin (knowledge discovery in
databases) bir parçası şeklinde kabul görmektedir.

Şekil 5 Bilgi Keşfi Sürecinde Veri Madenciliği (Terzi, 2012)

Bilgi keşfinin adımları aşağıda verilmiştir (i) Veri Seçimi (Data Selection): Bu adım
birkaç veri kümesini birleştirerek, sorguya uygun örneklem kümesini elde etmeyi
gerektirir. (ii) Veri Temizleme ve Önişleme (Data Cleaning & Preprocessing): Seçilen
örneklemde yer alan hatalı tutanakların çıkarıldığı ve eksik nitelik değerlerinin
değiştirildiği aşamadır ve keşfedilen bilginin kalitesini artırır. (iii)Veri İndirgeme (Data
Reduction): Seçilen örneklemden ilgisiz niteliklerin atıldığı ve tekrarlı tutanakların
ayıklandığı adımdır. Bu aşama ile seçilen veri madenciliği sorgusunun çalışma zamanını
9
iyileştirir. (iv)Veri Madenciliği (Data Mining): Verilen bir veri madenciliği sorgusunun
(sınıflama, güdümsüz öbekleme, eşleştirme, vb.) işletilmesidir. (v)Değerlendirme
(Evaluation): Keşfedilen bilginin geçerlilik, yenilik, yararlılık ve basitlik kıstaslarına göre
değerlendirilmesi aşamasıdır (Sever & Oğuz, 2002).

Şekil 6 Bilgi Yönetim Süreci (Avcı & Avcı, 2004)

Bilgi yönetim süreci incelendiğinde alanyazında farklı sınıflandırmalar olmakla


birlikte genekllikle 3 aşamalı bir süreç olarak sınıflandırıldığı görülmektedir, bilginin
süzülmesi/arıtılması yani “bilginin” elde edilmesi basamağında en temel işlem veri
madenciliğidir (Sağsan, 2014; Avcı & Avcı, 2004).

6. Veri Madenciliği Süreci


Veri madenciliği süreci, uluslararası düzeyde standardı kabul edilmiş, CRISP-DM
(CRoss Industry Process for Data Mining) tarafından belirlenmiştir (Argüden & Erşahin,
2008). CRISP-DM’ye göre bu süreç, iş ve iş ortamını anlamamak (business
understanding), veriyi anlamak (data understanding), veriyi hazırlama (data
preparation) , modelleme (modelling), değerlendirme (evulation) ve yayma
(deployment) olmak üzere şekilde gösterildiği gibi 6 aşamadan oluşmaktadır (SVE,
2016).

10
Şekil 7 CRISP-DM Modeli (SVE, 2016) Uyarlayan (Özmen, 2016)

İşi Anlama (Business understanding): (i) İşin amaçlarını belirleme, (ii) mevcut
durumu değerlendirme, (iii) veri madenciliği hedeflerini belirleme ve (iv) proje planı
geliştirmeyi kapsamaktadır (Olson & Delen, 2008).
Veriyi Anlama (Data understanding): İkinci adım veri kalite ve yeterliliğiyle
ilgilenme aşamasıdır. Hedef çalışmada kullanılacak veriler açıklık kazanmaktadır. Veriyi
anlamak ile işi anlamak iç içe geçmiş alt süreçlerdir. İşi anladıkça farklı verilere bakmak
veya verilerin gösterdiklerini anlamak, verilere baktıkça iş ile ilgili farklı bakış açıları
kazanmak mümkündür. Bu döngü kendi içinde devam ettikçe çalışmada kullanılacak
verilerin netlik kazanır. Veriyi anlamanın alt süreçleri: (i) Başlangıç Verilerini
Toplamak: Proje kaynaklarında tanımlanmış olan başlangıç verilerinin toplanması
aşamasıdır. (ii) Veriyi Tanımlamak: Toplanan verinin tanımlanması ve ihtiyaçları
karşılama yeterliliğinin değerlendirilmesi aşamasıdır. (iii) Veriyi Keşfetmek: Başlangıç
aşamasında toplanan veriler ile başlangıç hipotezlerinin oluşturulması limitli bir şekilde
veriden çıkarımlar yapılması aşamasıdır. Bu aşamada sonuca yönelik bilgilerin elde
edilmesinden daha çok çalışmanın gerçekleştirilebilmesi için veri anlamında
eksikliklerin tespit edilmesi amaçlanır. (iv) Verinin Kalitesini Belirlemek: Veri tam mı,
doğru mu, hatalar içeriyor mu, hatalar içeriyorsa ne tür hatalar içeriyor, veride eksik

11
bölümler var mı şeklindeki sorular ile verinin kalitesinin tespit edilmesi aşamasıdır
(SVE, 2016).
Veri hazırlama süreci (data preparation): Veri seçme, veri temizleme, verilerin
yapılandırılması ve bütünleştirilmesi aşamalarından oluşur. Ulaşılabilir tanımlanmış
veri kaynaklarından projede ihtiyaç duyulan veri setleri seçilir, bunlar içinden ihtiyaç
duyulmayan veriler temizlenir ihtiyaç ve isteklere göre yapılandırılarak biçimlendirilir.
Veri temizleme ve veri dönüştürme bu aşamada ortaya çıkar. Veri keşfi bu aşamada
derinlemesine uygulanmalıdır. İşe yönelik desenleri anlamayı sağlayacak ek modeller
geliştirilmelidir (Olson & Delen, 2008).
Modelleme (modelling): Veri madenciliği uzmanları, veri madenciliği için
geliştirilmiş farklı matematiksel modelleri uygulamalıdırlar çünkü aynı sorunu çözmeyi
amaçlayan birden fazla yöntem olabilir. Veri madenciliği uzmanlarının, her modeli
değerlendirmesi gerekir. (Akküçük, 2011). Modelleme süreci modelin seçilmesi, test
tasarımının hazırlanması, modelin kurulması ve modelin değerlendirilmesi
aşamalarından oluşur (SVE, 2016). Modelleme aşamasında, veri hazırlama aşamasında
çalışmış alan uzmanları ile sık sık görüşmek gereklidir. Modelleme aşaması ve
değerlendirme aşaması birleşik gibidir, birden fazla defa tekrarlanabilirler. En iyi
değerler elde edilene kadar birkaç kez modeldeki matematiksel parametreleri
değiştirmek gerekebilir. Son modelleme aşaması tamamlandığında, yüksek kaliteli bir
model kurulmuştur (Akküçük, 2011).
Değerlendirme (Evulation): Model sonuçları ilk aşamada (işi anlama) belirlenen iş
hedefleri bağlamında değerlendirilmelidir. Bu yüzden sıklıkla CRISP-DM'nin önceki
safhalarına dönerek diğer ihtiyaçların tanımlanması gerekebilir. İşi anlamak örgütsel
operasyonlar için daha derin bir anlayış sağlayan yeni ilişkileri görselleştirme,
istatistiksel ve yapay zeka araçlarıyla kullanıcıya gösteren veri madenciliğinde
tekrarlayan bir prosedürdür (Olson & Delen, 2008). Değerlendirme süreci sonuçları
değerlendirme, süreci değerlendirme ve sonraki adımları planlama aşamalarından
oluşur (Argüden & Erşahin, 2008).
Uygulama/Yayma (Deployment): Veri madenciliği uzmanları, sonuçları diğer
uygulamalara aktarırlar. Bu uygulamalar şirket çalışanları tarafından kolayca
kullanılabilen veritabanları ya da elektronik çizelge uygulamaları olabilir (Akküçük,
2011). Uygulama (yayma) süreci yayma planı oluşturma, takip ve bakımı planlamak,

12
final raporu hazırlama ve projeyi değerlendirme süreçlerinden oluşur (Argüden &
Erşahin, 2008).
7. Veri Madenciliğinin İşlevleri
Veri madenciliğinin tahmin (öngörü) ve tanımlama olmak üzere 2 temel işlevi vardır.
Tahmin edici modeller, sonuçları bilinen verileri kullanarak ilgili unsurlar için bir
tahmin modeli oluşturur. Elde edilen bu model, sonuçları bilinmeyen unsurların tahmin
edilmesinde kullanılır. Örneğin bir hastanede bir hastalığa ilişkin veri setini düşünelim.
Veri madenciliği teknikleri uygulanarak hastalığa ilişkin geçmiş olaylardan elde edilmiş
tıbbi veriler ve hasta durumu verilerinden bir tahmin modeli oluşturulabilir. Bu model
sayesinde, hastaneye yeni gelmiş bir hastanın hastalığına ilişkin tahmin testler sonrası
oluşan tıbbi veriler kullanılarak yapılabilir. (Aydın, 2007).
Tanımlama fonksiyonların amacı belirli bir hedefi tahmin etmek değildir. Amaç
veri setinde yer alan veriler arasındaki ilişkileri, bağlantıları ve davranışları bulmaktır.
Var olan verileri yorumlayarak davranış biçimleri ile ilgili tespitler yapmayı ve bu
davranış biçimini gösteren alt veri setlerinin özelliklerini tanımlamayı hedefler. Tanımı
bilmek; tekrarlanan bir faaliyete veya tanımı bilinen yeni bir verinin yapıya katılmasında
ne şekilde hareket edileceği konusunda karar almaya destek olur (Argüden & Erşahin,
2008).
8. Veri Madenciliği Modelleri

Şekil 8 Veri Madenciliği Modelleri Margaret H. Dunham’dan uyarlanmıştır (Aydın, 2007, s. 10)

13
a. Tahmin (Predictive) modelleri
Tahmin edici modeller sınıflama, regresyon, zaman serisi analizi ve
kestirim olmak üzere dört grup halinde incelenebilir (Aydın, 2007).
i. Sınıflama (Classification) “Genç kadınlar küçük araba satın alır,
yaşlı, zengin erkekler büyük, lüks araba satın alır (Argüden &
Erşahin, 2008). Sınıflama, veri sınıfı ve kavramlarını tanımlama ve
ayırt etmeyi sağlayan bir model kümesini bulma sürecidir.
Türetilen model, “eğitim veri kümesi” (sınıf adı bilinen veri
nesneleri) analizine dayalıdır. Sınıflama modelleri, sınıflar önceden
incelenen veriler vasıtasıyla oluşturulduğundan, denetimli
öğrenme olarak da ifade edilir. Örüntü tanımlama da bir sınıflama
modelidir ve bu modelde de bir girdi örüntüsü önceden
tanımlanmış sınıflara benzer çeşitli sınıflardan birisine yerleştirilir.
Örneğin örüntü tanımlama modeli bir güvenlik tarama
istasyonunda yolcuların potansiyel bir suçlu olup olmadığını
belirlemek için kullanılabilir. Bu işlem için her yolcunun yüzü
taranarak göz, beden, ağız ve baş şekli gibi özellikleri tanımlanır.
Elde edilen bu veriler daha önceden özellikleri tanımlanmış suçlu
bilgilerinin yer aldığı veritabanındaki verilerle karşılaştırılarak
kimliğini saklamış olan suçlunun tespiti yapılabilir (Aydın, 2007).
ii. Regresyon (Eğri Uydurma) “Ev sahibi olan, evli, aynı iş yerinde beş
yıldan fazladır çalışan, geçmiş kredilerinde geç ödemesi bir ayı
geçmemiş bir erkeğin kredi skoru 825’dir.” Süreklilik gösteren
değerleri tahmin etmek için kullanılan fonksiyonlardır. Regresyon
ile amaç girdiler ile çıktıyı ilişkilendirecek modeli oluşturup, en iyi
tahmine ulaşmaktır. Sonuç “bağımlı değişken”, girdiler “bağımsız
değişken” olarak adlandırılır. Sonucun alacağı değer genellikle bir
güvenlik aralığı içinde belirtilir. Girdiler, çözülecek probleme göre
bir veya birden fazla olabilir. Örneğin; bir inşaat firması konut
satışlarının, faaliyet gösterdiği bölgede elde edilen toplam gelir ile
ilişkili olduğunu düşünüyorsa, sadece bölgesel gelire dayalı bir
model oluşturarak, bölgesel gelirdeki değişime göre satacağı ev

14
sayısını tahmin etme yoluna gidebilir. Ancak gerçek hayatta
çözülecek problemlerin hemen hepsinde doğru tahmine ulaşmak
için birden fazla girdiden faydalanmak gereklidir. Bu noktada
önemli olan konu girdilerin sonucun doğru tahmin edilmesine
yaptıkları katkıdır. Bazı durumlarda sonuca katkısı limitli olan
girdileri modelden çıkarmak, daha etkin bir model oluşturmak için
önemli bir gerekliliktir (Argüden & Erşahin, 2008).
iii. Zaman Serisi Analizleri (Time Series Analysis) “Dondurma satışları
yazın artıyor, kışın düşüyor”. Bir hisse senedinin veya borsa
endeksinin gelecek değeri tahmini zaman serisi problemlerine
örnek oluşturur. Zaman serisi problemlerinin çözümünde
istatistiksel ve istatistiksel olmayan birçok veri madenciliği
algoritması kullanılmaktadır. Tahmin modellerinin
oluşturulmasında geçmiş verilerden yararlanılması nedeniyle bu
modeller denetimli öğrenme modeli olarak nitelendirilirler (Aydın,
2007). Zaman serisi analizlerinin kullanıldığı en yaygın alan borsa
işlemleridir, borsada bir hisse senedinin değerinin günlük, aylık ve
yıllık değişimlerinin incelenmesi örnek olarak verilebilir.
Örneğin yıllara göre reklam harcamaları ve yine yıllara göre bir
firmanın ürettiği veya sattığı mallara olan talep değerleri birer
zaman serisi örneğidir (Özcan, 2014).
iv. Kestirim (Prediction) Pek çok veri madenciliği uygulaması geçmiş
ve güncel verilere dayalı olarak gelecekteki veri değerlerini tahmin
etme gayretindedir. Kestirim modelleri bir sınıflama modeli gibidir
ancak bu modeli tahmin ve sınıflama modellerinden ayıran özellik
gelecekteki verilerin tahmin etmesidir. Kestirim modellerini bu
anlamda teknik özellik değil de uygulamanın bir özelliği olarak
tanımlamak yerinde olacaktır. Örneğin su baskını tahmini oldukça
güç bir problemdir. Bir yaklaşıma göre nehrin farklı noktalarına
yerleştirilen alıcılar nehrin su seviyesini, yağmur miktarı, zaman,
nem gibi verileri toplayarak su baskınına ilişkin tahmin modeli
oluşturulabilmektedir (Aydın, 2007).

15
b. Tanımlayıcı (Descriptive) modeller
i. Kümeleme (Clustering) “Müşterilerin büyük bir kısmı düzenli
olarak pazartesi akşamları kredi kartıyla alışveriş yaparlar”
(Argüden & Erşahin, 2008). Verilerin kendi aralarındaki
benzerliklerin göz önüne alınarak gruplandırılması işlemidir ve
kümeleme yöntemlerinin çoğu veri arasındaki uzaklıkları kullanır.
Hiyerarşik Kümeleme yöntemleri en yakın komşu algoritması ve en
uzak komşu algoritmasıdır. Hiyerarşik olmayan kümeleme
yöntemleri arasında k-ortalamalar yöntemi sayılabilir (Coşlu,
2013). Örneğin müşteri verisi ile yapılacak bir analizde kümeleme
yöntemi kullanıldığında tüm müşteriler kendileri ile ortak
özellikleri gösteren müşterilerle aynı kümeye toplanır. Kendi içinde
çok çeşitli açılardan benzer özellikler, benzer tutum ve davranışlar
gösteren bu grupların pazarlama faaliyetlerinde de benzer
harcama eğilimleri göstereceği düşünülür (Özcan, 2014).
ii. Özetleme (Summarization) veriyi ilgili basit açıklamalarla alt
kümelere eşlemektedir. Özetleme, genelleme veya nitelendirme
olarak ta isimlendirilmektedir. Veri tabanı hakkındaki temsil edici
bilgiyi çıkarmaktadır. Bu işlem verinin çeşitli parçalarına ulaşılarak
yapılabilir. Alternatif olarak veriden özet tipli bir bilgi (örneğin
numerik değerler için ortalama) çıkarılabilir. Özetleme veri tabanı
içeriğini kısa olarak nitelendirir (Çüllüoğlu Gülen).
iii. Birliktelik Analizi (Association Rules) “Çocuk bezi alan müşterilerin
30%’u süt de alır” (Argüden & Erşahin, 2008) Büyük veri kümeleri
arasında birliktelik ilişkilerinin bulunması esasına dayanır.
İncelenen veriyle aynı anda ikinci ya da üçüncü verinin birlikte
bulunma durumlarının incelenmesi ve orantılanması yapılarak
kurulan modelleme tekniğidir. Birliktelik kuralları alanyazında
market sepeti analizi (market basket analysis) olarak da geçer.
Örneğin; bir A ürününü satın alan müşteriler aynı zamanda B
ürününü da satın alıyorlarsa, bu durum Birliktelik Kuralı ile
gösterilir. Market sepet analizi denmesinin nedeni; bu tip

16
birlikteliklerin modellenerek müşterilerin hangi ürünleri bir arada
aldıkları bilgisinin ortaya çıkması ve market yöneticilerinin de bu
bilgi ışığında daha etki satış stratejileri geliştirebilmesidir. Bağlantı
Analizi aynı zamanda kişi davranışlarından hareketle sahtekârlık
tespitinde, hangi davranışın hangi eylem ile beraber yapıldığında
olağan dışı değerlendirilmesi gerektiğine öngörü sağlamaya da
yardımcı olur (Özcan, 2014).
iv. Sıra örüntüleri (sequence discovery) Sıra örüntülerinde olayların
zaman sıralarıyla ilgilenilir ve birbiriyle ilişkili olan verilerdeki
birliktelik kurallarına benzer bir yapıdadır. Fakat burada veriler
arasındaki ilişki zamana bağlıdır. Birliktelik analizinde olayların
aynı anda alınmasına karşın sıra örüntüleri analizinde belirli bir
zaman periyodunda olayların ilişkileriyle ilgilenilir.
Telekomünikasyon ağları, bilgisayar ağları gibi fiziksel izleme
sistemlerinden veya bilimsel deneylerden toplanan olay-tabanlı
verilerde sistemin doğası gereği olaylar arasında sıralı bir ilişki
mevcuttur. Bu tür zamana dayalı olayların sıra örüntülerinin
keşfedilmesinde tanımlayıcı model olan sıra örüntüleri analizleri
kullanılır (Aydın, 2007). Bir beyaz eşya perakendecisinin
veritabanından buzdolabı alımını takip eden beyaz eşya alımının
bulaşık makinesi olduğunun belirlenmesi, doğal afetler
veritabanından 6 büyüklüğünde bir deprem olduktan 3 gün sonra
Klimanjaro dağının püskürmesi, banka veritabanından ilk üç
taksitinden iki veya daha fazlasını geç ödemiş olan müşterilerin
%60 olasılıkla kanuni takibe gidiyor olduklarının belirlenmesi gibi
örnekleri vardır (Argüden & Erşahin, 2008).
9. Veri Madenciliğinin Kullanım Alanları
Çok yaygın kullanım olan veri madenciliğinin kullanıldığı başlıca alanlar
aşağıdaki gibidir (Özcan, 2014, s. 43-44; Aydın, 2007, s. 8-9).
 Bilimsel ve mühendislik: Günümüzde laboratuar veya bilgisayar ortamında
sistemlerin benzetimi ve analizi sürecinde yüksek miktarda bilimsel veri

17
üretilmektedir. Elde edilen bu verilerin anlamlandırılması için veri madenciliği
çok uygun bir platform sağlar (Akgöbek & Çakır, 2009).
 Bankacılık ve Finans: Müşteri profili belirlenir, kredibilite ve risk
değerlendirmesi yapılır, ürün segmentasyon ve penetrasyonları buna göre
yapılır. Bankalar veri madenciliği tekniklerini kredi kartı satışlarında
müşterilerin davranış ve güvenilirliklerini ölçmek ya da belirli bir müşterinin
ödemelerini aksatma ihtimalini öngörmek amacıyla da kullanabilir (Özcan,
2014).
En iyi müşterilerin belirlenmesi, kredi kartı harcamalarına göre müşteri
gruplarının belirlenmesi, kredi kartını değiştirmesi muhtemel müşterilerin
belirlenmesi, farklı finansal göstergeler arasındaki gizli korelasyonun bulunması,
benzer davranışlar gösteren müşterilerin sınıflandırılması, müşteri kredi
taleplerinin değerlendirilmesi, döviz fiyatlarındaki değişikliklerin önceden
tahmin edilmesi, vergi dolandırıcılığı vakalarının tespit edilmesi gibi olaylarda
kullanılmaktadır (Aydın, 2007, s. 8-9).
 Müşteri İlişkileri Yönetimi: (Customer Relationship Management, CRM): Bütün
müşterilerin e-mail, işlem, çağrı merkezi ve anket gibi erişim noktalarından elde
edilen metin bilgilerinden nitelikli bilgi çıkarılır. Bu nitelikli bilgi müşterinin terk
etme ve çapraz satışlarını tahmin etmek üzere kullanılır (Özcan, 2014, s. 43-44).
 Sahtekârlık tespiti: Sağlık, sigorta, bankacılık, güvenlik ve istihbarat kısacası her
alanda oluşabilecek anormallikler aranarak sahtekârlıklar tespit edilir. Özellikle
sağlık sigortası sektöründe yapılan sahtekârlık analizlerinde, bankacılık
sistemindeki kredi kartı ve ATM sahtekârlıklarının tespitinde kullanılmaktadır
(Özcan, 2014, s. 43-44).
 Güvenlik/istihbarat: Sosyal güvenlik alanlarında suç olay analizleri, terör
faaliyetleri analizi, organizasyonlar ve bireyler arasındaki kalıplar ve bağlantılar,
terörist atak tehlikeleri, kriminal davranışları tahmin etmek ve engelleyebilmek
için büyük çaptaki metin, konuşma, sosyal içerikli veriler içerisinde örüntüler
aranır (Özcan, 2014, s. 43-44; Aydın, 2007, s. 8-9).
 Eğitim Alanında: Öğrenci işlerinde veriler analiz edilerek öğrencilerin başarı ve
başarısızlık nedenleri, başarının arttırılması için hangi konulara ağırlık verilmesi
gerektiği, üniversite giriş puanları ile okul başarısı arasında bir ilişkinin var olup

18
olmadığı gibi soruların cevabı bulunarak eğitim kalitesi ve performansı
arttırılabilir (Akgöbek & Çakır, 2009).
Öğrenci profillerine göre başarısını tahmin etme, öğrencinin başka bir
eğitim kurumuna geçme olasılığını tahmin etme, zeki ölçme ve değerlendirme
sistemleri için bilgi üretme, benzer özellik gösteren öğrencileri gruplama
Öğrenme ortamlarının iyileştirilmesine yönelik gerekli araştırmaların yapılması,
daha etkin e-öğrenme ortamlarının tasarımı için web madenciliği uygulamaları
(Aydın, 2007).
 Sağlık ve Biyomedikal Alanında kullanımı: Sağlık ve tıp alanı veri
madenciliğinin en yaygın kullanıldığı alanlardan biridir. Özellikle tarama
testlerinden elde edilen verileri kullanarak çeşitli kanserlerin ön tanısı, kalp
verilerini kullanarak kalp krizi riskinin tespiti, acil servislerde hasta belirtilerine
göre risk ve önceliklerin tespiti gibi çok geniş bir uygulama sahası söz konusudur
(Dalkılıç & Türkmen, 2002).

10. Eğitimsel Veri Madenciliği


Eğitimsel veri madenciliği, eğitim ortamlarından gelen özgün tipte ve giderek
artan büyük ölçekli verileri keşfetmek için yöntemler geliştiren ve bu yöntemleri
öğrencileri ve öğrenme ortamlarını daha iyi anlamak için kullanan, yeni bir
disiplindir (IEDMS, 2016).
Günümüzde her eğitim kademesinde eğitim uygulamalarının önemli bir parçası
olan öğrencilerin; kişisel bilgileri, notları, başarılı ve başarısız olduğu dersler gibi
birçok bilgi geniş veri tabanlarında tutulmaktadır. Anlamlı ilişkilerin
araştırılabileceği ve önemli bilgilerden elde edilebileceği bu veri yığınları eğitimde
aksaklıklara neden olan problemlerin tespitinde ve eğitimin kalitesinin
arttırılmasında kullanılabilir. Eğitimdeki bu verilerin analiz edilmesi ve veriler
arasındaki örüntülerin ortaya çıkarılması veri madenciliği yoluyla gerçekleştirilebilir
(Özbay, 2015).
García, Romero, Ventura ve de Castro (2011) eğitimsel veri madenciliğini eğitsel
sistemlerden elde edilen ham verinin eğitim yazılımlarının, geliştiricilerin,
öğretmenlerin ve araştırmacıların kullanabileceği bilgiye çevirme süreci olarak

19
tanımlamaktadır ve bu süreci şekildeki gibi göstermektedirler (Akt: Akçapınar,
2014).

Şekil 9 García, Romero, Ventura ve de Castro (2011)’den uyarlayan (Akçapınar,


2014)
Bu bölümde Türkiye’de yapılan eğitimsel veri madenciliği çalışmaları
incelenmiştir.
Aydın (2007) tarafından yapılan “Veri madenciliği ve Anadolu Üniversitesi
uzaktan eğitim sisteminde bir uygulama” adlı doktora tezi çalışmasında uzaktan
eğitim sisteminin planlama faaliyetlerine katkı sağlayabilecek öğrenci
performansını tahmin etmeye yönelik model geliştirilmiş ve mezun olan
öğrencilerin profillerini belirlemeye yönelik kümeleme çalışması yapılmıştır.
Öğrenci başarısını tahmin etmeye yönelik çalışmada (C5.0) karar ağacı
algoritmasının kullanıldığı bir tahmin modeli önerilmiştir. Önerilen modelin
karar kuralları sisteme entegre edilerek öğrenci başarı tahmini amacıyla
kullanılabileceği öngörülmektedir. Mezun olan öğrencilere yönelik çalışmada “K-
means” algoritması kullanılarak beş küme elde edilmiştir. Kümeleme analizi ile
elde edilen bilgilerin bilgisayar kullanımı ve öğrenci başarısı arasındaki ilişkiyi
doğrular nitelikte olduğu görülmüştür.
Hatipoğlu, Aslan, & Zontul (2011) tarafından yapılan “Dershane eğitiminin,
öğrencinin üniversiteye yerleşmesindeki etkisi” adlı çalışmada dershane
eğitiminin, öğrencinin üniversiteye yerleşmeye etkisi veri madenciliği
yöntemleriyle araştırılmıştır. Çalışmada farklı veri madenciliği modelleri
kullanarak, öğrencinin dershanede aldığı eğitim programına katılım süresi, branş
dersleri parametrelerine göre üniversiteye yerleşme durumları incelenmiştir.
20
Hatipoğlu, Aslan, & Zontul (2011) tarafından yapılan çalışmanın sonuçları
şu şekildedir: Birliktelik kuralı ile sayede öğrencinin üniversiteye yerleşmesine
katkı sağlamak amacı ile, öğrenciler uygun branş derslere yönlendirilebilmekte
ve ona göre eğitim programı düzenlenebilmektedir. Yine karar ağacının
oluşturduğu dal yapısına göre farklı eğitim programları oluşturulabilir.
Matematik, Geometri, Türkçe ve Coğrafya derslerinden başarılı olan öğrencilerin
lisans bölümlerine yerleşme oranlarının oldukça yüksek olduğu görülmüştür.
Lisans bölümlerini kazanmada bu branşlarda başarılı olmanın büyük etkisi
vardır. Matematik ve Geometri derslerinden başarılı olmayıp, Türkçe ve Coğrafya
derslerinde başarı gösteren öğrenciler, genel olarak ön lisans bölümlerini tercih
etmektedirler. Matematik, Geometri, Türkçe ve Coğrafya derslerinde başarılı
olamayan öğrenciler ya tercih yapmamakta, ya da herhangi bir bölüme tercih
ettiği halde üniversiteye yerleşememektedirler.
Alan (2012) tarafından “veri madenciliği ve lisansüstü öğrenci verileri
üzerine bir uygulama” adlı çalışmada veri madenciliği yöntemiyle Cumhuriyet
Üniversitesi Sosyal Bilimler Enstitüsü öğrencilerine ait veriler kullanılarak bir
uygulama yapılmıştır. Lisansüstü öğrencilerine ait verilerden yararlanarak, hem
bu verileri en başarılı sınıflandıran algoritma, hem de öğrencilerin programı,
cinsiyeti, Sivas ilinden ya da başka bir ilden olması, kadrosunun araştırma
görevlisi olup olmaması ve ders döneminin farklı olmasının notlarını etkileyip
etkilemediği tespit edilmeye çalışılmıştır. Çalışmanın sonucunda “Simple CART”
algoritmasının sınıflandırma oranı en yüksek algoritma olduğu, doktora
programına kayıtlı öğrencilerin yüksek lisans programına kayıtlı öğrencilere göre
daha yüksek başarı notlarına sahip oldukları ancak cinsiyetin, kadronun, ilin ve
ders döneminin başarıyı etkilemediği ortaya çıkmıştır.
Bilen, Hotaman, Aşkın ve Büyüklü (2014) tarafından yapılan “LYS
Başarılarına Göre Okul Performanslarının Eğitsel Veri Madenciliği Teknikleriyle
İncelenmesi: 2011 İstanbul Örneği” adlı çalışmada İstanbul ilinde 2011 yılındaki
LYS sınavına giren 42 farklı lise türü, başarı performanslarına göre kümelenmiş
ve kümelere ayrışmada hangi test türlerinin etkili olduğu belirlenmiştir. Fen
Lisesi, Özel Fen Liseleri, Anadolu Liseleri ve Anadolu Öğretmen Liselerinin tüm
test türleri için en yüksek başarı seviyesini gösteren kümede yer aldığı

21
bulunmuştur. Ayrıca CHAID algoritmasıyla oluşturulan karar ağacı modellerinde
okulların kümelere ayrışmasında (1) MF için Kimya testinin (2) TM için
Matematik testinin (3) TS için Türk Dili ve Edebiyatı testinin birinci derece etkili
olduğu belirlenmiştir.
Akçapınar (2014) tarafından yapılan “çevrimiçi öğrenme ortamındaki
etkileşim verilerine göre öğrencilerin akademik performanslarının veri
madenciliği yaklaşımı ile modellenmesi” adlı doktora tezi çalışmasında
öğrencilerin derse ilişkin akademik performanslarını “geçti/kaldı” olarak
sınıflandıran, dersten başarısız olacakları tahmin eden, benzer öğrenci profiline
sahip öğrencileri gruplandıran bir model geliştirmeye çalışılmıştır.
Alan (2014) tarafından yapılan “Karar Ağaçlarıyla Öğrenci Verilerinin
Sınıflandırılması” adlı çalışmada ağaçları yöntemiyle Cumhuriyet Üniversitesi
İktisadi ve İdari Bilimler Fakültesi öğrencilerine ait veriler kullanılarak veri
madenciliği yapılmıştır. Öğrencilere ait verilerden yararlanarak, hem bu verileri
en başarılı sınıflandıran karar ağaçlarına ait algoritma, hem de bu algoritmanın
üreteceği sınıflar tespit edilmeye çalışılmıştır. Öğrenciler öğrenim kredisi alma
durumlarına, kayıt yıllarına, sınıflarına, burs alıp almama durumlarına karar
ağaçları yöntemiyle sınıflandırılmıştır.
Çöllüoğlu Gülen (2014) tarafından yapılan “Veri madenciliği teknikleri ile
üstün yetenekli öğrencilerin ilgi alanlarının analizi” adlı araştırma üstün
yetenekli öğrencilerin ilgi alanlarını tahmin etmek ve birliktelik analizi ile bu
öğrencilerin sıklıkla bir arada ilgi duydukları alanları belirlemek amacıyla
yapılmıştır.
Aksu ve Güzeller (2016) tarafından yapılan “PISA 2012 matematik
okuryazarlığı puanlarının karar ağacı yöntemiyle sınıflandırılması: Türkiye
örneklemi” adlı çalışmada matematik okuryazarlığı bakımından başarılı ve
başarısız öğrencileri derse ilişkin ilgi, tutum, motivasyon, algı, öz yeterlik, kaygı
ve çalışma disiplini değişkenlerine göre sınıflandırarak ve bu değişkenlerin
sınıflandırmada etkisini veri madenciliği tekniklerinden karar ağacı kullanılarak
araştırılmıştır. Çalışma sonucunda matematik okuryazarlığında Türkiye
örneklemi için özellikle öz yeterlik algısı, derse ilişkin tutum ve kaygı durumları
ile çalışma disiplini değişkenlerinin etkisi olduğu belirlenmiştir.

22
SONUÇ, TARTIŞMA VE DEĞERLENDİRME

Her alanda yığınla verinin depolandığı günümüzde, bu verileri kullanmak


onlardan yararlı bilgiler elde etmek, verilerde gizli bilgileri ortaya çıkarmak ve
buna göre stratejiler oluşturmak büyük önem arz etmektedir. Veri madenciliği
büyük veri yığınlarında gizli örüntüleri ve fonksiyonları bularak onların bilgiye
dönüştürülmesi sürecinde kullanılan matematiksel ve istatistiksel yöntemler
bütünüdür ve günümüzde sağlıktan eğitime hemen her alanda karşılığını
bulmaktadır. Meteorolojik olaylardan toplumsal olaylara, suç ve suçlu
profillerinin tespitine varıncaya dek kullanılmaktadır.
Veri madenciliği, bilgi keşfi sürecinin de temel bir parçası olarak karşımıza
çıkmaktadır. Elde edilen bilgiler yöneticilere doğru kararlar verebilmeleri için
rehberlik etmekte “veriye dayalı” bir yönetim anlayışını da şekillendirmektedir.
Ortaya çıkan modeller veriler üzerinde test edilerek, gerçek hayata uygulamadan
önce test edilme imkânı bulmaktadır.
Türkiye’de e-devlet uygulamaları ve bu kapsamda MEB (Milli Eğitim
Bakanlığı) tarafından kullanılan Mebbis (MEB Bİlişim Sistemleri), e-okul EBA
(Eğitim Bilişim Ağı) gibi uygulamlarda çok büyük ölçeklerde veriler tutulmakta
ve raporlanmaktadır, ancak bu verilerden “bilgi” elde etmede yeterince
yararlanılmadığı söylenebilir.
Özellikle eğitim alanında öğrencilerle, öğretmenlerle, öğretim
ortamlarıyla, ölçme ve değerlendirme sonuçlarıyla ilgili tutulan devasa ölçekte
veri yığınları düşünüldüğünde bu veriler içerisinde saklı bilgilerin örüntülerin
keşfedilmesinin ve bunların eğitimin verimliliği ve kalitesinin artırılması için
kullanılmasının önemi daha iyi anlaşılacaktır.

23
Kaynakça
Ackoff, R. L. (1989). From data to wisdom. Journal of applied system analysis , 16, 3-9.

Akçapınar, G. (2014). Çevrimiçi öğrenme ortamındaki eğitim verilerine göre öğrenclerin akademik
performanslarını veri madenciliği yaklaşımı ile modellenmesi. Ankara: Hacettepe Üniversitesi
Bilgisayar ve Öğretim Teknolojileri ABD.

Akgöbek, Ö., & Çakır, F. (2009). Veri madenciliğinde uzman bir sistem tasarımı. Akademik bilişim
konferansları. Şanlıurfa: İnternet Teknolojileri Derneği.

Akgöbek, Ö., & Kaya, S. (2011). Veri madencliği teknikleri ile veri kümlerinden bilgi keşfi:medikal veri
madenciliği uygulaması. e-Journal of New World Sciences Academy , 6 (1), 237-245.

Akküçük, U. (2011). Veri madenciliği kümeleme ve sınıflama algoritmaları. İstanbul: Yalın yayıncılık.

Aksu, G., & Güzeller, C. O. (2016). PISA 2012 matematik okuryazarlığı puanlarının karar ağacı
yöntemiyle sınıflandırılması: Türkiye örneklemi. Eğitim ve bilim (185), 101-122.

Aktan, C. C., & Vural, İ. Y. (2005). Bilgi çağı, bilgi yönetimi ve bilgi sistemleri. Konya: Çizgi kitabevi.

Alan, M. A. (2014). Karar Ağaçlarıyla Öğrenci Verilerinin Sınıflandırılması. Atatürk Üniversitesi İktisadi
ve İdari Bilimler Dergisi , 28 (4), 101-112.

Alan, M. A. (2012). Veri madenciliği ve lisansüstü öğrenci verilerine üzerine bir uygulama. Dumlupına
Üniversitesi Sosyal Bilimler Dergisi (33), 165-174.

Albayrak, A. S., & Koltan Yılmaz, Ş. (2009). Veri madenciliği: karar ağacı algoritmaları ve İMKB verileri
üzerine bir uygulama. Süleyman Demirel Üniversitesi iktisadi ve idari bilimler fakültesi dergisi , 14 (1),
31-52.

Alpaydın, E. (2000). Zeki veri madenciliği: ham bilgiden altın bilgiye ulaşma yöntemleri. Bilişim 2000
eğitmi semineri. ?: ?

Argüden, Y., & Erşahin, B. (2008). Veri madenciliği veriden bilgiye masraftan değere. ARGE
danışmanlık.

Avcı, U., & Avcı, M. (2004). Örgütlerde bilginin önemi ve bilgi yönetim süreci. Mevzuat dergisi , 7 (74).

Aydın, S. (2007). Veri madenciliği ve Anadolu Üniversitesi uzaktan eğitm sisteminde bir uygulama.
Eskişehir: Eskişehir Anadolu Üniversitesi Sosyal Bilimler Enstitüsü.

Ayık, Y. Z., Özdemir, A., & Yavuz, U. (2007). Lise türü ve lise mezuniyet başarısının, kazanılan fakülte
ile ilişkisinin veri madenciliği tekniği işe analizi. Atatürk Üniversitesi sosyal bilimler dergisi , 10 (2),
441-454.

Balkar, B., & Şahin, S. (2012). Okul müdürlerinin bilgi yönetim süreç yeterliklerinin ve liderlik
becerilerinin incelenmesi. Eğitim ve öğretim araştırmaları dergisi , 1 (2).

24
Baykal, A. (2006). Veri madenciliği uygulama alanları. Dicle Üniversitesi Ziya Gökalp eğitim fakültesi
dergisi (7), 95-107.

Bilen, Ö., Hotaman, D., Aşkın, Ö. E., & Büyüklü, A. H. (2014). LYS başarılarına göre okul
performanslarının eğitsel veri madenciliği teknikleriyle incelenmesi: 2011 İstanbul örneği. Eğitim ve
bilim , 39 (172), 78-94.

Bilge, U., Bozkurt, S., Oğuz Yolcular, B., & Özel, D. (2011). Sosyal medya araçları Türkiye'deki grip
benzeri hastalıkları saptayabilmek için kullanılabilir mi? XVI. Türkiye'de İnternet Konferansı. İzmir.

Coşlu, E. (2013). Veri madenciliği. Akademik bilişim 2013-XV. akademik bilişim konferansı bildirleri, (s.
615-619). Akdeniz Üniversitesi.

Çankırı, S., Kartal, E., Yıldırım, K., & Sevinç, G. (2009). Organizasyonlarda blgi yönetimi sürecinde veri
madenciliği yaklaşımı. ÜNAK 2009, (s. 148-167). İstanbul.

Çöllüoğlu Gülen, Ö. (2014). Veri madenciliği teknikleri ile üstün yetenekli öğrencilerin ilgi alanlarının
analizi. Ankara: Gazi Üniversitesi bilişim enstitüsü.

Çüllüoğlu Gülen, Ö. (tarih yok). Veri madenciliği teknikleri ile üstün yetenekli öğrencilerin ilgi
alanlarının analizi. Ankara: Gazi Üniversitesi bilişim enstitüsü.

Dalkılıç, G., & Türkmen, F. (2002). Karınca kolonisi optimizasyonu. Bildiriler. Kocaeli: YPBS2002–
Yüksek Performanslı Bilişim Sempozyumu.

Demir, K. (2009). İlköğretim okullarında verilere dayalı karar verme. Kuram ve uygulamada eğitim
yönetimi , 15 (59), 367-397.

Demiriz, A. (tarih yok). Slide Player. 12 31, 2016 tarihinde http://slideplayer.biz.tr/slide/2306937/


adresinden alındı

Dener, M., Dörterler, M., & Orman, A. (2009). Açık kaynak kodlu veri madenciliği programları wekada
örnek uygulama. XI. Akademik bilişim konferansı bildirileri. Şanlıurfa: İnternet Teknolojilrei Derneği.

Doğan, S., & Yiğit, Y. (2014). Okul yöneticileri ve öğretmenlerin bilgi yönetimi tutumları ile öğrenen
okul algıları arasındaki ilişki. Ondokuz Mayıs Üniversitesi eğitim fakültesi dergisi , 33 (1), 159-171.

Ergün, C. (2002). Metadata ve Kutuphanelerde Kullanımı. İ. T. Derneği (Dü.), VIII. "Türkiye'de Internet"
Konferansı içinde, (s. ?). İstanbul.

Frand, J. (2016). Data mining: what is the data mining? 12 26, 2016 tarihinde
http://www.anderson.ucla.edu/faculty/jason.frand/teacher/technologies/palace/datamining.htm
adresinden alındı

Gürak, H. (2006). Önce Bilgili İnsan : nitelikli emek (beşeri sermaye) hakkında. 12 31, 2016 tarihinde
Academia:
https://www.academia.edu/4117662/%C3%96nce_Bilgili_%C4%B0nsan_nitelikli_emek_be%C5%9Fer
i_sermaye_hakk%C4%B1nda adresinden alındı

25
Gürünlü, B. (2016, 12 25). Giriş düzeyinde örnek bir veri madenciliği projesi-1.
http://docplayer.biz.tr/1896490-Giris-duzeyinde-ornek-bir-veri-madenciligi-projesi-1.html
adresinden alınmıştır

Hatipoğlu, B., Aslan, Z., & Zontul, M. (2011). Dershane eğitiminin, öğrencinin üniversiteye
yerleşmesindeki etkisi. İstanbul Aydın Üniversitesi dergisi (12), 13-50.

IDC. (2016). IDC Global Research. 12 25, 2016 tarihinde http://www.idc.com adresinden alındı

IEDMS. (2016). International Educaton Data Mining Society. 12 31, 2016 tarihinde
http://www.educationaldatamining.org/ adresinden alındı

Karakoçak, K. (2007). Bilgi yönetimi ve verimliliğe etkisi: Türkiye Büyük Millet Meclisi uygulaması.
Ankara: Ankara Üniversitesi Sosyal Bilimler Enstitüsü İşletme ABD.

Kaya, H., & Öymen, K. (2008). Veri madenciliği kavramı ve uygulama alanları. Doğu anadolu bölgeis
araştırmaları , 159-164.

Olson, D. L., & Delen, D. (2008). Advanced data mining techniques. Springer.

Oracle. (2016). Data mining consepts. 12 25, 2016 tarihinde


https://docs.oracle.com/cd/B28359_01/datamine.111/b28129/process.htm#CHDFGCIJ adresinden
alındı

Özbay, Ö. (2015). Veri madenciliği kavramı ve eğitimde veri madenciliği uygulamaları. Uluslararası
eğitim bilimleri dergisi (5), 262-272.

Özcan, C. (2014). Veri madenciliğinin güvenlik uygulama alanları ve veri madenciliği ile sahtekarlık
analizi. İstanbul: İstanbul Bilgi Üniversitesi Sosyal Bilimler Enstitüsü Bilişim Teknoloji Hukuku Yüksek
Lisans Programı.

Özdemir, S. (2016). 12 31, 2016 tarihinde comp.eng.ankara.edu.tr/files/2015/06/01.DM_.Intro_.pptx


adresinden alındı

Özen, Ü. (2014). Bilgi sistemlerine giriş:temel kavramlar. Erzurum: Atatürk Üniversitesi AOF Yayınevi.

Özmen, U. (2016). 12 31, 2016 tarihinde Uzaktan CRM eğitimi:


http://www.uzaktancrmegitimi.com/438/en-iyi-teklif adresinden alındı

Saba, G. (2013). Bilgi yönetimi. 31 12, 2016 tarihinde Slide Player:


http://www.slideshare.net/GamzeSaba/knowledge-management-24306268 adresinden alındı

Sağsan, M. (2014). Bilgi Yönetimi Bakış Açısından Bilgi Süreçleri ve Bir Model Önerisi. 12 25, 2016
tarihinde Dokuz Eylül Üniversitesi Strateji Dairesi Başkanlığı: http://strateji.deu.edu.tr/wp-
content/uploads/2014/09/Bilgi-Y%C3%B6netimi-Bak%C4%B1%C5%9F-A%C3 adresinden alındı

Savaş, S., Topaloğlu, N., & Yılmaz, M. (2011). Veri madenciliği ve Türkiye'deki uyuglama örnekleri.
İstambul Ticaret Üniversitesi fen bilimleri dergisi (21), 1-23.

26
SDN. (2016). Shift Delete Net. 12 31, 2016 tarihinde http://shiftdelete.net/dunyada-ne-kadar-bilgi-
var-27154 adresinden alındı

Sever, H., & Oğuz, B. (2002). Veri tabanlarında bilgi keşfine formel bir yaklaşım kısım 1: eşleştirme
sorguları ve algoritmalar. Bilgi dünyası , 3 (2), 1-33.

SVE. (2016). What is the CRISP-DM methodology? 12 26, 2016 tarihinde Smart vision Europe:
http://www.sv-europe.com/crisp-dm-methodology/ adresinden alındı

Şeker, Ş. E. (2014). MIS Sözlük. 12 31, 2016 tarihinde http://mis.sadievrenseker.com/2014/06/buyuk-


veri-big-data/ adresinden alındı

Terzi, Ö. (2012, Temmuz). Monthly rainfall estimation using data-mining process. Applied
Computational Intelligence and Soft Computing , 1-6.

Turhan, S. (2002). Teknolojinin okul yönetiminde etkin kullanımında eğitim yöneticisinin rolü. Kuram
ve uygulamada eğitim yönetimi (30), 271-281.

Wikipedia. (2016). 12 31, 2016 tarihinde Vikipedi, özgür ansiklopedi:


https://tr.wikipedia.org/wiki/Veri_taban%C4%B1 adresinden alındı

Yılmaz, Y. (2011). Blogcu. 12 31, 2016 tarihinde http://yyilmaz091.blogcu.com/bilgi-turleri-veri-


enformasyon-bilgi-bilgelik-kavramlari/10342406 adresinden alındı

27

View publication stats

You might also like