Download as pdf or txt
Download as pdf or txt
You are on page 1of 7

BIL531 VERİ MADENCİLİĞİ

Mayıs 2023

VERİ MADENCİLİĞİ ARA SINAV SORULARI VE CEVAPLARI

Said Hamza BAŞ (13679872700)

1. OLTP ve OLAP Nedir? Aralarındaki Farklar Nelerdir?

OLTP, İngilizce online transaction processing (çevrimiçi işlem işleme) olarak adlandırılan,
çevrimiçi operasyonel veri tabanlarından biridir. Bu veri tabanı sistemlerinin ana görevi kritik
olan işlem seviyesindeki verileri işleme olarak tanımlanabilir. Bu işlenen veriler, yüksek
frekansta işleme, düşük sorgu karmaşıklığı, kısa yanıt süresi ve yüksek aynı anda erişim
kapasitesi gibi özelliklere sahiptir. OLTP, veri tabanındaki verilerin güncellenmesine, ekleme
işlemlerine, silme işlemlerine ve değiştirme işlemlerine odaklandığı için günlük hayatımızın
birçok noktasında karşımıza çıkar. OLTP veri tabanı işlem türü kuruluşların satın alma, üretim,
banka hesap işlemleri, stok yönetimi, müşteri siparişleri gibi birçok alanda karşımıza
çıkmaktadır. (Han, Pei & Kamber, s. 128)

OLAP, İngilizce online analytical processing (çevrimiçi analitik işleme) olarak adlandırılan,
veri ambarından çekilen veriler üzerinde analiz yapılmasına olanak tanıyan bir veri ambarı
sistem türü olarak tanımlanabilir. Bu tür bir sistemin ana görevi, verinin çok boyutlu bir biçimde
analiz edilmesi ve karar verme rolündeki analiz eden kişiye ilgili kararlarında destek olacak
yararlı bilgiler sunmasıdır. Bu işlenen verilerin sahip olduğu özelliklere düşük frekansta
işleme, yüksek sorgu karmaşıklığı, uzun yanıt süresi ve düşük aynı anda erişim kapasitesi örnek
verilebilir. OLAP, verileri işleme, analiz etme, sorgulama, özetleme ve raporlama kapasitesine
sahip olduğu için kurumların performans analizlerinde, hedef satış-alış analizlerinde, müşteri
segmentasyonunda, finansal raporlamada ve diğer istatistiksel analizlerde sıkça tercih edilen
bir sistemdir. (Lezki, s. 8-9)

OLTP ve OLAP arasındaki farklar, işlenen veri türleri ve içerikleri, kullanıcı türleri ve sistem
yönelimleri, işlem süreçleri ve veri tabanı yapıları açısından karşılaştırılabilir.

İşlenen veri türleri ve içerikleri: OLTP, mevcut, ayrıntılı, ham, eşzamanlı olarak işlenmesine
ihtiyaç duyulan, geçmiş verilerini gerektirmeyen, hızlı işlenebilir ve sorgulanabilir verileri
içerir. OLAP ise geçmiş, farklı kaynaklardan gelen, özetlenebilir, işleme ve sorgusu zaman
alabilen, eşzamanlı olarak işlenmesini gerektirmeden salt okunur formatta erişilebilir ve analiz
edilebilir verileri içerir. İki sistem de görüldüğü gibi oldukça farklı işlevsellikte ve farklı türde
veriler gerektirmektedir. (Han, Pei & Kamber, s. 128)

Kullanıcı türleri ve sistem yönelimleri: OLTP sistemleri müşteri odaklıdır. Müşteriler ve kurum
çalışanları tarafından kişisel verilerin, işlenmesi ve sorgulanması için kullanılmaktadır. OLAP
sistemleri ise pazar odaklıdır ve yöneticiler ve analistler olmak üzere karar vericiler tarafından
veri analizi için kullanılmaktadır. (Han, Pei & Kamber, s. 128)

İşlem süreçleri ve veri tabanı yapıları: OLTP, çok büyük miktarda verinin operasyonel veri
tabanlarında depolanması ve işlenmesi üzerine kuruluyken, OLAP verilerin oluşturulan veri
depoları üzerinden analiz edilmesi üzerine kuruludur. Bir OLTP sistemi, geçmiş veya farklı
kaynaklardan gelecek verilere ihtiyaç duymadan esas olarak bir işletme veya bölüm içindeki
mevcut verilere odaklanır. OLAP sistemi ise, bir kuruluşun tarihsel süreci nedeniyle genellikle
bir veri tabanı şemasının birden çok sürümünü kapsar nitelikte farklı bölümlerden ve veri
depolarından gelen bilgileri entegre eder. Büyük hacimleri nedeniyle, OLAP verileri birden çok
depolama ortamında depolanır. Bir OLTP sistemi genellikle bir entity-relationship (varlık-ilişki
/ER) veri modelini ve uygulamaya yönelik veri tabanı tasarımını benimser. Bir OLAP sistemi
tipik olarak ya bir star (yıldız) ya da snowflake (kar tanesi) modelini ve konuya yönelik veri
tabanı tasarımını benimser. Erişim kalıpları yönünden karşılaştırılacak olursa, OLTP sisteminin
erişim kalıpları eşzamanlılık denetimi ve kurtarma mekanizmaları gerektiren kısa işlemlerden
oluşur. Ancak OLAP sistemlerine erişim kalıpları veri ambarlarında depolanmış geçmiş
verilerin salt okunmasını kapsar. (Han, Pei & Kamber, s. 129)

Ayrıca OLTP ve OLAP sistemlerini birbirinden ayıran diğer özellikler arasında veri tabanı
boyutu, işlem sıklığı ve performans ölçümleri karşılaştırılabilir. Tüm özelliklerin
karşılaştırması Tablo 1'de incelenebilir. (Han, Pei & Kamber, s. 130)
Tablo 1. OLTP ve OLAP sistemlerinin karşılaştırması
Özellik OLTP OLAP
Karakteristik Operasyonel işlem Bilgi işlem
Oryantasyon İşlem Analiz
Kullanıcı Memur, müşteri, veri tabanı uzmanı Bilgi çalışanı (ör. yönetici, analist)
İşlev Günlük işlemler Karar desteği gerektiren uzun vadeli bilgi
DB tasarım Verileri ER tabanlı, uygulamaya yönelik, Yıldız/kar tanesi tabanlı, konuya yönelik,
mevcut, güncel garantili tarihsel, geçmiş, kesinliği zamanla sağlanan
Özetleme İlkel, son derece detaylı Özetlenmiş, birleştirilmiş
Görüş Detaylı, düz ilişkisel Özetlenmiş, çok boyutlu
İş birimi Kısa, basit işlem Karmaşık sorgu
Erişim Okuma / yazma Çoğunlukla okuma
Odak Veri girişi Bilgi çıkışı
Operasyonlar Birincil anahtarda dizin/karma Çok sayıda tarama
Erişilen kayıt sayısı Onlarca Milyonlarca
Kullanıcı sayısı Binlerce Yüzlerce
Veri tabanı boyutu GB’lar seviyesinde >= TB
Öncelik Yüksek performans, yüksek Yüksek esneklik, son kullanıcı özerkliği
kullanılabilirlik
Metrik İşlem hacmi Sorgu verimi, yanıt süresi

Not: Tablo Data mining: concepts and techniques kitabından (Han, Pei & Kamber, s. 130)
Türkçeleştirilmeye çalışılmış olup kısmen Chaudhuri ve Dayal'a dayanmaktadır.
2. Veri madenciliğinde bir veri kümesinin entropisi nasıl hesaplanır?

Veri madenciliğinde, veri setindeki sınıfların düzensizliğini ve homojenliğini ölçmeye yarayan


teorik bir ölçüdür. Bir veri setinde sınıf miktar az ise düşük entropiye sahip olduğunu, eşit
dağılımlara sahip fazla sınıf varsa yüksek entropiye sahip olduğu söylenebilir. (Terlemez, s.
132)

Bir veri kümesinin entropisi, aşağıdaki formülle hesaplanır (Terlemez, s. 133):

H(S) = - ∑𝑚
𝑖 (𝑝𝑖 ∗ log 2 (𝑝𝑖 )

Formüldeki kavramlar aşağıda Tablo 2’de paylaşılmıştır:

Tablo 2. Entropi denkleminde yer alan değerlerin tanımları


Sembol Tanım Sembol Tanım
S Sınıf değerlerini içeren küme ya da veri seti m Toplam sınıf değeri
H(S): Veri kümesinin entropisi pi Sınıf i için olasılık değeri
i Sınıf değeri log 2 (𝑝𝑖 ) i sınıfının logaritma 2 tabanında değeri

Bir örnek üzerinden hesaplama yapılacak olursa 40 kişilik bir sınıfta öğrencilerin başarı
durumlarının iyi (10 öğrenci), orta (20 öğrenci) ve kötü (10 öğrenci) olarak sınıflandırıldığını
varsayalım. Bu veri kümesinin entropisi aşağıdaki şekilde hesaplanır:

1) Görüldüğü üzere toplam 3 sınıf (m = 3) olup ilk önce her bir sınıfın olasılık değeri
hesaplanır:

10 20 10
Piyi = = 0.25 Porta = = 0.50 Pkötü = = 0.25
40 40 40

2) Daha sonrasında entropi değeri her bir sınıfın formülde yerine yerleştirilmesi ile
aşağıdaki şekilde hesapların:

H(S) = - ∑𝑚=3
𝑖=1 (𝑝𝑖 ∗ log 2 (𝑝𝑖 ) = - [ piyi*log 2 (𝑝𝑖𝑦𝑖 ) + porta*log 2 (𝑝𝑜𝑟𝑡𝑎 ) + pkötü*log 2 (𝑝𝑘ö𝑡ü )]

H(S) = - (0.25*log 2 (0.25) + 0.50*log 2 (0.50) + 0.25*log 2 (0.25))

H(S) = 1.5

Bu hesaplama, veri kümesinin entropisinin 1.5 olduğunu gösterir. Bu, veri kümesinin homojen
olmadığını ve farklı sınıflara ait örneklerin dağılımının dengesiz olduğunu gösterir.
3. Veri madenciliği algoritmalarını uygulamadan önce verileri ön işleme ve temizleme
için en etkili yöntemler nelerdir ve bu yöntemler sonuçların doğruluğunu ve
yorumlana bilirliğini nasıl etkiler?

Veri tabanlarında bilgi keşfi, veriden faydalı bilginin elde edilmesi süreci olarak tanımlanabilir.
Veriler Üzerinde Ön İşlemler aşaması ise veri tabanlarında veri keşfinin ikinci aşaması olup
amacın belirlenmesinden sonra gelen en uzun aşamalardan biridir. Veri madenciliği
algoritmalarını uygulamadan önce verileri ön işleme ve temizleme, veri kalitesi, sonuçların
doğruluğu ve yorumlanabilirliği açısından kritik öneme sahiptir. Verilerin ön işlenmesi ve
temizlenmesi verilerin veri madenciliği için hazır hale getirilmesi anlamına gelir. Sonuçların
kalitesi veri tabanında incelenecek verinin kalitesi ile doğrudan ilişkilidir. Veriler üzerindeki
ön işlemeler genel olarak aşağıdaki şekilde sınıflanabilir (Lezki, s. 12-13):

1. Verilerin Toplanması ve Birleştirilmesi


2. Verilerin Temizlenmesi
a. Kayıp Veriler için Yapılan İşlemler
b. Gürültülü Veriler için Yapılan İşlemler
3. Verilerin Yeniden Yapılandırılması
a. Verilerin Normalizasyonu
b. Verilerin Azaltılması
c. Verilerin Dönüştürülmesi

İlgili yöntemlerin sonuçların doğruluğu ve yorumlanabilirliği üzerindeki etkileri aşağıdaki


gibidir.

1. Verilerin Toplanması ve Birleştirilmesi


İlk olarak tanımlanan amaca ve probleme uygun verilerin neler olduğu ve hangi
kaynaklardan elde edilebileceği araştırılmalıdır. Bu araştırmanın ardından kurumların
ana kaynaklarından yararlanılarak toplanan bilgiler bir araya getirilir. Bu kaynaklar,
kurumun kendi veri tabanı ve veri kaynakları olabileceği gibi veri pazarlayan farklı
kuruluşların veri tabanları da olabilir. Sonuçların güvenilirliği açısından verinin
kaynağı, toplanma koşulu ve yöntemi önem arz etmektedir. (Lezki, s. 13 & Batmaz,
Veri Madenciliği ders notları)
2. Verilerin Temizlenmesi
a. Kayıp Veriler için Yapılan İşlemler: Veri tabanlarından elde edilen verilerin bir
kısmında bazı veriler eksik olabilir. Veri tabanı içindeki bu eksik veriler kayıp veri
olarak adlandırılır. Kayıp verilerin analiz dahil edilmesi eksik ve tutarsız sonuçlar
elde edilmesine yol açabilir. Bu nedenle analiz aşamasına geçemden önce bu kayıp
verilerin doğru bir şekilde doldurulması ya da uygun yöntemlerle tamamlanması
gerekir. Eksik verileri diğer değerlerin ortalama değeri, medyan değeri veya en sık
kullanılan değerlerle doldurma, kayıp veriyi veri setinden çıkarma, diğer değişkenler
ile kayıp verinin tahmini gibi yöntemler kayıp veri için işlem türlerine verilebilecek
örneklerdir. Analize bu yöntemlere göre düzenlenmiş veriler ile devam edilmesi
daha doğru ve yorumlanabilir sonuçlar elde edilmesini sağlar. (Lezki, s. 13-15 &
Batmaz, Veri Madenciliği ders notları)
b. Gürültülü Veriler için Yapılan İşlemler: Veri setindeki bazı değerler veri setindeki
diğer değerlerden önemli ölçüde farklı olup, doğru olamayacak kadar uç değerlerde
ya da yanlış girilmiş olabilir. Bu tür veriler de analizin doğruluğunu ve güvenilirliği
önemli derece etkileyebilecek veri tipleri olup aykırı veri, sıra dışı veri ya da
gürültülü veri olarak tanımlanır. Bu yanlış verilerin veri setinden çıkarılması,
bölümleme yöntemi ile ya da sınır değerleri kullanılarak gürültünün temizlenmesi,
kümeleme ya da regresyon yöntemi ile düzeltmeler yapılması ve gürültünün
temizlenmesi analizlerin güvenilir ve tutarlı sonuç vermesini sağlar. (Lezki, s. 13-
16 & Batmaz, Veri Madenciliği ders notları)
3. Verilerin Yeniden Yapılandırılması
a. Verilerin Normalizasyonu: Verinin, veri madenciliğinde kullanılacak algoritmaya
uygun hale getirilmesi için yapılandırılması gerekebilmektedir. Verilerin
normalizasyonu, sonuçları doğru bir şekilde karşılaştırma yapmak ve analiz etmek
için veri özellikleri arasındaki ölçek farklılıklarını giderme işlemi olarak
tanımlanabilir. Farklı değerlerdeki verilerin 0 ile 1 arasında ölçeklendirilmesi
normalizasyon işlemine örnektir. Min-maks normalizasyonu, sıfır-ortalama
normalizasyonu ve ondalıklı normalizasyon, normalizasyon işleminde kullanılan
yöntemlerdir. (Lezki, s. 17 & Batmaz, Veri Madenciliği ders notları)
b. Verilerin Azaltılması: Veri tabanındaki çok fazla verinin analiz aşamasında çok
fazla zorluk yaratmaması için veri miktarının azaltılması gerekebilmektedir. Bu
nedenle de veri yapılandırmasında diğer bir önemli işlem de verilerin temel
özellikleri korunarak veri miktarının azaltılmasıdır. Veri azaltılması gereksiz verinin
kaldırılması şeklinde sağlanabileceği gibi birden fazla değişkenin indirgenerek tek
bir değişkenle ifade edilmesi şeklinde de dağlanabilir. Veri azaltması yöntemlerine
boyut sayısı azaltma, veri sıkıştırma, temel bileşenler analizi ve faktör analizi örnek
verilebilir. (Lezki, s. 17 & Batmaz, Veri Madenciliği ders notları)
c. Verilerin Dönüştürülmesi: Bu işlem analize konu olan verinin uygulanacak
algoritmaya uygun hale getirilmesini kapsar. Algoritmanın etkinliği verilerin
gösterim biçimine bağlıdır. Verilerin dönüştürülmesi algoritmada tercih edilen
biçimde verinin yeniden düzenlenmesi işlemidir. Örnek verilecek olursa sürekli
değerler alan sayısal verilerin kesikli ve kategorik veri tipine dönüştürülmesi, veri
setindeki farklı birimlerin tek bir birime dönüştürülmesi verilerin birbiri ile daha
kolay bir şekilde karşılaştırılabilir hale gelmesi sağlar. (Lezki, s. 17 & Batmaz, Veri
Madenciliği ders notları)

Sonuç olarak yukarıda paylaşılan veri ön işleme ve temizleme yöntemleri sonuçların


doğruluğunu, güvenirliliğini, tutarlılığını ve yorumlanabilirliğini arttırır. Örneğin, kayıp
verilerin ve gürültünün doğru bir şekilde ele alınması analiz sonuçlarının doğru
yorumlanmasını, normlizasyon doğru sonuçlar elde edilmesini, veri azaltma ve dönüştürme
verilerin daha kolay karşılaştırılabilmesini sağlar.

Kaynakça:

Batmaz, B. (2023) Veri Madenciliği 1. Hafta: ( Data Mining) Giriş ve Temel kavramlar BIL531
Veri Madenciliği Ders Notları

Batmaz, B. (2023) Veri Madenciliği 2. Hafta: Veri Madenciliği Süreci BIL531 Veri Madenciliği
Ders Notları

Chaudhuri S. & Dayal U. An overview of data warehousing and OLAP technology.

Han, J., Pei, J., & Kamber, M. (2012). Data mining: concepts and techniques. Morgan
kaufmann.

Lezki, Ş. (2019). Temel kavramlar. F. Er (Editör), Veri madenciliği içinde (s. 8-9, 12-17).
Eskişehir: Anadolu Üniversitesi Açıköğretim Yayınları.

SIGMOD Record, 26:65–74, 1997.

Terlemez, L. (2019). Karar ağaçları. F. Er (Editör), Veri madenciliği içinde (s. 132-138).
Eskişehir: Anadolu Üniversitesi Açıköğretim Yayınları.

You might also like