Professional Documents
Culture Documents
Veri̇ Madenci̇li̇ği̇ Ara Sinav
Veri̇ Madenci̇li̇ği̇ Ara Sinav
Mayıs 2023
OLTP, İngilizce online transaction processing (çevrimiçi işlem işleme) olarak adlandırılan,
çevrimiçi operasyonel veri tabanlarından biridir. Bu veri tabanı sistemlerinin ana görevi kritik
olan işlem seviyesindeki verileri işleme olarak tanımlanabilir. Bu işlenen veriler, yüksek
frekansta işleme, düşük sorgu karmaşıklığı, kısa yanıt süresi ve yüksek aynı anda erişim
kapasitesi gibi özelliklere sahiptir. OLTP, veri tabanındaki verilerin güncellenmesine, ekleme
işlemlerine, silme işlemlerine ve değiştirme işlemlerine odaklandığı için günlük hayatımızın
birçok noktasında karşımıza çıkar. OLTP veri tabanı işlem türü kuruluşların satın alma, üretim,
banka hesap işlemleri, stok yönetimi, müşteri siparişleri gibi birçok alanda karşımıza
çıkmaktadır. (Han, Pei & Kamber, s. 128)
OLAP, İngilizce online analytical processing (çevrimiçi analitik işleme) olarak adlandırılan,
veri ambarından çekilen veriler üzerinde analiz yapılmasına olanak tanıyan bir veri ambarı
sistem türü olarak tanımlanabilir. Bu tür bir sistemin ana görevi, verinin çok boyutlu bir biçimde
analiz edilmesi ve karar verme rolündeki analiz eden kişiye ilgili kararlarında destek olacak
yararlı bilgiler sunmasıdır. Bu işlenen verilerin sahip olduğu özelliklere düşük frekansta
işleme, yüksek sorgu karmaşıklığı, uzun yanıt süresi ve düşük aynı anda erişim kapasitesi örnek
verilebilir. OLAP, verileri işleme, analiz etme, sorgulama, özetleme ve raporlama kapasitesine
sahip olduğu için kurumların performans analizlerinde, hedef satış-alış analizlerinde, müşteri
segmentasyonunda, finansal raporlamada ve diğer istatistiksel analizlerde sıkça tercih edilen
bir sistemdir. (Lezki, s. 8-9)
OLTP ve OLAP arasındaki farklar, işlenen veri türleri ve içerikleri, kullanıcı türleri ve sistem
yönelimleri, işlem süreçleri ve veri tabanı yapıları açısından karşılaştırılabilir.
İşlenen veri türleri ve içerikleri: OLTP, mevcut, ayrıntılı, ham, eşzamanlı olarak işlenmesine
ihtiyaç duyulan, geçmiş verilerini gerektirmeyen, hızlı işlenebilir ve sorgulanabilir verileri
içerir. OLAP ise geçmiş, farklı kaynaklardan gelen, özetlenebilir, işleme ve sorgusu zaman
alabilen, eşzamanlı olarak işlenmesini gerektirmeden salt okunur formatta erişilebilir ve analiz
edilebilir verileri içerir. İki sistem de görüldüğü gibi oldukça farklı işlevsellikte ve farklı türde
veriler gerektirmektedir. (Han, Pei & Kamber, s. 128)
Kullanıcı türleri ve sistem yönelimleri: OLTP sistemleri müşteri odaklıdır. Müşteriler ve kurum
çalışanları tarafından kişisel verilerin, işlenmesi ve sorgulanması için kullanılmaktadır. OLAP
sistemleri ise pazar odaklıdır ve yöneticiler ve analistler olmak üzere karar vericiler tarafından
veri analizi için kullanılmaktadır. (Han, Pei & Kamber, s. 128)
İşlem süreçleri ve veri tabanı yapıları: OLTP, çok büyük miktarda verinin operasyonel veri
tabanlarında depolanması ve işlenmesi üzerine kuruluyken, OLAP verilerin oluşturulan veri
depoları üzerinden analiz edilmesi üzerine kuruludur. Bir OLTP sistemi, geçmiş veya farklı
kaynaklardan gelecek verilere ihtiyaç duymadan esas olarak bir işletme veya bölüm içindeki
mevcut verilere odaklanır. OLAP sistemi ise, bir kuruluşun tarihsel süreci nedeniyle genellikle
bir veri tabanı şemasının birden çok sürümünü kapsar nitelikte farklı bölümlerden ve veri
depolarından gelen bilgileri entegre eder. Büyük hacimleri nedeniyle, OLAP verileri birden çok
depolama ortamında depolanır. Bir OLTP sistemi genellikle bir entity-relationship (varlık-ilişki
/ER) veri modelini ve uygulamaya yönelik veri tabanı tasarımını benimser. Bir OLAP sistemi
tipik olarak ya bir star (yıldız) ya da snowflake (kar tanesi) modelini ve konuya yönelik veri
tabanı tasarımını benimser. Erişim kalıpları yönünden karşılaştırılacak olursa, OLTP sisteminin
erişim kalıpları eşzamanlılık denetimi ve kurtarma mekanizmaları gerektiren kısa işlemlerden
oluşur. Ancak OLAP sistemlerine erişim kalıpları veri ambarlarında depolanmış geçmiş
verilerin salt okunmasını kapsar. (Han, Pei & Kamber, s. 129)
Ayrıca OLTP ve OLAP sistemlerini birbirinden ayıran diğer özellikler arasında veri tabanı
boyutu, işlem sıklığı ve performans ölçümleri karşılaştırılabilir. Tüm özelliklerin
karşılaştırması Tablo 1'de incelenebilir. (Han, Pei & Kamber, s. 130)
Tablo 1. OLTP ve OLAP sistemlerinin karşılaştırması
Özellik OLTP OLAP
Karakteristik Operasyonel işlem Bilgi işlem
Oryantasyon İşlem Analiz
Kullanıcı Memur, müşteri, veri tabanı uzmanı Bilgi çalışanı (ör. yönetici, analist)
İşlev Günlük işlemler Karar desteği gerektiren uzun vadeli bilgi
DB tasarım Verileri ER tabanlı, uygulamaya yönelik, Yıldız/kar tanesi tabanlı, konuya yönelik,
mevcut, güncel garantili tarihsel, geçmiş, kesinliği zamanla sağlanan
Özetleme İlkel, son derece detaylı Özetlenmiş, birleştirilmiş
Görüş Detaylı, düz ilişkisel Özetlenmiş, çok boyutlu
İş birimi Kısa, basit işlem Karmaşık sorgu
Erişim Okuma / yazma Çoğunlukla okuma
Odak Veri girişi Bilgi çıkışı
Operasyonlar Birincil anahtarda dizin/karma Çok sayıda tarama
Erişilen kayıt sayısı Onlarca Milyonlarca
Kullanıcı sayısı Binlerce Yüzlerce
Veri tabanı boyutu GB’lar seviyesinde >= TB
Öncelik Yüksek performans, yüksek Yüksek esneklik, son kullanıcı özerkliği
kullanılabilirlik
Metrik İşlem hacmi Sorgu verimi, yanıt süresi
Not: Tablo Data mining: concepts and techniques kitabından (Han, Pei & Kamber, s. 130)
Türkçeleştirilmeye çalışılmış olup kısmen Chaudhuri ve Dayal'a dayanmaktadır.
2. Veri madenciliğinde bir veri kümesinin entropisi nasıl hesaplanır?
H(S) = - ∑𝑚
𝑖 (𝑝𝑖 ∗ log 2 (𝑝𝑖 )
Bir örnek üzerinden hesaplama yapılacak olursa 40 kişilik bir sınıfta öğrencilerin başarı
durumlarının iyi (10 öğrenci), orta (20 öğrenci) ve kötü (10 öğrenci) olarak sınıflandırıldığını
varsayalım. Bu veri kümesinin entropisi aşağıdaki şekilde hesaplanır:
1) Görüldüğü üzere toplam 3 sınıf (m = 3) olup ilk önce her bir sınıfın olasılık değeri
hesaplanır:
10 20 10
Piyi = = 0.25 Porta = = 0.50 Pkötü = = 0.25
40 40 40
2) Daha sonrasında entropi değeri her bir sınıfın formülde yerine yerleştirilmesi ile
aşağıdaki şekilde hesapların:
H(S) = - ∑𝑚=3
𝑖=1 (𝑝𝑖 ∗ log 2 (𝑝𝑖 ) = - [ piyi*log 2 (𝑝𝑖𝑦𝑖 ) + porta*log 2 (𝑝𝑜𝑟𝑡𝑎 ) + pkötü*log 2 (𝑝𝑘ö𝑡ü )]
H(S) = 1.5
Bu hesaplama, veri kümesinin entropisinin 1.5 olduğunu gösterir. Bu, veri kümesinin homojen
olmadığını ve farklı sınıflara ait örneklerin dağılımının dengesiz olduğunu gösterir.
3. Veri madenciliği algoritmalarını uygulamadan önce verileri ön işleme ve temizleme
için en etkili yöntemler nelerdir ve bu yöntemler sonuçların doğruluğunu ve
yorumlana bilirliğini nasıl etkiler?
Veri tabanlarında bilgi keşfi, veriden faydalı bilginin elde edilmesi süreci olarak tanımlanabilir.
Veriler Üzerinde Ön İşlemler aşaması ise veri tabanlarında veri keşfinin ikinci aşaması olup
amacın belirlenmesinden sonra gelen en uzun aşamalardan biridir. Veri madenciliği
algoritmalarını uygulamadan önce verileri ön işleme ve temizleme, veri kalitesi, sonuçların
doğruluğu ve yorumlanabilirliği açısından kritik öneme sahiptir. Verilerin ön işlenmesi ve
temizlenmesi verilerin veri madenciliği için hazır hale getirilmesi anlamına gelir. Sonuçların
kalitesi veri tabanında incelenecek verinin kalitesi ile doğrudan ilişkilidir. Veriler üzerindeki
ön işlemeler genel olarak aşağıdaki şekilde sınıflanabilir (Lezki, s. 12-13):
Kaynakça:
Batmaz, B. (2023) Veri Madenciliği 1. Hafta: ( Data Mining) Giriş ve Temel kavramlar BIL531
Veri Madenciliği Ders Notları
Batmaz, B. (2023) Veri Madenciliği 2. Hafta: Veri Madenciliği Süreci BIL531 Veri Madenciliği
Ders Notları
Han, J., Pei, J., & Kamber, M. (2012). Data mining: concepts and techniques. Morgan
kaufmann.
Lezki, Ş. (2019). Temel kavramlar. F. Er (Editör), Veri madenciliği içinde (s. 8-9, 12-17).
Eskişehir: Anadolu Üniversitesi Açıköğretim Yayınları.
Terlemez, L. (2019). Karar ağaçları. F. Er (Editör), Veri madenciliği içinde (s. 132-138).
Eskişehir: Anadolu Üniversitesi Açıköğretim Yayınları.