Download as pptx, pdf, or txt
Download as pptx, pdf, or txt
You are on page 1of 32

LI N

VERİ BİLİMİNDE KULLANILACAK A K A


ma
KÜTÜPHANELERİ
Fat VE
i
Dr. Öğr. Üyesi Fatma AKALIN
TEKNOLOJİLERİ
y e s TANIMAK devam
r. Ü
Dr. Öğr. Üyesi Fatma AKALIN

Öğ
D r.
Pandas ile Veri İşleme
LI N
A K A
a
Pandas, ham verileri daha değerli bir yapıya dönüştürmek için kullanılan
m
Fat
Python kütüphanesidir. Pandas, ekonometriden alınan bir terim olan
Panel Data kelimesinden esinlenilerek oluşturulan bir terimdir.

ye si
Pandas, Numpy kütüphanesi üzerine kurulmuştur ve veri analizi için

. Ü
szgisel işlevler sağlayarak NumPy’i genişletir. Şimdi Pandas ile veri
r
ğ
kümemizi değiştirmek için Python kütüphanesinin çağıralım ve
Ö
D r. öğrenmeye başlayalım.
LI N
Pandas kütüphanesini kullanmak için programımıza çağırmamız gerekir.

A
Bunun için import anahtar kelimesini vasıtasıyla kütüphaneyi

A K
çağırmalıyız ve ardından as anahtar kelimesi ile takma adını kullanarak
a
çalışmalarımızda kullanacağız.
m
Fat
ye si
r. Ü
Öğ
D r.
PANDAS VERİ YAPILARI
LI N
A K A
Pandas kütüphanesinde en çok
ma
kullanılan iki temel veri yapısı,
Seriler (Series) ve Veri
Fat
e
Çerçeveleri’dir(Data Frame).
y si
. Ü
1-Seriler
r
Öğ
Seri, indekslenebilir tek sütunlu

D r.
bir dizidir. Örnek seri yapısı
aşağıda gösterilmiştir.
2-Veri Çerçeveleri
LI N
pd.Series fonksiyonu kullanılarak bir Seri
nesnesi oluşturuldu. Oluşturulan Seri A K A
ma
nesnesi, NumPy dizilerinin aksine birden
Fat
fazla veri tipi içeren bir yapı sunmaktadır.

ye si
Fakat bu yapı gerçek hayat

r. Ü
problemlerinde genellikle tercih
edilmemektedir. Çünkü gerçek hayat
Öğ
problemleri birden fazla sütunlu
D r.
verilerden oluşmaktadır. Bu nedenle
Series yapısını temel alan Veri Çerçeveleri
kullanılacaktır.
PANDAS Veri Çerçeveleri Oluşturma
LI N
A K A İlk Yaklaşım
Pandas veri çerçeveleri oluşturmak
ma
vardır. İlk yaklaşım, NumPy
Fat
için sıklıkla kullanılan 2 yaklaşım

e si
kütüphanesinin bize sunduğu
y
r. Ü
fonksiyonlar kullanılarak oluşturulan

ğ
dizinin Pandas fonksiyonları ile
Ö
r.
kullanılmasıdır. İkinci yaklaşım,
D
Python dilinin sağlamış olduğu sözlük
veri yapısını Pandas fonksiyonlarında
kullanmaktır.
LI N
İkinci yaklaşımda veri
A K A
İkinci Yaklaşım
çerçevesinin değerlerinin yer
ma
aldığı bir sözlük yapısı
oluşturulur ve sözlükte yer
Fat
e
alan anahtar değerleri
y si
r. Ü
pandas veri çerçevesinde
ğ
sütun ismi olarak
Ö
r.
nitelendirilir.
D
PANDAS İLE VERİ OKUMA
LI N
A K A
a
Her zaman verinin program içerisinden elde edilmesi mümkün değildir.
m
Fat
Bu nedenle verinin dışarıdan okunması işlemlerine de göz atmamız
gereklidir. Bu doğrultuda verilerin sıklıkla kaydedildiği txt ve csv

e si
dosyaları üzerinde bir çalışma gerçekleştireceğiz.
y
. Ü
https://www.kaggle.com/datasets/balaka18/email-spam-classification-
r
dataset-csv
Öğ
r.
linkinden indirdiğim csv dosyasını ipynb dosyamın bulunduğu dosyanın
D
içerisine yerleştireceğim ve ardından projenin içerisinde çağırma
eylemini gerçekleştiriyor olacağım.
LI N
A K A
ma
Fat
ye si
r. Ü
Öğ
D r.
PANDAS VERİ ÇERÇEVELERİNE GENEL
BAKIŞ LI N
A K A
m a
Şimdi basit bir veri çerçevesi oluşturup bu veri çerçevesi üzerinde bazı
işlemler gerçekleştirelim.
F a t
e s i
. Ü y
ğ r
r. Ö
D
LI N
A K A
ma
Fat
ye si
r. Ü
Öğ
D r.
LI N
A K A
Verilerde istenilen bölgelere ulaşmak için temelde 2 yol mevcuttur.
Bunlar .iloc[] ve .loc[]’tır.

ma
loc[], stringler ile kullanılır.
Fat
si
iloc[], sayılar ile kullanılır.

ye
Bu aşamadan sonra cvs dosyası ile çektiğimiz ya da elimiz ile
Ü
r.
oluşturduğumuz veri çerçeveleri üzerinde istediğimiz verilere erişme
ğ
r. Ö eylemlerini gerçekleştirebiliriz.

D
Bir örnek yapalım. Örneğin df_çerçeve isimli veri çerçevesinde var olan
I N
tablodan f ve t isimli kişileri maaş sütunları ile birlikte çekmek için ilgili
L
A
nasıl yaparız? K A
kodları nasıl yazarız? Bu işlemi hem iloc hem de loc yardımcı özelliği ile

ma
Fat
ye si
r. Ü
Öğ
D r.
LI N
Bir örnek yapalım. Örneğin
A K A
df_çerçeve isimli veri
ma
çerçevesinde var olan tablodan
kişiler ve maaş sutunlarını çekmek
Fat
e si
için ilgili kodları nasıl yazarız? Bu
y
r. Ü
işlemi hem iloc hem de loc

ğ
yardımcı özelliği ile nasıl yaparız?
Ö
D r.
LI N
A K A
ma
Farklı uygulamalar da
Fat
si
yapalım..

Ü ye
ğ r.
r. Ö
D
LI N
A K A
Şimdi, verilerdeki
ma
temel istatistiksel
Fat
si
detayları
irdeleyelim…
Ü ye
ğ r.
r. Ö
D
Bu istatistiksel sonuçlar görüldüğü üzere sadece sayısal sütunlar için çalışmıştır.
Buradaki satırlar incelendiğinde her bir sütun için eleman sayısı, ortalama değer,
standart sapma, en küçük değer, en büyük değer arasındaki dağılım karşımıza
çıkmaktadır.
PANDAS VERİ ÇERÇEVELERİNİN MANİPÜLASYONU

LI N
Veri manipülasyonu için aynı çerçeveyi yeniden oluşturalım bu veri
K A
çerçevesine bir sütun ekleyelim. Bu ekleyeceğimiz sütun her satırdaki
A
a
kişinin adres bilgisini barındırsın.
m
Fat
ye si
r. Ü
Öğ
D r.
adlandırılmasını sağlayalım.
LI N
Şimdi bu veri çerçevesindeki adres ismindeki sutunun yeniden

A K A
ma
Fat
ye si
r. Ü
Öğ
D r.
Peki, yeni bir satır
nasıl eklenir?
LI N
Burada aynı Python
listelerine eleman
A K A
ekler gibi append
ma
metodu
Fat
kullanılacaktır. Bu
doğrultuda ilk
ye si
olarak Python
r. Ü
Öğ
sözlük yapısı

D r.
oluşturacağız ve
ardından bu nesneyi
append metodu ile
ekleyeceğiz.
LI N
A K A
a
Şimdi satır silme işlemlerini yapacağız. Peki, 4. ve 5. satırdaki elemanları
m
nasıl sileceğiz?
Fat
ye si
r. Ü
Öğ
D r.
LI N
A K A
a
• Peki sutun silme işlemi nasıl yapılacak?
m
Fat
ye si
r. Ü
Öğ
D r.
LI N
A K A
a
Şimdi akl
isimli bir
at m
kişiye
si F
ilişkin
veriler
Ü ye
ekleyelim.
ğ r.
r. Ö
D
LI N
A K A
Şimdi akl isimli bir kişinin
ma
verilerini yeniden
ekleyelim.
Fat
ye si
r. Ü
Öğ
D r.
LI N
A K A
Bu aktivitede ise
ma
birden fazla eklenen
Fat
kişilerin silme
işlemini yapacağız.
ye si
r. Ü
Öğ
D r.
LI N
Şu aşamadan
itibaren birden
A K A
fazla veri
ma
çerçevesi ile
Fat
si
çalışacağız. Bu
nedenle ilk
Ü ye
.
olarak yeni bir
veri çerçevesi
ğ r
oluşturalım ve
r. Ö
D
ardından bu
çerçeveleri
birleştirelim.
LI N
Sırada iki
tane veri
A K A
çerçevesinin
ma
alt alta
Fat
eklenmesi ile
ilgili bir ye si
örnek
r. Ü
çözelim.
Öğ
D r.
Devamı…

LI N
A K A
ma
Fat
ye si
r. Ü
Öğ
D r.
index=True parametresi, indekslerin 0’dan 9 a kadar sıralı indeks ataması
için kullanılır
LI N
A K A
Veriler büyüdükçe veri kümesinin içerisinde belirli sayıda grup oluşur.
Bu grupların ayrı ayrı incelenmesi hedeflendiğinde pandas kütüphanesi
a
kullanılır. Örneğimiz için ilk olarak bir veri çerçevesi
m
at
oluşturalım.Ardından hedeflediğimiz işlemleri gerçekleştirelim.
F
ye si
r. Ü
Öğ
D r.
LI N
A K A
ma
Fat
ye si
r. Ü
Öğ
D r.
Şimdi, apply metodu ile filtreleme işlemi yapalım
LI N
A K A
ma
Fat
ye si
r. Ü
Öğ
D r.
L I N
Son aşamada bol bol emek verip oluşturduğumuz güncel
A K A dataframeyi

m a
kaybolmaması için csv dosyasına kayıt etmemiz gerek. Böylece

çağırılır ve gerekli işlemler yapılır.


Fat
güncellediğimiz veri çerçevesi, istenildiği zaman program içerisinden

e s i
. Ü y
ğ r
r. Ö
D
KAYNAKÇA
LI N
A K A
a
Engin Bozaba, Python ile Uçtan Uca Veri Bilimi, dikeyeksen yayınları, 1.
m
Baskı, Ocak 2022
Fat
ye si
r. Ü
Öğ
D r.

You might also like