Professional Documents
Culture Documents
Veri̇ Madenci̇li̇ği̇-2
Veri̇ Madenci̇li̇ği̇-2
Veri̇ Madenci̇li̇ği̇-2
TUBA USLU
R YAZILIMI
R yazılımı İnternet aracılığı ile ücretsiz olarak dağıtılan genel lisanslı bir
programdır. Yazılım, lisans kapsamında serbest bir şekilde dağıtılabilir ve
kullanılabilir. Ayrıca yazılımı elde eden herkes asıl kaynağı belirterek dağıtma
ve kullanma hakkına sahiptir. Yazılımın kaynak kodu da açık bir şekilde
sunulmaktadır. Dolayısıyla herhangi bir programlama bilgisine sahip kişiler bu
kod üzerinde değişiklikler ve geliştirmeler yapma hakkına sahiptir. Yazılımın
en büyük üstünlüklerinden biri de hemen hemen bütün işletim sistemlerinde
çalışabiliyor olmasıdır. R yazılımı kullanılarak, istatistiksel analiz, grafik
çizme ve veri işleme işlemleri yapılabilir. Temel olarak R, Becker and
Chembers tarafından geliştirilen S dilinin bir çeşididir. S dili daha sonra S-
Plus paket programı hâline dönüşerek ticari bir marka hâline gelmiştir. Günlük
bir kullanıcı kolaylıkla bu iki dil arasında geçiş yapabilmektedir. R ise, R
yazılımı adı altında paket program hâline gelmiştir.
R YAZILIMININ ELDE EDİLMESİ
R istatistiksel bilgisayar yazılımı İnternet aracılığı ile
dağıtılmaktadır. İsteyen kullanıcılar programın ana sitesini
kullanarak ücreti karşılığında CD üzerinden de programı elde
edebilmektedirler. Programın lisansı, genel kullanıcı lisansı
türündendir. Bu lisans, kullanıcılara ellerinde bulundurdukları
programı serbestçe dağıtma ve kullanma hakkını vermektedir.
Sadece bu lisans kapsamında ürünü elde eden kişiler aynı hakka
sahip olabilmektedir. Ayrıca kullanıcılar kaynak kodun kendisini de
ücretsiz olarak elde edebilmektedirler. Microsoft Windows,
Linux ve Unix sistemleri ve Apple MacOS işletim sistemleri için
çeşitli sürümler elde edilebilmektedir.
R istatistiksel bilgisayar yazılımını İnternet aracılığıyla, kullanılan
bilgisayara yükleme işlemi aşağıdaki gibi gerçekleştirilebilir.
Burada dikkat edilecek nokta; işlemlerin Microsoft Windows
işletim sistemi için yapılacağıdır. Farklı işletim sistemleri için
izlenecek adımlar ana sitede yer almaktadır.
> 72+45
[1] 117
> length(x)
[1] 5
c() fonksiyonu karakter değişkenleri yaratmak için de kullanılır.
> isim
> yenix
> seq(0, 8, 1)
[1] 0 1 2 3 4 5 6 7 8
[1] 4 8 12 16
Örnek-5: Sırasıyla sıfırdan dörde kadar 1’er artan ve sıfırdan ona
kadar 2’şer artan rakamlardan oluşan vektörü oluşturunuz.
[1] 0 1 2 3 4 0 2 4 6 8 10
Belirli bir düzene sahip verilerin oluşturulması için rep()
fonksiyonu kullanılır. Örneğin istatistikteki varyans analizi işlemi
gerçekleştirebilmek için ilgilenilen değişkenin her seviyesi için
birim sayısı kadar isim girilmesi gerekmektedir. Komut, rep
(istenendüzen,tekrar-sayısı) şeklinde yapılandırılır.
> rep(3,8)
[1] 3 3 3 3 3 3 3 3
Örnek-7: 1’den 5’e kadar olan rakamları 4 tekrar olacak biçimde
içeren vektörü oluşturunuz.
> rep(1:5,4)
[1] 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5
> rep(seq(1,6),2)
[1] 1 2 3 4 5 6 1 2 3 4 5 6
İzleyen örneklerde seq() ve rep() fonksiyonları yardımıyla çok
daha kompleks yapılı vektörler oluşturulmuştur. Bu fonksiyonların
kullanımı pratik yapıldıkça daha da kolaylaşmaktadır.
Örnek-9: 1’den 5’e kadar ve her birinden beş adet olacak biçimde
rakamlardan oluşan vektörü oluşturunuz.
> rep(seq(5),rep(5,5))
[1] 1 1 1 1 1 2 2 2 2 2 3 3 3 3 3 4 4 4 4 4 5 5 5 5 5
Örnek-10: 1’den 6’ya kadar her birinden kendi sayısı kadar olacak
biçimde rakamlardan oluşan vektörü oluşturunuz.
> rep(seq(6),c(1,2,3,4,5,6))
[1] 1 2 2 3 3 3 4 4 4 4 5 5 5 5 5 6 6 6 6 6 6
Bir vektörün herhangi bir elemanına ulaşmak mümkündür. Bu da
köşeli parantezler içinde istenilen vektör elemanının sıra numarası
verilerek yapılabilir.
> isim[4]
[1] “Ümit”
> isim[c(1,6)]
> yaşlar<-c(21,24,22,21,25)
> sqrt(yaşlar)
> veri<-c(6,5,4,3,2,1,1,2,3,4,5,6)
> matrix(veri,ncol=2)
[,1] [,2]
[1,] 6 1
[2,] 5 2
[3,] 4 3
[4,] 3 4
[5,] 2 5
[6,] 1 6
Eğer öncelikle satırlar veri kısmında tanımlanıyor ise byrow=T
parametresinin kullanılması gerekmektedir. Yukarıdaki örnek için
tanımlanan veri değişkeninin aslında satırlar olarak oluşturulduğu
varsayımı altında byrow=T parametresi yardımıyla,
> matrisim<-matrix(veri,ncol=2,byrow=T)
> matrisim
[,1] [,2]
[1,] 6 5
[2,] 4 3
[3,] 2 1
[4,] 1 2
[5,] 3 4
[6,] 5 6
Daha önce tanımlanan köşeli parantezler kullanılarak, matrisin herhangi
bir elemanına ait olan satır ve sütun sayısı girilerek ulaşılabilir. Örneğin
matrisin ikinci satır, ikinci sütun elemanı,
> matrisim[2,2]
[1] 3
> matrisim[1,]
[1] 6 5
> matrisim[,2]
[1] 5 3 1 2 4 6
olarak görüntülenecektir.
Aritmetik işlemler de matrisler üzerinde kolaylıkla uygulanabilir.
> matris2<-matrix(c(2,7,1,4),ncol=2,byrow=T)
> matris2
[,1] [,2]
[1,] 2 7
[2,] 1 4
> matris2*matris2
[,1] [,2]
[1,] 4 49
[2,] 1 16
> matris2+matris2
[,1] [,2]
[1,] 4 14
[2,] 2 8
Dikkat edilirse örnekte, çarpma işlemi matris elamanları için bire bir
[,1] [,2]
[1,] 4 49
[2,] 1 16
[,1] [,2]
[1,] 11 42
[2,] 6 23
Matrisin devriğinin(evriğinin ya da transpozunun) elde edilmesi için t()
fonksiyonu kullanılır.
> matris2
[,1] [,2]
[1,] 2 7
[2,] 1 4
> t(matris2)
[,1] [,2]
[1,] 2 1
[2,] 7 4
[,1] [,2]
[1,] 53 30
[2,] 30 17
Mantık Operatörleri
> değişken<-23 == 4
> değişken
[1] FALSE
Burada değişkenin değeri olan 23’ün 4’e eşit olup olmaması durumu mantık
değeri olarak tekrar değişkene atanmıştır. Artık değişkenimizin değeri
FALSE, yani yanlıştır. Benzer şekilde doğru bir sonuçta elde edebiliriz.
> değişken
[1] TRUE
R yazılımında mantık operatörlerine ek olarak mantık fonksiyonları da sunmaktadır. Bu
fonksiyonlar yardımı ile ilgilenilen değişkenin bir karakter değişkeni mi yoksa sayısal bir
değişken mi olduğunu anlama şansına sahip olunabilir. Bununla ilgili birkaç örnek aşağıda
verilmiştir.
> is.character(“Kuzey”)
[1] TRUE
> is.character(“1”)
[1] TRUE
> is.character(1)
[1] FALSE
> is.numeric(25/0)
[1] TRUE
> is.infinite(25/0)
[1] TRUE
> is.numeric(27)
[1] TRUE
şeklinde verilebilir.
Bir vektörden çeşitli elemanların elde edilmesinde mantık vektörü
kullanılabilir.
Örnek-13: 23, 12, 43, 23, 11, 24, 21, 17, 15, 14 rakamlarından oluşan x
vektörünü önce küçükten büyüğe doğru sıralayınız, daha sonra 20’den
büyük değerleri elde ediniz.
> x<-c(23,12,43,23,11,24,21,17,15,14)
> sort(x)
[1] 11 12 14 15 17 21 23 23 24 43
> x[x>20]
[1] 23 43 23 24 21
Bir başka kullanım yönteminde ise herhangi bir değişkenin değerleri bir
başka değişkenin eşli değerlerine bağlı olarak elde edilebilir. Örneğin; A
değişkeni bir araştırmada 10 birimlik birim sıra numarasını verirken, B
değişkeni de ölçüm değerleri olsun. 25’ten büyük ölçüm değerlerine sahip
birimlerin sıra numaraları
> A<-c(1:10)
> A
[1] 1 2 3 4 5 6 7 8 9 10
> B<-c(28,13,35,73,12,12,98,34,26,10)
> A[B>25]
[1] 1 3 4 7 8 9
olarak hesaplanır.
List Nesneleri
Çeşitli istatistiksel analizler için oluşturulan farklı nesnelerin bir
araya getirilmesinde List Nesnelerinden faydalanılır. Örneğin;
ilgilenilen veri kümesi ile bunlara ait korelasyon matrisi aynı nesne
içerisinde görüntülenebilir (ya da hafızada birlikte saklanmaları
sağlanabilir).
> summary(öğrencinot$betimsel)
Max.
87.00
> karar<-c(NA,65,46,14,96,68,46,64)
> karar
[1] NA 65 46 14 96 68 46 64