ANALİTİK İSTATİSTİK (Asıl) PDF

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 93

6.

ANALİTİK İSTATİSTİK

Karşı karşıya kaldığımız hedef kitle hakkında genellikle tam bilgi sahibi olamayız.
Nadiren ilgilendiğimiz konu hakkında hedef kitlenin tamamı hakkında bilgi sahibi olabiliriz.
Hükümet sayım (nüfus sayımı, tarım sayımı vb.) yoluyla bize bu bilgileri ulaştırır. Ancak her
zaman bu kadar şanslı olmayız. Hedef kitlenin tamamı hakkında bilgi sahibi olmak bazen çok
pahalı, zaman alıcı ve güç iken, bazen ise imkânsız olmaktadır. Bu gibi durumlarda hedef
kitle içinden çekilen ve bu kitleyi temsil ettiğine inandığımız bazı örneklerden elde ettiğimiz
bilgilere dayanarak hedef kitle hakkında bilgi sahibi olmaya çalışırız.
Örneklerden elde ettiğimiz işlenmemiş veriler öncelikle tanımlayıcı istatistik
yöntemler (merkezi eğilim ölçüleri, dağılım ölçüleri, pozisyon ölçüleri, frekans dağılımı, ilişki
ölçüleri) kullanılarak daha kolay anlaşılır hale getirilmelidir. Daha sonra analitik
(yorumlayıcı) istatistik teknikler kullanılarak örnekten elde edilen bilgilere dayanarak ana
kitle hakkında sonuçlar çıkartılmalıdır.

6.1. Örnekleme ve Örnekleme Dağılımı


Bir konu ile ilgili hedef kitleyi oluşturan bütün bireylerin tek tek incelenerek onlardan
ölçme tartma, gözlem ve soruşturma yoluyla bilgi alınmasına “tam sayım” adı verilmektedir.
Hedef kitle hakkında en geniş bilgi tam sayım yoluyla elde edilmektedir. Birkaç birimden
oluşan küçük bir kitleyi örnekleme yoluyla incelemektense, hedef kitlenin tamamını
incelemek yoluna gidilmektedir. Çok sayıda birim içeren hedef kitlelerde veriler mevcut
olmasına rağmen kısa sürede analiz edilmesi gerektiğinde veya hedef kitle ile ilgili bilgiler
elde bulunmadığında hızlı bir şekilde istenilen bilgilere ulaşmak istenildiğinde genellikle tam
sayım yerine örneklemeye başvurulmaktadır. Bir veya birkaç özelliği dikkate alarak hedef
kitleden sınırlı sayıda birimlerin çekilmesine “örnekleme” denilmektedir. Örnekleme, seçilen
birimlerden yararlanarak küme hakkında bilgi sahibi olmak amacıyla yapılmaktadır.
Örneklemede hedef kitlenin sadece bir bölümü incelenerek hedef kitle ile ilgili karar vermeye
çalışılmaktadır. Eğer hedef kitle homojen ise ve hedef kitle değişim içinde yani canlı ise
örnekleme yöntemi kullanılmalıdır.
Ancak hedef kitle küçük olduğunda ve yasal zorunluluklar sebebiyle örnekleme yerine
tam sayım daha uygun olmaktadır. Nüfus sayımları, vergi cetvelleri, seçmen kütükleri veya
tapu kayıtları gibi kayıtlar yasal sebeplerle veya yapıları gereği örnekleme ile değil de tam
sayımla incelenirler. Aynı zamanda örneklemede kullanılacak çerçeveyi tespit etmek için de
tam sayım yapmak gerekebilir. Diğer taraftan tam sayımın mümkün olmadığı veya gerekli
olmadığı durumlarda örnekleme yapmak zorunlu hale gelebilmektedir. Örneğin sütte yağ
oranını tespit etmek için bir süt ineğinden bir sağımda alınan 10 litre sütün tamamı değil de
çok az bir bölümü laboratuarda analiz etmek yeterlidir. Kan tahlili içinde aynı durum söz
konusudur. Vücuttaki tüm kanı incelemek yerine birkaç damla kanı analiz etmek tüm
vücuttaki kan hakkında yeterli bilgi verecektir. Bazen hedef kitlenin tamamını incelemek kitle
içinde yer alan birimlerin zarar görmesine sebep olmaktadır. Bu gibi durumlarda da
örnekleme yapmak kaçınılmazdır. Örneğin elektrik ampulünün veya traktör lastiğinin ömrü
ancak deneyin onların ömrü boyunca sürdürülmesi ile anlaşılır. Bu sebeple sınırlı sayıda
seçilen ampul veya lastik ile deneme yapılacaktır.
Örnekleme günlük hayatımızla da iç içedir. Genellikle kararlarımızı örneklemeden
yararlanarak alırız. Tencereden alınan bir iki pirinç tanesi pilavın pişip pişmediğini gösterir.
Bir yudum çay bir çaydanlık çayın kalitesini anlamaya yeterli olur.
Örnekleme yöntemini kullanmanın (i) tam sayıma oranla daha ucuza mal olması, (ii)
daha detaylı bilgi elde edilebilmesi ve (iii) kısa zamanda bilgi toplamayı sağlaması gibi
yararlarının yanında hata payı içermesi gibi olumsuz bir yönü de bulunmaktadır.
Örnekleme bir çok aşama içeren ve planlı bir çalışma gerektiren bir süreçtir. Öncelikle
örnekleme yapılacak hedef kitlenin çerçevesi belirlenmelidir. Daha sonra ortalamadan izin
verilen hata payı (mutlak veya nispi) ve hangi güven derecesinde çalışılacağı belirlenmelidir.
Söz konusu bilgiler elde edildikten sonra uygun örnekleme yöntemi kullanılarak hedef kitleyi
temsil edecek örnek sayısı belirlenecektir.
6.1.1. Örnekleme yöntemleri
Hedef kitleden örnekler tesadüfi veya tesadüfi olmayan yöntemlerle çekilebilmektedir.
Eğer hedef kitlede yer alan bütün bireylerin örneğe seçilme şansı eşitse yani her bir bireyin
örneğe seçilme şansı önceden biliniyorsa bu tür örneklemeye “tesadüfi örnekleme” adı
verilmektedir. Oysa tesadüfi olmayan örneklemede bireylerin örneğe seçilme şansı eşit
değildir, hatta hedef kitle içinde yer alan bazı bireylerin örneğe seçilme şansı hiç yoktur.
Şimdi tesadüfi ve tesadüfi olmayan örnekleme yöntemlerinin ayrı ayrı inceleyelim.

1.Tesadüfi olmayan örnekleme: Tesadüfi olmayan örnekleme yöntemleri, tesadüfi


örneklemeye oranla daha az bilimseldir. Ayrıca bu örneklemede istatsitiki hataların ölçülmesi
mümkün değildir. Hedef kitle içerisinde yer alan bireylerin örneğe seçilme şansı eşit olmayan
bu örnekleme yöntemi (i) kolay örnekleme (convenience sampling) ve (ii) gayeli örnekleme
(judgement sampling) olmak üzere iki farklı şekilde uygulanabilmektedir. Kolay
örneklemede, hedef kitle içindeki en kolay ulaşılabilir bireyler örnek olarak seçilmektedir.
Örneğin bir marketten alış veriş yapan tüketicilerle ilgili bilgiye ihtiyaç duyulduğunda,
markete bir saat içinde gelen herkesten bilgi almak kolay örneklemeye iyi bir örnek teşkil
etmektedir. Eğer hedef kitleyi temsil edecek örneklerin seçiminde belirli bir amaç
güdülmüşse veya hedef kitle ile ilgili ön bilgiler kullanılmış ise buna “gayeli örnekleme”
denilmektedir. Bu yöntemle seçilen örnekler hedef kitleyi temsil eden örnekler olabilir ancak
bunun şansının düşük olduğu unutulmamalıdır. Bir bölgedeki tüm köyleri incelemek üzere
yapılan bir araştırmada, yolu iyi olan köylerin seçilmesi; bir köydeki çiftçilerden sadece
gönüllü olanlardan bilgi toplamak gayeli örneklemedir.
Tesadüfi olmayan örnekleme yöntemi ile çok güvenilir ve doğru sonuçlar elde etmek
güçtür. Bu örneklemede başarı hedef kitle homojen olmasına ve araştırıcının hedef kitleyi iyi
tanımasına bağlıdır. Bu tür örneklemede elde edilen bilgilerin hedef kitleyi ne derece temsil
ettiğini, hata ve güvenilirlik derecesini ifade etmeye imkân yoktur. Bu sebeple bu örnekleme
yöntemi günümüzde pek yaygın kullanılmamaktadır. Bu yöntem sadece anket formlarının ön
testini yapmak veya çerçeveyi belirlemek amacıyla kullanılmamaktadır.

2. Tesadüfi örnekleme: Hedef kitle içinde yer alan bütün bireylerin örneğe seçilme şansı
eşittir. Bu örnekleme yönteminde hedef kitleye ilişkin tahminlerin doğruluk derecesi ve hata
payı hesaplanabilmektedir. Tesadüfi örneklemede örneğe girecek elemanların seçiminde
kullanılan ilk yöntem kura yöntemidir. Örneğin 50 kişilik bir sınıftan tesadüfi olarak 5 kişi
seçileceğini düşünelim. Bu 50 kişinin ismi ayrı ayrı kağıtlara yazılır ve bir torbaya doldurulur.
Daha sonra 5 isim bu torbadan çekilerek kura yöntemi ile tesadüfi olarak örnek çekilmiş olur.
Tesadüfi sayılar tablosunu kullanmak örneğe girecek elemanların tespitinde kullanılan ikinci
yöntemdir. Tesadüfi sayılar tablosu yardımıyla 400 kişiden tesadüfi olarak 30 kişi seçtiğimizi
düşünelim. Bunun için öncelikle 400 kişinin adı alfabetik sırada dizilir. Daha sonra 5 haneli
olarak hazırlanmış “tesadüfi sayılar tablosundan” yararlanmak için bir başlangıç noktası
belirlenir. Başlangıç noktasının belirlemenin en kolay yolu, gözlerimizi kapatıp parmağımızı
tesadüfi olarak bir noktaya koymaktır. Bu başlangıç noktasından istenilen yere doğru
ilerlemek mümkündür. Böylece başlangıç noktasından sonra gelen her 5 haneli rakamın 3
hanesi okunarak tesadüfi bir kişi tespit edilir. Bu numaraya karşılık gelen isim seçilecek ismi
oluşturmaktadır. Tesadüfi örnekleme (i) basit tesadüfi örnekleme, (ii) tabakalı tesadüfi
örnekleme, (iii) cluster örnekleme ve (iv) analitik örnekleme olmak üzere 4 farklı şekilde
uygulanabilmektedir.

6.1.2. Örnekleme dağılımı


Ana kitleden çekilen örneklerden hesaplanan istatistiklerin gösterdiği dağılıma
“örnekleme dağılımı” adı verilmektedir. Örnekleme dağılımını, ana kitleden çekilen
örneklerin ortalamalarının gösterdiği dağılım ve oranların örnekleme dağılımı olmak üzere iki
ana sınıfa ayırmak mümkündür.

1. Ortalamaya ait örnekleme dağılımı


Hedef kitleye ait parametreler sabit bir değerdirler. Hedef kitlenin ortalaması olan
 daima sabittir. Ancak örnek için aynı şeyi söylemek mümkün değildir. Aynı ana kitleden

çekilmiş aynı büyüklüğe sahip örneklerden hesaplanan ortalamalar x birbirinden farklıdır.
Sonuç olarak aynı hedef kitleden çekilmiş örneklerden hesaplanan ortalamalar tesadüfi bir
değişken konumundadırlar. Örneklere ait ortalamalar tesadüfi değişken olduklarından
bunların gösterdiği bir olasılık dağılımı vardır ve bu “ortalamaya ait örnekleme dağılımı”
olarak bilinmektedir. Örneğin haftalık maaşları aşağıda verilen 5 kişinin oluşturduğu hedef
kitleden üçer kişilik örnekler çektiğimizi düşünelim.

A=17, B=24, C=35, D=35, E=43

Buradan farklı olarak çekilebilecek toplam örnek sayısını bulmak için, toplam kombinasyon
sayısını belirlemek gerekmektedir.
   3!(55! 3)!  10
5
3

Söz konusu hedef kitleden çekilebilecek en büyük örnek sayısı 10 olarak bulunmuştur. Bu
örnek kombinasyonları ve bunlara ait ortalamalar aşağıda verilmiştir.

Örnek Örneğe giren 


x
bireyler
ABC 17, 24, 35 25.33
ABD 17, 24, 35 25.33
ABE 17, 24, 43 28.00
ACD 17, 35, 35 29.00
ACE 17, 35, 43 31.67
ADE 17, 35, 43 31.67
BCD 24, 35, 35 31.33
BCE 24, 35, 43 34.00
BDE 24, 35, 43 34.00
CDE 35, 35, 43 37.67

Örneklerin ortalamaları ve bunlara ait olasılıklar da nispi frekans yaklaşımına göre aşağıdaki
gibidir.
 f 
x P( x)
25.33 2 0.20
28.00 1 0.10
29.00 1 0.10
31.67 1 0.10
31.33 2 0.20
34.00 2 0.20
37.67 1 0.10
10 1.00
Ortalamaya ait örnekleme dağılımının ortalaması, hedef kitlenin ortalamasına eşittir.
Eğer örnekten hesaplanan ortalama ana kitle ortalamasına tam eşit ise buna “sapmasız
tahmin” adı verilmektedir.
  
x

Ortalamaya ait örnekleme dağılımının standart sapması ise, ana kitlenin standart
sapmasından farklıdır. Örnekleme dağılımının standart sapması, ana kitlenin standart
sapmasının örnek hacminin kare köküne oranına eşittir.

 

x n

Ancak örnekleme dağılımının standart sapmasının bu formülle hesaplanabilmesi için örnek


n
hacminin ana kitleye oranının 0.05 veya bundan küçük olması (  0.05) gerekmektedir. Eğer
N

N n
bu oran 0.05’ten büyük olursa bu formüle sonlu düzeltme faktörünün ( ) ilave
N 1
edilmesi gerekmektedir. Bu durumda formül şu hale dönüşmektedir.

 N n
  
x n N 1

Örnekleme dağılımının standart sapması daima ana kitlenin standart sapmasından


küçüktür (    ) . Bu standart sapma formülünün incelenmesinden rahatlıkla
x


anlaşılmaktadır. Zira örnek hacmi 1’den büyük olduğu sürece, oranı içinde yer alan
n

n 1’den büyük olacaktır ve sonuçta örnekleme dağılımının standart sapması, ana kitleden
küçük olacaktır. Diğer taraftan örnek hacmi büyüdükçe örnekleme dağılımının standart
sapması küçülmektedir. Eğer bu koşul sağlanıyorsa bu örnekten yapılan tahmin “tutarlı
tahmin” olmaktadır.

Örnek:
5000 işçisi bulunan bir firmada çalışan bir işçi saatte ortalama 13.50 milyon TL gelir
elde etmektedir. Bu ortalama değere ait standart sapma ise 2.90 milyon TL’dir.
a) Bu firmadan seçilen 30 kişinin saatlik ortalama gelirine ait standart sapma ne
kadardır?
b) Bu firmadan seçilen 75 kişinin saatlik ortalama gelirine ait standart sapma ne
kadardır?
c) Bu firmadan seçilen 200 kişinin saatlik ortalama gelirine ait standart sapma ne
kadardır?

Çözüm:
Örnekleme dağılımının ortalaması ana kitlenin ortalamasına eşit olduğundan
    13 .50 ’dir ve standart sapma   2.90 ’dır.

x

a)
n  30
n 30
  0.006
N 5000
n
 0.05 olduğundan 5000 kişiden seçilen 30 kişinin saatlik ortalama gelirine ilişkin standart
N
 2.90
sapma      0.53 olarak bulunur.
x n 30

b)
n  75
n 75
  0.015
N 5000
n
 0.05 olduğundan 5000 kişiden seçilen 75 kişinin saatlik ortalama gelirine ilişkin standart
N
 2.90
sapma      0.33 olarak bulunur.
x n 75

c)
n  200
n 200
  0.04
N 5000
n
 0.05 olduğundan 5000 kişiden seçilen 200 kişinin saatlik ortalama gelirine ilişkin
N
 2.90
standart sapma      0.21 olarak bulunur.
x n 200

2. Orana ait örnekleme dağılımı


Genellikle hedef kitleden çekilen örneklerin ortalamalarının gösterdiği dağılım yaygın
olarak kullanılmakla birlikte, zaman zaman istenen belirli bir olayın ana kitle veya örnekteki
oranı da önem kazanmaktadır. İstenen özelliğin hedef kitleden çekilen örnekler içindeki
oranlarının gösterdiği dağılıma “orana ait örnekleme dağılımı” adı verilmektedir. İstenen

olayın örnek içindeki oranı ( p ) aynen örnek ortalamasında olduğu gibi tesadüfi değişken
konumundadır.İstenen özelliğin ana kitle içindeki oranı p , örnek içindeki oranı ise

p simgeleriyle gösterilmektedir ve aşağıdaki formüller yardımıyla hesaplanmaktadır.

x  x
p ve p
N n

Formüllerde N ana kitledeki element sayısını, n örnekteki element sayısını ve x istenen


özellik sayısını ifade etmektedir. Örneğin Samsun ili şehir merkezinde yaşayan 300.000
ailenin180.000 tanesi ev sahibidir. Bu durumda x ev sahibi olan kişilerin sayısını (180000),
N ise şehir merkezinde yaşayan toplam kişi sayısını göstermektedir. İstenen özelliğin ana kitle
içindeki oranı p  x N  180000 300000  0.60 ’dır. Şimdi bu ana kitleden çekilmiş 240
kişilik bir örnek içinde yer alan 158 kişi ev sahibi ise istenen özelliğin örnek içindeki

oranı p  x n  158 240  0.66 ’dır.
Orana ait örnekleme dağılımının ortalaması, istenen olayın hedef kitle içindeki oranına
eşittir. Eğer örnek oranı, ana kitle oranına tam olarak eşit ise buna “sapmasız tahmin” adı
verilmektedir.
 p
p

Orana ait örnekleme dağılımının standart sapması ise, ana kitlenin standart
sapmasından farklıdır. Örnekleme dağılımının standart sapması, ana kitlenin standart
sapmasının örnek hacmine oranının kare köküne eşittir.
pq
 

p n

Formülde p istenen olayın ana kitle içindeki oranına, q ise 1-p’ye eşittir. Ancak örnekleme
dağılımının standart sapmasının bu formülle hesaplanabilmesi için örnek hacminin ana kitleye
n
oranının 0.05 veya bundan küçük olması (  0.05) gerekmektedir. Eğer bu oran 0.05’ten
N

N n
büyük olursa bu formüle sonlu düzeltme faktörünün ( ) ilave edilmesi gerekmektedir.
N 1
Bu durumda formül şu hale dönüşmektedir.

pq N n
  
p n N 1

Örnek hacmi büyüdükçe orana ait örnekleme dağılımının standart sapması


küçülmektedir. Eğer bu koşul sağlanıyorsa bu örnekten yapılan tahmin “tutarlı tahmin”
olmaktadır.

Örnek:
Bir firmada çalışan 5 işçinin istatistik konusunda bilgi sahibi olup olmadığı ile ilgili
bilgiler aşağıda verilmiştir.
İsim İstatistik bilip
bilmediği
Murat Biliyor
Mustafa Bilmiyor
Ali Bilmiyor
Tülin Biliyor
Coşkun Biliyor

Bu durumda istatistik bilenlerin ana kitle içindeki oranı p  3/5=0.60’dır. Şimdi bu 5 işçiden
3’er kişilik gruplar seçelim. Bu 5 işçiden toplam 10 farklı örnek seçmek mümkündür. 10
farklı örnek ve bunların oranı aşağıda verilmiştir.
Örnek 
p
Murat, Mustafa, Ali 1/3=0.33
Murat, Mustafa, Tülin 2/3=0.67
Murat, Mustafa, Coşkun 2/3=0.67
Murat, Ali, Tülin 2/3=0.67
Murat, Ali, Coşkun 2/3=0.67
Murat, Tülin, Coşkun 3/3=1.00
Mustafa, Ali, Tülin 1/3=0.33
Mustafa, Ali, Coşkun 1/3=0.33
Mustafa, Tülin, Coşkun 2/3=0.67
Ali, Tülin, Coşkun 2/3=0.67

Bu kombinasyonlardan yararlanarak oluşturulan frekans tablosu ve oranlara ilişkin olasılıklar


aşağıdaki gibidir.
 f 
p P( p)
0.33 3 0.30
0.67 6 0.60
1.00 1 0.10
10 1.00

Şimdi, bu firmada çalışan 5 kişiden seçilmiş üçer kişilik örneklerin oranlarının


gösterdiği dağılımın ortalama ve standart sapmasını hesaplayalım. Orana ait örnekleme
dağılımının ortalaması, istenen olayın hedef kitle içindeki oranına eşit olduğundan, ortalama
3
  p  0.6 olarak bulunur. Standart sapma ise (  0.05) olduğu için aşağıdaki formül

p 5
yardımıyla 0.20 olarak hesaplanmıştır.

pq N n (0.6)(0.4) 5  3
 
   0.20
p n N 1 3 5 1
6.1.3. Örnekleme ve örnekleme dışı hatalar
Aynı ana kitleden seçilen örnekler farklı elementleri içerdiklerinden farklı sonuçlar
vermektedirler. Aynı zamanda örnekten hesaplanan ortalamalar ve oranlar, ana kitle
ortalamasından ve oranından farklı olabilmektedirler. Örnekten hesaplanan ortalama ile ana
kitle ortalaması arasındaki fark veya örnek oranı ile ana kitle oranı arasındaki fark “örnekleme
hatası” olarak bilinmektedir.

Örnekleme hatası  x   (Ortalama için)

Örnekleme hatası  p  p (Oran için)

Örnekleme dışı hata ise, verilerin toplanması, kayıt altına alınması ve tablolaştırma
işlemleri esnasında meydana gelen hataları kapsamaktadır. Örnekleme dışı hataların
oluşmasının en önemli sebebi, örneklerin tesadüfi olarak seçilmemesidir. Aynı şekilde anket
formunda yer alan soruların denek tarafından yanlış anlaşılması sonucu yanlış cevaplar
verilmesi veya deneklerin bazı hassas sorulara bilerek yanlış cevap vermesi de örnekleme dışı
hataya yol açmaktadır. Araştırıcıların anketlerde bulunan bilgilerin bilgisayara yanlış
aktarılması da diğer bir örnekleme dışı hata kaynağıdır.

Örnek:
Bir firmada çalışan 5 kişinin milyon TL olarak haftalık maaşlarının 17, 24, 35, 35, 43
olduğunu düşünelim. Bu ana kitlenin ortalaması (17+24+35+35+43)/5=30.8’dir.
Bu 5 kişiden tesadüfi olarak 3 kişinin seçildiğini ve bunların milyon TL olarak haftalık
maaşlarının 17, 35 ve 43 olması durumunda ortalama haftalık gelir 31.67 milyon TL olacaktır.

x  (17  35  43) / 3  31.67

Örnekleme hatası  x    31.67  30.8  0.87 milyonTL

Şimdi seçilmiş örnekteki maaşlardan ikincisi 35 milyon TL yerine yanlışlıkla 37


milyon TL olarak yazıldığını düşünelim. Bu durumda ortalama (17+37+43)/3=32.33 milyon
TL olacaktı. Buna bağlı olarak örnekleme hatası ise 1.53 milyon TL’ye yükselecektir.

Örnekleme hatası  32.33  308.8  1.53


Her ne kadar buradaki hata örnekleme hatasını yansıtıyor gibi görünse de, gerçek örnekleme
hatasının 0.87 milyon TL olduğu bilinmektedir. Bu durumda iki örnekleme hatası arasındaki
fark bize örnekleme dışı hatayı verecektir.

Örnekleme dışı hata =1.53 – 0.87 = 0.66 milyon TL

Örnekleme dışı hata Örnekleme hatası

32.33 31.67   30.80

Örnekleme hatası ana kitle içinde bulunan elementlerin örneğe seçilmesinin şansa
bağlı olmasından kaynaklanan bir hatadır. Oysa örnekleme dışı hatalar ise insanların yaptığı
hatalardan kaynaklanmaktadır. Örnekleme dışı hata hem tam sayıda hem de örneklemede
karşılaşılırken, örnekleme hatası sadece örnekleme de karşılaşılan bir hatadır. Örnekleme dışı
hatayı anketleri hazırlarken dikkatli olmak kaydıyla ve verileri aktarırken titiz bir çalışma ile
minimize etmek mümkündür.

6.1.4. Normal dağılım gösteren bir ana kitleden örnekleme


Eğer örnekleme ortalaması  ve standart sapması  olan normal dağılım gösteren bir

ana kitleden yapılmışsa; (i) örnekleme dağılımının ortalaması x ,ana kitlenin ortalamasına

eşittir, (ii) örnekleme dağılımının standart sapması S  ’ dır ve (iii) her bir örnek hacmi
n
için (n) örnekleme dağılımının şekli normaldir.
Genellikle ortalamaya ait örnekleme dağılımında bu özellikler kullanılabiliyorken,
orana ait ana kitle normal dağılım göstermediğinden orana ait örnekleme dağılımında böyle
bir durum söz konusu değildir.

6.1.5. Normal dağılım göstermeyen bir ana kitleden örnekleme


Gerçek dünyada ana kitlelerin önemli bir bölümü normal dağılım göstermemektedir.
Bu gibi durumlarda örnekleme dağılımının şekli hakkında “merkezi limit teoremi” geçerli
olmaktadır. Merkezi limit teoremine göre ana kitlenin dağılımı normal olmadığı halde yeterli
örnek hacmi kullanıldığında örneklerden hesaplanan ortalamaların gösterdiği dağılım normal
dağılıma yaklaşmaktadır ve bu dağılımın ortalaması ana kitle ortalamasına eşit olmakta,

standart sapması ise ortalamaya ait örnekleme dağılımı için S  olmaktadır. Genellikle
n
normal olmayan ana kitleden çekilen örneklerin ortalamalarının dağılımının normale
yaklaşması için örnek hacminin 30’dan büyük olması gerekmektedir.

Örnek:
Türkiye’de şehirde ortalama kiranın 200 milyon TL/ay ve buna ait standart sapmanın
75 milyon TL/ay’dır. Türkiye’nin şehirlerinde kiraların dağılımının sağa çarpık olduğu
bilinmektedir. Bu ana kitleden çekilen n=100’lük örneğin ortalama ve standart sapmasını
hesaplayınız ve dağılımın şeklini gösteriniz?

Çözüm:
Kiraların dağılımı normal olmamasına rağmen n>30 olduğundan, bu soruda merkezi
limit teoremini uygulamak gerekmektedir. Örnekleme dağılımı normale yaklaştığından
ortalama ve standart sapma aşağıdaki gibi hesaplanır.


x    200 milyon TL
 75
S   7.5
n 100

Orana ait örnekleme dağılımı için np  5 ve nq  5 olduğunda merkezi limit


teoremini kullanmak mümkündür. Bu durumda örneğe ait oran istenen olayın hedef kitle
içindeki oranına eşittir (    p ).Orana ait örnekleme dağılımının standart sapması ise, ana
p

kitlenin standart sapmasından farklıdır. Örnekleme dağılımının standart sapması, ana kitlenin
standart sapmasının örnek hacmine oranının kare köküne eşittir.

pq
  
p n

Formülde p istenen olayın ana kitle içindeki oranına, q ise 1-p’ye eşittir. Ancak
örnekleme dağılımının standart sapmasının bu formülle hesaplanabilmesi için örnek hacminin
n
ana kitleye oranının 0.05 veya bundan küçük olması (  0.05) gerekmektedir.
N
Örnek:
Bir firmada çalışan elemanların %18’i işyerindeki performanslarının gerek mali olarak
gerekse de kişisel olarak ödüllendirildiğini belirtmişlerdir. Bu yargının ana kitlenin tamamı
için doğru olduğunu düşünelim. Firmada çalışan tesadüfi olarak seçilmiş 100 kişinin de aynı
görüşü paylaştığına göre orana ait örnekleme dağılımının ortalama ve standart sapmasını
hesaplayalım.

Çözüm:
p  0.18 ve q  1  p  1  0.18  0.82
Orana ait örnekleme dağılımının ortalaması   p  0.18 ’dir. Standart sapma ise

p

np  5 olduğundan 0.038 olarak bulunur.

pq (0.18)(0.82)
 
   0.038
p n 100

6.2. Tahmin ve Özellikleri


Her hangi bir kitleden çekilmiş örnekten hesaplanan istatistiklere dayanarak ana kitle
parametresinin değerinin belirlenmesine “tahmin” adı verilmektedir. Tahmin ana kitle
değerlerini örneğe dayanarak belirlemede kullanılan sayısal bir yöntemdir. Tahmin yapmak
bir süreç gerektirmektedir ve 4 basamağı bulunmaktadır.

1. Örneği seçmek
2. Örneğe giren bireylerden bilgileri toplamak
3. Örneğe ait istatistikleri hesaplamak
4. Ana kitle parametresinin değerini belirlemek

Bazen ana kitlenin ortalaması tahmin edilirken, bazen de ana kitle oranı tahmin
edilmektedir. Örneğin bir otomobil firmasında yetkili kişi belirli bir model otomobilin
ortalama yakıt tüketimini, işe yeni başlamış bir işçinin işi öğrenme süresini veya piyasaya
yeni sürecekleri otomobilden müşterilerinin yüzde kaçının memnun olacağını merak edebilir.
Bunları ortaya koymanın yolu tahmin yapmaktır. Ana kitle ortalaması veya ana kitle oranı,
nokta tahmini veya aralıklı tahmin olmak üzere iki farklı şekilde tahmin edilebilir. Eğer ana
kitleden seçilen örnekten hesaplanan istatistik tek bir noktaya ait ise bu “nokta tahmin”dir.
Yani ana kitle ortalaması veya oranı tek bir nokta olarak tahmin edilmektedir. Nokta
tahminleri genellikle tahmine ilişkin en yüksek hata payını ifade eden hata sınırları ile birlikte
verilmektedir.
 
Hata sınırı = x ± z   veya x ± z S (Ortalama için)
x x

 
Hata sınırı = p ± z   veya p ± z S (Oran için)
x x

Hata sınırı belirlenirken öncelikle örneğe ait standart sapma hesaplanır ve bu değer ilgili
güven derecesini yansıtan “z” değeri ile çarpılır. “z” değeri, ilgili güven derecesi için standart
normal dağılım tablosundan bulunmaktadır.
Aralıklı tahminde ise, ana kitle parametresini tek bir noktada tahmin etmek yerine,
nokta tahmini etrafında ana kitle parametresinin içinde yer aldığı bir aralık oluşturulur ve ana
kitle parametresi için olasılıklı yorum yapılır. Aralıklı tahmin yapabilmek için örnekten
hesaplanan ortalama veya orandan bir sayı çıkartılarak alt sınır ve ortalama veya orana bir
sayı ilave edilerek üst sınır bulunmaktadır. Bu durumda, ortalama veya orandan çıkartılacak
veya eklenecek sayının nasıl belirleneceği problemi ortaya çıkmaktadır. Bu sorunun cevabı
içinde iki önemli unsur yer almaktadır; (i) örneğe ait standart sapma ve (ii) aralığa ilişkin
güven derecesi. Yani ortalama veya orana örnekten hesaplanan standart sapma ile istenen
güven derecesini yansıtan “z” veya “t” değerinin çarpımı sonucu bulunan değer ilave edilmeli
veya çıkartılmalıdır. Ortalama veya orana ait standart sapma ne kadar büyük olursa eklenecek
veya çıkartılacak sayı o kadar büyük olacaktır. Aralık tahmininde genellikle olasılıklı yorum
kullanılmaktadır. Bu olasılık “güven derecesi” nden kaynaklanmaktadır. Bu sebeple istenen
güven derecesinde oluşturulan aralığa “güven aralığı” denilmektedir. İstenen güven
derecesinde oluşturulan her bir aralık güven aralığıdır. Güven derecesi (1   )  100 ile
gösterilmektedir. Güven derecesi olasılık olarak ifade edilecekse (1   ) olarak ifade
edilmektedir ve buna “güven katsayısı” adı verilmektedir. Burada yer alan  , “önem düzeyi”
olarak bilinmektedir. Önem düzeyi daha sonra incelenecek olan hipotez testleri konusunda
detaylı olarak incelenecektir. Aralıklı tahmin yapılırken, bütün güven derecelerini seçmek
mümkünse de genellikle %90, %95 veya %99 güven dereceleri kullanılmaktadır.
Aralıklı tahmin yapılırken istatistikçilerden bazıları güven derecesini yansıtmak üzere
ana kitleye ait standart sapmanın bilinip bilinmediği kriterini esas almaktadırlar. Bu grup
istatistikçilere göre, ana kitleye ait standart sapma biliniyorsa “z” değerlerinin, bilinmiyorsa
“t”* değerinin kullanılması gerekmektedir. “t” dağılımı ileriki bölümlerde daha ayrıntılı bir
şekilde anlatılacaktır. Diğer gruptaki istatistikçiler ise, güven derecesini yansıtmak üzere
örnek hacmi kriterini kullanmaktadırlar. Bu grup istatistikçiler, örnek hacmi büyük olduğunda
“z” değerlerinin, küçük olduğunda “t” değerlerinin kullanılması gerektiğini savunmaktadırlar.
Örnek hacmi 30’dan büyük olduğunda, örnek hacmi büyük, küçük olduğunda ise örnek hacmi
küçüktür. Genellikle ana kitleye ait standart sapma bilinmediğinden biz örnek hacmi kriterini
kullanacağız. Buna göre aralıklı tahminde kullanılan formüller aşağıda verilmiştir.


x  zS  n  30 (Ortalama için)
x


x  tS  n  30 (Ortalama için)
x


p ± z S np  5 ve nq  5 (Oran için)
x

Güven aralığı formüllerinde yer alan zS  ve tS  ifadeleri tahmine ait en büyük hata olarak
x x

bilinmektedir ve E harfi ile gösterilmektedir. Örnek olarak %95 güven derecesinde ana kitle
ortalaması için “güven aralığı” oluşturduğumuzu düşünelim. %95 güven aralığının anlamı;
ortalamaya ait normal dağılım eğrisinde ana kitle ortalamasının her iki tarafında yer alan

x değerleri arasında kalan alanın 0.95 olmasıdır. İstenen güven derecesini yansıtacak “z”
değeri bulunurken verilen güven katsayısı (0.95) normal dağılım simetrik olduğundan 2’ye
bölünmektedir. Bu değer 0.95/2=0.4750’dir ve standart normal dağılım tablosundan
bakıldığında z=1.96’ya tekabül etmektedir.

0.4750 0.4750

-1.96 0 1.96

*
“t” dağılımı standart normal dağılımdan daha yayvan olan özel bir dağılımdır. Bu dağılımın tek parametresi
serbestlik derecesidir. Bu dağılımın ortalaması sıfır, standart sapması SD /( SD  2) ’dir. Örnek hacmi 30’u
geçtiğinde (n>30), bu dağılım standart normal dağılıma dönüşür.
(1   )  100 güven düzeyinde, iki “z” değeri arasında (  z  x  z ) kalan alan
(1   ) ’ya eşittir. Standart normal dağılım altında kalan alan 1’e eşit olduğundan, eğrinin iki
ucunda (kuyruğunda) kalan alan  ’ya eşittir. Örneğimiz için bu   1  0.95  0.05 ’dir.

Eğrinin iki ucu (kuyruğu) olduğundan her bir uca düşen alan =0.0025’e eşittir.
2

1

 
2 2
0

Örnek
Türkiye’de imalat sanayiinde çalışan bir işçinin ortalama kazancının 466.42 milyon
TL/ay olduğu tespit edilmiştir. Bu ana kitleden tesadüfen seçilmiş 1000 işçinin aylık
kazançlarına ilişkin standart sapma 70 milyon TL/ay olarak hesaplanmıştır. İmalat sanayiinde
işçilerin ortalama aylık gelirlerine ait %95 güven derecesinde nokta tahminini ve %99 güven
derecesinde güven aralığını tahmin ediniz?

Çözüm:
n  1000

x  466.42
S   70
x

Nokta tahmin ve hata sınırı



x ± z S 466 .42  (1.96 )(70 / 1000 ) 466.42  4.339
x

Aralıklı tahmin
Güven katsayısı:0.99/2=0.4950 z = 2.58

x ± z S  = 466.42 ± (2.58)(2.2136) = 466.42 ± 5.71
x

460.71<x<472.13
Türkiye’de imalat sanayiinde çalışan işçilerin ortalama geliri %99 olasılıkla 460.71 milyon
TL ile 472.13 milyon TL arasındadır.

Örnek:
Süper marketler zinciri olan bir firma yeni bir mağaza açmak için alan aramaktadır.
Firma market açacağı alanın çevresinde yaşayan ailelerin ortalama gelirlerinin en azından
yılda 5 milyar TL olmasını istemektedir. Bu firmanın araştırma bölümü bu alandan 25 aile ile
görüşüp ortalama yıllık gelirlerinin 4.5 milyar TL olduğunu ve buna ait standart sapmanın 450
milyon TL olduğunu tespit etmişlerdir. Ailelerin yıllık ortalama gelirleri için %95 güven
derecesinde güven aralığını oluşturun? Milyar TL bu aralığa girmekte midir? Bu sonuca göre
firma bu alanda market açmalı mıdır?

Çözüm:
n  25

x  4.5 milyar TL/yıl
S  0.45 milyar TL/yıl

S   0.45 / 25  0.09
x

n<30 olduğundan burada güven derecesini yansıtmak için “t” değeri kullanılmalıdır.
Serbestlik derecesi (SD) = n-1=25-1=24’dür. “t” dağılımının her iki ucundaki güven
derecesini bulmak için güven derecesi 2’ye bölünür 0.95/2=0.4750. Buna karşılık gelen “t”
değeri 2.064’dür.


x  tS   4.5  (2.064)(0.09)  4.5  0.186
x

4.314  x  4.686

Dolayısıyla 5 milyar TL %95 ihtimalle bu aralığa düşmemektedir. Bu sebeple bu alanda


market açılmamalıdır.
Örnek:
Herhangi bir gıda firması piyasaya yeni bir bisküvi çeşidi sürecektir. Firma ürünü
piyasaya sürmeden önce müşterilerin ne oranda bu bisküviden hoşlanacağını merak
etmektedir. Firmanın araştırma bölümü tesadüfi olarak seçilmiş 500 kişiye yeni bisküviyi
tattırıyor ve tadını nasıl bulduklarını öğreniyor. İncelene 500 kişiden 290 kişi yeni bisküviyi
beğendiğini söylüyor.
a) Ana kitle oranı için nokta tahmini yapınız ve %95 güven derecesinde buna ait hata
sınırını belirleyiniz.
b) %99 güven düzeyinde, insanların yüzde kaçının bu bisküviden hoşlanacağını bulunuz?

Çözüm:
a)
n  500

p  290 / 500  0.58

q  1  0.58  0.42
 
pq (0.58)(0.42)
S    0.0221
p n 500
Hata sınırı = 0.58 ± (1.96)(0.0221)= 0.58 ± 0.043

b)
0.99/2= 0.4950 z  2.58

p  zS   0.58  (2.58)(0.0221)  0.58  0.057
p

0.523  x  0.637
%95 güven aralığında insanların %52.2’si ile %63.7’si yeni bisküviden hoşlanacaklar.

6.2.1. Tahminin özellikleri


Hata payı düşük olan tahmin en iyi tahmindir. Diğer bir ifade ile parametre ile örnek
istatistiği arasındaki farkın en az olması istenmektedir. Tahminlerin iyi veya kötü olduğuna
karar vermede (i) sapmasızlık, (ii) tutarlılık ve (iii) etkinlik olmak üzere üç temel kriter
kullanılmaktadır. Ana kitle parametresi ile örnekten hesaplanan istatistik arasındaki fark,
tahmine ait sapmayı göstermektedir ve bu sapmanın mümkün olduğu kadar küçük olması
istenmektedir. O halde iyi bir tahmin mümkün olan en küçük sapmaya sahip olmalıdır.
Örnekten elde edilen tahminlerin, mümkün olduğunca ana kitle parametresine yığılma
göstermesi gerekmektedir. Başka bir ifade ile, tahminlerin varyansı yani standart sapması
olabildiğince küçük olmalıdır.
Tahminin üçüncü özelliği ise tutarlılıktır. Eğer örnek hacmi arttıkça, örnekten
hesaplanan tahmin değerleri ana kitle parametreleri etrafında giderek yığılma gösteriyorsa, bu
tahminin tutarlı olduğunu göstermektedir.

 
b b b b
Sapmasız tahmin Sapmalı tahmin

 
b b b b
Etkin tahmin Etkin olmayan tahmin

n1

n2

b
Tutarlı tahmin (n1>n2)
6.3. Tahmin İçin En Uygun Örnek Hacminin Belirlenmesi
Örnekleme yapabilmek için izin verilen hata payının ve güven derecesinin bilinmesi
gerektiği daha önce belirtilmişti. Şu ana kadar örneklerin ana kitleden nasıl çekileceği konusu
incelenmişti, ancak ana kitleyi temsil edecek örnek büyüklüğünün nasıl belirlendiği
açıklanmamıştı. Şimdi ana kitleyi temsil edecek örnek büyüklüğünün nasıl belirleneceği ana
kitleye ait ortalama ve oranın tahmini için ayrı ayrı incelenecektir.

6.3.1. Ortalamanın tahmininde örnek hacminin belirlenmesi


Daha önce tahmine ait en büyük hatanın E  z  olduğu ve örnekleme dağılımına ait
x


standart sapmanın    formülü ile hesaplandığı belirtilmişti. Bu durumda en büyük hata
x n

payına ait formül E  z. şekline dönüşmektedir. Ortalamanın tahmini için öncelikle izin
n
verilen hata payının ve istenen güven derecesinin önceden ilgili kişi tarafından belirlenmesi
koşuluyla en uygun örnek büyüklüğü aşağıdaki formül yardımıyla belirlenmektedir.

z 2 2
n
E2
Formülde n gerekli örnek büyüklüğünü,  ana kitleye ait standart sapmayı, z istenen güven
derecesini yansıtan standart normal dağılım tablosundaki değeri ve E ortalamadan izin verilen
en büyük hata miktarını ifade etmektedir.
Eğer ana kitleye ait standart sapma bilinmiyorsa, ana kitleden çekilen çok küçük bir
örnek için hesaplanan standart sapma değeri (S) formülde kullanılabilmektedir.

Örnek:
Türkiye’de %99 güven derecesinde ortalama aile büyüklüğünün tahmin edilmeye
çalışıldığını varsayalım.Ortalama aile büyüklüğüne ait standart sapmanın 0.6 olduğu
bilindiğine göre, ortalamadan izin verilen en büyük hata %1 ise en uygun örnek büyüklüğü
nedir?
Çözüm:

x  0.01
E  0.01
%99 güven derecesi için z = 2.58 olduğuna göre,
z 2 2 (2.58) 2 (0.6) 2
n   23963.04  23964
E2 (0.01) 2
örnek hacmi 23964 olarak bulunur. Yani Türkiye’de ortalama aile büyüklüğünü %99 güven
derecesinde ve izin verilen en büyük hata %1 olacak şekilde tespit etmek için 23964 kişi ile
anket yapılmak zorundadır.

6.3.2. Oranın tahmininde örnek hacminin belirlenmesi


Daha önce oranın tahminine ait en büyük hatanın E  z  olduğu ve orana ait
p

pq
örnekleme dağılımına ait standart sapmanın    formülü ile hesaplandığı belirtilmişti.
p n

pq
Bu durumda en büyük hata payına ait formül E  z. şekline dönüşmektedir. Oranın
n
tahmini için öncelikle izin verilen hata payının ve istenen güven derecesinin önceden ilgili
kişi tarafından belirlenmesi koşuluyla en uygun örnek büyüklüğü aşağıdaki formül yardımıyla
belirlenmektedir.

z 2 pq
n
E2

Formülde n gerekli örnek büyüklüğünü, p ana kitle içinde istenen durumun oranını, q ana
kitle içinde istenmeyen durumun oranını, z istenen güven derecesini yansıtan standart normal
dağılım tablosundaki değeri ve E orandan izin verilen en büyük hata miktarını ifade
etmektedir.
Eğer ana kitleye ait p bilinmiyorsa, bu durumda ya p  q  0.5 olarak kabul edilip
 
hesaplama yapılamalı, ya da küçük bir örnek çekilerek p ve q hesaplanmalı ve formülde
kullanılmalıdır.

Örnek:
Saat üreten bir firma, saat yapımında kullanılan bir parçayı yapan yeni bir makine
kurmuştur. Firma bu makinenin hatalı parça üretme oranını tahmin etmek istemektedir. Firma
yöneticisi bu tahmini yaparken orandan izin verdiği en büyük hata payı %2’dir ve bunu %95
güven derecesinde gerçekleştirmek istemektedir. En uygun örnek hacmi nedir?
Çözüm:

p  0.02
E  0.02
%95 güven derecesi için z = 1.96 olduğuna göre, p  0.5 ve q  0.5 kabul edilirse

z 2 pq (1.96) 2 (0.50)(0.50)
n   2401
E2 (0.02) 2
örnek hacmi 2401 olarak bulunur. Yani firma %95 güven derecesinde ve izin verilen en
büyük hata %2 olacak şekilde arızalı parça oranını tespit etmek için 2401 parça almak
zorundadır.

6.4. Hipotez Testi ve Test Dağılımları


Hipotez testi, örnekten elde ettiğimiz bilgilere dayanarak, ana kitle parametresinin
doğru olup olmadığını ortaya koymak amacıyla kullanılmaktadır. Hipotez testine neden gerek
duyulur? Bu sorunun cevabını bir örnekle açıklamaya çalışalım. Örneğin meşrubat üreten bir
firmanın meşrubat şişelerinin ortalama 120 ml’dir. Firmanın ürettiği meşrubatlardan 100
şişelik bir örnek aldığımızı ve bunun ortalamasının 119 ml olduğunu düşünelim. Buna
dayanarak firmanın halkı yanılttığını söyleyebilir miyiz? Elbette böyle bir yargıyı hemen
veremeyiz. Çünkü ana kitle ortalaması ile örnek ortalaması arasındaki fark tesadüften ve
örnekleme hatasından kaynaklanabilir. Bu sebeple hipotez testi yapmadan, yani ana kitle
ortalaması ile örnek ortalaması arasındaki farkın tesadüften kaynaklanıp, kaynaklanmadığı
ortaya konulmadan kesin hükümler vermek bizi yanlışlara sevk edecektir.
İstatistik açıdan hipotez testi aşağıda belirtilen ve birbirine bağlı olan 5 farklı
basamakta gerçekleştirilmektedir.

1. Başlangıç ve alternatif hipotezin oluşturulması


2. Hipotez testinde kullanılacak test dağılımının seçilmesi
3. Kabul ve red bölgelerinin belirlenmesi
4. Test istatistiğinin hesaplanması
5. Karar verilmesi
6.4.1. Hipotezlerin oluşturulması
Hipotez testi yapılırken bir tanesi “başlangıç hipotezi”, diğeri ise “alternatif hipotez”
olmak üzere iki hipotez kullanılmaktadır. Bu hipotezleri anlamak için istatistik dışında bir
örnek kullanalım. Şimdi bir kişinin cinayet suçuyla tutuklandığını ve mahkemeye çıkarıldığını
düşünelim. Mahkeme mevcut kanıtlara dayanarak aşağıda belirtilen iki sonuçtan birine
ulaşacaktır.
1. Bu kişi suçsuzdur.
2. Bu kişi suçludur.
Mahkeme sonuçlanıncaya kadar bu kişinin suçsuz olduğu kabul edilir. Savcılar bu
kişinin cinayeti işlediğini, yani bu kişinin suçlu olduğunu ispatlamaya çalışırlar. İstatistikte
“bu kişi suçsuzdur” ifadesi başlangıç hipotezi ve “bu kişi suçludur” ifadesi ise alternatif
hipotezdir. Başlangıç hipotezi H 0 , alternatif hipotez ise H 1 ile gösterilmektedir. Başlangıç
hipotezi daima ana kitleye ait ilk ifadenin doğru olduğunu kabul etmektedir. Alternatif
hipotez ise, bu ifadenin yanlışlığını gösterir. Özetle, istatistikte daima bir şeyin doğru
olduğunu ispatlamak yerine, onun yanlış olduğunu ispatlamak esastır. Şimdi bu bilgiler
ışığında hipotezlerimizi yazalım:
Başlangıç hipotezi H 0 : Bu kişi suçsuzdur

Alternatif hipotez H1 : Bu kişi suçludur

Şimdi birde istatistikle ilgili bir örnekle konuyu daha iyi anlamaya çalışalım. Hipotez
testi konusunun başlangıcında verilen meşrubat örneğinde, firma bir meşrubat şişesinin
ortalama   120 ml olduğunu savunuyordu. Oysa örnekten bir şişe için hesaplanan ortalama

x  119 ml’dir. Bu durumda hipotezler aşağıdaki gibi olacaktır:

H 0 :   120 (Firmanın ifadesi doğru)

H1 :   120 (Firmanın ifadesi yanlış)

6.4.2. Test dağılımları


İstatistik açıdan hipotez testi yapılırken, kullanılacak test dağılımının belirlenmesi
ikinci basamağı meydana getirmektedir. Test istatistiği seçilirken hipotez testinin ne amaçla
yapıldığının ve eldeki verilerin özelliğinin ne olduğunun bilinmesi gerekmektedir.
İstatistikte genellikle aşağıda belirtilen üç farklı olayın veya sonucun ihtimali
belirlenmeye çalışılmaktadır;
1) Ana kitleden çekilen örneklerin belirli bir özellik açısından ana kitleyi temsil edip
etmediği,
2) Belirli bir değişken açısından gruplar arasında fark olup olmadığı yani, iki örnek
ortalamasının veya ortalamalar arasındaki farkın farklılığı tesadüften mi kaynaklandığı
yoksa gerçek mi,
3) İki değişken arasında istatistik açıdan önemli bir ilişki olup olmadığı.

Hangi istatistik test kullanılacağına karar verilirken öncelikle hipotez testinin ne


amaçla yapıldığına karar verilmelidir. İlgilenilen değişken için gruplar arasında fark olup
olmadığı ile mi ilgileniliyor, yoksa değişkenler arasında ilişkinin varlığımı belirlenmeye
çalışılıyor. İlişki testleri iki değişken arasında ilişki olup olmadığını incelerken, farklılık
testleri ilgilenilen değişken bakımından gruplar arasında fark olup olmadığını incelemektedir.
İkinci olarak veri setinde bulunan verilerin düzenlenmiş olup olmaması kullanılacak testin
seçimi açısından büyük önem taşımaktadır. Sınıflandırılmış verilerde, daha çok her bir gruba
giren frekanslar ilgi odağı olmaktadır. Sınıflandırılmamış verilerde ise merkezi eğilim veya
merkezi yayılma ölçüleri ile tanımlanan veriler üzerinde çalışılmaktadır. Test seçiminde
dikkat edilmesi gereken üçüncü husus, verilerin dağılımına ilişkin bir varsayımın yapılıp
yapılmadığı ile alakalıdır. Parametrik testler verilerin dağılımına parametrik olmayan
testlerden daha bağlıdır. Parametrik testlerin kullanılabilmesi için, değişken ölçüm düzeyinin
oran veya aralık olması, verilerin normal dağılım göstermesi veya normal dağılıma yakın bir
dağılıma sahip olması ve homojen varyans olması gerekmektedir (Boneu, 1960; Wilcox,
1987). Oysa parametrik olmayan testlerde verilerin dağılımı daha az önem taşımaktadır ve bu
sebeple dağılımdan bağımsız testler olarak ta bilinmektedirler. Amacımıza ulaşabilmek için
parametrik mi yoksa parametrik olmayan testler kullanılacağına karar verirken, sahip olunan
verilerin ölçüm düzeyi büyük önem taşımaktadır. Genellikle sınıf ve sıra verilerde parametrik
olmayan testler kullanılıyorken, aralık ve oran verilerde parametrik testler kullanılmaktadır.
Ancak zaman zaman oran/aralık veriler ile sıra/sınıf veriler birbiri ile karşılaştırılmaktadır. Bu
durumda her iki test grubunu da kullanmak mümkün olabilmektedir. Lord (1953) parametrik
testlerin sıra verilere de uygulanabileceğini savunmuştur. Dördüncü olarak, iki veya daha
fazla grup karşılaştırılıyorken, bu grupların birbirinden bağımsız gözlemleri mi içerdiği, yoksa
karşılaştırılan grupların verileri arasında ilişkimi olduğu bilinmelidir. Zira bu durum test
seçimini doğrudan doğruya etkilemektedir. Test seçiminde dikkat edilecek son husus,
karşılaştırılan grup sayısı ile alakalıdır. Grup sayısı arttığında kullanılan testler ile, az
olduğunda kullanılan testler birbirinden farklılık göstermektedir.
Veri setinde bulunan gözlemlerin dağılımının beklenen teorik bir dağılıma uyup
uymadığının test edilmesinde “uygunluk (Goodness of fit) testi” kullanılmaktadır. Ayrıca her
hangi bir veri setinde bulunan gözlemlerin dağılımının normal olup olmadığının
belirlenmesinde eğrilik ve diklik katsayılarından yararlanılmaktadır. Öncelikle ilgili katsayılar
hesaplanmakta, daha sonra istatistik hipotez testi ile dağılımın normal olup olmadığı test
edilmektedir.
İki veya daha fazla grubu birbiri ile karşılaştırmada kullanılan testler ise Çizelge 6.3’te
özetlenmiştir.

Çizelge 6.3. Gruplar Arasında Farklılık Olup Olmadığının Belirlenmesinde Kullanılan Testler
Veri özelliği Test tipi Veri tipi Grup Test adı
sayısı
Sınıflandırılmış Parametrik olmayan İlişkisiz 1 Binomial
1 Ki kare testi
2 Fisher tam olasılık testi
2+ Ki kare testi
İlişkili 2 McNemar Testi
3+ Cochran Q testi
Sınıflandırılmamış Parametrik olmayan İlişkisiz 1 Kolmogorov-Simirnov tek örnek
2 testi
2 Kolmogorov-Simirnov çift örnek
2+ testi
3+ Mann-Whitney U testi
İlişkili 2 Medyan testi
2 Kruskal-Wallis H testi
3+ İşaret testi (sign test)
Wilcoxon işaretli mertebeler testi
Friedman two way anova
Parametrik İlişkisiz 1 t testi
2 t testi
2+ Tek ve Çift Yönlü varyans analizi
İlişkili 2 T testi
3+ Basit faktöryel varyans analizi
İlişkili/ilişkisiz 2+ Tek yönlü kovaryans analizi
İki yönlü basit faktöryel ilişkisiz
varyans analizi

Değişkenler arasında istatistik açıdan önemli bir ilişkinin olup olmadığı konusu da
istatistikte sık incelenen konuların başında gelmektedir. Değişkenler arasında ilişki olup
olmadığının belirlenmesinde kullanılan testler Çizelge 6.4’te verilmiştir.
Çizelge 6.4. Değişkenler Arasında İlişki Olup Olmadığının Belirlenmesinde Kullanılan Testler
Veri özelliği Test tipi Test adı
Sınıflandırılmış Parametrik Phi katsayısı
olmayan Pearson olağanlık katsayısı (contingency coefficient)
Cramer V
Goodman ve Kruskal lamda (  )ölçüsü
Goodman ve Kruskal tau değeri (  )
Parametrik Kendall tau (  ) a değeri
Sınıflandırılmamış olmayan Kendall tau (  ) b değeri
Kendall tau (  ) c değeri
Goodman ve Kruskal gama (  ) ölçüsü (tek yönlü simetrik ilişki ölçümü)
Somer d değeri (asimetrik ilişki ölçümü)
Spearman sıra korelasyon katsayısı
Mantel-Haenszel ki kare
Kendall kısmi sıra korelasyon katsayısı
Kısmi gama (  ) ölçüsü

Parametrik Pearson moment korelasyonu


Pearson kısmi korelasyonu
Eta değeri
Standartlaştırılmamış regresyon katsayısı
Standartlaştırılmış regresyon katsayısı
Part korelasyon

Hipotez testinde test dağılımları olarak (i) z dağılımı, (ii) t dağılımı, (iii) Ki kare
(  2 ) dağılımı ve (iv) F dağılımı olmak üzere 4 farklı dağılım kullanılmaktadır. Şimdi bu
dağılımları ayrı ayrı inceleyelim.

1. z dağılımı:
Daha önceki bölümlerde standart normal dağılım olarak incelediğimiz bu dağılım,
normal dağılımın özel bir halidir. Standart normal dağılımın ortalaması ( ) sıfır ve standart
sapması ( ) 1’dir. Bu dağılımda değerler, sürekli tesadüfi değişkenin değerinin temsil eden
“z” değerleridir. “z” değeri aynı zamanda “standart birim” veya “standart skor” olarak da
isimlendirilmektedir. “z” değerleri, tesadüfi değişkenlerin ortalamadan standart sapma olarak
uzaklıkları ifade etmektedir. Örneğin z=2 ise, bu değer ortalamanın 2 standart sapma
sağındaki değeri ifade etmektedir. “z” değerleri 0 ile 3.90 arasında değişen değerler
almaktadır. Standart normal dağılımdan yararlanarak iki değer arasında kalan alanı bulmak
için hazırlanmış olan “z” tablosundan yararlanılmaktadır. “z” tablosunda satırlar virgülden
sonra bir duyarlılığa sahip “z” değerlerini sütunlar ise virgülden sonraki duyarlılıkları ifade
etmektedir. Bu tablo kullanılırken ilgili z değerinin karşısında bulunan değer 0 ile ilgilenilen
“z” değeri arasında kalan alanı vermektedir.
Eğer ana kitleye ait standart sapma biliniyorsa veya örnek hacmi yeterince büyükse
(n>30), test dağılımı olarak “z dağılımı” kullanılmalıdır.

2. t dağılımı
Sürekli bir olasılık dağılımı olan t dağılımı, standart normal dağılımın özel bir halidir.
t dağılımı standart normal dağılımdan daha yayvan olan özel bir dağılımdır. Bu dağılımın tek
parametresi serbestlik derecesidir. Bu dağılımın ortalaması sıfır, standart sapması
SD /( SD  2) ’dir. Örnek hacmi 30’u geçtiğinde (n>30), bu dağılım standart normal

dağılıma dönüşmektedir. t dağılımın ait eğrinin şekli serbestlik derecesine bağlıdır. Bu


dağılımın serbestli derecesi örnek hacminin 1 eksiğine eşittir ( SD  n  1) . t dağılımında
kullanılacak olan test istatistiği bulunurken serbestlik derecesi ve güven katsayıları için
hazırlanmış t tablosundan yararlanılmaktadır. t tablosu tek taraflı hazırlanabileceği gibi, çift
taraflı olarak da hazırlanabilmektedir. Tablo tek taraflı hazırlandığında, t dağılımı simetrik
olduğundan bulunan t değeri negatif taraf için negatif, pozitif taraf için pozitif olup birbirine
eşittir.
Hipotez testlerinde ana kitleye ait standart sapma bilinmediğinde, örnek hacmi küçük
olduğunda (n<30) ve ana kitleden çekilen örnekler normal veya normale yakın dağıldıklarında
t dağılımı kullanılmaktadır.

3. Ki kare (  2 ) dağılımı
Ki kare dağılımı simetrik olmayıp sağa çarpık olan sürekli bir olasılık dağılımıdır.
Serbestlik derecesi (n-1) arttıkça çarpıklık azalmaktadır. Her bir serbestlik derecesi için ayrı
bir  2 dağılımı söz konusudur. Serbestlik derecesi 30’dan büyük olan  2 dağılımları simetrik
hale gelmekte ve normal dağılıma dönüşmektedirler. Aşağıda farklı serbestlik dereceleri için
ki kare  2 dağılımının şekli gösterilmiştir.

 2 dağılımı ikiden fazla grup olan deneme sonuçlarına ait hipotezlerin test
edilmesinde, çapraz tablolar oluşturularak bağımsızlık testlerinin yapılmasında, homojenlik
testinin gerçekleştirilmesinde ve ana kitleye ait varyans veya standart sapmaların
karşılaştırılmasında kullanılmaktadır.

SD=1

SD=4 SD=20

Farklı Serbestlik Derecelerinde  2 Dağılımları

 2 dağılımı özellikle ikiden fazla sonuca sahip denemelerde hipotez testini


gerçekleştirmek için kullanılmaktadır. Bu denemelerin 4 temel özelliği bulunmaktadır.
Bunlardan birincisi n sayıda denemenin yapılıyor olmasıdır. İkinci olarak her bir denemenin
2’den fazla sonucu bulunmaktadır. Denemelerin bağımsız olması ise üçüncü temel özelliği
oluşturmaktadır. Son olarak olasılılar deneme boyunca sabit olmaktadır. Bu tür denemeler
“multinomial deneme” adı verilmektedir. Tesadüfen seçilmiş kişilere “amerikan otomobili”
“japon otomobili” nden daha iyi midir şeklinde sorulsa, kişilerin bu soruya vereceği cevap
evet, hayır veya karasızım olacaktır. Bu örnekte soru yöneltilen her bir kişi deneme sayısını
ifade etmektedir ve kişilerden alınan cevapları ikiden fazla sonucu kapsamaktadır. Ayrıca her
bir kişinin verdiği cevapta birbirinden bağımsızdır. Dolayısıyla bu multinomial denemeye iyi
bir örnek teşkil etmektedir. Bu gibi durumlarda 2 dağılımı hipotez testi için
kullanılmaktadır. Burada gözlenen frekansların beklenen teorik bir dağılıma uyup uymadığı
test edilmektedir (Goodness of fit test).  2 dağılımı aynı zamanda bağımsızlık testi ve
homojenlik testi içinde kullanılmaktadır.

4. F dağılımı:
İki farklı örnekten veya ana kitleden hesaplanan varyansın karşılaştırılmasında F
dağılımı kullanılmaktadır. F dağılımı v1 ve v 2 olmak üzere iki tam sayılı parametresi olan
sürekli bir olasılık dağılımıdır. v1 payın serbestlik derecesini, v 2 ise paydanın serbestlik
derecesini ifade etmektedir. F dağılımı simetrik olmayan, sağa çarpık bir dağılımdır. Her bir
serbestlik derecesi çifti için farklı bir dağılım olduğundan çok sayıda F dağılımı vardır. Örnek
2
S1
hacimleri birbirinden farklı iki örnekten hesaplanan varyansların karşılaştırılmasında F  2
S2
eşitliği kullanılmaktadır. Bu oranın normal koşullarda 1 olması beklenmektedir. Ancak bu
oran genellikle birden farklıdır ve dolayısıyla çok sayıda F değeri mevcuttur. Bu F
değerlerinin gösterdiği dağılım ise F dağılımıdır.

F Dağılımı F

F dağılım tablosundan yararlanırken iki farklı serbestlik derecesi olduğu


unutulmamalıdır. İlgili serbestlik derecelerine ait F değeri F( v1 ,v2 ) şeklinde gösterilmektedir.
F tablosunda sütunlar paya ait ( v1 ), satırlar ise paydaya aittir ( v 2 ). Bu durumda eğer F(7,
15) için F tablosundan F değeri bulunacaksa tabloya aşağıdaki gibi bakılır:

SD .............................. 7

15 ................................ (F)

İstatistikte kullanılan testleri, kullandıkları test dağılımlarına göre de sınıflandırmak


mümkündür. Kullandıkları test dağılımlarına göre istatistik testler Çizelge 6.5’te verilmiştir.
Çizelge 6.5. Kullandıkları Test Dağılımlarına Göre İstatistik Testler
Test dağılımı Test adı
Binomial Binomiyal (n<26, p=0.5)
İşaret testi (<26 fark)

Ki kare Ki kare testi


Pearson olağanlık katsayısı
Friedman 2 yönlü varyans analizi
Tek yönlü kolmogorov-simirnov testi (n1+n2<60)
Kruskal-Wallis testi
McNemar testi
Medyan testi
Phi katsayısı

F Varyans ve kovaryans analizi


2 ve daha fazla grupta eş varyans analizi
Çoklu korelasyon
Çoklu regresyon

t Regresyon katsayılarının testi


2 gruplu ortalama karşılaştırmaları
Pearson korelasyon katsayısı
Spearman Rho

z Kendall tau c
Eğrilik katsayısının testi
Diklik katsayısının testi
Mann-Whitney U (n1+n2<20)
İşaret testi (>25 fark)
Wilcoxon testi (>25 fark)

6.4.3. Kabul ve red bölgeleri


Hipotez testi gerçekleştirilirken üçüncü işlem başlangıç hipotezi için kabul ve red
bölgelerinin belirlemektir. Kabul ve red bölgelerinin belirlenmesi için “kritik değer” veya
“kritik nokta” nın (C) tespit edilmesi gerekmektedir. Kritik nokta öyle bir noktadır ki, bu
noktanın bir tarafında başlangıç hipotezi kabul edilmekte, diğer tarafında ise red edilmektedir.
İstatistikte başlangıç hipotezinin red edilmesi ile alternatif hipotezin kabul edilmesi aynı şeyi
ifade etmektedir. Eğer hipotez testi iki taraflı yapılıyorsa iki kritik nokta, tek taraflı
yapılıyorsa tek bir kritik nokta bulunmaktadır. Aşağıda kritik nokta, kabul ve red bölgeleri
şekil üzerinde gösterilmiştir.
Kabul bölgesi

Red bölgesi Red bölgesi

C1  C2

Kritik nokta Kritik nokta

ÇİFT TARAFLI
Kabul bölgesi

Red bölgesi

 C1

Kritik nokta
TEK TARAFLI (Pozitif)
Kabul bölgesi

Red bölgesi

C1 

Kritik nokta
TEK TARAFLI (Negatif)
6.4.4. Tek taraflı ve çift taraflı hipotez testi
Hipotez testi tek taraflı yürütülebileceği gibi, çift taraflı da yürütülebilmektedir.
İstatistik testler bir çok yönüyle bir kişinin mahkemede yargılanması sürecine benzemektedir.
Ancak, istatistik hipotez testinde kabul ve red bölgelerinin önem düzeyine ( ) bağlı olması ve
testin her iki tarafta da uygulanabiliyor olması, istatistik hipotez testlerini mahkemede
yaşanan olaylardan ayıran iki temel noktadır. Zira mahkemede kabul ve red bölgeleri önceden
belirlenmiş değildir ve daima kişilerin suçlu veya suçsuz olduğuna karar vermede
kullanılacak red bölgesi kritik noktanın sağ tarafında yer almaktadır.
Hipotez testinde, iki adet red bölgesi varsa buna “çift taraflı test” adı verilmektedir.
Çift taraflı testte önem düzeyi ( ) , dağılımın sağ ve sol ucuna eşit bir şekilde ( / 2)
paylaştırılmaktadır. Eğer hipotez testinde red bölgesi tek bir tarafta bulunuyorsa, bu “tek
taraflı testi” ifade etmektedir. Tek taraflı test, dağılımın sağ ucunda (sağ taraf testi)
yapılabileceği gibi, sol ucunda da (sol taraf testi) yapılabilmektedir.
Hipotez testinin tek taraflı mı, yoksa çift taraflı mı yürütüleceği başlangıç ve alternatif
hipotezlerinde kullanılan işaretlere bağlıdır. Eğer başlangıç hipotezinde eşitlik (=) ve
alternatif hipotezde eşitsizlik () ifadesi kullanılmış ise hipotez testi çift taraflı yürütülmelidir.
Hipotez testi yapılırken başlangıç hipotezi =,  veya  işaretlerine, alternatif hipotez < veya
> işaretlerine sahipse tek taraflı test uygulanmalıdır. Alternatif hipotez > işaretine sahip
olduğunda tek taraflı test “sağ uçta”, < işaretine sahip olduğunda test “sol uçta” yapılmalıdır.
Hipotezlerin işaretleri ve tek taraflı ve çift taraflı test arasındaki bağlantılar Çizelge 6.2’de
verilmiştir.

Çizelge 6.2. Çift Taraflı ve Tek Taraflı Testler ve Hipotezlerin İşaretleri


Tek taraflı test
Çift taraflı test Sol uç Sağ uç
Başlangıç hipotezinin işareti (H0)   veya   veya 
Alternatif hipotezinin işareti (H1)  < >
Red bölgesi Her iki uçta Sol uçta Sağ uçta
6.4.5. Test istatistiklerinin hesaplanması
Hipotez testi uygulanırken, yapılacak dördüncü işlem daha önce belirlenmiş test
dağılımlarının özelliklerinden yararlanılarak tespit edilmiş olan test istatistiği formüllerini
kullanarak test istatistiğini hesaplamaktır. Hipotez testinde kullanılan dağılımlar için test
istatistiklerinin hesaplanmasında kullanılan formüller aşağıda verilmiştir.

z dağılımı:
“z” dağılımında tek bir ana kitleden çekilmiş örneklerden hesaplanan ortalama ve oran
için test istatistiğinin hesaplanmasında aşağıdaki eşitlikler kullanılmaktadır.

x 
z (Ortalama için) (ana kitleye ait standart sapma biliniyorsa)
 
x


x 
z (Ortalama için)(ana kitleye ait standart sapma bilinmiyorsa)
S
x


p p
z (Oran için)
 
p


Eşitliklerde x örnekten hesaplanan ortalama değeri,  populasyonun ortalamasını,   ana
x


kitleye ait standart sapmanın örnek hacminin kareköküne bölümünü ( ) , S  örneğe ait
n x

S 
standart sapmanın örnek hacminin kareköküne bölümünü ( ) , p ana kitleye ait oranı, p
n

pq
örneğe ait oranı ve   ise örnekten hesaplanan orana ait standart sapmayı (   ) ifade
p p n
etmektedir.
z dağılımı aynı zamanda iki farklı ana kitlenin ortalaması arasındaki farkın test
edilmesinde de kullanılmaktadır. İki farklı ana kitleden elde edilen örnekler bazen birbiri ile
bağımsız, bazen de bağımlıdır. Örneklerin birbirinden bağımsız olması, farklı iki ana kitleden
çekilen örneklerin sahip oldukları bireylerin birbiri ile ilişki içerisinde olmadığını
göstermektedir. Örneğin çalışan erkekler ile bayanların ortalama ücretlerinin arasındaki farkı
tahmin etmeye çalıştığımızı düşünelim. Bu durumda iki farklı ana kitle ile karşı karşıya
bulunmaktayız. Dolayısıyla bu iki farklı ana kitleden çekilen örnekler birbirinden farklı
bireyleri içerdiğinden tamamen bağımsızdırlar. Ancak iki farklı ana kitleden çekilen örnekler
bir şekilde ilişki içerisinde ise örnekler birbirine bağımlı olmaktadır. Eğitim öncesi ve sonrası
banka çalışanlarının 1 saatte hizmet verdiği ortalama müşteri sayısı arasındaki farkı tahmin
etmeye çalıştığımızı düşünelim. Bu amaçla 20 banka çalışanının seçildiğini ve bunların eğitim
öncesi ve sonrası 1 saatte ortalama olarak ne kadar müşteriye hizmet verdiğini belirlediğimizi
varsayalım. Burada her iki örnekte aynı kişilerden oluştuğundan elde edilen iki örnek birbiri
ile ilişkilidir. Ortalamalar ve oranlar arasındaki farkın test edilmesinde kullanılan test
eşitlikler aşağıda verilmiştir.
 
( x1  x 2 )  ( 1   2 )
z (Ortalamalar arası fark için)
  
x1  x2

 
( p  p 2 )  ( p1  p 2 )
z 1 (Oranlar arası fark için)
S 
p1  p2

 
Ortalamalar arası fark için yazılan eşitlikte ( x1  x 2 ) örnek ortalamaları arasındaki farkı,

(1   2 ) ana kitle ortalamaları arasındaki farkı ve    ortalamalar arası farka ait standart
x1  x2

 12  22
sapmayı (      ) ifade etmektedir. Eğer ana kitlelere ait standart sapma
x1  x2 n1 n2
2 2
S1 S
bilinmiyorsa, bu durumda    yerine S   kullanılmaktadır ( S     2 ).
x1  x2 x1  x2 x1  x2 n1 n2
 
Oranlar arasındaki fark için yazılan eşitlikte ise ( p1  p 2 ) örneğe ait oranlar arasındaki farkı,

( p1  p2 ) ana kitlelere ait oranlar arasındaki farkı ve S   oranlar arası farka ait standart
p1  p 2

  1 1
sapmayı ifade etmektedir. Oranlar arası farka ait standart sapma S    p q(  )
p1  p2 n1 n2
 x1  x 2  
formülü ile hesaplanmaktadır. Bu formülde p  ’ye ve q  1  p ’ye eşittir.
n1  n2

t dağılımı:
t dağılımından yararlanarak hipotez testi yapmada, ortalama için test istatistiği
aşağıdaki formüller yardımıyla hesaplanmaktadır.

x  S
t S 
S x n
x


Formüllerde t t-dağılımı için test istatistiğini, x örneğe ait ortalama değeri ve S örneğe ait
standart sapmayı ifade etmektedir.
t dağılımı aynı zamanda örnek hacimleri küçük (n1<30 ve n2<30) ve örneklere ait
standart sapmalar eşit (  1   2 ) olduğunda normal dağılım gösteren iki farklı ana kitlenin
ortalaması arasındaki farkın test edilmesinde de kullanılmaktadır. Ancak iki ayrı ana kitleden
çekilen örneklerin bağımsız örnek olması gerekmektedir. Bu durumda kullanılacak test
istatistiğinin formülü aşağıda verilmiştir.
 
( x  x )  ( 1   2 )
t 1 2
S 
x1  x2

 
Eşitlikte ( x1  x 2 ) örnek ortalamaları arasındaki farkı, (1   2 ) ana kitle ortalamaları
arasındaki farkı ve S   ortalamalar arası farka ait standart sapmayı ifade etmektedir.
x1  x2

1 1
Ortalamalar arası farka ait standart sapma S    Sp  formülü ile hesaplanmaktadır.
x1  x2 n1 n2

Formülde yer alan iki örneğin ortak standart sapması (Sp ) ise,

(n1  1) S1  (n2  1) S 2
2 2

Sp  formülü ile bulunmaktadır. Bu eşitlikte n1  n2  2 serbestlik


n1  n2  2

derecesini, S1 ve S2 örneklere ait standart sapmayı göstermektedir.


İki ayrı ana kitleden çekilmiş ve birbirleriyle ilişkili yani bağımlı olan örneklerin
ortalamalarının farkının test edilmesinde de t dağılımı kullanılmaktadır. Birbiri ile ilişkili iki
örnek ortalamalarının farkının gösterdiği dağılımın ortalama ve standart sapması aşağıdaki
formüller yardımıyla bulunmaktadır.

d
d
n

( d ) 2
d 2

n
Sd 
n 1
Sd
S 
d n

Eşitliklerde d birbirine bağımlı iki örneğin ortalamaları arasındaki farkların ortalamasını, S 
d

birbirine bağımlı iki örneğin ortalamaları arasındaki farkların standart sapmasını ve n iki
örnek ortalaması arasındaki farkların sayısını ifade etmektedir.
Bağımlı örneklerin ortalamalarının farkının test edilmesinde kullanılan test istatistiği
aşağıdaki formül yardımıyla hesaplanmaktadır.

d  d
t
S
d


Formülde  d farklı iki ana kitle ortalaması arasındaki farkların ortalamasını ve d birbirine
bağımlı iki örneğin ortalamaları arasındaki farkların ortalamasını ifade etmektedir.

 2 dağılımı:

Gözlenen frekansların beklenen teorik bir dağılıma uyup uymadığının test edilmesinde
(Goodness of fit test), bağımsızlık ve homojenlik testinin uygulanmasında test istatistiği
aşağıdaki formül yardımıyla hesaplanmaktadır.

(O  E ) 2
2  
E

Formülde O gözlenen frekansı, E ise beklenen frekansı göstermektedir


( Satıatır )(sütuntop)
(E  ). Bu test yapılırken her bir sınıfa en az 5 gözlemin düşmesi
n
gerekmektedir.
Diğer taraftan  2 dağılımı ana kitle varyansı veya standart sapmasını test etmede

kullanılmaktadır. Bu amaçla  2 dağılımı kullanıldığında test istatistiği aşağıdaki formül


yardımıyla bulunmaktadır.
(n  1) S 2
2 
2
Eşitlikte S 2 ana kitleden çekilen örneğe ait varyansı,  2 ana kitle varyansını ve (n-1)
serbestlik derecesini ifade etmektedir.
F dağılımı:
F dağılımı kullanılarak, tek yönlü varyans analizi yapılırken aşağıdaki test istatistiği
kullanılmaktadır.
GAKO
F
GIKO
Eşitlikte GAKO örnekler arasındaki varyansı ve GİKO ise örnekler içi varyansı ifade
GAKT
etmektedir. Örnekler arasındaki varyans GAKO  formülü ile, örnekler içi varyans ise
k 1
GIKT
GIKO  formülü ile hesaplanmaktadır. Formüllerde yer alan GAKT örnekler arası
nk

  x 
2
 T1 2 T2 2 T3 2
kareler toplamını ( GAKT      ......... ) ve GİKT örnekler içi kareler
n n n  n
 1 2 3 
T 2 T 2 T 2 
toplamını ( GIKT   x   1  2  3  ......... ) göstermektedir.
2
n n2 n3 
 1 

6.4.6. Hipotez testinde karar verilmesi


Hipotez testinde karar verilirken farklı iki yaklaşım kullanılmaktadır. Bu
yaklaşımlardan birincisi ilgili test dağılımından yararlanarak hesaplanan test istatistiği ile
çalışılan önem düzeyine göre belirlenen tablo değerinin birbiri ile karşılaştırmaktır. Bu
karşılaştırma sonucunda hesaplanan test istatistiği, tablo değerinden büyük olduğunda
başlangıç hipotezi red edilip, alternatif hipotez kabul edilmektedir. Hesaplanan test istatistiği,
tablo değerinden küçük olduğu durumda ise başlangıç hipotezi kabul edilip, alternatif hipotez
red edilmektedir. Bu karşılaştırmalarda işaret dikkate alınmamaktadır.
Hipotez testinde karar aşamasında kullanılan ikinci yaklaşım “p-değeri” nin
kullanılmasıdır. Bu yaklaşımda başlangıç hipotezini reddedebilecek en küçük önem düzeyi
(p-değeri) tespit edilmektedir. Eğer p-değeri, önem düzeyinden küçük ise ( p   ) H0
reddedilip, H1 hipotezi kabul edilmektedir. p-değeri, önem düzeyinden büyük veya eşit
olduğunda ise H0 hipotezi kabul edilip, H1 hipotezi reddedilmektedir. Şimdi bir örnekle p-
değerinin nasıl hesaplandığını görelim.
Örnek:
n  36

x  9 .2
S  2 .4
  0.05
H 0 :   10 (ortalama ağırlık kaybı 10 kg ve daha fazladır)

H1 :   10 (ortalama ağırlık kaybı 10 kg’dan azdır)


S 2.4
S    0.40
x n 36
9.2  10
z  2.00
0.40

p-değeri=0.0228
0.4772
9.2   10

-2 0
p<0.05 olduğundan, H0 hipotezi reddedilip, H1 hipotezi kabul edilmektedir. Yani ortalama
ağırlık kaybı 10 kg’dan azdır.

6.4.7. Hipotez kontrolünde hatalar


Hipotez testi yapılırken, genellikle iki tip hata ile karşılaşılmaktadır. Bunlardan
birincisine “I. tip hata”, ikincisine ise “II. tip hata” adı verilmektedir. I. tip hata, doğru olan
başlangıç hipotezi reddedildiğinde yapılan hatadır (Çizelge 6.3). Örneğin, mahkeme
sonucunda gerçekten suçsuz olan bir kişinin, suçlu olduğuna karar verilmiş olmasıyla yapılan
hata I. tip hatadır. Güven derecesinde yer alan ve testin önem düzeyini gösteren  , I. tip hata
yapma ihtimalini göstermektedir [   P( H 0 : red / H 0 : dogru) ].  hatası genellikle teste
başlamadan önce belirlenmektedir.
Eğer yanlış olan başlangıç hipotezi, reddedilmeyip kabul edilirse, bu tip hataya II. tip
hata veya  hatası denilmektedir (Çizelge 6.3).  , ikinci tip hata yapma olasılığını
göstermektedir [   P( H 0 : kabul / H 0 : yanlis) ]. Buna bağlı olarak 1   ise uygulanan
testin gücünü göstermektedir.
Çizelge 6.3. Hipotez Testinde Karşılaşılan Hatalar
Gerçek durum
H0: Doğru H0: Yanlış
K H0: Kabul DOĞRU KARAR II. TİP HATA (  )
A
R H0: Red I. TİP HATA (  ) DOĞRU KARAR
A
R

Hipotez testinde bu iki tip hata birbirine bağlıdır. Belirli bir örnek hacminde eğer 
hatası küçükse,  hatası büyümektedir. Tam tersine eğer  hatası küçükse,  hatası
büyümektedir. Bu sebeple, hem  hatasını, hem de  hatasını küçültmenin tek yolu örnek
hacmini büyütmektir.
Birinci tip hata hipotez testine başlamadan önce araştırıcı veya ilgili kişi tarafından
belirlenmektedir. Ancak, ikinci tip hata yapma olasılığının hesaplanabilmesi için gerçek
hayatta başlangıç hipotezinin yanlış olduğunun bilinmesinin yanında ana kitleye ait standart
sapmanın da biliniyor olması gerekmektedir. Başlangıç hipotezinin gerçek dünyada doğru
veya yanlış olduğunun bilinmesi hemen hemen imkânsızdır. Bununla birlikte başlangıç
hipotezinin doğru olup olmadığı bilinse bile, ana kitlenin gerçek ortalaması ve standart
sapmasının bilinmesi mümkün değildir. Bu sebeple gerçek dünyada ikinci tip hata yapma
olasılığının hesaplanmasına imkân yoktur. Her ne kadar ikinci tip hatanın meydana gelme
olasılığının gerçek dünyada hesaplanması mümkün değilse de, bu hatanın nasıl
hesaplanacağının bilinmesi hipotez testinde karşılaşılan hataları daha iyi anlamak açısından
büyük yarar sağlayabilecektir. Aşağıda ana kitleye ait ortalama ve standart sapma ile
başlangıç hipotezinin yanlış olduğunun bilindiği varsayılarak hipotez testinde ikinci tip
hatanın nasıl hesaplandığı bir örnekle anlatılmıştır.

Örnek:
Cıvata üreten bir firmada bulunan bir makinenin ürettiği cıvataların ortalama boyu 2.5
cm’dir. Zaman zaman bu makine 2.5 cm’den küçük veya büyük cıvatalar üretmektedir. Böyle
olduğunda makine durdurulup ayarlanmaktadır. Bu makineden son olarak alınan 49 cıvatadan
hesaplanan cıvata boyu ortalama 2.498 cm ve buna ait standart sapma 0.021 cm’dir. %5 önem
düzeyinde, ikinci tip hata yapma olasılığı kaçtır? Gerçekleştirilen hipotez testinin gücü nedir?
Çözüm:
n  49

x  2.49
S  0.021
1. Hipotezlerin belirlenmesi: H 0 :   2.5 (makinenin ayarlanmasına gerek yoktur)

H1 :   2.5 (makine ayarlanmalıdır)


2. Test dağılımının belirlenmesi:
n>30 olduğundan z dağılımı kullanılır.
3. Kabul ve red bölgelerinin belirlenmesi:

  0.025   0.025
2 2

  2.5
RED KABUL RED

-1.96 0 1.96
4. Kritik noktalara dayanarak aralıklı tahminin yapılması
S 0.021
S    0.003
x n 49
 
x alt    zS  x üst    zS 
x x
 
x alt  2.5  (1.96)(0.003) x üst  2.5  (1.96)(0.003)
 
x alt  2.494 x üst  2.506


5. x ’ya ait dağılımın çizilmesi ve  ’nın hesaplanması:

2.494<x<2.506 arasında kalan alan bize  hatasını verecektir.


x<2.494 ve x>2.506 alanlarının toplamı ise  hatasını verir.
2.494  2.498
z1   1.33
0.003
2.506  2.498
z2   2.67
0.003
  0.025   0.025
2 2

2.494   2.5 2.506


RED KABUL RED

-1.33 0 2.67
Böylece ikinci tip hata yapma ihtimali (  ) %90.44 olarak bulunur[   P(1.33  z  2.67) =
0.4082+0.4982=0.9044]. Bu örnekte testin gücü ise 1    1  0.9044  0.0956 ’dır.

6.4.8. Ana kitle ortalamasına ilişkin hipotez testi


İstatistikte genellikle ana kitleden çekilmiş bir örnekten hesaplanan ortalama değerin
ana kitleyi temsil edip etmediği ortaya koyulmaya çalışılmaktadır. Diğer bir ifade ile örnek
ortalaması ile ana kitle ortalaması arasındaki farkın tesadüften mi kaynaklandığı, yoksa
gerçekten var mı olduğu araştırılmaktadır. Daha önce hipotez testinde karşılaşılan ikinci tip
hatayı yapma ihtimalinin hesaplanmasında kullanılan örnekten yararlanarak bu tip hipotez
kontrolünü inceleyelim.

Örnek:
Bir firmada cıvata üreten bir makinenin ürettiği cıvataların ortalama boyu 2.5 cm’dir.
Zaman zaman bu makine 2.5 cm’den büyük veya küçük cıvatalar üretmektedir. Böyle
olduğunda makine durdurulup, ayarlanmaktadır. Bu sebeple makineden sık sık örnek alıp,
örnek alınan cıvatalar incelenmektedir. Yapılan en son incelemede, 49 adet örnek cıvata
alınıp, ortalama cıvata boyu 2.49 cm ve buna ait standart sapma 0.021 cm olarak tespit
edilmiştir. %5 önem düzeyinde bu makine ayarlanmalı mıdır. Yoksa ayarlanmamalı mıdır?

Çözüm:
n  49

x  2.49
S  0.021
1. Hipotezlerin belirlenmesi: H 0 :   2.5 (makinenin ayarlanmasına gerek yoktur)

H1 :   2.5 (makine ayarlanmalıdır)


2. Test dağılımının belirlenmesi:
n>30 olduğundan z dağılımı kullanılır.
3. Kabul ve red bölgelerinin belirlenmesi:

  0.025   0.025
2 2

  2.5
RED KABUL RED

-1.96 0 1.96
4. Test istatistiğinin hesaplanması:
S 0.021
S    0.003
x n 49
2.49  2.5
z  3.33
0.003
5. Kararın alınması:
z hesap  z tablo olduğundan (3.33>1.96) H0 hipotezi reddedilip, H1 hipotezi kabul

edilmektedir. Yani makine ayarlanmalıdır.

Örnek:
Yapılan bir araştırma sonucuna göre Türkiye’de büyük firmaların yöneticilerin
ortalama yaşı 48’dir. Bu firmalardan tesadüfen seçilmiş 25 tanesinin ortalama yaşı 46 ve buna
ait standart sapma 5 yıldır. %1 önem düzeyinde örneklerden hesaplanan ortalama yaş, ana
kitle ortalamalarından farklı mıdır?

Çözüm:
n  25

x  46
S 5
SD  n  1  25  1  24

1. Hipotezlerin belirlenmesi: H 0 :   48

H1 :   48
2. Test dağılımının belirlenmesi:
n<30 olduğundan t dağılımı kullanılır.
3. Kabul ve red bölgelerinin belirlenmesi:

  0.01

  48
RED KABUL

-2.492 0
4. Test istatistiğinin hesaplanması:
S 5
S   1
x n 25
46  48
t  2
1
5. Kararın alınması:
t hesap  t tablo olduğundan (2<2.492) H0 hipotezi kabul edilip, H1 hipotezi

reddedilmektedir. Yani örneklerin ortalama yaşı ana kitleden farklı değildir.

6.4.9. Ana kitle oranına ilişkin hipotez testi


İstatistikte bazen ana kitleden çekilmiş bir örnekten hesaplanan oranın ana kitleyi
temsil edip etmediği ortaya koyulmaya çalışılmaktadır. Diğer bir ifade ile örnek oranı ile ana
kitle oranı arasındaki farkın tesadüften mi kaynaklandığı, yoksa gerçekten var mı olduğu
araştırılmaktadır.

Örnek:
Diş bakım malzemeleri konusunda yapılan bir araştırmada, Türkiye’de satılan diş
bakım ürünlerinin %31.2’sinin diş macunu olduğu tespit edilmiştir. Diş macunu üreten bir
firma bu oranın doğru olup olmadığını öğrenmek istiyor. 400 kişi ile yapılan görüşmeler
sonucunda bunların %29’unun diş macunu kullandığını tespit ediyor. %1 önem düzeyinde bu
oran, ana kitle oranından farklı mıdır?
Çözüm:
n  40

p  0.29

q  0.71

1. Hipotezlerin belirlenmesi: H 0 : p  0.312

H1 : p  0.312
2. Test dağılımının belirlenmesi:
np  5, nq  5 olduğundan z dağılımı kullanılır.
3. Kabul ve red bölgelerinin belirlenmesi:

  0.005   0.005
2 2

p  0.312
RED KABUL RED

-2.58 0 2.58

4. Test istatistiğinin hesaplanması:

pq (0.312)(0.688)
 
   0.023
p n 400

p p 0.29  0.312
z   0.95
  0.023
p

5. Kararın alınması:
z hesap  z tablo olduğundan (0.95<2.58) H0 hipotezi kabul edilip, H1 hipotezi

reddedilmektedir. Yani örneklerden hesaplanan oranın ana kitle ortalamasından farkı yoktur.
6.4.10. İki farklı ana kitleden çekilmiş örneklerin ortalamaları arasındaki farka ilişkin
hipotez testi
Şu ana kadar hep tek bir ana kitleden çekilen örneklerin ortalaması ile ana kitle
ortalaması veya oranı arasındaki farklılığın tesadüften kaynaklanıp kaynaklanmadığı
incelenmişti. Ancak zaman zaman farklı iki ana kitleden çekilen örneklerden hesaplanan
ortalamalar arasındaki farkın istatistik açıdan önemli olup olmadığı konusu da
incelenmektedir. İstatistikte ortalamalar ve oranlar arasındaki fark incelenirken, örneklerin
birbirinden bağımsız mı yoksa bağımlı mı olduğunun belirlenmesi büyük önek taşımaktadır.
Zira hipotez testinde bağımlı örnekler ve bağımsız örnekler için kullanılan test istatistikleri
birbirinden farklı olmaktadır.

1. Bağımsız (ilişkisiz) örneklerde ortalamalar arasındaki farka ait hipotez testi: İki farklı
ana kitleden çekilmiş iki örneğin içerdiği bireyler veya gözlemler birbiri ile ilişki içerisinde
değil ise iki örnek hacminin 30’dan büyük olması durumunda z dağılımı, küçük olması
halinde ise t dağılımı kullanılmaktadır.

Örnek:
Araştırma sonuçlarına göre, inşaat sektöründe çalışan 500 kişiden elde edilen bilgiler
ışığında işçilerin ortalama aylık geliri 538 milyon TL ve buna ait standart sapma 66 milyon
TL’dir. Görüşülen 700 imalat sanayi işçisinin bildirdiğine göre ise, imalat sektöründe çalışan
işçilerin ortalama aylık geliri 470 milyon TL ve buna ait standart sapma 60 milyon TL’dir.
%1 önem düzeyinde iki grup işçinin aylık gelirleri birbirinden farklı mıdır?

Çözüm:
n1  500 n 2  700
 
x  538 x  470
 1  66  2  60

1. Hipotezlerin belirlenmesi: H 0 : 1   2  0 (İki grubun aylık gelirleri farklı değildir)

H1 : 1   2  0 (İki grubun aylık gelirleri farklıdır)


2. Test dağılımının belirlenmesi:
n1  30, n2  30 olduğundan z dağılımı kullanılır.
3. Kabul ve red bölgelerinin belirlenmesi:

  0.005   0.005
2 2

1   2  0
RED KABUL RED

-2.58 0 2.58

4. Test istatistiğinin hesaplanması:

 12  22 (66) 2 (60) 2
        3.7222
x1  x2 n1 n2 500 700


( x1  x 2 )  ( 1   2 ) (538  470)  0
z   18.27
   3.7222
x1  x2

Test istatistiği hesaplanırken kullanılan (1   2 ) teriminin, H0 hipotezinden dolayı sıfır olarak
alındığı unutulmamalıdır.

5. Kararın alınması:
z hesap  z tablo olduğundan (18.27<2.58) H0 hipotezi reddedilip, H1 hipotezi kabul

edilmektedir. Yani iki farklı ana kitleden çekilmiş bağımsız örneklerden hesaplanan
ortalamalar birbirinden farklıdır. Sonuçta imalat sanayi ve inşaat sektöründe çalışan işçilerin
aylık gelirlerinin birbirinden farklı olduğunu söyleyebiliriz.

Örnek:
A marka maden suyundan seçilen 14 şişelik örnekler incelendiğinde bunların ortalama
23 kalori verdiği ve buna ait standart sapmanın 3 kalori olduğu saptanmıştır. B marka maden
suyundan seçilen 16 şişeden hesaplanan ortalama değer 25 kalori ve buna ait standart sapma 4
kaloridir. %1 önem düzeyinde kalori değerleri açısından A ve B markalı maden suları
arasında fark var mıdır?
Çözüm:
n1  14 n 2  16
 
x  23 x  25
S1  3 S2  4

1.Hipotezlerin belirlenmesi: H 0 : 1   2  0 (A ve B markaları kalori açısından farklı değildir)

H1 : 1   2  0 (A ve B markaları kalori açısından farklı)


2. Test dağılımının belirlenmesi:
n1  30, n2  30 olduğundan t dağılımı kullanılır. Serbestlik derecesi (n1+n2)-2 dir.
3. Kabul ve red bölgelerinin belirlenmesi:

  0.01

1   2  0
RED KABUL

-2.467 0

4. Test istatistiğinin hesaplanması:

(n1  1) S1  (n2  1) S 2 (14  1)(3) 2  (16  1)(4) 2


2 2

Sp    3.5707
n1  n2  2 14  16  2

1 1 1 1
S   Sp   (3.5707)   1.3067
x1  x2 n1 n2 14 16

 
( x  x )  ( 1   2 ) (23  25)  0
t 1 2   1.531
S  1.3067
x1  x2

Test istatistiği hesaplanırken kullanılan (1   2 ) teriminin, H0 hipotezinden dolayı sıfır olarak
alındığı unutulmamalıdır.
5. Kararın alınması:
t hesap  t tablo olduğundan (1.531<2.467) H0 hipotezi kabul edilip, H1 hipotezi

reddedilmektedir. Yani iki farklı ana kitleden çekilmiş bağımsız örneklerden hesaplanan
ortalamalar birbirinden farklı değildir. Sonuçta A ve B markalı maden suları kalori açısından
birbirinden farklı değildir.

1. Bağımlı (ilişkili) örneklerde ortalamalar arasındaki farka ait hipotez testi: İki farklı ana
kitleden çekilmiş iki örneğin içerdiği bireyler veya gözlemler birbiri ile ilişki içerisinde değil
ise iki örnek hacminin 30’dan büyük olması durumunda z dağılımı, küçük olması halinde ise t
dağılımı kullanılmaktadır.

Örnek:
Bir pazarlama firmasının yetkilisi “nasıl başarılı bir satış temsilcisi olunur” konulu
kursa katılan 6 personelinin ortalama satışlarının artıp artmadığını öğrenmek istemektedir.
Aşağıda kursa katılan 6 personelin kurs öncesi ve sonrası satışları verilmiştir. %1 önem
düzeyinde kursa devam etmek satışları artırmış mıdır?

1 2 3 4 5 6
Kurs öncesi 12 18 25 9 14 16
Kurs sonrası 18 24 24 14 19 20

Çözüm:
Kurs Kurs
öncesi sonrası d* d2
12 18 -6 36
18 24 -6 36
25 24 1 1
9 14 -5 25
14 19 -5 25
16 20 -4 16
Σd=-25 Σd2=139
* d=(kurs öncesi satış)-(kurs sonrası satış)

1.Hipotezlerin belirlenmesi: H 0 :  d  0 (Kurs satışları artırdı)

H1 :  d  0 (Kurs satışları artırmadı)


2. Test dağılımının belirlenmesi:
n  30 olduğundan t dağılımı kullanılır. Serbestlik derecesi n-1=6-1=5’ tir.
3. Kabul ve red bölgelerinin belirlenmesi:

  0.01

d  0
RED KABUL

-3.365 0

4. Test istatistiğinin hesaplanması:



d
 d   25  4.17
n 6

( d ) 2 (25) 2
d  2

n
139 
6
Sd    2.6394
n 1 6 1
Sd 2.694
S    1.0775
d n 6

d   d  4.17  0
t   3.870
S 1.0775
d

Test istatistiği hesaplanırken kullanılan  d teriminin, H0 hipotezinden dolayı sıfır olarak


alındığı unutulmamalıdır.

5. Kararın alınması:
t hesap  t tablo olduğundan (3.870<3.345) H0 hipotezi reddedilip, H1 hipotezi kabul

edilmektedir. Yani iki farklı ana kitleden çekilmiş bağımlı örneklerden hesaplanan ortalamalar
birbirinden farklıdır. Sonuçta kurs satışları artırmıştır.

6.4.11. İki farklı ana kitleden çekilmiş örneklerin oranları arasındaki farka ilişkin
hipotez testi
İstatistikte zaman zaman birden fazla ana kitleden çekilen örneklerin oranları
arasındaki farklılığın tesadüften kaynaklanıp kaynaklanmadığı incelenmektedir. Oranlar
arasındaki fark incelenirken, örneklerin birbirinden bağımsız olması gerekmektedir. Oranlar
arsındaki farka ilişkin hipotez testi yapılırken z dağılımı kullanılmaktadır. Ancak testin
gerçekleştirilebilmesi için merkezi limit teoremine göre örneklerden hesaplanan istatistiklerin
normal dağılım göstermeleri için n1 p1  5, n2 p2  5, n1q1  5, n2 q2  5 koşulunun sağlanması
gerekmektedir.

Örnek:
Bir firma yeni bir makine satın almayı planlamaktadır. Satın alabileceği iki farklı tip
makine bulunmaktadır. Satın alamadan önce firma bu iki makineyi kısa bir süre dener. I. tip
makinede 800 parça üretir ve bunların 48’i arızalı çıkar. II. tip makinede üretilen 900
parçadan ise 45 arızalı parça çıkar. %1 önem düzeyinde arızalı parça üretme oranı bakımından
iki makine birbirinden farklı mıdır?

Çözüm:
n1  800 n 2  900

x1  48 x 2  45

 x1 48
p1    0.06
n1 800
 x2 45
p2    0.05
n 2 900
1. Hipotezlerin belirlenmesi: H 0 : p1  p 2  0 (İki makinenin arızalı parça oranı aynı)

H1 : p1  p2  0 (İki makinenin arızalı parça oranı farklı)

2. Test dağılımının belirlenmesi:


n1 p1  5, n2 p2  5, n1q1  5, n2 q2  5 olduğundan z dağılımı kullanılır.
3. Kabul ve red bölgelerinin belirlenmesi:

  0.005   0.005
2 2

p1  p2  0
RED KABUL RED

-2.58 0 2.58
4. Test istatistiğinin hesaplanması:
 x1  x 2 48  45  
p   0.055 ve q  1  p  1  0.055  0.945
n1  n2 800  900
  1 1 1 1
S   p q(  )  (0.055)(0.945)(  )  0.0111
p1  p2 n1 n2 800 900
 
( p  p 2 )  ( p1  p 2 ) (0.06  0.05)  0
z 1   0.90
S  0.0111
p1  p2

Test istatistiği hesaplanırken kullanılan ( p1  p2 ) teriminin, H0 hipotezinden dolayı sıfır olarak


alındığı unutulmamalıdır.

5. Kararın alınması:
z hesap  z tablo olduğundan (0.90<2.58) H0 hipotezi kabul edilip, H1 hipotezi

reddedilmektedir. Yani iki farklı ana kitleden çekilmiş bağımsız örneklerden hesaplanan
oranlar birbirinden farklı değildir. Sonuçta iki farklı makinenin arızalı parça üretme oranının
birbirinden farklı olmadığını söyleyebiliriz.

6.5. Sahip Olunan Verilerin Normal Dağılıma Uygun Olup Olmadığının Belirlenmesi
Herhangi bir veri setinde bulunan gözlemlerin dağılımının normal dağılıma uygun
olup olmadığının anlaşılması için yapılması gereken ilk iş, gözlemlere ait histogramı
çizmektir. Daha sonra, histogramın gösterdiği şekil normal dağılım eğrisi ile karşılaştırılır.
Eğer normal dağılım eğrisi ile histogram aynı seyri takip ediyorsa bu dağılım normal dağılıma
uygundur. Eğer söz konusu dağılım normal dağılımdan ayrılıyorsa, bu ayrılışın ölçülmesi ve
istatistik açıdan önem arz edip etmediği belirlenmelidir. Bir dağılımın normal dağılımdan
ayrıldığını gösteren iki istatistik bulunmaktadır. Bunlardan birincisi “eğrilik katsayısı”,
ikincisi ise “diklik katsayısı”dır. Bu sebeple, ilgili veri seti için önce eğrilik ve diklik
katsayıları hesaplanmalı ve daha sonra bunlara ilişkin hipotez testleri yapılarak dağılımın
normal dağılıma uygun olup olmadığı ortaya konulmalıdır. Şimdi, dağılımın normal dağılıma
uygun olup olmadığının belirlenmesinde kullanılan eğrilik ve diklik katsayıları ile bunlara
ilişkin hipotez testlerini inceleyelim.

1. Eğrilik katsayısı ve testi: Eğrilik katsayısı, dağılımın simetrik olup olmadığını gösteren bir
istatistiktir. Elimizde bulunan veri setinde yer alan gözlemlerin dağılımı eğer simetrik bir
durum arz ediyorsa, hesaplanan eğrilik katsayısı sıfıra eşit olacaktır (e=0). Bu, ortalamanın
sağında ve solunda kalan kısımların birbirinin aynısı olduğunu göstermektedir. Eğer dağılım
simetrik değilse gözlemlerin büyük bir çoğunluğu ya ortalama değerin sağında veya solunda
toplanmaktadır. Gözlemlerin büyük bir çoğunluğunun ortalamanın sağında yer alması halinde
eğrilik katsayısı sıfırdan büyük bir değer almaktadır (e>0) ve buna pozitif eğrilik adı
verilmektedir. Gözlemlerin büyük bir çoğunluğunun ortalamanın solunda yer alması
durumunda ise, eğrilik katsayısı sıfırdan küçük olmaktadır (e<0). Bu ise negatif eğrilik olarak
adlandırılmaktadır.
Eğrilik katsayısının hesaplanmasında, Bliss (1967) tarafından önerilen aşağıdaki
formül kullanılmaktadır.

( d 3 )( N )
e
S ( N  1)( N  2)
3

Formülde e eğrilik katsayısını, d gözlemlerin ortalama değerden farkını, S gözlemlere ait

standart sapmayı ve N ise gözlem sayısını ifade etmektedir.

Örnek:
Bir kursa devam eden 4 öğrencinin, kursta yapılan sınavdan aldığı notlar aşağıdaki
gibidir. Bu öğrencilerin notlarının gösterdiği dağılıma ilişkin eğrilik katsayısını hesaplayınız?
2 4 4 6

Çözüm:
1.adım: Öğrencilerin notlarına ait aritmetik ortalama hesaplanır. Aritmetik ortalama
düzenlenmemiş verilerde gözlemlerin toplamının, toplam gözlem sayısına oranlanması ile
bulunmaktadır. Buna göre öğrencilerin ortalama notu (2+4+4+6)/4=4’tür.

2.adım: Her bir öğrencinin notu, ortalama öğrenci notundan çıkartılarak, gözlemlerin ortalama
değerlerinden farkı (d) hesaplanır. Daha sonra gözlemlerin standart sapmasını hesaplamak
için bu farkların kareleri ve eğrilik katsayısı formülünde kullanmak için küpü alınır. Farkların
küpünün alınmasının sebebi, eğriliğin yönünü tespit edebilmektir.
Notlar Ortalama d d2 d3
2 4 -2 4 -8
4 4 0 0 0
4 4 0 0 0
6 4 2 4 8
Σd2=8 Σd3=0

3.adım: Gözlemlere ait standart sapma S  d 2


formülü ile hesaplanır. Buna göre
n 1

standart sapma S  8  1.63 olarak hesaplanır.


3

4.adım: Eğrilik katsayısı formülü kullanılarak, eğrilik katsayısı hesaplanır. Eğrilik katsayısı
hesaplanırken, farkların küpleri toplamının sıfır olması durumunda bile formülde örnek hacmi
ile çarpılması gerektiği unutulmamalıdır.

( d 3 )( N ) (0)(4)
e  0
S ( N  1)( N  2)
3
(1.63)(4  1)(4  2)

5.adım:Hesaplanan eğrilik katsayısına dayanarak, dağılımın simetrik mi yoksa eğri mi


olduğuna karar verilir. Örneğimizde katsayı sıfır çıktığından, öğrencilerin notlarının
gösterdiği dağılımın simetrik olduğu kararına varılır.

Örnek:
Aynı kursa devam eden diğer 4 öğrencinin, kursta yapılan sınavdan aldığı notlar
aşağıdaki gibidir. Bu öğrencilerin notlarının gösterdiği dağılıma ilişkin eğrilik katsayısını
hesaplayınız?
1 1 1 5

Çözüm:
1.adım: Aritmetik ortalamanın hesaplanması
Öğrencilerin ortalama notu (1+1+1+5)/4=2’dir.
2.adım: Gözlemlerin ortalama değerlerinden farkının (d) hesaplanması.
Notlar Ortalama d d2 d3
1 2 -1 1 -1
1 2 -1 1 -1
1 2 -1 1 -1
5 2 3 9 27
Σd2=12 Σd3=24

3.adım: Gözlemlere ait standart sapmanın hesaplanması.

S d 2
 12  2.0
n 1 3

4.adım: Eğrilik katsayısının hesaplanması.


( d 3 )( N ) (24)(4)
e  2
S ( N  1)( N  2)
3
(8)(3)(2)

5.adım: Kararın verilmesi.


e  0 olduğundan pozitif eğrilik söz konusudur.

Örnek:
Kursa devam eden 4 öğrencinin, kursta yapılan sınavdan aldığı notlar aşağıdaki
gibidir. Bu öğrencilerin notlarının gösterdiği dağılıma ilişkin eğrilik katsayısını hesaplayınız?
1 3 4 4

Çözüm:
1.adım: Aritmetik ortalamanın hesaplanması
Öğrencilerin ortalama notu (1+3+4+4)/4=3’dür.

2.adım: Gözlemlerin ortalama değerlerinden farkının (d) hesaplanması.


Notlar Ortalama d d2 d3
1 3 -2 4 -8
3 3 0 0 0
4 3 1 1 1
4 3 1 1 1
Σd =6 Σd =-6
2 3
3.adım: Gözlemlere ait standart sapmanın hesaplanması.

S d 2
 6  1.414
n 1 3

4.adım: Eğrilik katsayısının hesaplanması.


( d 3 )( N ) (6)(4)
e   1.4148
S ( N  1)( N  2)
3
(1.414) 3 (3)(2)

5.adım: Kararın verilmesi.


e  0 olduğundan negatif eğrilik söz konusudur.

Eğrilik katsayısı hesaplandıktan sonra, hesaplanan katsayının istatistik açıdan önemli


olup olmadığının ortaya konulması gerekmektedir. Bu sebeple eğrilik katsayısına ilişkin
hipotez testi yapılmalıdır. Eğrilik katsayısı test edilirken z dağılımından yararlanılmaktadır.
Eğrilik katsayısı test edilirken öncelikle dağılımın simetrik olduğunu savunan başlangıç
hipotezi oluşturulmaktadır. Alternatif hipotez ise dağılımın simetrik olmadığı yönündedir.
Daha sonra, hesaplanan eğrilik katsayısı kendisine ait standart hataya oranlanarak test
e
istatistiği hesaplanmakta ( z hesap  ) ve bu değer istenen önem düzeyini yansıtan tablo z
S
e

değeri ile karşılaştırılmaktadır. Hesaplanan z değeri, tablo z değerinden küçükse H0 hipotezi


kabul edilmekte, tersi durumda ise H1 hipotezi kabul edilmektedir. Bu değerlendirme
yapılırken işaret dikkate alınmamalıdır. Test istatistiği hesaplanırken kullanılan eğrilik
katsayısına ait standart hata sadece örnek hacmine dayanarak aşağıdaki formül yardımıyla
bulunmaktadır.

6( N )( N  1)
S 
e ( N  2)( N  1)( N  3)

Örnek:
Daha önceki örneğimizde öğrencilerin notlarının gösterdiği dağılıma ilişkin
hesaplanan eğrilik katsayısının (e=-1.4148), istatistik açıdan önemli olup olmadığına ait
hipotez testinin %5 önem düzeyinde test ediniz? Öğrencilerin notlarının gösterdiği dağılım
simetrik midir, yoksa gerçekten negatif eğrilik mi söz konusudur?
Çözüm:

1. Hipotezlerin belirlenmesi: H 0 : e  0 (Dağılım simetrik)

H1 : e  0 (Dağılım simetrik değil, negatif eğrilik var)


2. Test dağılımının belirlenmesi:
z dağılımı kullanılır.
3. Kabul ve red bölgelerinin belirlenmesi:

  0.05

0
RED KABUL

-1.65 0
4. Test istatistiğinin hesaplanması:

6( N )( N  1) (6)(4)(3)
S    1.01
e ( N  2)( N  1)( N  3) (2)(5)(7)
e  1.4148
z hesap    1.40
S 1.01
e

5. Kararın alınması:
z hesap  z tablo olduğundan (1.40<1.65) H0 hipotezi kabul edilip, H1 hipotezi

reddedilmektedir. Yani eğrilik katsayısı istatistik açıdan önemli değildir. Bu sebeple,


öğrencilerin notlarının gösterdiği dağılımın simetrik bir dağılım gösterdiği sonucuna
varılmaktadır.

2. Diklik katsayısı ve testi: İlgilendiğimiz verilerin dağılımı simetrik olsa bile, zaman zaman,
ortalamanın etrafında gereğinden fazla veya az veri bulunabilmektedir. Ortalamanın etrafında
gereğinden fazla veya az veri olduğunda ise, normal dağılımdan bahsetmek mümkün
olmamaktadır. Diklik katsayısı, verilerin ortalama etrafında toplanıp toplanmadığını gösteren
bir istatistiktir. Bu katsayıya dayanarak, dağılımın dik veya düz olup olmadığını
belirlenmektedir. Elimizde bulunan veri setinde yer alan gözlemlerin dağılımı eğer normal bir
dağılım gösteriyorsa, hesaplanan diklik katsayısı sıfıra eşit olacaktır (kd=0). Bu, ortalamanın
etrafında gerektiği kadar verinin var olduğunu göstermektedir ve bu eğriye ortalama eğri
(Mesokurtic) adı verilmektedir. Eğer dağılım normal değilse ortalamanın etrafında ya
gereğinden fazla ya da gereğinden az veri bulunmaktadır. Ortalamanın etrafında gereğinden
fazla veri olduğunda diklik katsayısı sıfırdan büyük bir değer almaktadır (kd>0) ve buna dik
eğri (Leptokurtic) adı verilmektedir. Ortalamanın etrafında gereğinden az veri olduğunda ise,
diklik katsayısı sıfırdan küçük olmaktadır (kd<0). Bu ise düz eğri (Platykurtic) olarak
adlandırılmaktadır.
Diklik katsayısının hesaplanmasında, Bliss (1967) tarafından önerilen aşağıdaki
formül kullanılmaktadır.

[( d 4 )( N )( N  1)]  [( d 2 )( d 2 )(3)( N  1)]


kd 
( S )( N  1)( N  2)( N  3)
4

Formülde kd diklik katsayısını, d gözlemlerin ortalama değerden farkını, S gözlemlere ait

standart sapmayı ve N ise gözlem sayısını ifade etmektedir.

Örnek:
Bir kursa devam eden 6 öğrencinin, kursta yapılan sınavdan aldığı notlar aşağıdaki
gibidir. Bu öğrencilerin notlarının gösterdiği dağılıma ilişkin diklik katsayısını hesaplayınız?
1 2 2 3 3 4

Çözüm:
1.adım: Öğrencilerin notlarına ait aritmetik ortalama hesaplanır. Aritmetik ortalama
düzenlenmemiş verilerde gözlemlerin toplamının, toplam gözlem sayısına oranlanması ile
bulunmaktadır. Buna göre öğrencilerin ortalama notu (1+2+2+3+3+4)/6=2.5’tir.

2.adım: Her bir öğrencinin notu, ortalama öğrenci notundan çıkartılarak, gözlemlerin ortalama
değerlerinden farkı (d) hesaplanır. Daha sonra gözlemlerin standart sapmasını hesaplamak
için bu farkların kareleri ve diklik katsayısı formülünde kullanmak için 4. kuvveti alınır.
Notlar Ortalama d d2 d4
1 2.5 -1.5 2.25 5.06
2 2.5 -0.5 0.25 0.06
2 2.5 -0.5 0.25 0.06
3 2.5 0.5 0.25 0.06
3 2.5 0.5 0.25 0.06
4 2.5 1.5 2.25 5.06
Σd =5.5 Σd =10.36
2 4

3.adım: Gözlemlere ait standart sapma S  d 2


formülü ile hesaplanır. Buna göre
n 1

standart sapma S  5.5  1.049 olarak hesaplanır.


5

4.adım: Diklik katsayısı formülü kullanılarak, diklik katsayısı hesaplanır.

[( d 4 )( N )( N  1)]  [( d 2 )( d 2 )(3)( N  1)]


kd 
( S )( N  1)( N  2)( N  3)
4

[(10.36)(6)(7)]  [(5.5)(5.5)(3)(5)]
kd   0.25  0
(1.22)(5)(4)(3)

5.adım:Hesaplanan diklik katsayısına dayanarak, dağılımın dik mi yoksa düz mü olduğuna


karar verilir. Örneğimizde katsayı sıfıra yakın çıktığından, öğrencilerin notlarının gösterdiği
dağılımın ortalama bir eğri (mesokurtic) olduğuna karar verilir.

Diklik katsayısı hesaplandıktan sonra, hesaplanan katsayının istatistik açıdan önemli


olup olmadığının ortaya konulması gerekmektedir. Bu sebeple diklik katsayısına ilişkin
hipotez testi yapılmalıdır. Diklik katsayısına ait hipotez testinde z dağılımından
yararlanılmaktadır. Diklik katsayısı test edilirken öncelikle dağılımın normal olduğunu
savunan başlangıç hipotezi oluşturulmaktadır. Alternatif hipotez ise ortalamanın etrafında
gereğinden az veya fazla veri olduğu yönündedir. Daha sonra, hesaplanan diklik katsayısı
kd
kendisine ait standart hataya oranlanarak test istatistiği hesaplanmakta ( z hesap  ) ve bu
S
kd

değer istenen önem düzeyini yansıtan tablo z değeri ile karşılaştırılmaktadır. Hesaplanan z
değeri, tablo z değerinden küçükse H0 hipotezi kabul edilmekte, tersi durumda ise H1 hipotezi
kabul edilmektedir. Bu değerlendirme yapılırken işaret dikkate alınmamalıdır. Test istatistiği
hesaplanırken kullanılan diklik katsayısına ait standart hata örnek hacmine ve eğrilik
katsayısının varyansına dayanarak aşağıdaki formül yardımıyla bulunmaktadır.

6( N )( N  1)
( )( N 2  1)
( N  2)( N  1)( N  3)
S 
kd ( N  3)( N  5)

6( N )( N  1)
Formülde ifadesi, bir önceki bölümde anlatılan eğrilik katsayısının
( N  2)( N  1)( N  3)
varyansını ifade etmektedir.

Örnek:
Çevre Ekonomisi konulu kursa katılan öğrencilerin kurs sınavından aldığı notlarının
gösterdiği dağılıma ilişkin hesaplanan diklik katsayısı (kd) -1.4148 ve diklik katsayısına
ilişkin standart hata 1.74’dür. Bu katsayının istatistik açıdan önemli olup olmadığına ait
hipotez testinin %5 önem düzeyinde test ediniz? Öğrencilerin notlarının gösterdiği dağılımın
şekli ortalama bir eğri şeklinde midir, yoksa gerçekten düz bir eğri mi söz konusudur?

Çözüm:

1. Hipotezlerin belirlenmesi: H 0 : kd  0 (Ortalama eğri)

H1 : kd  0 (düz eğri)
2. Test dağılımının belirlenmesi:
z dağılımı kullanılır.
3. Kabul ve red bölgelerinin belirlenmesi:

  0.05

0
RED KABUL

-1.65 0
4. Test istatistiğinin hesaplanması:
kd  1.864
z hesap    1.071
S 1.74
kd

5. Kararın alınması:
z hesap  z tablo olduğundan (1.071<1.65) H0 hipotezi kabul edilip, H1 hipotezi

reddedilmektedir. Yani diklik katsayısı istatistik açıdan önemli değildir. Bu sebeple,


öğrencilerin notlarının gösterdiği dağılımın şeklinin ortalama bir eğriyi gösterdiği sonucuna
varılmaktadır.

6.6. Teorik Dağılıma Uygunluk Testi (Goodness of Fit Test)


Sahip olunan veri setinin içinde yer alan gözlemlerin, teorik bir dağılıma uygun olup
olmadığının belirlenmesinde χ2 dağılımından yararlanılmaktadır.  2 dağılımı özellikle ikiden
fazla sonuca sahip denemelerde hipotez testini gerçekleştirmek için kullanılmaktadır. Bu
denemelerin 4 temel özelliği bulunmaktadır. Bunlardan birincisi n sayıda denemenin yapılıyor
olmasıdır. İkinci olarak her bir denemenin 2’den fazla sonucu bulunmaktadır. Denemelerin
bağımsız olması ise üçüncü temel özelliği oluşturmaktadır. Son olarak olasılılar deneme
boyunca sabit olmaktadır. Bu tür denemeler “multinomiyal deneme” adı verilmektedir.
Tesadüfen seçilmiş kişilere “amerikan otomobili” “japon otomobili” nden daha iyi midir
şeklinde sorulsa, kişilerin bu soruya vereceği cevap evet, hayır veya karasızım olacaktır. Bu
örnekte soru yöneltilen her bir kişi deneme sayısını ifade etmektedir ve kişilerden alınan
cevapları ikiden fazla sonucu kapsamaktadır. Ayrıca her bir kişinin verdiği cevapta
birbirinden bağımsızdır. Dolayısıyla bu multinomiyal denemeye iyi bir örnek teşkil
etmektedir. Bu gibi durumlarda  2 dağılımı hipotez testi için kullanılmaktadır.

 2 analizi ile, gözlenen frekansların beklenen teorik bir dağılıma uyup uymadığı test
edilmektedir (Goodness of fit test). Bu dağılımda test istatistiği aşağıdaki formül yardımıyla
hesaplanmaktadır.
(G  B) 2
2  
B
Formülde G gözlenen frekansı e B beklenen frekansı ifade etmektedir. Beklenen frekans,
B  np formülü ile hesaplanmaktadır. Bu tarz  2 analizinde serbestlik derecesi k-1’e eşittir ve
k denemedeki muhtemel sonuç sayısını göstermektedir.
 2 analizini gerçekleştirebilmek için, her bir sınıftaki gözlem sayısının 5 ve 5’ten
fazla olması gerekmektedir. Eğer sınıflarda 5’ten daha az frekans varsa, yapılası gereken şey
ya örnek hacmini artırmak ya da sınıfları birleştirmektir.

Örnek:
Türkiye’de büyük bir alış veriş merkezinde 5 farklı mağaza bulunmaktadır. Bu alış
veriş merkezinin yetkilisi, bu 5 mağazayı ziyaret eden müşterilerin oranının eşit olup
olmadığını öğrenmek istemektedir. Tesadüfi olarak seçilmiş 1000 müşteri ile yapılan
görüşmeler sonucunda aşağıdaki sonuçlar elde edilmiştir. %1 önem düzeyinde, acaba
müşterilerin bu 5 mağazayı ziyaret etme oranları aynı mıdır?

Mağaza A B C D E
Frekans 214 231 182 154 219

Çözüm:
1. Hipotezlerin belirlenmesi:
H 0 : p1  p2  p3  p4  p5  0.20 (Müşterilerin 5 mağazayı ziyaret etme oranları aynıdır)

H1 : p1  p2  p3  p4  p5  0.20 (En azından 2 mağazanın ziyaret edilme oranı farklıdır)


2. Test dağılımının belirlenmesi:
6 farklı sınıf olduğundan ve gerçek değerler yerine frekanslar üzerinden analiz yapıldığından
 2 dağılımı kullanılır.
3. Kabul ve red bölgelerinin belirlenmesi:
KABUL RED

  0.01

13.277
4. Test istatistiğinin hesaplanması:

Mağaza G p B=np (G-B) (G-B)2 (G  B) 2


B
A 214 0.20 (1000x0.2)=200 14 196 0.980
B 231 0.20 (1000x0.2)=200 31 961 4.805
C 182 0.20 (1000x0.2)=200 -18 324 1.630
D 154 0.20 (1000x0.2)=200 -46 2116 10.580
E 219 0.20 (1000x0.2)=200 19 361 1.805
1000 19.790

5. Kararın alınması:
 2 hesap   2 tablo olduğundan (19.790<13.277) H0 hipotezi reddedilip, H1 hipotezi
kabul edilecektir. Yani mağazalardan en az iki tanesi ziyaretçiler tarafından daha fazla
gezilmektedir.

Örnek:
Aşağıda dünya otomobil piyasasında 1992 yılında firmaların pazar payları verilmiştir.
Bir firma bu oranalrın günümüzde de geçerli olup olmadığını araştırıyor ve son satılan 200
otomobilin 715 tanesinin GM, 446’sının FORD, 175’inin HONDA, 187’sinin TOYOTA,
178’inin CHRSYLER ve 299’unun diğer firmalar tarafından üretildiğini tespit ediyor. %2.5
önem düzeyinde, bu firmaların mevcut payları, 1992 yılındaki payları ile aynı mıdır?

Firma GM FORD HONDA TOYOTA CHRYSLER DİĞER


Pazar payları (%) 34.5 21.6 9.3 9.2 8.3 17.1
Çözüm:

1. Hipotezlerin belirlenmesi:
H 0 : p1  0.345, p2  0.216, p3  0.093, p4  0.092, p5  0.083, p6  0.171
(Pazar payları 1992 yılının aynısı)
H1 : p1  0.345, p2  0.216, p3  0.093, p4  0.092, p5  0.083, p6  0.171
(En azından 2 firmanın pazar payı 1992 yılından farklıdır)
2. Test dağılımının belirlenmesi:
6 farklı sınıf olduğundan ve gerçek değerler yerine frekanslar üzerinden analiz yapıldığından
 2 dağılımı kullanılır.

3. Kabul ve red bölgelerinin belirlenmesi: k=6 ve SD=k-1=6-1=5


KABUL RED

  0.025

12.833

4. Test istatistiğinin hesaplanması:

Firma G p B=np (G-B) (G-B)2 (G  B) 2


B
GM 715 0.345 (2000x0.345)=690 25 625 0.906
FORD 446 0.216 (2000x0.216)=432 14 196 0.454
HONDA 175 0.093 (2000x0.093)=186 -11 121 0.651
TOYOTA 187 0.092 (2000x0.092)=184 3 9 0.049
CHRYSLER 178 0.083 (2000x0.083)=166 12 144 0.867
DİĞER 299 0.171 (2000x0.171)=342 -43 1849 5.406
2000 8.333

5. Kararın alınması:
 2 hesap   2 tablo olduğundan (8.33<12.833) H0 hipotezi kabul edilip, H1 hipotezi
reddedilecektir. Yani otomobil firmalarının pazar payları 1992 yılı ile aynıdır.

6.6. Çapraz Tabloların Oluşturulması İle Bağımsızlık ve Homojenlik Testleri


Genellikle deneme sonuçları veya anketlerden elde edilen bilgiler iki yönlü tablolar
kullanılarak özetlenmektedir. Bu şekilde oluşturulan tablolara “çapraz tablolar” (Cross
tabulation veya contingency table) adı verilmektedir. Çapraz tablolar, çeşitli boyutlarda
olabilmektedir. Bu tarz tabloların boyutları belirtilirken 2X3, 3X2, 3X3 veya 4X2 şeklinde
gösterilmektedir. Çapraz tablolarda satır ile sütunların kesim noktalarına “hücre” adı
verilmektedir. Buna bağlı olarak, çapraz tablodaki hücre sayısı da, satır sayısı ile sütun
sayısının çarpılması ile bulunmaktadır Bu gösterim tarzında ilk rakam satır sayısını, ikinci
rakam ise sütun sayısını ifade etmektedir. Büyük bir firmada çalışan erkek ve bayanların
sözleşmeler hakkındaki görüşlerinin (onaylıyor, karşı ve fikri yok) alındığını düşünelim. Bu
bilgiler ışığında 2X3 boyutunda bir çapraz tablo düzenleyerek, mevcut verileri özetlemek
mümkündür. Hazırlanan çapraz tablo aşağıda verilmiştir.

Çizelge 6.4. Firma Çalışanlarının Sözleşme Hakkındaki Düşünceleri


Onaylıyor Karşı Fikri yok
Bay 93 70 12
Bayan 87 32 6

6.6.1. Bağımsızlık testi


İstatistikte zaman zaman aynı ana kitleden çekilmiş gözlemlerden oluşan grupların
belirli bir özellik açısından bağımlı yani ilişkili olup olmadığının ortaya konulması
gerekmektedir. Bu gibi durumlarda bağımsızlık testi kullanılmaktadır. Bağımsızlık testinde,
gruplar arasında belli bir özellik açısından fark olmadığı başlangıç hipotezi, fark olduğu
alternatif hipotezi ile sınanmaktadır. Bağımsızlık testi yapılırken  2 dağılımından
yararlanılmaktadır. Çapraz tablo ile özetlenen bilgilerden yararlanarak bağımsızlık testi
yapılırken test istatistiği hesaplanırken aşağıdaki formüllerden yararlanılmaktadır.

(G  B ) 2
2  
B
( satirtoplami )( sutuntoplami )
B
n

Bağımsızlık testinde serbestlik derecesi SD=(satır sayısı –1)(sütun sayısı-1) formülü ile
bulunmaktadır.
Örnek:
Bir otomobil firmasında çalışan erkek ve bayanların yeni işçi sözleşmesi hakkındaki
görüşleri aşağıda verilmiştir. %5 önem düzeyinde (   0.05) yeni sözleşme hakkındaki
görüşler açısından erkek ve bayanlar farklı mıdır?

Onaylıyor Karşı Fikri yok


Bay 93 70 12
Bayan 87 32 6

Çözüm:

1. Hipotezlerin belirlenmesi:
H0: İşçilerin sözleşme hakkındaki görüşleri açısından cinsiyetler arasında fark yok
H1: İşçilerin sözleşme hakkındaki görüşleri açısından cinsiyetler arasında fark var

2. Test dağılımının belirlenmesi:


 2 dağılımı kullanılır.

3. Kabul ve red bölgelerinin belirlenmesi: SD=(2-1)(3-1)=2


KABUL RED

  0.05

5.991

4. Test istatistiğinin hesaplanması:


Onaylıyor Karşı Fikri yok Satır
toplamı
Erkek 93 70 12 175
(175)(180)/300=105 (175)(102)/300=59.5 (175)(18)/300=10.5
Bayan 87 32 6 125
(125)(180)/300=75.0 (125)(102)/300=42.50 (125)(18)/300=7.50
Sütun toplamı 180 102 18 300
(93  105) 2 (70  59.5) 2 (12  10.5) 2 (87  75) 2 (32  42.5) 2 (6  7.5) 2
2      
105 59.5 10.5 75 42.5 7.5
  8.252
2

5. Kararın alınması:
 2 hesap   2 tablo olduğundan (8.252<5.991) H0 hipotezi reddedilip, H1 hipotezi kabul
edilecektir. Yani sözleşme hakkındaki görüşler açısından erkek ve bayanlar birbirinden
farklıdır.

Örnek:
Kaset üreten bir elektronik firması, kaset üretiminde 2 makine kullanıyor. Yetkililer
zaman zaman kalite kontrolü yapmak amacıyla her iki makinede üretilen kasetlerden örnekler
alıp ve bunları iyi ve arızalı olarak tespit etmektedirler. En son olarak alınan 200 kasetten elde
edilen sonuçlar aşağıdaki gibidir. Buna dayanarak %1 önem düzeyinde makine tipleri
arasında iyi ve arızalı parça üretme açısından fark var mıdır?
İyi Arızalı
Makine 1 109 11
Makine 2 66 14

Çözüm:

1. Hipotezlerin belirlenmesi:
H0: Kasetlerin iyi ve kötü olması ile makine tipleri arasında fark yok.
H1: Kasetlerin iyi ve kötü olması ile makine tipleri arasında fark var.

2. Test dağılımının belirlenmesi:


 2 dağılımı kullanılır.
3. Kabul ve red bölgelerinin belirlenmesi: SD=(2-1)(2-1)=1
KABUL RED

  0.01

6.635
4. Test istatistiğinin hesaplanması:
İyi Arızalı Satır toplamı
Makine 1 109 11 120
(120)(175)/200=105 (120)(25)/200=15
Makine 2 66 14 80
(80)(175)/200=70 (80)(25)/200=10
Sütun toplamı 175 25 200

(109  105) 2 (11  15) 2 (66  70) 2 (14  10) 2


 
2
  
105 15 70 10
  3.048
2

5. Kararın alınması:
 2 hesap   2 tablo olduğundan (3.048<6.635) H0 hipotezi kabul edilip, H1 hipotezi
reddedilecektir. Yani iyi ve arızalı kaset üretme bakımından makine tipleri arasında fark
yoktur.

6.6.2. Homojenlik testi


İstatistikte bazen belli bir özelliğin gösterdiği dağılımla ilişkili olarak iki veya daha
fazla ana kitlenin benzer olup olmadığı araştırma konusu olmaktadır. Farklı gelir gruplarında
bulunan ailelerin oranının Türkiye ve AB’de aynı olup olmadığının incelenmesi böyle bir
durumun örneklerindendir. Bu durumda  2 dağılımı kullanılarak homojenlik testinin
gerçekleştirilesi gerekmektedir. Homojenlik testinde, bağımsızlık testinde de kullanılan
aşağıdaki formüller kullanılarak test istatistiği hesaplanmaktadır.

(G  B ) 2
2  
B
( satirtoplami )( sutuntoplami )
B
n

Homojenlik testinde serbestlik derecesi, bağımsızlık testinde olduğu gibi SD=(satır sayısı –
1)(sütun sayısı-1) formülü ile bulunmaktadır.
Örnek:
1990’lı yılların başında ABD ekonomisinde yaşanan durgunluk sebebiyle bir çok
firma çalışanlarının maaşını dondurmuştur. Aynı zamanda vergilerin artmasıyla ABD’de
çalışan insanların morali olumsuz etkilenmiştir. Bu sebeple, sivil toplum örgütleri çalışan
insanların işlerinden memnun olup olmadığını yansıtan indeksin dağılımının New York ve
California’da aynı olup olmadığını incelemeye başlamışlardır. California’da 500, New
York’ta 400 kişi ile görüşüp aşağıdaki bilgiler toplanmıştır. Buna göre %2.5 önem düzeyinde
iki farklı eyaletteki memnuniyet indeksi dağılımı benzer midir?
California New York
Çok memnun 60 75
Memnun 100 125
Memnun değil 184 140
Hiç memnun değil 156 60

Çözüm:

1. Hipotezlerin belirlenmesi:
H0: 4 farklı memnuniyet sınıfının oranı iki eyalette aynı.
H1: 4 farklı memnuniyet sınıfının oranı iki eyalette farklı.

2. Test dağılımının belirlenmesi:


 2 dağılımı kullanılır.
3. Kabul ve red bölgelerinin belirlenmesi: SD=(4-1)(2-1)=3
KABUL RED

  0.025

9.348
4. Test istatistiğinin hesaplanması:
California New York Satır toplamı
Çok memnun 60 (75) 75 (60) 135
Memnun 100 (125) 125 (100) 225
Memnun değil 184 (180) 140 (144) 324
Hiç memnun değil 156 (120) 60 (96) 216
Sütun toplamı 500 400 900
(60  75) 2 (75  60) 2 (100  125) 2 (125  100) 2 (184  180) 2 (140  144) 2
 
2
    
75 60 125 100 180 144
(156  120) 2
(60  96) 2
 
120 96
  42.50
2

5. Kararın alınması:
 2 hesap   2 tablo olduğundan (42.50>9.348) H0 hipotezi reddedilip, H1 hipotezi kabul
edilecektir. Yani iş memnuniyet sınıflarında bulunan kişi sayısı iki eyalette birbirinden
farklıdır.

6.7. Ana Kitle Varyansına Ait Hipotez Testi


Bazı durumlarda ana kitleye ait varyans veya standart sapmanın da belirli sınırlar
içinde kalması istenmektedir. Böyle durumlarda, ana kitleye ait varyansın tahmin edilmesi ve
buna ilişkin hipotez testinin gerçekleştirilmesi gerekmektedir. Şimdi bir makinenin
ambalajların içine 320 gram gıda doldurduğunu düşünelim. Bu makine ambalajların içine
zaman zaman320 gramdan az veya çok gıda doldurabilmektedir. Varyans veya standart sapma
çok büyük olduğunda paketler bazen 320 gramdan çok az, bazen de 320 gramdan çok fazla
olabilmektedir. Oysa bu ürünü üreten firmanın yöneticileri paketlerin doldurulması esnasında
bu kadar büyük bir dalgalanma istemeyecektir. Firma yöneticisi bu dalgalanmayı kontrol
altına almak isteyecek ve makineyi sık sık kontrol edip ayarlayacaktır. Makineyi ayarlamadan
önce yetkili varyansı hesaplamak zorundadır ve hipotez testi ile bu varyansın kabul edilip
edilemeyeceğine karar vermelidir.
Ana kitleden çekilen örnekten hesaplanan varyanslar, tesadüfi bir değişkendir ve
normal dağılım gösteren bir ana kitleden çekilen örneklerden hesaplanan varyansların
gösterdiği dağılıma “örnek varyansına ait örnekleme dağılımı” adı verilmektedir. Örnekten
hesaplanan varyansa dayanarak, an kitle varyansına ait güven aralığı aşağıdaki eşitlikler
yardımıyla belirlenmektedir.
(n  1) S 2 (n  1) S 2
 2 alt    2   2 üst 
 2 / 2  21 / 2
Eşitliklerde  2 / 2 ve  21 / 2  2 dağılımından yararlanılarak elde edilmektedir. Şimdi ana
kitle varyansı için aralıklı tahmini örnekle açıklayalım:
Örnek:
Kutulara 320 gram gıda dolduran makine bazen bu değerden az, bazen de fazla dolum
yapmaktadır. Alınan 25 paketten hesaplanan varyans 0.029’dur. Bu verilere dayanarak %95
güven derecesinde ana kitle varyansına ilişkin aralıklı tahmini yapınız.

Çözüm:

n  25
S 2  0.029

Adım 1:  2 / 2 ve  21 / 2 ’nin belirlenmesi:

1    0.95
  1  0.95  0.05
  0.05 / 2  0.025
2
1  1  0.025  0.977
2
SD  n  1  25  1  24

 2 / 2  39.364  21 / 2  12 .401

SD=24 SD=24

α/2=0.025 1-α/2=0.025

39.364 2 12.401 2
Adım:2 Güven aralığının tahmin edilmesi:
(n  1) S 2 (n  1) S 2
 2 alt    2   2 üst 
 2 / 2  21 / 2

(25  1)(0.029) 2 (25  1)(0.029) 2


 
2

39.364 12.401
0.0177    0.0561
2

%95 güvenilirlikle, ana kitle varyansı 0.0177 ile 0.0561 arasındadır.


Ana kitlenin varyansına ait hipotez testi yapılırken, test istatistiği aşağıdaki formül
yardımıyla hesaplanmaktadır.
(n  1) S 2
2 
2

Formülde S2 örnek varyansını,  2 başlangıç hipotezinde belirtilen ana kitle varyansını ve n-1
ise serbestlik derecesini ifade etmektedir.

Örnek:
Bir makine 1 kilogramlık deterjanları 0.015’lik varyansla doldurmaktadır. Firma
yetkilileri makinenin doldurduğu paketlerden numune alıp kontrol etmekte ve varyanslarını
hesaplamaktadır. Eğer varyanslar beklediği gibi olmazsa makineyi durdurup ayarlatmaktadır.
Yetkili kişi %1 önem düzeyinde ana kitle varyansının 0.015 olmasını istemektedir. Tesadüfen
seçilmiş 25 örnekten hesaplanan varyans 0.029 ise bu makine ayarlanmalı mıdır?

Çözüm:

1. Hipotezlerin belirlenmesi:
H 0 :  2  0.015 (Ana kitleye ait varyans kabul edilebilir düzeydedir.)

H1 :  2  0.015 (Ana kitleye ait varyans kabul edilebilir düzeyde değildir.)

2. Test dağılımının belirlenmesi:


 2 dağılımı kullanılır.
3. Kabul ve red bölgelerinin belirlenmesi: SD=25-1=24

KABUL RED

  0.01

42.980
4. Test istatistiğinin hesaplanması:
(n  1) S 2 (25  1)(0.029)
 
2
  46.4
 2
0.015
5. Kararın alınması:
 2 hesap   2 tablo olduğundan (46.4>42.980) H0 hipotezi reddedilip, H1 hipotezi kabul
edilecektir. Yani ana kitle varyansı kabul edilebilir sınırlar içinde değildir. Bu sebeple makine
ayarlanmalıdır.

Örnek:
Türkiye’de çalışan işçilerin ortalama aylık gelirine ait varyans 490 milyon TL’dir.
Tesadüfi olarak seçilen 29 işçiden hesaplanan varyans ise 600 milyon TL’dir. %5 önem
düzeyinde 29 işçiden hesaplanan varyans ana kitle varyansından farklı mıdır?

Çözüm:

1. Hipotezlerin belirlenmesi:
H 0 :  2  490 (Ana kitle varyansı 490 milyon TL’dir.)

H 1 :  2  490 (Ana kitle varyansı 490 milyon TL’den farklıdır.)

2. Test dağılımının belirlenmesi:


 2 dağılımı kullanılır.
3. Kabul ve red bölgelerinin belirlenmesi:
SD=29-1=28, α/2=0.025 ve 1-α/2=0.975

RED KABUL RED

1-α/2 α/2

15.308 44.461
4. Test istatistiğinin hesaplanması:
(n  1) S 2 (29  1)(600)
 
2
  34.286
 2
490
5. Kararın alınması:
15.308   2 hesap  44.462 olduğundan H0 hipotezi kabul edilip, H1 hipotezi
reddedilecektir. Yani ana kitle varyansı 490 milyon TL/aydır.

6.8. Varyans Analizi


Varyans analizi araştırıcıların çok sık kullandığı bir metottur. Normal dağılımlı ana
kitlelerin ortalamalarının yine bu ana kitlelerden çekildiği kabul edilen örnekler yardımıyla
karşılaştırmada kullanılmaktadır. Varyans analizi ikiden fazla ana kitlelerin ortalamalarının
karşılaştırılmasında kullanılmaktadır ve F dağılımından yararlanmaktadır. Bu analiz iki ana
kitlenin ortalamalarının karşılaştırılmasında da kullanılabilmektedir. Ancak daha önceki
bölümlerde açıklanan t ve z testleri ile yapılan ikili karşılaştırmalar daha etkin sonuçlar
verdiğinden 3 ve üçten fazla grup olduğunda varyans analizi tercih edilmektedir. Varyans
analizi (i) tek yönlü varyans analizi” ve (ii) çok yönlü varyans analizi olmak üzere iki farklı
şekilde uygulanmaktadır. Tek yönlü varyans analizinde tek bir faktör veya değişken için
analiz edilmekteyken, çok yönlü varyans analizinde iki ve ikiden fazla faktörün varyans
analizi gerçekleştirilmektedir. Biz burada sadece tek yönlü varyans analizini ve esaslarını
inceleyeceğiz.

6.8.1. Tek yönlü varyans analizi


Tek yönlü varyans analizinde çok sayıda ana kitlenin ortalaması birbirleri ile
karşılaştırılmaktadır. Ancak bu analizde sadece tek bir faktör veya değişken söz konusudur.
Tek yönlü varyans analizinde, örneklerin çekildiği ana kitlelerin normal dağıldığı, ve vu farklı
ana kitlelerin varyanslarının eşit olduğu ve örneklerin birbirinden bağımsız olduğu
vasayımları bulunmaktadır.
Varyans analizinde, toplam değişimin yani toplam varyansın iki önemli bileşeni
vardır. Bunlardan birincisi örnekler arası varyans, diğeri ise örnek içi varyanstır. Eğer
örneklerin çekildiği ana kitlelerin ortalamaları eşitse, bunlardan çekilen örneklerden
hesaplanan ortalamaların gösterdiği değişim yani örnekler arası varyans çok düşük olacaktır.
Tersi durumda örnekler arası varyans büyük olacaktır.
Tek yönlü varyans analizi daima tek taraflı yürütülmektedir ve başlangıç hipotezini
red bölgesi F dağılımının sağ ucunda bulunmaktadır. Tek yönlü varyans analizinde test
istatistiği aşağıdaki formüller yardımıyla hesaplanmaktadır.

GAKO
F
GIKO
GAKT GIKT
GAKO  ve GIKO 
k 1 nk

  x 
2
T 2 T 2 T 2
GAKT   1  2  3  ......... 
 n1 n2 n3  n

 T1 2 T2 2 T3 2 
GIKT   x    .........
2
 
 n1 n2 n3 

Formülde GAKO örnekler arası hata kareleri ortalamasını, GİKO örnek içi hata kareleri
ortalamasını, GKT genel hata kareler toplamını, GAKT örnekler arası hata kareleri toplamını,
GİKT örnek içi hata kareleri toplamını, Ti her bir örneğin içinde yer alan gözlemlerin
toplamını, n toplam gözlem sayısını, x bütün örneklerin içindeki gözlemlerin toplamını

(T1+T2+T3+.....), x 2
bütün örneklerde yer alan gözlemlerin karelerinin toplamını ve k grup

veya örnek sayısını ifade etmektedir.


Varyans analizinde analiz sonuçları varyans analiz tablosu ile özetlenmektedir.
Varyans analiz tablosunun genel çerçevesi Çizelge 6.5’te verilmiştir.

Çizelge 6.5. Varyans Analiz Tablosu


Değişim Serbestlik Hata kareleri Hata kareleri Test istatistiği
kaynağı derecesi (SD) toplamı ortalaması
Gruplar arası k-1 GAKT GAKO GAKO
F
Grup içi n-k GİKT GİKO GIKO

Toplam n-1 GKT


Örnek:
Deterjan üreten bir kimya firması, işleri arttığından dolayı üretimi artırmak için
kutulara 500 gram deterjan dolduracak bir makine satın almak istemektedir. Firmanın
alabileceği 3 farklı tip makine bulunmaktadır. Firma bu 3 makineden bir tanesi seçip satın
alacaktır. Firma kararı vermeden önce bu üç makineyi 5 saat süreyle denemiş ve üç farklı tip
makinenin 1 saatte doldurduğu kutu sayısının aşağıdaki gibi olduğunu tespit etmiştir. %1
önem düzeyinde bu üç farklı tip makinenin 1 saatte doldurduğu paket sayısı birbirinden farklı
mıdır?
Makine 1 Makine 2 Makine 3
54 53 49
49 56 53
52 57 47
55 51 50
48 59 54
T1=258 T2=258 T3=258
n1=5 n2=5 n3=5
Çözüm:

1. Hipotezlerin belirlenmesi:
H 0 : 1   2   3 (Üç makinenin 1 saatte doldurduğu kutu sayısı eşittir.)

H 0 : 1   2   3 (Üç makinenin 1 saatte doldurduğu kutu sayısı eşit değildir.)

2. Test dağılımının belirlenmesi:


F dağılımı kullanılır.
3. Kabul ve red bölgelerinin belirlenmesi: SD=k-1=3-1=2 ve n-k=15-3=12

KABUL RED k-1=2

  0.01 n-k=12 6.93

6.93
4. Test istatistiğinin hesaplanması:
T1  54  49  52  55  48  258
T2  53  56  57  51  59  276
T3  49  53  47  50  54  253
x T 1  T2  T3  258  276  253  787
n  n1  n2  n3  5  5  5  15
x 2
 (54) 2  (49) 2  (52) 2  (55) 2  (48) 2  (53) 2  (56) 2  (57) 2
 (51) 2  (59) 2  (49) 2  (53) 2  (47) 2  (50) 2  (54) 2  41461

(258) 2 (276) 2 (253) 2 (787) 2


GAKT  (   )  58.5333
5 5 5 15
(258) 2 (276) 2 (253) 2
GIKT  41461  (   )  111.20
5 5 5
GKT  GAKT  GIKT  58.5333  111.2  169.7333
GAKT 58.5333
GAKO    29.2667
k 1 2
GIKT 111.20
GIKO    9.2667
nk 15  3
GAKO 29.2667
F 
GIKO 9.2667

Değişim Serbestlik Hata kareleri Hata kareleri Test istatistiği


kaynağı derecesi (SD) toplamı ortalaması
Gruplar arası 2 58.5333 29.2667 29.2667
F  3.16
Grup içi 12 111.2000 9.2667 9.2667

Toplam 14 169.7333

5. Kararın alınması:
Fhesap  Ftablo olduğundan (3.16<6.93) H0 hipotezi kabul edilip, H1 hipotezi

reddedilecektir. Yani üç makinenin de 1 saatte doldurduğu paket sayısı aynıdır.


Örnek:
Banka yöneticileri zaman zaman çalışanlarının performansını izlemektedir. Son
zamanlarda banka yöneticileri müşterilerle iletişim kuran 4 banka çalışanının 1 saatte hizmet
ettiği müşteri sayısını incelemeye başlamıştır. Yöneticiler bu 4 banka çalışanını belli bir süre
takip etmişler ve bunların 1 saatte hizmet ettiği müşteri sayısını aşağıdaki gibi
belirlemişlerdir. %5 önem düzeyinde bu 4 banka çalışanının 1 saatte hizmet verdiği müşteri
sayısı aynı mıdır?
A B C D
19 14 11 24
21 16 14 19
26 14 21 21
24 13 13 26
17 16 20
13 18
T1=108 T1=87 T1=93 T1=110
n1=5 n2=6 n3=6 n4=5

Çözüm:

1. Hipotezlerin belirlenmesi:
H 0 : 1   2   3   4 (1 saatte hizmet verilen müşteri sayısı 4 bankacı için aynıdır.)

H 0 : 1   2   3   4 (1 saatte hizmet verilen müşteri sayısı 4 bankacı için farklıdır.)

2. Test dağılımının belirlenmesi:


F dağılımı kullanılır.
3. Kabul ve red bölgelerinin belirlenmesi: SD=k-1=4-1=3 ve n-k=22-4=18
KABUL RED k-1=3

  0.05 n-k=18 3.16

3.16
4. Test istatistiğinin hesaplanması:

x T 1  T2  T3  T4  108  87  93  110  398


n  n1  n2  n3  n4  5  6  6  5  22
x 2
 (19) 2  (21) 2  (26) 2  (24) 2  (18) 2  (14) 2  (16) 2  (14) 2
 (13) 2  (17) 2  (13) 2  (11) 2  (14) 2  (21) 2  (13) 2  (16) 2  (18) 2
 (24) 2  (19) 2  (21) 2  (26) 2  (20) 2  7614

(108) 2 (87) 2 (93) 2 (110) 2 (398) 2


GAKT  (    )  255.6182
5 6 6 5 22
(108) 2 (87) 2 (93) 2 (110) 2
GIKT  7614  (    )  158.20
5 6 6 5
GKT  GAKT  GIKT  255.6182  158.2  413.8182
GAKT 255.6182
GAKO    85.2061
k 1 3
GIKT 158.20
GIKO    8.7889
nk 22  4
GAKO 85.2061
F   9.69
GIKO 8.7989

Değişim Serbestlik Hata kareleri Hata kareleri Test istatistiği


kaynağı derecesi (SD) toplamı ortalaması
Gruplar arası 3 255.6182 85.2061 85.2061
F  9.69
Grup içi 18 158.2000 8.7889 8.7889

Toplam 21 413.8182

5. Kararın alınması:
Fhesap  Ftablo olduğundan (9.69<3.16) H0 hipotezi reddedilip, H1 hipotezi kabul

edilecektir. Yani en az 1 banka çalışanının 1 saatte hizmet verdiği müşteri sayısı diğerlerinden
farklıdır.
6.8. Doğrusal Regresyon Analizi
İncelenen değişkenler arasında ilişkinin var olup olmadığı ve bu ilişkinin yönünün ne
olduğunun ortaya konulmasında yaygın olarak kullanılan metot “korelasyon katsayısını”
hesaplamaktır. Korelasyon katsayısı, iki değişken arasındaki ilişkiyi gösterirken,
değişkenlerden bir tanesinin diğeri üzerinde ne derece etkili olduğu konusunda tam bilgi
veremez. Bu konuda regresyon analizi çok yararlı olmaktadır. Regresyon analizi, incelenen
bağımlı değişkende meydana gelen değişmeler ele alınan bağımsız değişkendeki değişmelerle
açıklanmaktadır. Tüketicilerin gelirinde meydana gelen değişmelerin, gıda harcamalarında
meydana getirdiği değişim buna örnek teşkil etmektedir.
İki veya daha fazla değişken arasındaki ilişkileri açıklayan matematiksel eşitliklere
“regresyon modeli” adı verilmektedir. Regresyon modelleri incelenen değişkenler arasındaki
ilişkinin şekline göre doğrusal ve doğrusal olmayan regresyon modeli olarak ikiye
ayrılmaktadır. Eğer regresyon modeli iki değişken arasındaki doğrusal ilişkileri yansıtıyorsa
buna “doğrusal regresyon modeli” denilmektedir. Eğer doğrusal olmayan ilişkileri
yansıtıyorsa “doğrusal olmayan regresyon modeli” adı verilmektedir. Doğrusal bir ilişkide,
bağımsız değişken olan gelirde meydana gelen bir birimlik değişiklik, bağımlı değişken olan
gıda harcamalarında aynı oranda değişikliğe yol açmaktadır. Diğer taraftan, doğrusal olmayan
ilişki söz konusu olduğunda bağımsız değişken olan gelirde meydana gelen değişiklik,
bağımlı değişken olan gıda harcamalarında önce artan oranlarda artışa yol açıyor, belirli bir
noktadan sonra bu artışın hızı oldukça azalıyor. Aşağıda gelir ile gıda harcamaları arasındaki
doğrusal ve doğrusal olmayan ilişli şekil üzerinde gösterilmiştir.

Gıda harcamaları Gıda harcamaları

Gelir Gelir
Doğrusal ilişki Doğrusal olmayan ilişki
Regresyon modelleri aynı zamanda modelde yer alan değişken sayısına bağlı olarak
basit ve çoklu regresyon modeli olarak iki gruba ayrılmaktadır. Regresyon modeli tek bir
bağımlı değişken ve bunu açıklayan 1 açıklayıcı değişkenden oluşuyorsa buna “basit doğrusal
regresyon modeli” denilmektedir. Tek bağımlı değişken ve bunu açıklayan iki ve daha fazla
bağımsız değişken olduğunda buna “çoklu regresyon modeli” adı verilmektedir.

6.8.1. Basit doğrusal regresyon modeli


Basit doğrusal regresyon modelinde sadece iki değişken yer almaktadır ve bunların
arasındaki ilişki doğrusaldır. Değişkenlerden bir tanesi bağımlı değişken, diğeri ise bağımsız
değişkendir. Bağımlı değişken, bir başka değişkendeki değişkene bağlı olarak değişim
gösteren değişkendir. Bağımsız değişken ise, başka bir değişkene bağlı olmayan ve diğer bir
değişkende değişmeler yol açan değişkenlerdir. Örneğin tüketici gelirleri ile gıda harcamaları
incelendiğinde, gıda harcamalarının gelire bağlı olarak değiştiğini görürüz. Bu durumda gıda
harcamaları “bağımlı değişken”, gelir ise “bağımsız değişken” dir. İki değişken arasındaki
doğrusal regresyon modeli matematiksel olarak aşağıdaki gibi gösterilir.

Y    X (ana kitle için)


Y  a  bX (örnek için)

Eşitliklerde  ana kitle için bulunan regresyon modelinin sabit terimini,  ana kitleye ait
regresyon modelinde eğimi, a örneğe ait regresyon modelindeki sabit terimi ve b ise örneğe
ait regresyon modelindeki eğimi ifade etmektedir.
a ve b’nin farklı değerleri için farklı regresyon doğruları söz konusu olmaktadır.
Örneğin a=50 ve b=5 olduğunda basit doğrusal regresyon modeli Y  50  5 X şeklindedir.
Buna ait regresyon doğrusunu çizmek için, öncelikle denklemden yararlanarak X’in iki farklı
değeri için Y’nin aldığı değerlerin bulunması gerekmektedir. Daha sonra X ve Y değerleri
koordinat sisteminde işaretlenerek regresyon doğrusu elde edilir.

X=0 iken Y  50  (5)(0)  50


X=10 iken Y  50  (5)(10)  100
Y
200 Y=50+5X

150

100 X=10, Y=100

50 X=0, Y=50

5 10 15 20 25 X

“a”, regresyon doğrusunun Y eksenini kestiği noktayı göstermektedir ve “sabit terim”


olarak isimlendirilmektedir. Denklemde yer alan “b” ise, regresyon doğrusunun eğimini
göstermektedir. Eğim X’in değişen her bir birimi için Y’nin ne kadar değişeceğini
göstermektedir. Örneğimizde X’in 1 birim artması durumunda, Y kendi biriminden 5 birim
artacaktır. Aşağıda regresyon doğrusu üzerinde b katsayısının özelliği anlatılmıştır.

Y
200 Y=50+5X

150 5 (Y’deki değişim)


1 (X’deki değişim)
100 5 (Y’deki değişim)
1 (X’deki değişim)
50

5 10 15 20 25 X

Y  a  bX modelinde, Y ve X arasında tam bir doğrusal ilişki söz konusudur. X’in


belirli bir değeri için, Y’nin kesin tek bir değeri bulunmaktadır. Bu sebeple bu tip modellere
“deterministik modeller” adı verilmektedir. Ancak gerçek hayatta bir olayı etkileyen birden
fazla değişken mevcuttur ve X’in belirli bir değeri için Y belirli bir olasılıkla değer
almaktadır. Bu durumda daha önce konu edilen deterministik modele tesadüfi hata teriminin
ilave edilmesi gerekli olmaktadır ve model Y  a  bX  e şekline dönüşmektedir. Bu tip
modele ise “ihtimalli regresyon modeli” adı verilmektedir.
İhtimalli modelde yer alan hata terimi, (i) analize dahil edilmeyen değişkenlerin etkisi
ve (ii) tesadüfi değişimin etkisi olmak üzere iki unsuru ihtiva etmektedir. Gerçek dünyada bir
olay üzerinde etkili olan çok sayıda değişken bulunmaktadır. Oysa, model kurulurken çok
sayıda değişken içerisinden daha önemli olanları dikkate alınıp, diğer değişkenler göz ardı
edilmektedir. Daha önce üzerinde çalıştığımız örnekte gıda harcamalarını etkileyen tek
değişkenin gelir olduğunu kabul etmiştik. Oysa, gerçek hayatta gelirden başka gıda
harcamaları üzerinde etkili olan aile büyüklüğü, aile bireylerinin zevk ve tercihleri vb gibi bir
çok değişken bulunmaktadır. Tesadüfi hata terimi, analize dahil edilmeyen bu değişkenlerin
etkisini içermektedir. Diğer taraftan, insan davranışlarını tahmin etmek mümkün
olmadığından, tesadüfi değişimler de söz konusu olabilmektedir. Örneğin incelenen dönemde
bir çok kez toplantı düzenleyen bir aile o dönemde her zamankinden fazla gıda harcaması
yapabilir. Aynı aile ilgili dönemde eve yeni mobilya aldığı için her zamankinden az gıda
harcaması yapabilir. Bu sebeplerle gıda harcamalarında meydana gelen değişim “tesadüfi
değişim” olarak bilinmektedir ve hata terimi içinde yer almaktadır.
Basit doğrusal regresyon modelini oluşturmak için yapılacak ilk iş bağımlı değişken
dik eksende, bağımsız değişken yatay eksende yer alacak şekilde koordinat sistemini
hazırlamak ve değişkenler arasındaki ilişkiyi görmek için verileri koordinat sisteminde
işaretleyerek noktalı diyagramı oluşturmaktır. Daha sonra noktaların arasından doğrular
geçirilir. Her bir doğru ayrı bir regresyon doğrusunu temsil etmektedir ve her birinin “a” ve
“b” değerleri farklıdır. Aşağıda gıda harcamaları ve gelir arasındaki ilişkiyi yansıtan rakamlar
verilmiştir.
Gıda
Gelir harcamaları
(milyar TL) (milyar TL)
35 9
49 15
21 7
39 11
15 5
28 8
25 9

Örneğimiz için koordinat sisteminde işaretlemeler yapılmış ve noktalar arasından muhtelif


doğrular geçirilmiştir (Şekil 6.1).
Gıda harcamaları
16

12 x
x x
8 x x x
x x
4

10 20 30 40 50 Gelir
Şekil 6.1. Gelir ile gıda harcamaları arasındaki ilişki

Regresyon analizinde, noktalar arasından geçen en iyi doğru bulunmaya


çalışılmaktadır. Bu doğru “en küçük kareler yöntemi” ile bulunmaktadır. En küçük kareler
yöntemine göre “a” ve “b” katsayıları aşağıdaki formüller yardımıyla hesaplanmaktadır.

( X )( Y )
 XY  n
b
( X ) 2
X 2

n
 
a  Yb X
Formüllerde a regresyon doğrusunun Y eksenini kestiği noktayı (sabit terim), b eğimi,

 XY bağımlı ve bağımsız değişkenlerin değerlerinin çarpımlarının toplamını,

 X bağımsız değişken değerlerinin toplamını, X 2


bağımsız değişken değerlerinin
 
karelerinin toplamını, n gözlem sayısını, X bağımsız değişken için aritmetik ortalamayı ve Y
bağımlı değişken için aritmetik ortalamayı ifade etmektedir.
Şimdi gelir ve gıda harcamaları arasındaki ilişkiyi bulmak için en küçük kareler
yöntemi ile regresyon doğrusunu ve denklemini oluşturalım:

Adım 1: Verilerin hazırlanması


Bu aşamada çarpımlar, kareler toplamı ve bağımlı ve bağımsız değişkenlerin
değerlerinin toplamı hesaplanır. Mevcut verilerden yararlanarak değişkenler ait ortalamalar
hesaplanır.
Gelir Gıda harcamaları XY X2 Y2
(milyar TL) (milyar TL)
35 9 315 1225 81
49 15 735 2401 225
21 7 147 441 49
39 11 429 1521 121
15 5 75 225 25
28 8 224 784 64
25 9 225 625 81
 X  212  Y  64  XY  2150  X 2  7222  Y  646
2


X 
X 
212
 30.2857
n 7

Y
Y 
64
 9.1429
n 7

Adım 2: Katsayıların hesaplanması


( X )( Y ) (212)(64)
 XY  n
2150 
7 211.7143
b    0.2642
( X ) 2 (212) 2
801.3286
X 2

n
7222 
7
 
a  Y  b X  9.1429  (0.2642)(30.2857)  1.1414

Adım 3: Regresyon denkleminin oluşturulması ve katsayıların yorumu


Y  1.1414  0.2642 X
a katsayısının yorumu: Hiç geliri olmayan bir ailenin yılda 1.1414 milyar TL’lik gıda
harcaması olacaktır.
b katsayısının yorumu: Bu katsayının yorumu için öncelikle işaretine bakılmalıdır. İşaret
pozitif olduğundan, gelir ile gıda harcamaları aynı yönde hareket etmektedir. Buna göre gelir
1 milyar TL arttığında, gıda harcamaları 264.2 milyon TL artacaktır.

Adım 4: Regresyon doğrusunun çizilmesi

Regresyon doğrusunun çizilmesi için X’in çeşitli değerleri için Y’nin aldığı değerler
denklem yardımıyla bulunur. Daha sonra bunlar koordinat sisteminde işaretlenerek regresyon
doğrusu elde edilir.
Gıda harcamaları (milyar TL)
16
y = 1.1414+0.2642X
12

0
0 10 20 30 40 50 60
Gelir (milyar TL)

Regresyon modelinden yararlanarak, bağımsız değişkenin belirli bir değeri için,


bağımlı değişkenin değerini tahmin etmek mümkündür. Bunun için oluşturulan regresyon
denkleminde X’in istenen değeri yerine konulur ve Y değeri bulunur. Örneğin gelir 35 milyar
TL olduğunda gıda harcamaları ne kadar olacaktır. X’in yerine modelde 35 konulduğunda,
gıda harcamaları Y  1.1414  (0.2642)(35)  10.3884 milyar TL olarak bulunur. Ancak
oluşturulan regresyon modeline dayanarak tahminlerde bulunurken dikkatli olmak
gerekmektedir. Her şeyden önce, model oluşturulurken bağımsız değişkenin en küçük ve en
büyük değerleri arasında kalan değerler için tahminlerin tutarlı sonuç vereceği
unutulmamalıdır. Eğer seride bulunan verilerden çok büyük veya küçük değerler için tahmin
yapılırsa, önemli düzeyde hata içerecektir.
Anket yoluyla kişilerden elde edilen gıda harcamaları değerleri “gerçek değerler” veya
“gözlenen değerler” olarak bilinirler. Regresyon doğrusu veya denklemi kullanılarak elde
edilen gıda harcamaları değerleri ise “tahmini değer” dir. Regresyon modelinde yer alan hata
terimi gerçek değer ile tahmin değeri arasındaki farka eşittir.

e= Gerçek gıda harcamaları – Tahmini gıda harcamaları = Y  Y

Eğer gerçek gözlem değeri tahmin değerinden büyükse hata terimi pozitif değer
almaktadır. Gerçek gözlem değeri tahmin değerinden küçük olduğu durumda ise, hata terimi

negatif değer almaktadır. Hata terimlerinin toplamı sıfıra eşittir ( e   (Y  Y )  0) .

Hatanın ne derece büyük olduğunu bize hata teriminin standart hatası göstermektedir. Hata
teriminin standart hatası aşağıdaki formül kullanılarak hesaplanmaktadır.
( Y ) 2 ( X )( Y )
Y 2  n
 (b)( XY 
n
Se 
n2

Formülde n-2 regresyon modelinin serbestlik derecesini ifade etmektedir. Şimdi örneğimiz
için standart sapmayı hesaplayalım.

60.8571  (0.2642)(211.7143)
Se   0.9922
72

Regresyon modelinde yapılan hataların toplamını ifade eden genel hata kareleri
( Y ) 2
toplamının iki önemli bileşeni bulunmaktadır ( GHKT   Y 2  ). Bunlardan
n
birincisi hata kareleri toplamının regresyon denklemi tarafından açıklanan kısmıdır (HKT).
En küçük kareler yönteminde amaç, hata kareleri toplamının regresyon tarafından açıklanan

kısmının en aza indirilmesidir ( HKT   e 2   (Y  Y ) 2  min ). Diğer bileşen ise

regresyon denklemi tarafından açıklanmayan kısımdır ( AHKT  GHKT  HKT ) .


Örneğimizde 35 milyar TL’lik gelir için, gıda harcamalarının 10.3884 milyar TL
olduğunu tahmin etmiştik. Oysa gerçekte 35 milyar TL gelire sahip olan bir ailenin gıda
harcamaları 9 milyar TL’dir. Bu durumda tahminin içerdiği hata

e  Y  Y  9  10 .3884  1.3884 milyar TL’dir. Şimdi her bir X değeri için gerçek ve
tahmini gıda harcamaları değerlerinin farkını alarak hataları tespit edelim. Daha sonra,
hesaplanan hata terimlerinden yararlanarak regresyon denklemi tarafından açıklanan ve
açıklanmaya hata kareleri toplamı ve genel hata kareleri toplamını bulalım.

Gelir Gıda Y  1.1414  0.2642 X  


e  Y Y e 2  (Y  Y ) 2
(milyar TL) harcamaları
(milyar TL)
35 9 10.3884 -1.3884 1.9277
49 15 14.0872 0.9128 0.8332
21 7 6.6896 0.3104 0.0963
39 11 11.4452 -0.4452 0.1982
15 5 5.1044 -0.1044 0.0109
28 8 8.5390 -0.5390 0.2905
25 9 7.7464 1.2536 1.5715
 X  212  Y  64  e 2  4.9283
Buna göre regresyon modeli ile açıklanan hata kareleri toplamı 4.9283’tür. Genel hata kareleri
toplamı ise,
( Y ) 2 (64) 2
GHKT   Y 2   646   60.8571
n 7

olarak bulunur. Genel hata kareleri toplamının regresyon denklemi ile açıklanamayan bölümü
de,
AHKT  GHKT  HKT  60.8571  4.9283  55.9288
şeklindedir.

Regresyon modeline ilişkin hata kareleri toplamları bulunduktan sonra, oluşturulan


regresyon modelinin ne derece iyi olduğunu gösteren “determinasyon (belirleme)
katsayısının” hesaplanması gerekmektedir. Genellikle yüksek r2 değeri, iyi bir regresyon
modelini göstergesidir. Hata kareleri toplamının regresyon denklemi ile açıklanmayan
kısmının, genel hata kareleri toplamına oranı bize determinasyon katsayısını vermektedir.
AHKT
r2 
GHKT

Determinasyon katsayısı aynı zamanda aşağıdaki formül yardımıyla hesaplanabilmektedir.

( X )( Y )
(b)( XY  )
r2  n
( Y ) 2
Y 2

n

Determinasyon katsayısı, toplam hatanın regresyon modeli ile açıklanma oranını


göstermektedir ve bu katsayı 0 ile 1 arasında değişmektedir (0  r 2  1) . R2 bağımlı
değişkendeki değişimin, ele alınan bağımsız değişken tarafından açıklanan yüzdesini
göstermektedir. Modelde açıklanmadan geri kalan kısım, modelde ele alınmayan diğer
değişkenlerin etkisinden ve tesadüfi değişimden kaynaklanmaktadır. Şimdi örneğimiz için
determinasyon katsayısını hesaplayalım:

(0.2642)(211.7143
r2   0.92
60.8571
Buna göre gıda harcamalarında meydana gelen değişimin %92’si, bağımsız değişken
olarak incelenen gelir tarafından açıklanmaktadır. Toplam değişimin geriye kalan %8’lik
kısmı ise ele alınmayan değişkenlerin etkisinden ve tesadüfi değişimden kaynaklanmaktadır.
Doğrusal regresyon analizinde, elde edilen “b” katsayısının hipotez testinin yapılması
gerekmektedir. “b” katsayısının testi yapılırken, eğer n>30 ise z dağılımı, n<30 ise t dağılımı
kullanılmaktadır. Hipotez testi yapılırken aşağıdaki formüller kullanılmaktadır.
Se
Sb 
( X ) 2
X 2

n
b
t
Sb

Formüllerde S b b katsayısına ait standart hatayı, S e hata teriminin standart hatasını, b eğimi ve

 ana kitle eğimini ifade etmektedir. Formülde  başlangıç hipotezinden dolayı sıfır olarak
alınmaktadır. Şimdi örmeğimiz için katsayıları test edelim:

1. Hipotezlerin belirlenmesi:
H 0 : b  0 (Eğim sıfırdır, yada katsayı istatistik açıdan önemsizdir)

H 0 : b  0 (Eğim pozitiftir, yada katsayı istatistik açıdan önemlidir.)

2. Test dağılımının belirlenmesi:


n<30 olduğundan t dağılımı kullanılır.
3. Kabul ve red bölgelerinin belirlenmesi: SD=n-2=7-2=5
KABUL RED α=0.01

  0.01 n-2=5 3.365

0 3.365
4. Test istatistiğinin hesaplanması:
Se 0.992
Sb    0.035
( X ) 2 28.31
X2  n
b   0.2642  0
t   7.549
Sb 0.035

5. Kararın alınması:
t hesap  t tablo olduğundan (7.549<3.365) H0 hipotezi reddedilip, H1 hipotezi kabul

edilecektir. Yani b katsayısı istatistik açıdan önemlidir.

Örnek:
8 otomobil sürücüsünün, sürücülük deneyimi ile aylık sigorta prim ödemeleri
aşağıdaki gibidir.

Sürücülük Aylık sigorta


deneyimi (yıl) primi (milyon TL)
5 64
2 87
12 50
9 71
15 44
6 56
25 42
16 60

a) Verilere bakarak, bu iki değişken arasında bir ilişki var mıdır?Varsa yönü nedir? Bu
değişkenlerden hangisi bağımlı değişken, hangisi bağımsız değişkendir?
b) Doğrusal regresyon modelini oluşturup, regresyon doğrusunu çiziniz?
c) Korelasyon katsayısı ve determinasyon katsayısını hesaplayınız?
d) 10 yıllık sürücülük deneyimine sahip bir sürücünün aylık sigorta primini tahmin
ediniz?
e) Hata terimine ait standart hatayı hesaplayınız?
f) b katsayısına ilişkin hipotez testini yapınız?

Çözüm:
a) İki rakam grubuna bakarak aralarında negatif bir bağlantının olduğunu söylemek
mümkündür. Sürücülük deneyimi bağımsız, aylık sigorta primi ise bağımlı
değişkendir.
b)  X  90 X 2
 1396  Y  474 Y 2
 29642  XY  4739
 
X  11 .25 Y  59.25

(90)(474) 2
4739 
b 8  1.5476
(90) 2
1396 
8
 
a  Y  b X  59.25  (1.5476)(11.25)  76.6605
Y  76.6605  1.5476 X
Aylık sigorta primi (milyon TL)

100

80

60

40

20 y = 76.6605-1,5476x

0
0 10 20 30
Sürücülük deneyimi (yıl)

( X )( Y )
 XY  n  593.500
c) r    0.77
( X ) 2
( Y ) 2
(383.50)(1557.5)
( X 
2
)( Y  2
)
n n

(1.5476)(593.5)
r2   0.59
1557.5
d) 10 yıllık sürücülük deneyimine sahip bir sürücünün tahmini aylık sigorta primi
Y  76.6605  1.5476(10)  61.18 milyon TL’dir.
e) Tesadüfi hata teriminin standart hatası

1557.5  (1.5476)(593.5)
Se   10.3199 milyon TL’dir.
6
f) B katsayısının testi aşağıdaki gibidir.
1. Hipotezlerin belirlenmesi:
H 0 : b  0 (Eğim sıfırdır, yada katsayı istatistik açıdan önemsizdir)

H 0 : b  0 (Eğim negatiftir, yada katsayı istatistik açıdan önemlidir.)

2. Test dağılımının belirlenmesi:


n<30 olduğundan t dağılımı kullanılır.
3. Kabul ve red bölgelerinin belirlenmesi: SD=n-2=8-2=6
KABUL RED α=0.05

  0.05 n-2=6 -1.943

-1.943 0
4. Test istatistiğinin hesaplanması:
Se 10.3199
Sb    0.5270
( X ) 2 19.583
X2  n
b    1.5476  0
t   2.937
Sb 0.5270

5. Kararın alınması:
t hesap  t tablo olduğundan (2.937<1.943) H0 hipotezi reddedilip, H1 hipotezi kabul

edilecektir. Yani b katsayısı istatistik açıdan önemlidir.

6.9. Doğrusal Korelasyon Analizi


İki değişken arasında doğrusal bir ilişki olup olmadığını ve ilişki varsa bunun yönünü
gösterir. Bu katsayı –1 ile +1 arasında değerler almaktadır ve “r” harfi ile gösterilmektedir
(1  r  1) . Korelasyon katsayısı +1’e eşit olduğunda pozitif yönde tam bir doğrusal ilişki
söz konusudur. Bu katsayı 0 olduğunda ise değişkenler arasında doğrusal bir ilişkiden söz
etmek mümkün değildir. Değişkenler arasında negatif yönde tam bir doğrusal ilişki söz
konusu olduğunda, bu katsayı –1’e eşit olmaktadır. Gerçek hayatta negatif ve pozitif yönde
tam bir doğrusal ilişki bulmak imkansızdır.
Y Y Y

X X X
r = +1 r = -1 r=0

Doğrusal korelasyon katsayısı aşağıdaki formül yardımıyla hesaplanmaktadır:

( X )( Y )
 XY  n
r
( X ) ( Y )
2 2

( X  2
)( Y  2

n n

Gıda harcamaları ile gelir arasındaki ilişkiyi incelediğimiz örnek için korelasyon
katsayısını hesaplayalım.

( X )( Y )
 XY  n
 211.7143

( X ) 2
X2  n
 801.4286

( Y ) 2
Y 2

n
 60.8571

( X )( Y )
 XY  n 211.7143
r   0.96
( X ) 2
( Y ) 2
(801.4286)(60.8571)
( X 2
)( Y  2
)
n n

Buna göre gelir ile gıda harcamaları arasında pozitif yönde kuvvetli bir doğrusal ilişkinin var
olduğu sonucuna varılır. Korelasyon katsayısının karesi, regresyon modeli için hesaplanan
determinasyon katsayısına eşit olmaktadır.

You might also like