Professional Documents
Culture Documents
ANALİTİK İSTATİSTİK (Asıl) PDF
ANALİTİK İSTATİSTİK (Asıl) PDF
ANALİTİK İSTATİSTİK (Asıl) PDF
ANALİTİK İSTATİSTİK
Karşı karşıya kaldığımız hedef kitle hakkında genellikle tam bilgi sahibi olamayız.
Nadiren ilgilendiğimiz konu hakkında hedef kitlenin tamamı hakkında bilgi sahibi olabiliriz.
Hükümet sayım (nüfus sayımı, tarım sayımı vb.) yoluyla bize bu bilgileri ulaştırır. Ancak her
zaman bu kadar şanslı olmayız. Hedef kitlenin tamamı hakkında bilgi sahibi olmak bazen çok
pahalı, zaman alıcı ve güç iken, bazen ise imkânsız olmaktadır. Bu gibi durumlarda hedef
kitle içinden çekilen ve bu kitleyi temsil ettiğine inandığımız bazı örneklerden elde ettiğimiz
bilgilere dayanarak hedef kitle hakkında bilgi sahibi olmaya çalışırız.
Örneklerden elde ettiğimiz işlenmemiş veriler öncelikle tanımlayıcı istatistik
yöntemler (merkezi eğilim ölçüleri, dağılım ölçüleri, pozisyon ölçüleri, frekans dağılımı, ilişki
ölçüleri) kullanılarak daha kolay anlaşılır hale getirilmelidir. Daha sonra analitik
(yorumlayıcı) istatistik teknikler kullanılarak örnekten elde edilen bilgilere dayanarak ana
kitle hakkında sonuçlar çıkartılmalıdır.
2. Tesadüfi örnekleme: Hedef kitle içinde yer alan bütün bireylerin örneğe seçilme şansı
eşittir. Bu örnekleme yönteminde hedef kitleye ilişkin tahminlerin doğruluk derecesi ve hata
payı hesaplanabilmektedir. Tesadüfi örneklemede örneğe girecek elemanların seçiminde
kullanılan ilk yöntem kura yöntemidir. Örneğin 50 kişilik bir sınıftan tesadüfi olarak 5 kişi
seçileceğini düşünelim. Bu 50 kişinin ismi ayrı ayrı kağıtlara yazılır ve bir torbaya doldurulur.
Daha sonra 5 isim bu torbadan çekilerek kura yöntemi ile tesadüfi olarak örnek çekilmiş olur.
Tesadüfi sayılar tablosunu kullanmak örneğe girecek elemanların tespitinde kullanılan ikinci
yöntemdir. Tesadüfi sayılar tablosu yardımıyla 400 kişiden tesadüfi olarak 30 kişi seçtiğimizi
düşünelim. Bunun için öncelikle 400 kişinin adı alfabetik sırada dizilir. Daha sonra 5 haneli
olarak hazırlanmış “tesadüfi sayılar tablosundan” yararlanmak için bir başlangıç noktası
belirlenir. Başlangıç noktasının belirlemenin en kolay yolu, gözlerimizi kapatıp parmağımızı
tesadüfi olarak bir noktaya koymaktır. Bu başlangıç noktasından istenilen yere doğru
ilerlemek mümkündür. Böylece başlangıç noktasından sonra gelen her 5 haneli rakamın 3
hanesi okunarak tesadüfi bir kişi tespit edilir. Bu numaraya karşılık gelen isim seçilecek ismi
oluşturmaktadır. Tesadüfi örnekleme (i) basit tesadüfi örnekleme, (ii) tabakalı tesadüfi
örnekleme, (iii) cluster örnekleme ve (iv) analitik örnekleme olmak üzere 4 farklı şekilde
uygulanabilmektedir.
Buradan farklı olarak çekilebilecek toplam örnek sayısını bulmak için, toplam kombinasyon
sayısını belirlemek gerekmektedir.
3!(55! 3)! 10
5
3
Söz konusu hedef kitleden çekilebilecek en büyük örnek sayısı 10 olarak bulunmuştur. Bu
örnek kombinasyonları ve bunlara ait ortalamalar aşağıda verilmiştir.
Örneklerin ortalamaları ve bunlara ait olasılıklar da nispi frekans yaklaşımına göre aşağıdaki
gibidir.
f
x P( x)
25.33 2 0.20
28.00 1 0.10
29.00 1 0.10
31.67 1 0.10
31.33 2 0.20
34.00 2 0.20
37.67 1 0.10
10 1.00
Ortalamaya ait örnekleme dağılımının ortalaması, hedef kitlenin ortalamasına eşittir.
Eğer örnekten hesaplanan ortalama ana kitle ortalamasına tam eşit ise buna “sapmasız
tahmin” adı verilmektedir.
x
Ortalamaya ait örnekleme dağılımının standart sapması ise, ana kitlenin standart
sapmasından farklıdır. Örnekleme dağılımının standart sapması, ana kitlenin standart
sapmasının örnek hacminin kare köküne oranına eşittir.
x n
N n
bu oran 0.05’ten büyük olursa bu formüle sonlu düzeltme faktörünün ( ) ilave
N 1
edilmesi gerekmektedir. Bu durumda formül şu hale dönüşmektedir.
N n
x n N 1
anlaşılmaktadır. Zira örnek hacmi 1’den büyük olduğu sürece, oranı içinde yer alan
n
n 1’den büyük olacaktır ve sonuçta örnekleme dağılımının standart sapması, ana kitleden
küçük olacaktır. Diğer taraftan örnek hacmi büyüdükçe örnekleme dağılımının standart
sapması küçülmektedir. Eğer bu koşul sağlanıyorsa bu örnekten yapılan tahmin “tutarlı
tahmin” olmaktadır.
Örnek:
5000 işçisi bulunan bir firmada çalışan bir işçi saatte ortalama 13.50 milyon TL gelir
elde etmektedir. Bu ortalama değere ait standart sapma ise 2.90 milyon TL’dir.
a) Bu firmadan seçilen 30 kişinin saatlik ortalama gelirine ait standart sapma ne
kadardır?
b) Bu firmadan seçilen 75 kişinin saatlik ortalama gelirine ait standart sapma ne
kadardır?
c) Bu firmadan seçilen 200 kişinin saatlik ortalama gelirine ait standart sapma ne
kadardır?
Çözüm:
Örnekleme dağılımının ortalaması ana kitlenin ortalamasına eşit olduğundan
13 .50 ’dir ve standart sapma 2.90 ’dır.
x
a)
n 30
n 30
0.006
N 5000
n
0.05 olduğundan 5000 kişiden seçilen 30 kişinin saatlik ortalama gelirine ilişkin standart
N
2.90
sapma 0.53 olarak bulunur.
x n 30
b)
n 75
n 75
0.015
N 5000
n
0.05 olduğundan 5000 kişiden seçilen 75 kişinin saatlik ortalama gelirine ilişkin standart
N
2.90
sapma 0.33 olarak bulunur.
x n 75
c)
n 200
n 200
0.04
N 5000
n
0.05 olduğundan 5000 kişiden seçilen 200 kişinin saatlik ortalama gelirine ilişkin
N
2.90
standart sapma 0.21 olarak bulunur.
x n 200
x x
p ve p
N n
Orana ait örnekleme dağılımının standart sapması ise, ana kitlenin standart
sapmasından farklıdır. Örnekleme dağılımının standart sapması, ana kitlenin standart
sapmasının örnek hacmine oranının kare köküne eşittir.
pq
p n
Formülde p istenen olayın ana kitle içindeki oranına, q ise 1-p’ye eşittir. Ancak örnekleme
dağılımının standart sapmasının bu formülle hesaplanabilmesi için örnek hacminin ana kitleye
n
oranının 0.05 veya bundan küçük olması ( 0.05) gerekmektedir. Eğer bu oran 0.05’ten
N
N n
büyük olursa bu formüle sonlu düzeltme faktörünün ( ) ilave edilmesi gerekmektedir.
N 1
Bu durumda formül şu hale dönüşmektedir.
pq N n
p n N 1
Örnek:
Bir firmada çalışan 5 işçinin istatistik konusunda bilgi sahibi olup olmadığı ile ilgili
bilgiler aşağıda verilmiştir.
İsim İstatistik bilip
bilmediği
Murat Biliyor
Mustafa Bilmiyor
Ali Bilmiyor
Tülin Biliyor
Coşkun Biliyor
Bu durumda istatistik bilenlerin ana kitle içindeki oranı p 3/5=0.60’dır. Şimdi bu 5 işçiden
3’er kişilik gruplar seçelim. Bu 5 işçiden toplam 10 farklı örnek seçmek mümkündür. 10
farklı örnek ve bunların oranı aşağıda verilmiştir.
Örnek
p
Murat, Mustafa, Ali 1/3=0.33
Murat, Mustafa, Tülin 2/3=0.67
Murat, Mustafa, Coşkun 2/3=0.67
Murat, Ali, Tülin 2/3=0.67
Murat, Ali, Coşkun 2/3=0.67
Murat, Tülin, Coşkun 3/3=1.00
Mustafa, Ali, Tülin 1/3=0.33
Mustafa, Ali, Coşkun 1/3=0.33
Mustafa, Tülin, Coşkun 2/3=0.67
Ali, Tülin, Coşkun 2/3=0.67
pq N n (0.6)(0.4) 5 3
0.20
p n N 1 3 5 1
6.1.3. Örnekleme ve örnekleme dışı hatalar
Aynı ana kitleden seçilen örnekler farklı elementleri içerdiklerinden farklı sonuçlar
vermektedirler. Aynı zamanda örnekten hesaplanan ortalamalar ve oranlar, ana kitle
ortalamasından ve oranından farklı olabilmektedirler. Örnekten hesaplanan ortalama ile ana
kitle ortalaması arasındaki fark veya örnek oranı ile ana kitle oranı arasındaki fark “örnekleme
hatası” olarak bilinmektedir.
Örnekleme hatası x (Ortalama için)
Örnekleme hatası p p (Oran için)
Örnekleme dışı hata ise, verilerin toplanması, kayıt altına alınması ve tablolaştırma
işlemleri esnasında meydana gelen hataları kapsamaktadır. Örnekleme dışı hataların
oluşmasının en önemli sebebi, örneklerin tesadüfi olarak seçilmemesidir. Aynı şekilde anket
formunda yer alan soruların denek tarafından yanlış anlaşılması sonucu yanlış cevaplar
verilmesi veya deneklerin bazı hassas sorulara bilerek yanlış cevap vermesi de örnekleme dışı
hataya yol açmaktadır. Araştırıcıların anketlerde bulunan bilgilerin bilgisayara yanlış
aktarılması da diğer bir örnekleme dışı hata kaynağıdır.
Örnek:
Bir firmada çalışan 5 kişinin milyon TL olarak haftalık maaşlarının 17, 24, 35, 35, 43
olduğunu düşünelim. Bu ana kitlenin ortalaması (17+24+35+35+43)/5=30.8’dir.
Bu 5 kişiden tesadüfi olarak 3 kişinin seçildiğini ve bunların milyon TL olarak haftalık
maaşlarının 17, 35 ve 43 olması durumunda ortalama haftalık gelir 31.67 milyon TL olacaktır.
x (17 35 43) / 3 31.67
Örnekleme hatası x 31.67 30.8 0.87 milyonTL
Örnekleme hatası ana kitle içinde bulunan elementlerin örneğe seçilmesinin şansa
bağlı olmasından kaynaklanan bir hatadır. Oysa örnekleme dışı hatalar ise insanların yaptığı
hatalardan kaynaklanmaktadır. Örnekleme dışı hata hem tam sayıda hem de örneklemede
karşılaşılırken, örnekleme hatası sadece örnekleme de karşılaşılan bir hatadır. Örnekleme dışı
hatayı anketleri hazırlarken dikkatli olmak kaydıyla ve verileri aktarırken titiz bir çalışma ile
minimize etmek mümkündür.
Örnek:
Türkiye’de şehirde ortalama kiranın 200 milyon TL/ay ve buna ait standart sapmanın
75 milyon TL/ay’dır. Türkiye’nin şehirlerinde kiraların dağılımının sağa çarpık olduğu
bilinmektedir. Bu ana kitleden çekilen n=100’lük örneğin ortalama ve standart sapmasını
hesaplayınız ve dağılımın şeklini gösteriniz?
Çözüm:
Kiraların dağılımı normal olmamasına rağmen n>30 olduğundan, bu soruda merkezi
limit teoremini uygulamak gerekmektedir. Örnekleme dağılımı normale yaklaştığından
ortalama ve standart sapma aşağıdaki gibi hesaplanır.
x 200 milyon TL
75
S 7.5
n 100
kitlenin standart sapmasından farklıdır. Örnekleme dağılımının standart sapması, ana kitlenin
standart sapmasının örnek hacmine oranının kare köküne eşittir.
pq
p n
Formülde p istenen olayın ana kitle içindeki oranına, q ise 1-p’ye eşittir. Ancak
örnekleme dağılımının standart sapmasının bu formülle hesaplanabilmesi için örnek hacminin
n
ana kitleye oranının 0.05 veya bundan küçük olması ( 0.05) gerekmektedir.
N
Örnek:
Bir firmada çalışan elemanların %18’i işyerindeki performanslarının gerek mali olarak
gerekse de kişisel olarak ödüllendirildiğini belirtmişlerdir. Bu yargının ana kitlenin tamamı
için doğru olduğunu düşünelim. Firmada çalışan tesadüfi olarak seçilmiş 100 kişinin de aynı
görüşü paylaştığına göre orana ait örnekleme dağılımının ortalama ve standart sapmasını
hesaplayalım.
Çözüm:
p 0.18 ve q 1 p 1 0.18 0.82
Orana ait örnekleme dağılımının ortalaması p 0.18 ’dir. Standart sapma ise
p
pq (0.18)(0.82)
0.038
p n 100
1. Örneği seçmek
2. Örneğe giren bireylerden bilgileri toplamak
3. Örneğe ait istatistikleri hesaplamak
4. Ana kitle parametresinin değerini belirlemek
Bazen ana kitlenin ortalaması tahmin edilirken, bazen de ana kitle oranı tahmin
edilmektedir. Örneğin bir otomobil firmasında yetkili kişi belirli bir model otomobilin
ortalama yakıt tüketimini, işe yeni başlamış bir işçinin işi öğrenme süresini veya piyasaya
yeni sürecekleri otomobilden müşterilerinin yüzde kaçının memnun olacağını merak edebilir.
Bunları ortaya koymanın yolu tahmin yapmaktır. Ana kitle ortalaması veya ana kitle oranı,
nokta tahmini veya aralıklı tahmin olmak üzere iki farklı şekilde tahmin edilebilir. Eğer ana
kitleden seçilen örnekten hesaplanan istatistik tek bir noktaya ait ise bu “nokta tahmin”dir.
Yani ana kitle ortalaması veya oranı tek bir nokta olarak tahmin edilmektedir. Nokta
tahminleri genellikle tahmine ilişkin en yüksek hata payını ifade eden hata sınırları ile birlikte
verilmektedir.
Hata sınırı = x ± z veya x ± z S (Ortalama için)
x x
Hata sınırı = p ± z veya p ± z S (Oran için)
x x
Hata sınırı belirlenirken öncelikle örneğe ait standart sapma hesaplanır ve bu değer ilgili
güven derecesini yansıtan “z” değeri ile çarpılır. “z” değeri, ilgili güven derecesi için standart
normal dağılım tablosundan bulunmaktadır.
Aralıklı tahminde ise, ana kitle parametresini tek bir noktada tahmin etmek yerine,
nokta tahmini etrafında ana kitle parametresinin içinde yer aldığı bir aralık oluşturulur ve ana
kitle parametresi için olasılıklı yorum yapılır. Aralıklı tahmin yapabilmek için örnekten
hesaplanan ortalama veya orandan bir sayı çıkartılarak alt sınır ve ortalama veya orana bir
sayı ilave edilerek üst sınır bulunmaktadır. Bu durumda, ortalama veya orandan çıkartılacak
veya eklenecek sayının nasıl belirleneceği problemi ortaya çıkmaktadır. Bu sorunun cevabı
içinde iki önemli unsur yer almaktadır; (i) örneğe ait standart sapma ve (ii) aralığa ilişkin
güven derecesi. Yani ortalama veya orana örnekten hesaplanan standart sapma ile istenen
güven derecesini yansıtan “z” veya “t” değerinin çarpımı sonucu bulunan değer ilave edilmeli
veya çıkartılmalıdır. Ortalama veya orana ait standart sapma ne kadar büyük olursa eklenecek
veya çıkartılacak sayı o kadar büyük olacaktır. Aralık tahmininde genellikle olasılıklı yorum
kullanılmaktadır. Bu olasılık “güven derecesi” nden kaynaklanmaktadır. Bu sebeple istenen
güven derecesinde oluşturulan aralığa “güven aralığı” denilmektedir. İstenen güven
derecesinde oluşturulan her bir aralık güven aralığıdır. Güven derecesi (1 ) 100 ile
gösterilmektedir. Güven derecesi olasılık olarak ifade edilecekse (1 ) olarak ifade
edilmektedir ve buna “güven katsayısı” adı verilmektedir. Burada yer alan , “önem düzeyi”
olarak bilinmektedir. Önem düzeyi daha sonra incelenecek olan hipotez testleri konusunda
detaylı olarak incelenecektir. Aralıklı tahmin yapılırken, bütün güven derecelerini seçmek
mümkünse de genellikle %90, %95 veya %99 güven dereceleri kullanılmaktadır.
Aralıklı tahmin yapılırken istatistikçilerden bazıları güven derecesini yansıtmak üzere
ana kitleye ait standart sapmanın bilinip bilinmediği kriterini esas almaktadırlar. Bu grup
istatistikçilere göre, ana kitleye ait standart sapma biliniyorsa “z” değerlerinin, bilinmiyorsa
“t”* değerinin kullanılması gerekmektedir. “t” dağılımı ileriki bölümlerde daha ayrıntılı bir
şekilde anlatılacaktır. Diğer gruptaki istatistikçiler ise, güven derecesini yansıtmak üzere
örnek hacmi kriterini kullanmaktadırlar. Bu grup istatistikçiler, örnek hacmi büyük olduğunda
“z” değerlerinin, küçük olduğunda “t” değerlerinin kullanılması gerektiğini savunmaktadırlar.
Örnek hacmi 30’dan büyük olduğunda, örnek hacmi büyük, küçük olduğunda ise örnek hacmi
küçüktür. Genellikle ana kitleye ait standart sapma bilinmediğinden biz örnek hacmi kriterini
kullanacağız. Buna göre aralıklı tahminde kullanılan formüller aşağıda verilmiştir.
x zS n 30 (Ortalama için)
x
x tS n 30 (Ortalama için)
x
p ± z S np 5 ve nq 5 (Oran için)
x
Güven aralığı formüllerinde yer alan zS ve tS ifadeleri tahmine ait en büyük hata olarak
x x
bilinmektedir ve E harfi ile gösterilmektedir. Örnek olarak %95 güven derecesinde ana kitle
ortalaması için “güven aralığı” oluşturduğumuzu düşünelim. %95 güven aralığının anlamı;
ortalamaya ait normal dağılım eğrisinde ana kitle ortalamasının her iki tarafında yer alan
x değerleri arasında kalan alanın 0.95 olmasıdır. İstenen güven derecesini yansıtacak “z”
değeri bulunurken verilen güven katsayısı (0.95) normal dağılım simetrik olduğundan 2’ye
bölünmektedir. Bu değer 0.95/2=0.4750’dir ve standart normal dağılım tablosundan
bakıldığında z=1.96’ya tekabül etmektedir.
0.4750 0.4750
-1.96 0 1.96
*
“t” dağılımı standart normal dağılımdan daha yayvan olan özel bir dağılımdır. Bu dağılımın tek parametresi
serbestlik derecesidir. Bu dağılımın ortalaması sıfır, standart sapması SD /( SD 2) ’dir. Örnek hacmi 30’u
geçtiğinde (n>30), bu dağılım standart normal dağılıma dönüşür.
(1 ) 100 güven düzeyinde, iki “z” değeri arasında ( z x z ) kalan alan
(1 ) ’ya eşittir. Standart normal dağılım altında kalan alan 1’e eşit olduğundan, eğrinin iki
ucunda (kuyruğunda) kalan alan ’ya eşittir. Örneğimiz için bu 1 0.95 0.05 ’dir.
Eğrinin iki ucu (kuyruğu) olduğundan her bir uca düşen alan =0.0025’e eşittir.
2
1
2 2
0
Örnek
Türkiye’de imalat sanayiinde çalışan bir işçinin ortalama kazancının 466.42 milyon
TL/ay olduğu tespit edilmiştir. Bu ana kitleden tesadüfen seçilmiş 1000 işçinin aylık
kazançlarına ilişkin standart sapma 70 milyon TL/ay olarak hesaplanmıştır. İmalat sanayiinde
işçilerin ortalama aylık gelirlerine ait %95 güven derecesinde nokta tahminini ve %99 güven
derecesinde güven aralığını tahmin ediniz?
Çözüm:
n 1000
x 466.42
S 70
x
Aralıklı tahmin
Güven katsayısı:0.99/2=0.4950 z = 2.58
x ± z S = 466.42 ± (2.58)(2.2136) = 466.42 ± 5.71
x
460.71<x<472.13
Türkiye’de imalat sanayiinde çalışan işçilerin ortalama geliri %99 olasılıkla 460.71 milyon
TL ile 472.13 milyon TL arasındadır.
Örnek:
Süper marketler zinciri olan bir firma yeni bir mağaza açmak için alan aramaktadır.
Firma market açacağı alanın çevresinde yaşayan ailelerin ortalama gelirlerinin en azından
yılda 5 milyar TL olmasını istemektedir. Bu firmanın araştırma bölümü bu alandan 25 aile ile
görüşüp ortalama yıllık gelirlerinin 4.5 milyar TL olduğunu ve buna ait standart sapmanın 450
milyon TL olduğunu tespit etmişlerdir. Ailelerin yıllık ortalama gelirleri için %95 güven
derecesinde güven aralığını oluşturun? Milyar TL bu aralığa girmekte midir? Bu sonuca göre
firma bu alanda market açmalı mıdır?
Çözüm:
n 25
x 4.5 milyar TL/yıl
S 0.45 milyar TL/yıl
S 0.45 / 25 0.09
x
n<30 olduğundan burada güven derecesini yansıtmak için “t” değeri kullanılmalıdır.
Serbestlik derecesi (SD) = n-1=25-1=24’dür. “t” dağılımının her iki ucundaki güven
derecesini bulmak için güven derecesi 2’ye bölünür 0.95/2=0.4750. Buna karşılık gelen “t”
değeri 2.064’dür.
x tS 4.5 (2.064)(0.09) 4.5 0.186
x
4.314 x 4.686
Çözüm:
a)
n 500
p 290 / 500 0.58
q 1 0.58 0.42
pq (0.58)(0.42)
S 0.0221
p n 500
Hata sınırı = 0.58 ± (1.96)(0.0221)= 0.58 ± 0.043
b)
0.99/2= 0.4950 z 2.58
p zS 0.58 (2.58)(0.0221) 0.58 0.057
p
0.523 x 0.637
%95 güven aralığında insanların %52.2’si ile %63.7’si yeni bisküviden hoşlanacaklar.
b b b b
Sapmasız tahmin Sapmalı tahmin
b b b b
Etkin tahmin Etkin olmayan tahmin
n1
n2
b
Tutarlı tahmin (n1>n2)
6.3. Tahmin İçin En Uygun Örnek Hacminin Belirlenmesi
Örnekleme yapabilmek için izin verilen hata payının ve güven derecesinin bilinmesi
gerektiği daha önce belirtilmişti. Şu ana kadar örneklerin ana kitleden nasıl çekileceği konusu
incelenmişti, ancak ana kitleyi temsil edecek örnek büyüklüğünün nasıl belirlendiği
açıklanmamıştı. Şimdi ana kitleyi temsil edecek örnek büyüklüğünün nasıl belirleneceği ana
kitleye ait ortalama ve oranın tahmini için ayrı ayrı incelenecektir.
standart sapmanın formülü ile hesaplandığı belirtilmişti. Bu durumda en büyük hata
x n
payına ait formül E z. şekline dönüşmektedir. Ortalamanın tahmini için öncelikle izin
n
verilen hata payının ve istenen güven derecesinin önceden ilgili kişi tarafından belirlenmesi
koşuluyla en uygun örnek büyüklüğü aşağıdaki formül yardımıyla belirlenmektedir.
z 2 2
n
E2
Formülde n gerekli örnek büyüklüğünü, ana kitleye ait standart sapmayı, z istenen güven
derecesini yansıtan standart normal dağılım tablosundaki değeri ve E ortalamadan izin verilen
en büyük hata miktarını ifade etmektedir.
Eğer ana kitleye ait standart sapma bilinmiyorsa, ana kitleden çekilen çok küçük bir
örnek için hesaplanan standart sapma değeri (S) formülde kullanılabilmektedir.
Örnek:
Türkiye’de %99 güven derecesinde ortalama aile büyüklüğünün tahmin edilmeye
çalışıldığını varsayalım.Ortalama aile büyüklüğüne ait standart sapmanın 0.6 olduğu
bilindiğine göre, ortalamadan izin verilen en büyük hata %1 ise en uygun örnek büyüklüğü
nedir?
Çözüm:
x 0.01
E 0.01
%99 güven derecesi için z = 2.58 olduğuna göre,
z 2 2 (2.58) 2 (0.6) 2
n 23963.04 23964
E2 (0.01) 2
örnek hacmi 23964 olarak bulunur. Yani Türkiye’de ortalama aile büyüklüğünü %99 güven
derecesinde ve izin verilen en büyük hata %1 olacak şekilde tespit etmek için 23964 kişi ile
anket yapılmak zorundadır.
pq
örnekleme dağılımına ait standart sapmanın formülü ile hesaplandığı belirtilmişti.
p n
pq
Bu durumda en büyük hata payına ait formül E z. şekline dönüşmektedir. Oranın
n
tahmini için öncelikle izin verilen hata payının ve istenen güven derecesinin önceden ilgili
kişi tarafından belirlenmesi koşuluyla en uygun örnek büyüklüğü aşağıdaki formül yardımıyla
belirlenmektedir.
z 2 pq
n
E2
Formülde n gerekli örnek büyüklüğünü, p ana kitle içinde istenen durumun oranını, q ana
kitle içinde istenmeyen durumun oranını, z istenen güven derecesini yansıtan standart normal
dağılım tablosundaki değeri ve E orandan izin verilen en büyük hata miktarını ifade
etmektedir.
Eğer ana kitleye ait p bilinmiyorsa, bu durumda ya p q 0.5 olarak kabul edilip
hesaplama yapılamalı, ya da küçük bir örnek çekilerek p ve q hesaplanmalı ve formülde
kullanılmalıdır.
Örnek:
Saat üreten bir firma, saat yapımında kullanılan bir parçayı yapan yeni bir makine
kurmuştur. Firma bu makinenin hatalı parça üretme oranını tahmin etmek istemektedir. Firma
yöneticisi bu tahmini yaparken orandan izin verdiği en büyük hata payı %2’dir ve bunu %95
güven derecesinde gerçekleştirmek istemektedir. En uygun örnek hacmi nedir?
Çözüm:
p 0.02
E 0.02
%95 güven derecesi için z = 1.96 olduğuna göre, p 0.5 ve q 0.5 kabul edilirse
z 2 pq (1.96) 2 (0.50)(0.50)
n 2401
E2 (0.02) 2
örnek hacmi 2401 olarak bulunur. Yani firma %95 güven derecesinde ve izin verilen en
büyük hata %2 olacak şekilde arızalı parça oranını tespit etmek için 2401 parça almak
zorundadır.
Şimdi birde istatistikle ilgili bir örnekle konuyu daha iyi anlamaya çalışalım. Hipotez
testi konusunun başlangıcında verilen meşrubat örneğinde, firma bir meşrubat şişesinin
ortalama 120 ml olduğunu savunuyordu. Oysa örnekten bir şişe için hesaplanan ortalama
x 119 ml’dir. Bu durumda hipotezler aşağıdaki gibi olacaktır:
Çizelge 6.3. Gruplar Arasında Farklılık Olup Olmadığının Belirlenmesinde Kullanılan Testler
Veri özelliği Test tipi Veri tipi Grup Test adı
sayısı
Sınıflandırılmış Parametrik olmayan İlişkisiz 1 Binomial
1 Ki kare testi
2 Fisher tam olasılık testi
2+ Ki kare testi
İlişkili 2 McNemar Testi
3+ Cochran Q testi
Sınıflandırılmamış Parametrik olmayan İlişkisiz 1 Kolmogorov-Simirnov tek örnek
2 testi
2 Kolmogorov-Simirnov çift örnek
2+ testi
3+ Mann-Whitney U testi
İlişkili 2 Medyan testi
2 Kruskal-Wallis H testi
3+ İşaret testi (sign test)
Wilcoxon işaretli mertebeler testi
Friedman two way anova
Parametrik İlişkisiz 1 t testi
2 t testi
2+ Tek ve Çift Yönlü varyans analizi
İlişkili 2 T testi
3+ Basit faktöryel varyans analizi
İlişkili/ilişkisiz 2+ Tek yönlü kovaryans analizi
İki yönlü basit faktöryel ilişkisiz
varyans analizi
Değişkenler arasında istatistik açıdan önemli bir ilişkinin olup olmadığı konusu da
istatistikte sık incelenen konuların başında gelmektedir. Değişkenler arasında ilişki olup
olmadığının belirlenmesinde kullanılan testler Çizelge 6.4’te verilmiştir.
Çizelge 6.4. Değişkenler Arasında İlişki Olup Olmadığının Belirlenmesinde Kullanılan Testler
Veri özelliği Test tipi Test adı
Sınıflandırılmış Parametrik Phi katsayısı
olmayan Pearson olağanlık katsayısı (contingency coefficient)
Cramer V
Goodman ve Kruskal lamda ( )ölçüsü
Goodman ve Kruskal tau değeri ( )
Parametrik Kendall tau ( ) a değeri
Sınıflandırılmamış olmayan Kendall tau ( ) b değeri
Kendall tau ( ) c değeri
Goodman ve Kruskal gama ( ) ölçüsü (tek yönlü simetrik ilişki ölçümü)
Somer d değeri (asimetrik ilişki ölçümü)
Spearman sıra korelasyon katsayısı
Mantel-Haenszel ki kare
Kendall kısmi sıra korelasyon katsayısı
Kısmi gama ( ) ölçüsü
Hipotez testinde test dağılımları olarak (i) z dağılımı, (ii) t dağılımı, (iii) Ki kare
( 2 ) dağılımı ve (iv) F dağılımı olmak üzere 4 farklı dağılım kullanılmaktadır. Şimdi bu
dağılımları ayrı ayrı inceleyelim.
1. z dağılımı:
Daha önceki bölümlerde standart normal dağılım olarak incelediğimiz bu dağılım,
normal dağılımın özel bir halidir. Standart normal dağılımın ortalaması ( ) sıfır ve standart
sapması ( ) 1’dir. Bu dağılımda değerler, sürekli tesadüfi değişkenin değerinin temsil eden
“z” değerleridir. “z” değeri aynı zamanda “standart birim” veya “standart skor” olarak da
isimlendirilmektedir. “z” değerleri, tesadüfi değişkenlerin ortalamadan standart sapma olarak
uzaklıkları ifade etmektedir. Örneğin z=2 ise, bu değer ortalamanın 2 standart sapma
sağındaki değeri ifade etmektedir. “z” değerleri 0 ile 3.90 arasında değişen değerler
almaktadır. Standart normal dağılımdan yararlanarak iki değer arasında kalan alanı bulmak
için hazırlanmış olan “z” tablosundan yararlanılmaktadır. “z” tablosunda satırlar virgülden
sonra bir duyarlılığa sahip “z” değerlerini sütunlar ise virgülden sonraki duyarlılıkları ifade
etmektedir. Bu tablo kullanılırken ilgili z değerinin karşısında bulunan değer 0 ile ilgilenilen
“z” değeri arasında kalan alanı vermektedir.
Eğer ana kitleye ait standart sapma biliniyorsa veya örnek hacmi yeterince büyükse
(n>30), test dağılımı olarak “z dağılımı” kullanılmalıdır.
2. t dağılımı
Sürekli bir olasılık dağılımı olan t dağılımı, standart normal dağılımın özel bir halidir.
t dağılımı standart normal dağılımdan daha yayvan olan özel bir dağılımdır. Bu dağılımın tek
parametresi serbestlik derecesidir. Bu dağılımın ortalaması sıfır, standart sapması
SD /( SD 2) ’dir. Örnek hacmi 30’u geçtiğinde (n>30), bu dağılım standart normal
3. Ki kare ( 2 ) dağılımı
Ki kare dağılımı simetrik olmayıp sağa çarpık olan sürekli bir olasılık dağılımıdır.
Serbestlik derecesi (n-1) arttıkça çarpıklık azalmaktadır. Her bir serbestlik derecesi için ayrı
bir 2 dağılımı söz konusudur. Serbestlik derecesi 30’dan büyük olan 2 dağılımları simetrik
hale gelmekte ve normal dağılıma dönüşmektedirler. Aşağıda farklı serbestlik dereceleri için
ki kare 2 dağılımının şekli gösterilmiştir.
2 dağılımı ikiden fazla grup olan deneme sonuçlarına ait hipotezlerin test
edilmesinde, çapraz tablolar oluşturularak bağımsızlık testlerinin yapılmasında, homojenlik
testinin gerçekleştirilmesinde ve ana kitleye ait varyans veya standart sapmaların
karşılaştırılmasında kullanılmaktadır.
SD=1
SD=4 SD=20
4. F dağılımı:
İki farklı örnekten veya ana kitleden hesaplanan varyansın karşılaştırılmasında F
dağılımı kullanılmaktadır. F dağılımı v1 ve v 2 olmak üzere iki tam sayılı parametresi olan
sürekli bir olasılık dağılımıdır. v1 payın serbestlik derecesini, v 2 ise paydanın serbestlik
derecesini ifade etmektedir. F dağılımı simetrik olmayan, sağa çarpık bir dağılımdır. Her bir
serbestlik derecesi çifti için farklı bir dağılım olduğundan çok sayıda F dağılımı vardır. Örnek
2
S1
hacimleri birbirinden farklı iki örnekten hesaplanan varyansların karşılaştırılmasında F 2
S2
eşitliği kullanılmaktadır. Bu oranın normal koşullarda 1 olması beklenmektedir. Ancak bu
oran genellikle birden farklıdır ve dolayısıyla çok sayıda F değeri mevcuttur. Bu F
değerlerinin gösterdiği dağılım ise F dağılımıdır.
F Dağılımı F
SD .............................. 7
15 ................................ (F)
z Kendall tau c
Eğrilik katsayısının testi
Diklik katsayısının testi
Mann-Whitney U (n1+n2<20)
İşaret testi (>25 fark)
Wilcoxon testi (>25 fark)
C1 C2
ÇİFT TARAFLI
Kabul bölgesi
Red bölgesi
C1
Kritik nokta
TEK TARAFLI (Pozitif)
Kabul bölgesi
Red bölgesi
C1
Kritik nokta
TEK TARAFLI (Negatif)
6.4.4. Tek taraflı ve çift taraflı hipotez testi
Hipotez testi tek taraflı yürütülebileceği gibi, çift taraflı da yürütülebilmektedir.
İstatistik testler bir çok yönüyle bir kişinin mahkemede yargılanması sürecine benzemektedir.
Ancak, istatistik hipotez testinde kabul ve red bölgelerinin önem düzeyine ( ) bağlı olması ve
testin her iki tarafta da uygulanabiliyor olması, istatistik hipotez testlerini mahkemede
yaşanan olaylardan ayıran iki temel noktadır. Zira mahkemede kabul ve red bölgeleri önceden
belirlenmiş değildir ve daima kişilerin suçlu veya suçsuz olduğuna karar vermede
kullanılacak red bölgesi kritik noktanın sağ tarafında yer almaktadır.
Hipotez testinde, iki adet red bölgesi varsa buna “çift taraflı test” adı verilmektedir.
Çift taraflı testte önem düzeyi ( ) , dağılımın sağ ve sol ucuna eşit bir şekilde ( / 2)
paylaştırılmaktadır. Eğer hipotez testinde red bölgesi tek bir tarafta bulunuyorsa, bu “tek
taraflı testi” ifade etmektedir. Tek taraflı test, dağılımın sağ ucunda (sağ taraf testi)
yapılabileceği gibi, sol ucunda da (sol taraf testi) yapılabilmektedir.
Hipotez testinin tek taraflı mı, yoksa çift taraflı mı yürütüleceği başlangıç ve alternatif
hipotezlerinde kullanılan işaretlere bağlıdır. Eğer başlangıç hipotezinde eşitlik (=) ve
alternatif hipotezde eşitsizlik () ifadesi kullanılmış ise hipotez testi çift taraflı yürütülmelidir.
Hipotez testi yapılırken başlangıç hipotezi =, veya işaretlerine, alternatif hipotez < veya
> işaretlerine sahipse tek taraflı test uygulanmalıdır. Alternatif hipotez > işaretine sahip
olduğunda tek taraflı test “sağ uçta”, < işaretine sahip olduğunda test “sol uçta” yapılmalıdır.
Hipotezlerin işaretleri ve tek taraflı ve çift taraflı test arasındaki bağlantılar Çizelge 6.2’de
verilmiştir.
z dağılımı:
“z” dağılımında tek bir ana kitleden çekilmiş örneklerden hesaplanan ortalama ve oran
için test istatistiğinin hesaplanmasında aşağıdaki eşitlikler kullanılmaktadır.
x
z (Ortalama için) (ana kitleye ait standart sapma biliniyorsa)
x
x
z (Ortalama için)(ana kitleye ait standart sapma bilinmiyorsa)
S
x
p p
z (Oran için)
p
Eşitliklerde x örnekten hesaplanan ortalama değeri, populasyonun ortalamasını, ana
x
kitleye ait standart sapmanın örnek hacminin kareköküne bölümünü ( ) , S örneğe ait
n x
S
standart sapmanın örnek hacminin kareköküne bölümünü ( ) , p ana kitleye ait oranı, p
n
pq
örneğe ait oranı ve ise örnekten hesaplanan orana ait standart sapmayı ( ) ifade
p p n
etmektedir.
z dağılımı aynı zamanda iki farklı ana kitlenin ortalaması arasındaki farkın test
edilmesinde de kullanılmaktadır. İki farklı ana kitleden elde edilen örnekler bazen birbiri ile
bağımsız, bazen de bağımlıdır. Örneklerin birbirinden bağımsız olması, farklı iki ana kitleden
çekilen örneklerin sahip oldukları bireylerin birbiri ile ilişki içerisinde olmadığını
göstermektedir. Örneğin çalışan erkekler ile bayanların ortalama ücretlerinin arasındaki farkı
tahmin etmeye çalıştığımızı düşünelim. Bu durumda iki farklı ana kitle ile karşı karşıya
bulunmaktayız. Dolayısıyla bu iki farklı ana kitleden çekilen örnekler birbirinden farklı
bireyleri içerdiğinden tamamen bağımsızdırlar. Ancak iki farklı ana kitleden çekilen örnekler
bir şekilde ilişki içerisinde ise örnekler birbirine bağımlı olmaktadır. Eğitim öncesi ve sonrası
banka çalışanlarının 1 saatte hizmet verdiği ortalama müşteri sayısı arasındaki farkı tahmin
etmeye çalıştığımızı düşünelim. Bu amaçla 20 banka çalışanının seçildiğini ve bunların eğitim
öncesi ve sonrası 1 saatte ortalama olarak ne kadar müşteriye hizmet verdiğini belirlediğimizi
varsayalım. Burada her iki örnekte aynı kişilerden oluştuğundan elde edilen iki örnek birbiri
ile ilişkilidir. Ortalamalar ve oranlar arasındaki farkın test edilmesinde kullanılan test
eşitlikler aşağıda verilmiştir.
( x1 x 2 ) ( 1 2 )
z (Ortalamalar arası fark için)
x1 x2
( p p 2 ) ( p1 p 2 )
z 1 (Oranlar arası fark için)
S
p1 p2
Ortalamalar arası fark için yazılan eşitlikte ( x1 x 2 ) örnek ortalamaları arasındaki farkı,
(1 2 ) ana kitle ortalamaları arasındaki farkı ve ortalamalar arası farka ait standart
x1 x2
12 22
sapmayı ( ) ifade etmektedir. Eğer ana kitlelere ait standart sapma
x1 x2 n1 n2
2 2
S1 S
bilinmiyorsa, bu durumda yerine S kullanılmaktadır ( S 2 ).
x1 x2 x1 x2 x1 x2 n1 n2
Oranlar arasındaki fark için yazılan eşitlikte ise ( p1 p 2 ) örneğe ait oranlar arasındaki farkı,
( p1 p2 ) ana kitlelere ait oranlar arasındaki farkı ve S oranlar arası farka ait standart
p1 p 2
1 1
sapmayı ifade etmektedir. Oranlar arası farka ait standart sapma S p q( )
p1 p2 n1 n2
x1 x 2
formülü ile hesaplanmaktadır. Bu formülde p ’ye ve q 1 p ’ye eşittir.
n1 n2
t dağılımı:
t dağılımından yararlanarak hipotez testi yapmada, ortalama için test istatistiği
aşağıdaki formüller yardımıyla hesaplanmaktadır.
x S
t S
S x n
x
Formüllerde t t-dağılımı için test istatistiğini, x örneğe ait ortalama değeri ve S örneğe ait
standart sapmayı ifade etmektedir.
t dağılımı aynı zamanda örnek hacimleri küçük (n1<30 ve n2<30) ve örneklere ait
standart sapmalar eşit ( 1 2 ) olduğunda normal dağılım gösteren iki farklı ana kitlenin
ortalaması arasındaki farkın test edilmesinde de kullanılmaktadır. Ancak iki ayrı ana kitleden
çekilen örneklerin bağımsız örnek olması gerekmektedir. Bu durumda kullanılacak test
istatistiğinin formülü aşağıda verilmiştir.
( x x ) ( 1 2 )
t 1 2
S
x1 x2
Eşitlikte ( x1 x 2 ) örnek ortalamaları arasındaki farkı, (1 2 ) ana kitle ortalamaları
arasındaki farkı ve S ortalamalar arası farka ait standart sapmayı ifade etmektedir.
x1 x2
1 1
Ortalamalar arası farka ait standart sapma S Sp formülü ile hesaplanmaktadır.
x1 x2 n1 n2
Formülde yer alan iki örneğin ortak standart sapması (Sp ) ise,
(n1 1) S1 (n2 1) S 2
2 2
( d ) 2
d 2
n
Sd
n 1
Sd
S
d n
Eşitliklerde d birbirine bağımlı iki örneğin ortalamaları arasındaki farkların ortalamasını, S
d
birbirine bağımlı iki örneğin ortalamaları arasındaki farkların standart sapmasını ve n iki
örnek ortalaması arasındaki farkların sayısını ifade etmektedir.
Bağımlı örneklerin ortalamalarının farkının test edilmesinde kullanılan test istatistiği
aşağıdaki formül yardımıyla hesaplanmaktadır.
d d
t
S
d
Formülde d farklı iki ana kitle ortalaması arasındaki farkların ortalamasını ve d birbirine
bağımlı iki örneğin ortalamaları arasındaki farkların ortalamasını ifade etmektedir.
2 dağılımı:
Gözlenen frekansların beklenen teorik bir dağılıma uyup uymadığının test edilmesinde
(Goodness of fit test), bağımsızlık ve homojenlik testinin uygulanmasında test istatistiği
aşağıdaki formül yardımıyla hesaplanmaktadır.
(O E ) 2
2
E
x
2
T1 2 T2 2 T3 2
kareler toplamını ( GAKT ......... ) ve GİKT örnekler içi kareler
n n n n
1 2 3
T 2 T 2 T 2
toplamını ( GIKT x 1 2 3 ......... ) göstermektedir.
2
n n2 n3
1
p-değeri=0.0228
0.4772
9.2 10
-2 0
p<0.05 olduğundan, H0 hipotezi reddedilip, H1 hipotezi kabul edilmektedir. Yani ortalama
ağırlık kaybı 10 kg’dan azdır.
Hipotez testinde bu iki tip hata birbirine bağlıdır. Belirli bir örnek hacminde eğer
hatası küçükse, hatası büyümektedir. Tam tersine eğer hatası küçükse, hatası
büyümektedir. Bu sebeple, hem hatasını, hem de hatasını küçültmenin tek yolu örnek
hacmini büyütmektir.
Birinci tip hata hipotez testine başlamadan önce araştırıcı veya ilgili kişi tarafından
belirlenmektedir. Ancak, ikinci tip hata yapma olasılığının hesaplanabilmesi için gerçek
hayatta başlangıç hipotezinin yanlış olduğunun bilinmesinin yanında ana kitleye ait standart
sapmanın da biliniyor olması gerekmektedir. Başlangıç hipotezinin gerçek dünyada doğru
veya yanlış olduğunun bilinmesi hemen hemen imkânsızdır. Bununla birlikte başlangıç
hipotezinin doğru olup olmadığı bilinse bile, ana kitlenin gerçek ortalaması ve standart
sapmasının bilinmesi mümkün değildir. Bu sebeple gerçek dünyada ikinci tip hata yapma
olasılığının hesaplanmasına imkân yoktur. Her ne kadar ikinci tip hatanın meydana gelme
olasılığının gerçek dünyada hesaplanması mümkün değilse de, bu hatanın nasıl
hesaplanacağının bilinmesi hipotez testinde karşılaşılan hataları daha iyi anlamak açısından
büyük yarar sağlayabilecektir. Aşağıda ana kitleye ait ortalama ve standart sapma ile
başlangıç hipotezinin yanlış olduğunun bilindiği varsayılarak hipotez testinde ikinci tip
hatanın nasıl hesaplandığı bir örnekle anlatılmıştır.
Örnek:
Cıvata üreten bir firmada bulunan bir makinenin ürettiği cıvataların ortalama boyu 2.5
cm’dir. Zaman zaman bu makine 2.5 cm’den küçük veya büyük cıvatalar üretmektedir. Böyle
olduğunda makine durdurulup ayarlanmaktadır. Bu makineden son olarak alınan 49 cıvatadan
hesaplanan cıvata boyu ortalama 2.498 cm ve buna ait standart sapma 0.021 cm’dir. %5 önem
düzeyinde, ikinci tip hata yapma olasılığı kaçtır? Gerçekleştirilen hipotez testinin gücü nedir?
Çözüm:
n 49
x 2.49
S 0.021
1. Hipotezlerin belirlenmesi: H 0 : 2.5 (makinenin ayarlanmasına gerek yoktur)
0.025 0.025
2 2
2.5
RED KABUL RED
-1.96 0 1.96
4. Kritik noktalara dayanarak aralıklı tahminin yapılması
S 0.021
S 0.003
x n 49
x alt zS x üst zS
x x
x alt 2.5 (1.96)(0.003) x üst 2.5 (1.96)(0.003)
x alt 2.494 x üst 2.506
5. x ’ya ait dağılımın çizilmesi ve ’nın hesaplanması:
-1.33 0 2.67
Böylece ikinci tip hata yapma ihtimali ( ) %90.44 olarak bulunur[ P(1.33 z 2.67) =
0.4082+0.4982=0.9044]. Bu örnekte testin gücü ise 1 1 0.9044 0.0956 ’dır.
Örnek:
Bir firmada cıvata üreten bir makinenin ürettiği cıvataların ortalama boyu 2.5 cm’dir.
Zaman zaman bu makine 2.5 cm’den büyük veya küçük cıvatalar üretmektedir. Böyle
olduğunda makine durdurulup, ayarlanmaktadır. Bu sebeple makineden sık sık örnek alıp,
örnek alınan cıvatalar incelenmektedir. Yapılan en son incelemede, 49 adet örnek cıvata
alınıp, ortalama cıvata boyu 2.49 cm ve buna ait standart sapma 0.021 cm olarak tespit
edilmiştir. %5 önem düzeyinde bu makine ayarlanmalı mıdır. Yoksa ayarlanmamalı mıdır?
Çözüm:
n 49
x 2.49
S 0.021
1. Hipotezlerin belirlenmesi: H 0 : 2.5 (makinenin ayarlanmasına gerek yoktur)
0.025 0.025
2 2
2.5
RED KABUL RED
-1.96 0 1.96
4. Test istatistiğinin hesaplanması:
S 0.021
S 0.003
x n 49
2.49 2.5
z 3.33
0.003
5. Kararın alınması:
z hesap z tablo olduğundan (3.33>1.96) H0 hipotezi reddedilip, H1 hipotezi kabul
Örnek:
Yapılan bir araştırma sonucuna göre Türkiye’de büyük firmaların yöneticilerin
ortalama yaşı 48’dir. Bu firmalardan tesadüfen seçilmiş 25 tanesinin ortalama yaşı 46 ve buna
ait standart sapma 5 yıldır. %1 önem düzeyinde örneklerden hesaplanan ortalama yaş, ana
kitle ortalamalarından farklı mıdır?
Çözüm:
n 25
x 46
S 5
SD n 1 25 1 24
1. Hipotezlerin belirlenmesi: H 0 : 48
H1 : 48
2. Test dağılımının belirlenmesi:
n<30 olduğundan t dağılımı kullanılır.
3. Kabul ve red bölgelerinin belirlenmesi:
0.01
48
RED KABUL
-2.492 0
4. Test istatistiğinin hesaplanması:
S 5
S 1
x n 25
46 48
t 2
1
5. Kararın alınması:
t hesap t tablo olduğundan (2<2.492) H0 hipotezi kabul edilip, H1 hipotezi
Örnek:
Diş bakım malzemeleri konusunda yapılan bir araştırmada, Türkiye’de satılan diş
bakım ürünlerinin %31.2’sinin diş macunu olduğu tespit edilmiştir. Diş macunu üreten bir
firma bu oranın doğru olup olmadığını öğrenmek istiyor. 400 kişi ile yapılan görüşmeler
sonucunda bunların %29’unun diş macunu kullandığını tespit ediyor. %1 önem düzeyinde bu
oran, ana kitle oranından farklı mıdır?
Çözüm:
n 40
p 0.29
q 0.71
H1 : p 0.312
2. Test dağılımının belirlenmesi:
np 5, nq 5 olduğundan z dağılımı kullanılır.
3. Kabul ve red bölgelerinin belirlenmesi:
0.005 0.005
2 2
p 0.312
RED KABUL RED
-2.58 0 2.58
pq (0.312)(0.688)
0.023
p n 400
p p 0.29 0.312
z 0.95
0.023
p
5. Kararın alınması:
z hesap z tablo olduğundan (0.95<2.58) H0 hipotezi kabul edilip, H1 hipotezi
reddedilmektedir. Yani örneklerden hesaplanan oranın ana kitle ortalamasından farkı yoktur.
6.4.10. İki farklı ana kitleden çekilmiş örneklerin ortalamaları arasındaki farka ilişkin
hipotez testi
Şu ana kadar hep tek bir ana kitleden çekilen örneklerin ortalaması ile ana kitle
ortalaması veya oranı arasındaki farklılığın tesadüften kaynaklanıp kaynaklanmadığı
incelenmişti. Ancak zaman zaman farklı iki ana kitleden çekilen örneklerden hesaplanan
ortalamalar arasındaki farkın istatistik açıdan önemli olup olmadığı konusu da
incelenmektedir. İstatistikte ortalamalar ve oranlar arasındaki fark incelenirken, örneklerin
birbirinden bağımsız mı yoksa bağımlı mı olduğunun belirlenmesi büyük önek taşımaktadır.
Zira hipotez testinde bağımlı örnekler ve bağımsız örnekler için kullanılan test istatistikleri
birbirinden farklı olmaktadır.
1. Bağımsız (ilişkisiz) örneklerde ortalamalar arasındaki farka ait hipotez testi: İki farklı
ana kitleden çekilmiş iki örneğin içerdiği bireyler veya gözlemler birbiri ile ilişki içerisinde
değil ise iki örnek hacminin 30’dan büyük olması durumunda z dağılımı, küçük olması
halinde ise t dağılımı kullanılmaktadır.
Örnek:
Araştırma sonuçlarına göre, inşaat sektöründe çalışan 500 kişiden elde edilen bilgiler
ışığında işçilerin ortalama aylık geliri 538 milyon TL ve buna ait standart sapma 66 milyon
TL’dir. Görüşülen 700 imalat sanayi işçisinin bildirdiğine göre ise, imalat sektöründe çalışan
işçilerin ortalama aylık geliri 470 milyon TL ve buna ait standart sapma 60 milyon TL’dir.
%1 önem düzeyinde iki grup işçinin aylık gelirleri birbirinden farklı mıdır?
Çözüm:
n1 500 n 2 700
x 538 x 470
1 66 2 60
0.005 0.005
2 2
1 2 0
RED KABUL RED
-2.58 0 2.58
12 22 (66) 2 (60) 2
3.7222
x1 x2 n1 n2 500 700
( x1 x 2 ) ( 1 2 ) (538 470) 0
z 18.27
3.7222
x1 x2
Test istatistiği hesaplanırken kullanılan (1 2 ) teriminin, H0 hipotezinden dolayı sıfır olarak
alındığı unutulmamalıdır.
5. Kararın alınması:
z hesap z tablo olduğundan (18.27<2.58) H0 hipotezi reddedilip, H1 hipotezi kabul
edilmektedir. Yani iki farklı ana kitleden çekilmiş bağımsız örneklerden hesaplanan
ortalamalar birbirinden farklıdır. Sonuçta imalat sanayi ve inşaat sektöründe çalışan işçilerin
aylık gelirlerinin birbirinden farklı olduğunu söyleyebiliriz.
Örnek:
A marka maden suyundan seçilen 14 şişelik örnekler incelendiğinde bunların ortalama
23 kalori verdiği ve buna ait standart sapmanın 3 kalori olduğu saptanmıştır. B marka maden
suyundan seçilen 16 şişeden hesaplanan ortalama değer 25 kalori ve buna ait standart sapma 4
kaloridir. %1 önem düzeyinde kalori değerleri açısından A ve B markalı maden suları
arasında fark var mıdır?
Çözüm:
n1 14 n 2 16
x 23 x 25
S1 3 S2 4
0.01
1 2 0
RED KABUL
-2.467 0
Sp 3.5707
n1 n2 2 14 16 2
1 1 1 1
S Sp (3.5707) 1.3067
x1 x2 n1 n2 14 16
( x x ) ( 1 2 ) (23 25) 0
t 1 2 1.531
S 1.3067
x1 x2
Test istatistiği hesaplanırken kullanılan (1 2 ) teriminin, H0 hipotezinden dolayı sıfır olarak
alındığı unutulmamalıdır.
5. Kararın alınması:
t hesap t tablo olduğundan (1.531<2.467) H0 hipotezi kabul edilip, H1 hipotezi
reddedilmektedir. Yani iki farklı ana kitleden çekilmiş bağımsız örneklerden hesaplanan
ortalamalar birbirinden farklı değildir. Sonuçta A ve B markalı maden suları kalori açısından
birbirinden farklı değildir.
1. Bağımlı (ilişkili) örneklerde ortalamalar arasındaki farka ait hipotez testi: İki farklı ana
kitleden çekilmiş iki örneğin içerdiği bireyler veya gözlemler birbiri ile ilişki içerisinde değil
ise iki örnek hacminin 30’dan büyük olması durumunda z dağılımı, küçük olması halinde ise t
dağılımı kullanılmaktadır.
Örnek:
Bir pazarlama firmasının yetkilisi “nasıl başarılı bir satış temsilcisi olunur” konulu
kursa katılan 6 personelinin ortalama satışlarının artıp artmadığını öğrenmek istemektedir.
Aşağıda kursa katılan 6 personelin kurs öncesi ve sonrası satışları verilmiştir. %1 önem
düzeyinde kursa devam etmek satışları artırmış mıdır?
1 2 3 4 5 6
Kurs öncesi 12 18 25 9 14 16
Kurs sonrası 18 24 24 14 19 20
Çözüm:
Kurs Kurs
öncesi sonrası d* d2
12 18 -6 36
18 24 -6 36
25 24 1 1
9 14 -5 25
14 19 -5 25
16 20 -4 16
Σd=-25 Σd2=139
* d=(kurs öncesi satış)-(kurs sonrası satış)
0.01
d 0
RED KABUL
-3.365 0
( d ) 2 (25) 2
d 2
n
139
6
Sd 2.6394
n 1 6 1
Sd 2.694
S 1.0775
d n 6
d d 4.17 0
t 3.870
S 1.0775
d
5. Kararın alınması:
t hesap t tablo olduğundan (3.870<3.345) H0 hipotezi reddedilip, H1 hipotezi kabul
edilmektedir. Yani iki farklı ana kitleden çekilmiş bağımlı örneklerden hesaplanan ortalamalar
birbirinden farklıdır. Sonuçta kurs satışları artırmıştır.
6.4.11. İki farklı ana kitleden çekilmiş örneklerin oranları arasındaki farka ilişkin
hipotez testi
İstatistikte zaman zaman birden fazla ana kitleden çekilen örneklerin oranları
arasındaki farklılığın tesadüften kaynaklanıp kaynaklanmadığı incelenmektedir. Oranlar
arasındaki fark incelenirken, örneklerin birbirinden bağımsız olması gerekmektedir. Oranlar
arsındaki farka ilişkin hipotez testi yapılırken z dağılımı kullanılmaktadır. Ancak testin
gerçekleştirilebilmesi için merkezi limit teoremine göre örneklerden hesaplanan istatistiklerin
normal dağılım göstermeleri için n1 p1 5, n2 p2 5, n1q1 5, n2 q2 5 koşulunun sağlanması
gerekmektedir.
Örnek:
Bir firma yeni bir makine satın almayı planlamaktadır. Satın alabileceği iki farklı tip
makine bulunmaktadır. Satın alamadan önce firma bu iki makineyi kısa bir süre dener. I. tip
makinede 800 parça üretir ve bunların 48’i arızalı çıkar. II. tip makinede üretilen 900
parçadan ise 45 arızalı parça çıkar. %1 önem düzeyinde arızalı parça üretme oranı bakımından
iki makine birbirinden farklı mıdır?
Çözüm:
n1 800 n 2 900
x1 48 x 2 45
x1 48
p1 0.06
n1 800
x2 45
p2 0.05
n 2 900
1. Hipotezlerin belirlenmesi: H 0 : p1 p 2 0 (İki makinenin arızalı parça oranı aynı)
0.005 0.005
2 2
p1 p2 0
RED KABUL RED
-2.58 0 2.58
4. Test istatistiğinin hesaplanması:
x1 x 2 48 45
p 0.055 ve q 1 p 1 0.055 0.945
n1 n2 800 900
1 1 1 1
S p q( ) (0.055)(0.945)( ) 0.0111
p1 p2 n1 n2 800 900
( p p 2 ) ( p1 p 2 ) (0.06 0.05) 0
z 1 0.90
S 0.0111
p1 p2
5. Kararın alınması:
z hesap z tablo olduğundan (0.90<2.58) H0 hipotezi kabul edilip, H1 hipotezi
reddedilmektedir. Yani iki farklı ana kitleden çekilmiş bağımsız örneklerden hesaplanan
oranlar birbirinden farklı değildir. Sonuçta iki farklı makinenin arızalı parça üretme oranının
birbirinden farklı olmadığını söyleyebiliriz.
6.5. Sahip Olunan Verilerin Normal Dağılıma Uygun Olup Olmadığının Belirlenmesi
Herhangi bir veri setinde bulunan gözlemlerin dağılımının normal dağılıma uygun
olup olmadığının anlaşılması için yapılması gereken ilk iş, gözlemlere ait histogramı
çizmektir. Daha sonra, histogramın gösterdiği şekil normal dağılım eğrisi ile karşılaştırılır.
Eğer normal dağılım eğrisi ile histogram aynı seyri takip ediyorsa bu dağılım normal dağılıma
uygundur. Eğer söz konusu dağılım normal dağılımdan ayrılıyorsa, bu ayrılışın ölçülmesi ve
istatistik açıdan önem arz edip etmediği belirlenmelidir. Bir dağılımın normal dağılımdan
ayrıldığını gösteren iki istatistik bulunmaktadır. Bunlardan birincisi “eğrilik katsayısı”,
ikincisi ise “diklik katsayısı”dır. Bu sebeple, ilgili veri seti için önce eğrilik ve diklik
katsayıları hesaplanmalı ve daha sonra bunlara ilişkin hipotez testleri yapılarak dağılımın
normal dağılıma uygun olup olmadığı ortaya konulmalıdır. Şimdi, dağılımın normal dağılıma
uygun olup olmadığının belirlenmesinde kullanılan eğrilik ve diklik katsayıları ile bunlara
ilişkin hipotez testlerini inceleyelim.
1. Eğrilik katsayısı ve testi: Eğrilik katsayısı, dağılımın simetrik olup olmadığını gösteren bir
istatistiktir. Elimizde bulunan veri setinde yer alan gözlemlerin dağılımı eğer simetrik bir
durum arz ediyorsa, hesaplanan eğrilik katsayısı sıfıra eşit olacaktır (e=0). Bu, ortalamanın
sağında ve solunda kalan kısımların birbirinin aynısı olduğunu göstermektedir. Eğer dağılım
simetrik değilse gözlemlerin büyük bir çoğunluğu ya ortalama değerin sağında veya solunda
toplanmaktadır. Gözlemlerin büyük bir çoğunluğunun ortalamanın sağında yer alması halinde
eğrilik katsayısı sıfırdan büyük bir değer almaktadır (e>0) ve buna pozitif eğrilik adı
verilmektedir. Gözlemlerin büyük bir çoğunluğunun ortalamanın solunda yer alması
durumunda ise, eğrilik katsayısı sıfırdan küçük olmaktadır (e<0). Bu ise negatif eğrilik olarak
adlandırılmaktadır.
Eğrilik katsayısının hesaplanmasında, Bliss (1967) tarafından önerilen aşağıdaki
formül kullanılmaktadır.
( d 3 )( N )
e
S ( N 1)( N 2)
3
Örnek:
Bir kursa devam eden 4 öğrencinin, kursta yapılan sınavdan aldığı notlar aşağıdaki
gibidir. Bu öğrencilerin notlarının gösterdiği dağılıma ilişkin eğrilik katsayısını hesaplayınız?
2 4 4 6
Çözüm:
1.adım: Öğrencilerin notlarına ait aritmetik ortalama hesaplanır. Aritmetik ortalama
düzenlenmemiş verilerde gözlemlerin toplamının, toplam gözlem sayısına oranlanması ile
bulunmaktadır. Buna göre öğrencilerin ortalama notu (2+4+4+6)/4=4’tür.
2.adım: Her bir öğrencinin notu, ortalama öğrenci notundan çıkartılarak, gözlemlerin ortalama
değerlerinden farkı (d) hesaplanır. Daha sonra gözlemlerin standart sapmasını hesaplamak
için bu farkların kareleri ve eğrilik katsayısı formülünde kullanmak için küpü alınır. Farkların
küpünün alınmasının sebebi, eğriliğin yönünü tespit edebilmektir.
Notlar Ortalama d d2 d3
2 4 -2 4 -8
4 4 0 0 0
4 4 0 0 0
6 4 2 4 8
Σd2=8 Σd3=0
4.adım: Eğrilik katsayısı formülü kullanılarak, eğrilik katsayısı hesaplanır. Eğrilik katsayısı
hesaplanırken, farkların küpleri toplamının sıfır olması durumunda bile formülde örnek hacmi
ile çarpılması gerektiği unutulmamalıdır.
( d 3 )( N ) (0)(4)
e 0
S ( N 1)( N 2)
3
(1.63)(4 1)(4 2)
Örnek:
Aynı kursa devam eden diğer 4 öğrencinin, kursta yapılan sınavdan aldığı notlar
aşağıdaki gibidir. Bu öğrencilerin notlarının gösterdiği dağılıma ilişkin eğrilik katsayısını
hesaplayınız?
1 1 1 5
Çözüm:
1.adım: Aritmetik ortalamanın hesaplanması
Öğrencilerin ortalama notu (1+1+1+5)/4=2’dir.
2.adım: Gözlemlerin ortalama değerlerinden farkının (d) hesaplanması.
Notlar Ortalama d d2 d3
1 2 -1 1 -1
1 2 -1 1 -1
1 2 -1 1 -1
5 2 3 9 27
Σd2=12 Σd3=24
S d 2
12 2.0
n 1 3
Örnek:
Kursa devam eden 4 öğrencinin, kursta yapılan sınavdan aldığı notlar aşağıdaki
gibidir. Bu öğrencilerin notlarının gösterdiği dağılıma ilişkin eğrilik katsayısını hesaplayınız?
1 3 4 4
Çözüm:
1.adım: Aritmetik ortalamanın hesaplanması
Öğrencilerin ortalama notu (1+3+4+4)/4=3’dür.
S d 2
6 1.414
n 1 3
6( N )( N 1)
S
e ( N 2)( N 1)( N 3)
Örnek:
Daha önceki örneğimizde öğrencilerin notlarının gösterdiği dağılıma ilişkin
hesaplanan eğrilik katsayısının (e=-1.4148), istatistik açıdan önemli olup olmadığına ait
hipotez testinin %5 önem düzeyinde test ediniz? Öğrencilerin notlarının gösterdiği dağılım
simetrik midir, yoksa gerçekten negatif eğrilik mi söz konusudur?
Çözüm:
0.05
0
RED KABUL
-1.65 0
4. Test istatistiğinin hesaplanması:
6( N )( N 1) (6)(4)(3)
S 1.01
e ( N 2)( N 1)( N 3) (2)(5)(7)
e 1.4148
z hesap 1.40
S 1.01
e
5. Kararın alınması:
z hesap z tablo olduğundan (1.40<1.65) H0 hipotezi kabul edilip, H1 hipotezi
2. Diklik katsayısı ve testi: İlgilendiğimiz verilerin dağılımı simetrik olsa bile, zaman zaman,
ortalamanın etrafında gereğinden fazla veya az veri bulunabilmektedir. Ortalamanın etrafında
gereğinden fazla veya az veri olduğunda ise, normal dağılımdan bahsetmek mümkün
olmamaktadır. Diklik katsayısı, verilerin ortalama etrafında toplanıp toplanmadığını gösteren
bir istatistiktir. Bu katsayıya dayanarak, dağılımın dik veya düz olup olmadığını
belirlenmektedir. Elimizde bulunan veri setinde yer alan gözlemlerin dağılımı eğer normal bir
dağılım gösteriyorsa, hesaplanan diklik katsayısı sıfıra eşit olacaktır (kd=0). Bu, ortalamanın
etrafında gerektiği kadar verinin var olduğunu göstermektedir ve bu eğriye ortalama eğri
(Mesokurtic) adı verilmektedir. Eğer dağılım normal değilse ortalamanın etrafında ya
gereğinden fazla ya da gereğinden az veri bulunmaktadır. Ortalamanın etrafında gereğinden
fazla veri olduğunda diklik katsayısı sıfırdan büyük bir değer almaktadır (kd>0) ve buna dik
eğri (Leptokurtic) adı verilmektedir. Ortalamanın etrafında gereğinden az veri olduğunda ise,
diklik katsayısı sıfırdan küçük olmaktadır (kd<0). Bu ise düz eğri (Platykurtic) olarak
adlandırılmaktadır.
Diklik katsayısının hesaplanmasında, Bliss (1967) tarafından önerilen aşağıdaki
formül kullanılmaktadır.
Örnek:
Bir kursa devam eden 6 öğrencinin, kursta yapılan sınavdan aldığı notlar aşağıdaki
gibidir. Bu öğrencilerin notlarının gösterdiği dağılıma ilişkin diklik katsayısını hesaplayınız?
1 2 2 3 3 4
Çözüm:
1.adım: Öğrencilerin notlarına ait aritmetik ortalama hesaplanır. Aritmetik ortalama
düzenlenmemiş verilerde gözlemlerin toplamının, toplam gözlem sayısına oranlanması ile
bulunmaktadır. Buna göre öğrencilerin ortalama notu (1+2+2+3+3+4)/6=2.5’tir.
2.adım: Her bir öğrencinin notu, ortalama öğrenci notundan çıkartılarak, gözlemlerin ortalama
değerlerinden farkı (d) hesaplanır. Daha sonra gözlemlerin standart sapmasını hesaplamak
için bu farkların kareleri ve diklik katsayısı formülünde kullanmak için 4. kuvveti alınır.
Notlar Ortalama d d2 d4
1 2.5 -1.5 2.25 5.06
2 2.5 -0.5 0.25 0.06
2 2.5 -0.5 0.25 0.06
3 2.5 0.5 0.25 0.06
3 2.5 0.5 0.25 0.06
4 2.5 1.5 2.25 5.06
Σd =5.5 Σd =10.36
2 4
[(10.36)(6)(7)] [(5.5)(5.5)(3)(5)]
kd 0.25 0
(1.22)(5)(4)(3)
değer istenen önem düzeyini yansıtan tablo z değeri ile karşılaştırılmaktadır. Hesaplanan z
değeri, tablo z değerinden küçükse H0 hipotezi kabul edilmekte, tersi durumda ise H1 hipotezi
kabul edilmektedir. Bu değerlendirme yapılırken işaret dikkate alınmamalıdır. Test istatistiği
hesaplanırken kullanılan diklik katsayısına ait standart hata örnek hacmine ve eğrilik
katsayısının varyansına dayanarak aşağıdaki formül yardımıyla bulunmaktadır.
6( N )( N 1)
( )( N 2 1)
( N 2)( N 1)( N 3)
S
kd ( N 3)( N 5)
6( N )( N 1)
Formülde ifadesi, bir önceki bölümde anlatılan eğrilik katsayısının
( N 2)( N 1)( N 3)
varyansını ifade etmektedir.
Örnek:
Çevre Ekonomisi konulu kursa katılan öğrencilerin kurs sınavından aldığı notlarının
gösterdiği dağılıma ilişkin hesaplanan diklik katsayısı (kd) -1.4148 ve diklik katsayısına
ilişkin standart hata 1.74’dür. Bu katsayının istatistik açıdan önemli olup olmadığına ait
hipotez testinin %5 önem düzeyinde test ediniz? Öğrencilerin notlarının gösterdiği dağılımın
şekli ortalama bir eğri şeklinde midir, yoksa gerçekten düz bir eğri mi söz konusudur?
Çözüm:
H1 : kd 0 (düz eğri)
2. Test dağılımının belirlenmesi:
z dağılımı kullanılır.
3. Kabul ve red bölgelerinin belirlenmesi:
0.05
0
RED KABUL
-1.65 0
4. Test istatistiğinin hesaplanması:
kd 1.864
z hesap 1.071
S 1.74
kd
5. Kararın alınması:
z hesap z tablo olduğundan (1.071<1.65) H0 hipotezi kabul edilip, H1 hipotezi
2 analizi ile, gözlenen frekansların beklenen teorik bir dağılıma uyup uymadığı test
edilmektedir (Goodness of fit test). Bu dağılımda test istatistiği aşağıdaki formül yardımıyla
hesaplanmaktadır.
(G B) 2
2
B
Formülde G gözlenen frekansı e B beklenen frekansı ifade etmektedir. Beklenen frekans,
B np formülü ile hesaplanmaktadır. Bu tarz 2 analizinde serbestlik derecesi k-1’e eşittir ve
k denemedeki muhtemel sonuç sayısını göstermektedir.
2 analizini gerçekleştirebilmek için, her bir sınıftaki gözlem sayısının 5 ve 5’ten
fazla olması gerekmektedir. Eğer sınıflarda 5’ten daha az frekans varsa, yapılası gereken şey
ya örnek hacmini artırmak ya da sınıfları birleştirmektir.
Örnek:
Türkiye’de büyük bir alış veriş merkezinde 5 farklı mağaza bulunmaktadır. Bu alış
veriş merkezinin yetkilisi, bu 5 mağazayı ziyaret eden müşterilerin oranının eşit olup
olmadığını öğrenmek istemektedir. Tesadüfi olarak seçilmiş 1000 müşteri ile yapılan
görüşmeler sonucunda aşağıdaki sonuçlar elde edilmiştir. %1 önem düzeyinde, acaba
müşterilerin bu 5 mağazayı ziyaret etme oranları aynı mıdır?
Mağaza A B C D E
Frekans 214 231 182 154 219
Çözüm:
1. Hipotezlerin belirlenmesi:
H 0 : p1 p2 p3 p4 p5 0.20 (Müşterilerin 5 mağazayı ziyaret etme oranları aynıdır)
0.01
13.277
4. Test istatistiğinin hesaplanması:
5. Kararın alınması:
2 hesap 2 tablo olduğundan (19.790<13.277) H0 hipotezi reddedilip, H1 hipotezi
kabul edilecektir. Yani mağazalardan en az iki tanesi ziyaretçiler tarafından daha fazla
gezilmektedir.
Örnek:
Aşağıda dünya otomobil piyasasında 1992 yılında firmaların pazar payları verilmiştir.
Bir firma bu oranalrın günümüzde de geçerli olup olmadığını araştırıyor ve son satılan 200
otomobilin 715 tanesinin GM, 446’sının FORD, 175’inin HONDA, 187’sinin TOYOTA,
178’inin CHRSYLER ve 299’unun diğer firmalar tarafından üretildiğini tespit ediyor. %2.5
önem düzeyinde, bu firmaların mevcut payları, 1992 yılındaki payları ile aynı mıdır?
1. Hipotezlerin belirlenmesi:
H 0 : p1 0.345, p2 0.216, p3 0.093, p4 0.092, p5 0.083, p6 0.171
(Pazar payları 1992 yılının aynısı)
H1 : p1 0.345, p2 0.216, p3 0.093, p4 0.092, p5 0.083, p6 0.171
(En azından 2 firmanın pazar payı 1992 yılından farklıdır)
2. Test dağılımının belirlenmesi:
6 farklı sınıf olduğundan ve gerçek değerler yerine frekanslar üzerinden analiz yapıldığından
2 dağılımı kullanılır.
0.025
12.833
5. Kararın alınması:
2 hesap 2 tablo olduğundan (8.33<12.833) H0 hipotezi kabul edilip, H1 hipotezi
reddedilecektir. Yani otomobil firmalarının pazar payları 1992 yılı ile aynıdır.
(G B ) 2
2
B
( satirtoplami )( sutuntoplami )
B
n
Bağımsızlık testinde serbestlik derecesi SD=(satır sayısı –1)(sütun sayısı-1) formülü ile
bulunmaktadır.
Örnek:
Bir otomobil firmasında çalışan erkek ve bayanların yeni işçi sözleşmesi hakkındaki
görüşleri aşağıda verilmiştir. %5 önem düzeyinde ( 0.05) yeni sözleşme hakkındaki
görüşler açısından erkek ve bayanlar farklı mıdır?
Çözüm:
1. Hipotezlerin belirlenmesi:
H0: İşçilerin sözleşme hakkındaki görüşleri açısından cinsiyetler arasında fark yok
H1: İşçilerin sözleşme hakkındaki görüşleri açısından cinsiyetler arasında fark var
0.05
5.991
5. Kararın alınması:
2 hesap 2 tablo olduğundan (8.252<5.991) H0 hipotezi reddedilip, H1 hipotezi kabul
edilecektir. Yani sözleşme hakkındaki görüşler açısından erkek ve bayanlar birbirinden
farklıdır.
Örnek:
Kaset üreten bir elektronik firması, kaset üretiminde 2 makine kullanıyor. Yetkililer
zaman zaman kalite kontrolü yapmak amacıyla her iki makinede üretilen kasetlerden örnekler
alıp ve bunları iyi ve arızalı olarak tespit etmektedirler. En son olarak alınan 200 kasetten elde
edilen sonuçlar aşağıdaki gibidir. Buna dayanarak %1 önem düzeyinde makine tipleri
arasında iyi ve arızalı parça üretme açısından fark var mıdır?
İyi Arızalı
Makine 1 109 11
Makine 2 66 14
Çözüm:
1. Hipotezlerin belirlenmesi:
H0: Kasetlerin iyi ve kötü olması ile makine tipleri arasında fark yok.
H1: Kasetlerin iyi ve kötü olması ile makine tipleri arasında fark var.
0.01
6.635
4. Test istatistiğinin hesaplanması:
İyi Arızalı Satır toplamı
Makine 1 109 11 120
(120)(175)/200=105 (120)(25)/200=15
Makine 2 66 14 80
(80)(175)/200=70 (80)(25)/200=10
Sütun toplamı 175 25 200
5. Kararın alınması:
2 hesap 2 tablo olduğundan (3.048<6.635) H0 hipotezi kabul edilip, H1 hipotezi
reddedilecektir. Yani iyi ve arızalı kaset üretme bakımından makine tipleri arasında fark
yoktur.
(G B ) 2
2
B
( satirtoplami )( sutuntoplami )
B
n
Homojenlik testinde serbestlik derecesi, bağımsızlık testinde olduğu gibi SD=(satır sayısı –
1)(sütun sayısı-1) formülü ile bulunmaktadır.
Örnek:
1990’lı yılların başında ABD ekonomisinde yaşanan durgunluk sebebiyle bir çok
firma çalışanlarının maaşını dondurmuştur. Aynı zamanda vergilerin artmasıyla ABD’de
çalışan insanların morali olumsuz etkilenmiştir. Bu sebeple, sivil toplum örgütleri çalışan
insanların işlerinden memnun olup olmadığını yansıtan indeksin dağılımının New York ve
California’da aynı olup olmadığını incelemeye başlamışlardır. California’da 500, New
York’ta 400 kişi ile görüşüp aşağıdaki bilgiler toplanmıştır. Buna göre %2.5 önem düzeyinde
iki farklı eyaletteki memnuniyet indeksi dağılımı benzer midir?
California New York
Çok memnun 60 75
Memnun 100 125
Memnun değil 184 140
Hiç memnun değil 156 60
Çözüm:
1. Hipotezlerin belirlenmesi:
H0: 4 farklı memnuniyet sınıfının oranı iki eyalette aynı.
H1: 4 farklı memnuniyet sınıfının oranı iki eyalette farklı.
0.025
9.348
4. Test istatistiğinin hesaplanması:
California New York Satır toplamı
Çok memnun 60 (75) 75 (60) 135
Memnun 100 (125) 125 (100) 225
Memnun değil 184 (180) 140 (144) 324
Hiç memnun değil 156 (120) 60 (96) 216
Sütun toplamı 500 400 900
(60 75) 2 (75 60) 2 (100 125) 2 (125 100) 2 (184 180) 2 (140 144) 2
2
75 60 125 100 180 144
(156 120) 2
(60 96) 2
120 96
42.50
2
5. Kararın alınması:
2 hesap 2 tablo olduğundan (42.50>9.348) H0 hipotezi reddedilip, H1 hipotezi kabul
edilecektir. Yani iş memnuniyet sınıflarında bulunan kişi sayısı iki eyalette birbirinden
farklıdır.
Çözüm:
n 25
S 2 0.029
1 0.95
1 0.95 0.05
0.05 / 2 0.025
2
1 1 0.025 0.977
2
SD n 1 25 1 24
SD=24 SD=24
α/2=0.025 1-α/2=0.025
39.364 2 12.401 2
Adım:2 Güven aralığının tahmin edilmesi:
(n 1) S 2 (n 1) S 2
2 alt 2 2 üst
2 / 2 21 / 2
39.364 12.401
0.0177 0.0561
2
Formülde S2 örnek varyansını, 2 başlangıç hipotezinde belirtilen ana kitle varyansını ve n-1
ise serbestlik derecesini ifade etmektedir.
Örnek:
Bir makine 1 kilogramlık deterjanları 0.015’lik varyansla doldurmaktadır. Firma
yetkilileri makinenin doldurduğu paketlerden numune alıp kontrol etmekte ve varyanslarını
hesaplamaktadır. Eğer varyanslar beklediği gibi olmazsa makineyi durdurup ayarlatmaktadır.
Yetkili kişi %1 önem düzeyinde ana kitle varyansının 0.015 olmasını istemektedir. Tesadüfen
seçilmiş 25 örnekten hesaplanan varyans 0.029 ise bu makine ayarlanmalı mıdır?
Çözüm:
1. Hipotezlerin belirlenmesi:
H 0 : 2 0.015 (Ana kitleye ait varyans kabul edilebilir düzeydedir.)
KABUL RED
0.01
42.980
4. Test istatistiğinin hesaplanması:
(n 1) S 2 (25 1)(0.029)
2
46.4
2
0.015
5. Kararın alınması:
2 hesap 2 tablo olduğundan (46.4>42.980) H0 hipotezi reddedilip, H1 hipotezi kabul
edilecektir. Yani ana kitle varyansı kabul edilebilir sınırlar içinde değildir. Bu sebeple makine
ayarlanmalıdır.
Örnek:
Türkiye’de çalışan işçilerin ortalama aylık gelirine ait varyans 490 milyon TL’dir.
Tesadüfi olarak seçilen 29 işçiden hesaplanan varyans ise 600 milyon TL’dir. %5 önem
düzeyinde 29 işçiden hesaplanan varyans ana kitle varyansından farklı mıdır?
Çözüm:
1. Hipotezlerin belirlenmesi:
H 0 : 2 490 (Ana kitle varyansı 490 milyon TL’dir.)
1-α/2 α/2
15.308 44.461
4. Test istatistiğinin hesaplanması:
(n 1) S 2 (29 1)(600)
2
34.286
2
490
5. Kararın alınması:
15.308 2 hesap 44.462 olduğundan H0 hipotezi kabul edilip, H1 hipotezi
reddedilecektir. Yani ana kitle varyansı 490 milyon TL/aydır.
GAKO
F
GIKO
GAKT GIKT
GAKO ve GIKO
k 1 nk
x
2
T 2 T 2 T 2
GAKT 1 2 3 .........
n1 n2 n3 n
T1 2 T2 2 T3 2
GIKT x .........
2
n1 n2 n3
Formülde GAKO örnekler arası hata kareleri ortalamasını, GİKO örnek içi hata kareleri
ortalamasını, GKT genel hata kareler toplamını, GAKT örnekler arası hata kareleri toplamını,
GİKT örnek içi hata kareleri toplamını, Ti her bir örneğin içinde yer alan gözlemlerin
toplamını, n toplam gözlem sayısını, x bütün örneklerin içindeki gözlemlerin toplamını
(T1+T2+T3+.....), x 2
bütün örneklerde yer alan gözlemlerin karelerinin toplamını ve k grup
1. Hipotezlerin belirlenmesi:
H 0 : 1 2 3 (Üç makinenin 1 saatte doldurduğu kutu sayısı eşittir.)
6.93
4. Test istatistiğinin hesaplanması:
T1 54 49 52 55 48 258
T2 53 56 57 51 59 276
T3 49 53 47 50 54 253
x T 1 T2 T3 258 276 253 787
n n1 n2 n3 5 5 5 15
x 2
(54) 2 (49) 2 (52) 2 (55) 2 (48) 2 (53) 2 (56) 2 (57) 2
(51) 2 (59) 2 (49) 2 (53) 2 (47) 2 (50) 2 (54) 2 41461
Toplam 14 169.7333
5. Kararın alınması:
Fhesap Ftablo olduğundan (3.16<6.93) H0 hipotezi kabul edilip, H1 hipotezi
Çözüm:
1. Hipotezlerin belirlenmesi:
H 0 : 1 2 3 4 (1 saatte hizmet verilen müşteri sayısı 4 bankacı için aynıdır.)
3.16
4. Test istatistiğinin hesaplanması:
Toplam 21 413.8182
5. Kararın alınması:
Fhesap Ftablo olduğundan (9.69<3.16) H0 hipotezi reddedilip, H1 hipotezi kabul
edilecektir. Yani en az 1 banka çalışanının 1 saatte hizmet verdiği müşteri sayısı diğerlerinden
farklıdır.
6.8. Doğrusal Regresyon Analizi
İncelenen değişkenler arasında ilişkinin var olup olmadığı ve bu ilişkinin yönünün ne
olduğunun ortaya konulmasında yaygın olarak kullanılan metot “korelasyon katsayısını”
hesaplamaktır. Korelasyon katsayısı, iki değişken arasındaki ilişkiyi gösterirken,
değişkenlerden bir tanesinin diğeri üzerinde ne derece etkili olduğu konusunda tam bilgi
veremez. Bu konuda regresyon analizi çok yararlı olmaktadır. Regresyon analizi, incelenen
bağımlı değişkende meydana gelen değişmeler ele alınan bağımsız değişkendeki değişmelerle
açıklanmaktadır. Tüketicilerin gelirinde meydana gelen değişmelerin, gıda harcamalarında
meydana getirdiği değişim buna örnek teşkil etmektedir.
İki veya daha fazla değişken arasındaki ilişkileri açıklayan matematiksel eşitliklere
“regresyon modeli” adı verilmektedir. Regresyon modelleri incelenen değişkenler arasındaki
ilişkinin şekline göre doğrusal ve doğrusal olmayan regresyon modeli olarak ikiye
ayrılmaktadır. Eğer regresyon modeli iki değişken arasındaki doğrusal ilişkileri yansıtıyorsa
buna “doğrusal regresyon modeli” denilmektedir. Eğer doğrusal olmayan ilişkileri
yansıtıyorsa “doğrusal olmayan regresyon modeli” adı verilmektedir. Doğrusal bir ilişkide,
bağımsız değişken olan gelirde meydana gelen bir birimlik değişiklik, bağımlı değişken olan
gıda harcamalarında aynı oranda değişikliğe yol açmaktadır. Diğer taraftan, doğrusal olmayan
ilişki söz konusu olduğunda bağımsız değişken olan gelirde meydana gelen değişiklik,
bağımlı değişken olan gıda harcamalarında önce artan oranlarda artışa yol açıyor, belirli bir
noktadan sonra bu artışın hızı oldukça azalıyor. Aşağıda gelir ile gıda harcamaları arasındaki
doğrusal ve doğrusal olmayan ilişli şekil üzerinde gösterilmiştir.
Gelir Gelir
Doğrusal ilişki Doğrusal olmayan ilişki
Regresyon modelleri aynı zamanda modelde yer alan değişken sayısına bağlı olarak
basit ve çoklu regresyon modeli olarak iki gruba ayrılmaktadır. Regresyon modeli tek bir
bağımlı değişken ve bunu açıklayan 1 açıklayıcı değişkenden oluşuyorsa buna “basit doğrusal
regresyon modeli” denilmektedir. Tek bağımlı değişken ve bunu açıklayan iki ve daha fazla
bağımsız değişken olduğunda buna “çoklu regresyon modeli” adı verilmektedir.
Eşitliklerde ana kitle için bulunan regresyon modelinin sabit terimini, ana kitleye ait
regresyon modelinde eğimi, a örneğe ait regresyon modelindeki sabit terimi ve b ise örneğe
ait regresyon modelindeki eğimi ifade etmektedir.
a ve b’nin farklı değerleri için farklı regresyon doğruları söz konusu olmaktadır.
Örneğin a=50 ve b=5 olduğunda basit doğrusal regresyon modeli Y 50 5 X şeklindedir.
Buna ait regresyon doğrusunu çizmek için, öncelikle denklemden yararlanarak X’in iki farklı
değeri için Y’nin aldığı değerlerin bulunması gerekmektedir. Daha sonra X ve Y değerleri
koordinat sisteminde işaretlenerek regresyon doğrusu elde edilir.
150
50 X=0, Y=50
5 10 15 20 25 X
Y
200 Y=50+5X
5 10 15 20 25 X
12 x
x x
8 x x x
x x
4
10 20 30 40 50 Gelir
Şekil 6.1. Gelir ile gıda harcamaları arasındaki ilişki
( X )( Y )
XY n
b
( X ) 2
X 2
n
a Yb X
Formüllerde a regresyon doğrusunun Y eksenini kestiği noktayı (sabit terim), b eğimi,
X
X
212
30.2857
n 7
Y
Y
64
9.1429
n 7
Regresyon doğrusunun çizilmesi için X’in çeşitli değerleri için Y’nin aldığı değerler
denklem yardımıyla bulunur. Daha sonra bunlar koordinat sisteminde işaretlenerek regresyon
doğrusu elde edilir.
Gıda harcamaları (milyar TL)
16
y = 1.1414+0.2642X
12
0
0 10 20 30 40 50 60
Gelir (milyar TL)
Eğer gerçek gözlem değeri tahmin değerinden büyükse hata terimi pozitif değer
almaktadır. Gerçek gözlem değeri tahmin değerinden küçük olduğu durumda ise, hata terimi
negatif değer almaktadır. Hata terimlerinin toplamı sıfıra eşittir ( e (Y Y ) 0) .
Hatanın ne derece büyük olduğunu bize hata teriminin standart hatası göstermektedir. Hata
teriminin standart hatası aşağıdaki formül kullanılarak hesaplanmaktadır.
( Y ) 2 ( X )( Y )
Y 2 n
(b)( XY
n
Se
n2
Formülde n-2 regresyon modelinin serbestlik derecesini ifade etmektedir. Şimdi örneğimiz
için standart sapmayı hesaplayalım.
60.8571 (0.2642)(211.7143)
Se 0.9922
72
Regresyon modelinde yapılan hataların toplamını ifade eden genel hata kareleri
( Y ) 2
toplamının iki önemli bileşeni bulunmaktadır ( GHKT Y 2 ). Bunlardan
n
birincisi hata kareleri toplamının regresyon denklemi tarafından açıklanan kısmıdır (HKT).
En küçük kareler yönteminde amaç, hata kareleri toplamının regresyon tarafından açıklanan
kısmının en aza indirilmesidir ( HKT e 2 (Y Y ) 2 min ). Diğer bileşen ise
olarak bulunur. Genel hata kareleri toplamının regresyon denklemi ile açıklanamayan bölümü
de,
AHKT GHKT HKT 60.8571 4.9283 55.9288
şeklindedir.
( X )( Y )
(b)( XY )
r2 n
( Y ) 2
Y 2
n
(0.2642)(211.7143
r2 0.92
60.8571
Buna göre gıda harcamalarında meydana gelen değişimin %92’si, bağımsız değişken
olarak incelenen gelir tarafından açıklanmaktadır. Toplam değişimin geriye kalan %8’lik
kısmı ise ele alınmayan değişkenlerin etkisinden ve tesadüfi değişimden kaynaklanmaktadır.
Doğrusal regresyon analizinde, elde edilen “b” katsayısının hipotez testinin yapılması
gerekmektedir. “b” katsayısının testi yapılırken, eğer n>30 ise z dağılımı, n<30 ise t dağılımı
kullanılmaktadır. Hipotez testi yapılırken aşağıdaki formüller kullanılmaktadır.
Se
Sb
( X ) 2
X 2
n
b
t
Sb
Formüllerde S b b katsayısına ait standart hatayı, S e hata teriminin standart hatasını, b eğimi ve
ana kitle eğimini ifade etmektedir. Formülde başlangıç hipotezinden dolayı sıfır olarak
alınmaktadır. Şimdi örmeğimiz için katsayıları test edelim:
1. Hipotezlerin belirlenmesi:
H 0 : b 0 (Eğim sıfırdır, yada katsayı istatistik açıdan önemsizdir)
0 3.365
4. Test istatistiğinin hesaplanması:
Se 0.992
Sb 0.035
( X ) 2 28.31
X2 n
b 0.2642 0
t 7.549
Sb 0.035
5. Kararın alınması:
t hesap t tablo olduğundan (7.549<3.365) H0 hipotezi reddedilip, H1 hipotezi kabul
Örnek:
8 otomobil sürücüsünün, sürücülük deneyimi ile aylık sigorta prim ödemeleri
aşağıdaki gibidir.
a) Verilere bakarak, bu iki değişken arasında bir ilişki var mıdır?Varsa yönü nedir? Bu
değişkenlerden hangisi bağımlı değişken, hangisi bağımsız değişkendir?
b) Doğrusal regresyon modelini oluşturup, regresyon doğrusunu çiziniz?
c) Korelasyon katsayısı ve determinasyon katsayısını hesaplayınız?
d) 10 yıllık sürücülük deneyimine sahip bir sürücünün aylık sigorta primini tahmin
ediniz?
e) Hata terimine ait standart hatayı hesaplayınız?
f) b katsayısına ilişkin hipotez testini yapınız?
Çözüm:
a) İki rakam grubuna bakarak aralarında negatif bir bağlantının olduğunu söylemek
mümkündür. Sürücülük deneyimi bağımsız, aylık sigorta primi ise bağımlı
değişkendir.
b) X 90 X 2
1396 Y 474 Y 2
29642 XY 4739
X 11 .25 Y 59.25
(90)(474) 2
4739
b 8 1.5476
(90) 2
1396
8
a Y b X 59.25 (1.5476)(11.25) 76.6605
Y 76.6605 1.5476 X
Aylık sigorta primi (milyon TL)
100
80
60
40
20 y = 76.6605-1,5476x
0
0 10 20 30
Sürücülük deneyimi (yıl)
( X )( Y )
XY n 593.500
c) r 0.77
( X ) 2
( Y ) 2
(383.50)(1557.5)
( X
2
)( Y 2
)
n n
(1.5476)(593.5)
r2 0.59
1557.5
d) 10 yıllık sürücülük deneyimine sahip bir sürücünün tahmini aylık sigorta primi
Y 76.6605 1.5476(10) 61.18 milyon TL’dir.
e) Tesadüfi hata teriminin standart hatası
1557.5 (1.5476)(593.5)
Se 10.3199 milyon TL’dir.
6
f) B katsayısının testi aşağıdaki gibidir.
1. Hipotezlerin belirlenmesi:
H 0 : b 0 (Eğim sıfırdır, yada katsayı istatistik açıdan önemsizdir)
-1.943 0
4. Test istatistiğinin hesaplanması:
Se 10.3199
Sb 0.5270
( X ) 2 19.583
X2 n
b 1.5476 0
t 2.937
Sb 0.5270
5. Kararın alınması:
t hesap t tablo olduğundan (2.937<1.943) H0 hipotezi reddedilip, H1 hipotezi kabul
X X X
r = +1 r = -1 r=0
( X )( Y )
XY n
r
( X ) ( Y )
2 2
( X 2
)( Y 2
n n
Gıda harcamaları ile gelir arasındaki ilişkiyi incelediğimiz örnek için korelasyon
katsayısını hesaplayalım.
( X )( Y )
XY n
211.7143
( X ) 2
X2 n
801.4286
( Y ) 2
Y 2
n
60.8571
( X )( Y )
XY n 211.7143
r 0.96
( X ) 2
( Y ) 2
(801.4286)(60.8571)
( X 2
)( Y 2
)
n n
Buna göre gelir ile gıda harcamaları arasında pozitif yönde kuvvetli bir doğrusal ilişkinin var
olduğu sonucuna varılır. Korelasyon katsayısının karesi, regresyon modeli için hesaplanan
determinasyon katsayısına eşit olmaktadır.