Güvenirlik

Doç. Dr.
Esin YILMAZ KOĞAR

 Bir test veya ölçekten elde edilen puanlar ne zaman hatalıdır?
 Çoğu ölçme aracı tamamen güvenilir veya geçerli sonuçlar vermez, ölçme
sonuçlarına hemen her zaman hata karışır.
 Ölçmeye karışan çeşitli hatalar nedeniyle gözlenen bir özelliğin gerçek değeri
doğrudan elde edilemez.
 Hatanın miktarı arttıkça elde edilen değer bireyin gerçek değerinden (gerçek başarı,
yetenek, bilgi düzeyi vb.) uzaklaşır.
 Ölçmede amaç, ölçülen niteliğin gerçek değerini ortaya çıkartmaktır. Ancak çeşitli
faktörlere bağlı olarak ölçmeye hata karışır. Bu nedenle gerçek değer, gözlenen değere
dayalı olarak tahmin edilmeye çalışılır.
 Ölçmede hata, gerçek değer ile gözlenen değer arasındaki fark olarak ifade edilir. Bu fark
fazla ise ölçmede hata fazla, az ise ölçmede hata azdır.
Gerçek Değer = Gözlenen Değer ± Hata
 Ölçümlerdeki hatanın mümkün olduğunca azaltılması, ölçülen özelliğin miktarı hakkında

doğru bilgi edinebilmek ve bunun sonucunda doğru kararlar verebilmek açısından
önemlidir.
 Doğrudan ölçmelerde dolaylı ölçmelere göre daha az hata yapılır.
 Ancak en duyarlı araçlarla ve en doğru sanılan yöntemlerle yapılan ölçmelerde bile
bir miktar hata vardır. Bir ölçme sonucunun hatasız olabileceğini kabul etmek güçtür.
Aynı düşünceyle, bir ölçme sonucunun tümüyle hatalı olabileceğini kabul etmek de
güçtür. O halde, en akla yakın sayıltı, herhangi bir ölçme sonucunda, bir miktar
gerçek ve bir miktar hata payı bulunduğunu kabul etmektedir.
Gerçek Puan Ölçülen Puan Hata
50 70 ?
50 30 ?
* Hata eksi ya da artı yönde olabilir.
Ölçmede Hata
Türleri
Tesadüfi
Sistematik
Sabit Hata (Random-Rastgele)
Hata
Hata
Sabit Hata
 Tüm ölçme sonuçlarına aynı yönde ve aynı miktarda karışan hatadır.

Örnekler:
* Herkesin notuna 5 puan eklenmesi
* Ucu 2 cm kırık olan cetvelle ölçüm yapılması
Bu durumlarda ölçme sonuçları gerçek durumu yansıtmaz.

Sistematik Hata
 Belirli bir kaynağa göre bazı ölçme sonuçlarına karışan ya da tüm sonuçlara farklı miktarda
karışan hatadır.
Örnekler:
* Devamı tam olan öğrencilerin notuna 5 puan eklenmesi
* Sınav kağıdında yazısı kötü olan öğrencilerden puan kırılması
• Bir öğretmenin tüm öğrencilere aldıkları notun %10’u kadar puan vermesi
NOT: Sabit hata veren bir ölçme aracının tekrar tekrar kullanımı da sistematik hatayı doğurur.
Örneğin, 20 cm olarak hazırlanan bir cetvel aslında 19 cm ise bu cetvelin 20 cm olarak ölçtüğü
bir uzunluk için hata 1 cm iken 40 cm olarak ölçtüğü bir uzunluk için hata 2 cm olur.
Tesadüfi Hata
 Kaynağı, yönü ve miktarı belli olmayan ve bazı ölçme sonuçlarına tesadüfen karışan
hatadır.
 Eğitimde en çok karşılaşılan ve en büyük sorun olan hata türüdür.
Örnekler:
• Bir öğrencinin girdiği sınavda yer alan sorulardan 5’ini attığı halde tutması
• Bir öğretmenin yazılı kağıtlarını okurken bazı soruların cevaplarını görmemesi
• Dikkatsizce okunup puanlanan notlar
• Öğrencinin sınavda kaygı, heyecan, hastalık vb. nedenlerle düşük puan alması
 Ölçmenin yapıldığı gruba ait bireylerde gözlenen geçici ve önceden tahmin
edilemeyen değişiklikler bu tür hata kaynaklarıdır.
 Bireyin ölçme işlemi yapılırken içinde bulunduğu motivasyon, heyecan, stres,
uykusuzluk, yorgunluk, hastalık, dikkat dağınıklığı, vb.
 Bireyin ölçme işlemi yapılmadan önce geçirdiği kaza, tartışma, vb.
 Bireylerin test maddelerini cevaplarken yaptıkları gerçek hatalar değil, zaman
içerisinde önceden kestirilemeyen biçimde değişen ve bu nedenle ölçmede
tutarsızlığa ve hataya yol açan faktörlerdir.
 Ölçme aracını oluşturan maddelerin kapsamı yeterince temsil etmemesi
 Ölçme aracındaki maddelerin iyi ifade edilememesi
 Ölçme aracının uzunluğu, ölçme aracındaki madde sayısı
 Bir test oluşturulurken gözlenmek istenen davranışların çok iyi tanımlanması,
maddelerin anlaşılır olması madde sayısının ve uygulama süresinin uygun biçimde
belirlenmesi, bu tür hata kaynaklarının azalmasını sağlayacaktır.
 Ölçmeyi yapan kişinin, puanlama yaparken yorgun olması, dikkatsizliği
 Puanlayıcının, cevapları kendi bakış açısına ve anlayışına göre değerlendirmesi
 Puanlamanın bilgisayar ile yapıldığı durumlarda cevap anahtarındaki cevaplardan
bazılarının silik olması nedeniyle optik okuyucu tarafından okunmaması
 Puanlamanın nesnel olmadığı, öznel kanılara dayandığı durumlarda, puanlar bir
puanlayıcıdan diğerine veya puanlama zamanına göre değişecektir.
 Testin yapıldığı ortamın sıcaklığı
 Işığın yetersiz olması
 Gürültü düzeyi
 Testin yapıldığı ortam testi alan tüm bireyler tarafından aynı olmalıdır. Aksi takdirde,
testten yüksek puan alan bireyler testle ölçülmek istenen özelliğe en çok sahip olan
değil, testi en iyi koşullar altında alanlar olacaktır.
 Aynı özelliği ölçen iki test uygulanacaksa, benzer koşullar altında uygulanmalıdır.
 Aşağıdaki ifadelerin hata türlerin ve hata kaynaklarını bulalım:
Hata Türü Hata Kaynağı
 Emre’nin gürültüden dolayı 3. soruyu yapamaması Tesadüfi Ortamdan Kaynaklı
 Süre yetişmediği için son soruyu kimsenin yapamaması Sabit Ölçme Aracından Kaynaklı
Kişiden Kaynaklı
 Ali’nin 12. soruyu atıp tutturması Tesadüfi
 Bir öğretmenin sevdiği öğrencilere fazladan 10 puan vermesi Sistematik Ölçmeciden Kaynaklı
(2008 KPSS)
Bir sınavda her öğrenciye 5 puan fazla verilmesi _____ hataya örnektir. Öğrencilerin
puanlarını, aldıkları puanların yüzde 10’u kadar artırmak ise _____ hataya örnek
olabilir.
Bu parçadaki boşluklara, aşağıdakilerden hangisindeki sözcükler sırasıyla
getirilmelidir?
A) Rastgele - sabit
B) Rastgele – sistematik
C) Sabit – sistematik
D) Sabit- rastgele
E) Sistematik - sabit
Cevap: C
 Bir ölçme aracında temel olarak üç özellik bulunmalıdır. Bu özellikler en basit
şekilleriyle aşağıdaki gibi ifade edilebilir.
Güvenirlik: Ölçme aracının tesadüfi hatalardan arınık olma derecesidir.
Geçerlik: Ölçme sonuçlarının amaca hizmet etme derecesidir.
Kullanışlılık: Ölçme aracının hazırlanması, uygulanması, puanlanması vb.

bakımından ekonomik ve kolay olmasıdır.
Not: Doğru ölçme, doğru bir ölçme aracı kullanımıyla olur. Doğru ölçme de
beraberinde doğru değerlendirmeyi getirir. Bu nedenle ölçme yaparken ölçme
aracında bulunması gereken özelliklere dikkat edilmesi gerekir.
 Güvenirlik, bir ölçme aracının ölçmek istediğimiz özelliği ne derece hatasız
ölçtüğüdür.
 Güvenirlik, test puanlarının tesadüfi hatalardan arınık olma derecesidir.
 Güvenirlik; ölçme aracının kararlı, tutarlı, duyarlı ve objektif sonuçlar vermesi ile
ilgilidir.
Kararlılık
 Ölçme sonuçlarının birbiriyle tutarlı olması, ölçme aracının ölçülen özelliği kararlı
bir şekilde ölçtüğünün göstergesidir. Bir ölçme aracının aynı gruba zaman
aralıklarıyla tekrar tekrar uygulanması sonucu elde edilen sonuçların zamana
rağmen aynı ya da benzer olabilme derecesine kararlılık anlamında güvenirlik
denir.
Kararlılık
 Bir terazinin aynı ürünü her defasında aynı ağırlıkta göstermesi

Tutarlılık
 Aynı özelliği ölçen farklı araçların birbirine yakın sonuçlar vermesine

tutarlık anlamında güvenirlik denir.
Tutarlılık
 İki farklı matematik testinin aynı öğrencileri başarı yönünden aynı

sırada göstermesi
Duyarlılık
 Ölçme birimi ile ilgilidir. Birim küçüldükçe daha doğru ölçmeler elde
edilecektir. Çünkü duyarlılık yani ölçme aracının hassaslığı arttıkça
hata azalır.
 Eğitimde kullandığımız ölçme araçlarındaki soru sayısını arttırmak

duyarlılığı arttırır.
Objektiflik
 Ölçme işleminin tarafsız, nesnel olmasıdır.

 Bu noktada karşımıza puanlama güvenirliği ve puanlayıcı güvenirliği
çıkar.
Objektiflik
 Ölçülen özelliklerin en az iki uzman tarafından puanlanmasını gerektirir.
 Puanlar arasındaki korelasyona bakılır.
 TOEFL (Test of English as a Foreign Language) sınavı, dünyadaki en itibarlı
İngilizce dili sınavıdır ve Avustralya, Kanada, Birleşik Krallık ve Amerika Birleşik
Devletleri, dahil olmak üzere, 130'dan fazla ülkede bulunan 10.000'den fazla kolej,
üniversite ve kurum tarafından kabul edilmektedir. Bu gibi sınavlarda sınava giren
kişilerin cevap kağıtları için puanlayıcı güvenirliğine bakılır.
Objektiflik
Objektiflik
 Objektifliği sağlamak için yapılabilecekler:

 Birden fazla gözlem yaparak sonuçların ortalamasını almak.
 Birden fazla kişinin gözlemlerinin ortalamasını almak.
 Cevaplandırma anahtarıyla puanlama yapmak.
 Tekrar tekrar puanlama yapmak
 Güvenirlik katsayısı 0,00 ile +1,00 değerleri arasında değişir.
0 ≤ Güvenirlik Katsayısı ≤ 1
 Güvenirlik katsayısının 1 olması mükemmel bir güvenirliği,
dolayısıyla hatasız bir ölçmeyi ifade eder. Bu durumda elde edilen
ölçme sonuçları, ölçülen özelliğin gerçek değerini verir.
 Güvenirlik katsayısının 0 olması ise tamamen güvenilir olmayan,

tümüyle hatalardan oluşan bir ölçmeyi ifade eder. Bu durumda ölçme
sonuçları, gerçek değeri hiçbir şekilde yansıtmamaktadır.
 0,70 ve üzerinde hesaplanan katsayılar sonuçların güvenilir olduğunu

gösterir.
Birden fazla uygulamaya dayalı yöntemler
 Test Tekrar Test
 Paralel Formlar
 Aynı test, aynı kişilere belli bir ara ile iki kez uygulanır.
 Daha sonra bireylerin birinci uygulamada aldıkları puanlarla ikinci uygulamada

aldıkları puanlar arasındaki korelasyon bulunur.
 Sonucun bire yakın olması, iki uygulamadan elde edilen puanların birbirine yakın
olduğunu gösterir.
 Eğer ölçmeye karışan hatalar gerçekten tesadüfiyse aynı hatalar birden fazla
tekrarlanmayacaktır. Böylece iki farklı uygulamadan elde edilecek benzer sonuçlar
ölçümlere tesadüfi hatanın pek karışmadığının göstergesi olacaktır.
TEST A TEST A
ZAMAN
Birinci uygulama İkinci uygulama
AYNI GRUP
Birinci ve ikinci uygulama arasındaki korelasyon testin güvenirlik katsayısını gösterir.

 Süre, ölçülecek özelliğe ve hedef grubun durumuna göre kararlaştırılır.
 Sorular ikinci kez görünce hatırlanmamalı
 Mevcut bilgiler unutulmamalı
 Yeni bilgiler öğrenilmemeli
 İki uygulama arasındaki zaman ne çok uzun ne de çok kısa tutulmalıdır.
 Bu yöntemde bu süreyi başarı testleri için doğru ayarlamak oldukça zordur.
 Bu nedenle daha çok kısa zamanla değişmeyen psikolojik özellikleri ölçen testlerin
güvenirlikleri bu yolla bulunur.
Test tekrar test yönteminin hesaplanması
 Bu yöntemin zorlukları
 Test-tekrar test yöntemi iki uygulama gerektirdiği için pratik bir yöntem olarak
görülmemektedir.
 Aynı testin kullanılması beraberinde bazı zorluklar getirir.
 Zaman faktörü etkilidir.
 Bu yöntemle yapılan güvenirlik kestirimleri daha çok KARARLILIK katsayısı olarak
yorumlanır. Çünkü zaman içinde gerçek puanda bir değişme olup olmadığını
gösterir.
Kararlılık Test tekrar test

anlamında yöntemi ile
güvenirlik incelenebilir.
 Çeşitli nedenlerden dolayı bir testin iki kere uygulanması söz konusu olmayabilir. Bu
durumda kullanılabilecek yöntemlerden biri de paralel formlar yöntemidir.
 Bu yöntemin uygulanması için birinci uygulamada kullanılan testin paraleli olan bir
başka test sağlanmalıdır. Paralel testlerin her ikisi de aynı öğrenci grubuna
uygulanır.
 İki testten elde edilen puanlar arasındaki korelasyon katsayısı hesaplanır.
 Formların aritmetik ortalaması ve standart sapması birbirine eşit olmalıdır.

FORM A ZAMAN FORM B
AYNI
GRUP
FORM A ve FORM B arasındaki korelasyon testin güvenirlik katsayısını gösterir.

 Eşdeğer formlar yöntemi test-tekrar test yönteminde ortaya çıkan hatırlama etkisini
azaltır.
 Bu yöntemin zorlukları:
 aynı değişkeni ölçen iki test hazırlamak
 ve hazırlanan testlerin matematiksel olarak eşitliklerini kontrol altında tutmak
Bu yöntemle yapılan güvenirlik kestirimleri daha çok TUTARLILIK katsayısı
olarak yorumlanır.
Tutarlılık Paralel formlar

anlamında yöntemi ile
güvenirlik incelenebilir.
İç tutarlılık yöntemleri
 Eğer test tek bir yapıyı ölçüyorsa, testteki bir maddeye doğru yanıt veren bireylerin
diğer benzer maddelere de doğru yanıt vermesi beklenir.
 Diğer bir ifadeyle testteki maddeler birbirleriyle ilişkili olmalılar ve testin iç
tutarlılığı olmalıdır.
 Böyle bir durumda, test puanlarının güvenirliği iç tutarlılık yöntemleri ile
hesaplanabilir:
 Eşdeğer Yarılar Metodu
 Kuder-Richardson Metodları
 Cronbach Alfa Metodu
 Test, tek/çift, kur’a, ilkyarı/sonyarı vb. yöntemlerle iki eş yarıya ayrılır.
 Öğrencilerin testin iki yarısından aldıkları puanlar arasındaki korelasyon hesaplanır.
TEST
GRUP
1. Yarı
2. Yarı
puanları
puanları
Birinci yarı ve ikinci yarı puanları arasındaki korelasyon hesaplanır.

 Öğrencilerin testin iki yarısından aldıkları puanlar arasındaki korelasyon hesaplanır.
Bu değer yarıların eşdeğerlik katsayısını verir.
 Testin yarısına ait güvenirlik katsayısının testin bütününe ait güvenirlik katsayısına
dönüştürülmesi için Spearman–Brown bir formül geliştirmiştir.
 İki yarı arasında hesaplanan korelasyondan hareketle Spearman–Brown
formülünden yararlanarak testin bütünü için güvenirlik katsayısı kestirilir.
𝑟𝑥 = testin güvenirliği
𝑟12 = iki yarı puanları arasındaki korelasyon sayısı

 İki yarıya bölme yöntemiyle bulunan güvenirlik katsayısı, testin iki yarısı arasındaki
tutarlılık – eşdeğerlik anlamına gelir.
 Bu katsayı, test gelişigüzel cevaplanmışsa ya da testin iki yarısı farklı davranışları

ölçüyorsa düşük çıkabilir.
 Bu katsayı yüksek bulunmuşsa test puanlarının tesadüfi hatalardan arınık olduğu ve

iki yarının eşdeğer olduğu söylenebilir.
 Bu yöntem test-tekrar test ve eşdeğer formlar yönteminin taşıdığı
 iki test
 iki uygulama
 zamana bağlı olarak ortaya çıkabilecek sorunların
getirdiği sakıncaları ortadan kaldırır.

 Bu yöntemin zorlukları
 Testi iki yarıya bölme yönteminde, iki yarının eşdeğer olması gerekir. İki yarının
eşdeğerliği sağlanamazsa testin güvenirliği düşük çıkar.
 Test ikiye bölündüğü için soru sayısı azalır ve bu durum güvenirliğin düşmesine
neden olabilir.
 Sadece bir defa uygulanan testlerin güvenirliğinin hesaplanmasında kullanılır.
 Testi oluşturan tüm maddelerin birbiriyle ve testin bütünüyle olan uyumuna

bakılır.
 Bir test ne kadar homojense, maddeler birbiriyle o derece yüksek ilişkili olacak,
dolayısıyla maddeler arasındaki tutarlılık da o derece yüksek olacaktır.
 Testi oluşturan maddeler heterojenleştikçe, maddeler arası tutarlılık azalacak ve

test puanlarını yorumlamak zorlaşacaktır.
 Her bir maddeye verilen cevaplar doğrultusunda korelasyona dayalı katsayılar

elde edilir.
 İç tutarlılık güvenirliğini hesaplamak için kullanılan formüllerdir.
 Kuder-Richardson formülleri, testeki her maddenin aynı değişkeni ölçtüğü, yani

testin ölçtüğü şeyin homejen olduğu sayıltısına dayanır.
 Bu formüllerle elde edilen katsayı yüksekse test maddeleri birbirleriyle tutarlıdır.
 Test iki kategorili puanlanan maddelerden oluştuğunda yani testteki maddeler

doğru yanıta 1, yanlış yanıta 0 puan vermek suretiyle puanlandığında kullanılabilir.
KR-20 kullanım koşulları;
- Testteki her bir maddenin güçlük indekslerinin belirlenebilmesi durumunda kullanılır.
 K

K 
 
i 1
Pi (1  Pi ) 

K = Testteki madde sayısı
Pi = Madde güçlüğü
KR  20  1   𝑆𝑌2 = Test puanlarının
K 1  SY2  varyansı
 
 
KR-21 kullanım koşulları;
- KR-21, KR-20’in özel bir formudur. Testte yer alan maddelerin güçlüklerinin
hesaplanamadığı durumlarda testteki tüm maddelerin güçlük derecelerinin birbirine
yakın ya da eşit olduğu varsayımına dayanır.

𝑋ത = Test puanlarının aritmetik ortalaması
𝑆𝑌2 = Test puanlarının varyansı
 Madde güçlüklerinin birbirine eşit olması durumunda, KR 21 ve KR 20 birbirine
eşittir, eşit olmaması durumunda ise KR 21 değeri, KR 20 değerinden düşük
çıkacaktır.
Dolayısıyla,
KR-20 ≥ KR-21
 KR-20 ve KR-21 gibi yorumlanır. Yalnızca kullanıldığı durumlardaki puanlama
biçimleri farklıdır.
 Ağırlıklı puanlama veya dereceleme yöntemiyle puanlama uygulandığı durumlarda
kullanılabilecek bir güvenirlik hesaplama tekniğidir.

𝑆𝑗2 = j maddesinin varyansı
𝑆𝑋2 = Testin varyansı
 İç tutarlılık yöntemleri tek bir uygulamaya dayanmalarından dolayı kullanışlı ve
yaygındırlar. Ancak bu yöntemlerin de bazı dezavantajları vardır:
 Eğer tüm test aynı özelliği ölçüyorsa kullanılmalıdırlar. Testin tek bir özelliği
ölçmesi durumunda bir maddeyi doğru cevaplayan bireylerin diğer maddeleri de
doğru cevaplayacağı varsayılır. Bu durumda testteki maddelerin birbiriyle ve testin
tümüyle tutarlı olması gerekir.
 Açık uçlu soruların puanlanmasına öznel etkiler karışabilir. Bu durumda, bir
testteki maddeler iki veya daha fazla puanlayıcı tarafından puanlanabilir.
 Puanlayıcı hatalarının olmadığını söyleyebilmek için, puanlayıcıların madde ve test

puanlarının aynı olması gerekir.
 Puanlayıcı güvenirliğini hesaplamak için iki veya daha fazla puanlayıcının aynı
bireylere ait testleri birbirlerinden bağımsız olarak puanlamaları ve bu puanlar
arasındaki ilişkinin hesaplanmasıyla elde edilir.
 Ölçme aracının hatalardan arınıklık derecesini gösteren güvenirlik katsayısı, ölçme
işleminde yapılan hatanın miktarını belirtmez.
 Ölçmede yapılan standart hatanın değerini hesaplamak için güvenirlik ve test
puanlarının standart sapması kullanılır.
𝑟𝑥 : Testin güvenirlik katsayısı

𝑆𝑋 : Test puanlarının standart sapması
𝑆𝐻Ö : Ölçmenin standart hatası
 Ölçmenin standart hatasının az olması için standart sapmasının az, güvenirliğinin yüksek
olması gerekmektedir.
 Ölçmenin standart hatası azaldıkça, testin güvenirliği artar.
 Ölçme sonuçlarına karışan hata miktarının artı ya da eksi yönlü olduğu bilinmediğinden
hesaplanan standart hata miktarı elde edilen ölçme sonuçlarına bir eklenip bir de
çıkarılarak bir aralık değeri elde edilir. Bu aralığa güven aralığı adı verilir.
 Belirli olasılık değerlerine karşılık gelen farklı güven değerleri hesaplanmaktadır.
 Ölçme hatası, ölçülen özelliğin bireyde var olan gerçek değeri ile ölçme ile ölçülen
özelliğin gözlenen değeri arasındaki fark olarak ifade edilir.
E = X -T
E = Ölçme hatası
X = Gözlenen değer
T = Gerçek değer
 Ölçmenin standart hatası (SHö), belli güven düzeyleri için testten alınan puanların
gerçek puandan olan sapma miktarını hesaplamada kullanılır.
 Hatasız ölçme olmaz. Bu nedenle ölçme sonuçları ölçek üzerinde tek bir noktadan
ziyade iki nokta arasındaki bir aralık olarak düşünülmelidir. Çünkü test puanlarına
karışan hatanın yönü (- , +) bilinmez ve bireyin gerçek puanı, bir aralık olarak
hesaplanır.
 Ölçme hatalarına ait dağılımın normal olduğu varsayılır.
 Normal Dağılım Eğrisi, ölçme sonuçlarının orta noktalarında yoğunlaştığı, uç
noktalarda seyrekleştiği bir dağılım şeklini ifade etmektedir.
 Normal dağılım eğrisi simetriktir. Bu eğrinin sağındaki ve solundaki alanlar
birbirine eşittir.
 Eğrinin temel çizgisi standart sapma birimleriyle bölümlenmiştir. Bu çizgi üzerinde
aritmetik ortalamanın bulunduğu noktaya sıfır değeri verilir ve çizgi bu noktanın
sağına +1 SS, +2 SS, +3 SS ve soluna -1 SS, -2 SS, -3 SS olmak üzere standart sapma
birimi kullanılarak alanlara ayrılır.
 Normal dağılım eğrisi kuramsal olarak sonsuza kadar uzanır. Ancak uygulamada
ortalamanın 3 SS üstüne ve 3 SS altına uzanıyor olarak düşünülür.
 Normal dağılımda ölçümlerin yaklaşık,
 %68’inin X ± 1 SS
 %95’inin X ± 2 SS
 %99’unun X ± 3 SS alanı içerisine düşer.
 Bir bireyin gerçek değeri %68 olasılıkla
X - 1𝑆𝐻Ö < T < X +1𝑆𝐻Ö sınırları arasındadır.
X - 2𝑆𝐻Ö < T < X + 2𝑆𝐻Ö sınırları arasındadır.
X - 3𝑆𝐻Ö < T < X + 3𝑆𝐻Ö sınırları arasındadır.
ÖRN: :
X (Bir bireyin test puanı) = 60
SHö = 5
 Bireyin gerçek puanı %68 olasılıkla
60 - (1x 5) < T < 60 + (1x5) (55 < T < 65)
60 - (2x 5) < T < 60 + (2x5) (50 < T < 70)
60 - (3x 5) < T < 60 + (3x5) (45 < T < 75)
 Ölçme aracına ilişkin faktörler
 Testin uzunluğu
 Yönergenin anlaşılırlığı
 Soruların homojenliği ve anlaşılırlığı
 Birey veya gruba bağlı faktörler

 Bireylerin psikolojik özellikleri
 Grubun homojenliği/heterojenliği
 Uygulama koşulları ve zaman

 Puanlayıcı yanlılığı
1. Bir sınavda kullanılan soru sayısının arttırılması
2. Bir sınavdan kullanılacak soruların açıkça anlaşılır ve kesinlikle cevaplanabilir olması
3. Sınav puanlamasında cevap anahtarı kullanılması
4. Maddelerin ölçtükleri özellikler bakımından benzer/homojen olması
5. Testin uygulandığı grubun heterojen olması

6. Ölçme aracındaki soruların güçlüğünün orta düzeyde tutulması (Pj 0,5 ve civarı)
gerekir.
7. Öğrencilerin sınava güdülenmiş olması
8. Sınav süresinin dengeli olması
…………………….

Güvenirlik

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Güvenirlik

Uploaded by

Copyright:

Available Formats

Doç. Dr.

Esin YILMAZ KOĞAR

Gerçek Değer = Gözlenen Değer ± Hata

 Ölçümlerdeki hatanın mümkün olduğunca azaltılması, ölçülen özelliğin miktarı hakkında

 Tüm ölçme sonuçlarına aynı yönde ve aynı miktarda karışan hatadır.

Bu durumlarda ölçme sonuçları gerçek durumu yansıtmaz.

 Emre’nin gürültüden dolayı 3. soruyu yapamaması Tesadüfi Ortamdan Kaynaklı

Güvenirlik: Ölçme aracının tesadüfi hatalardan arınık olma derecesidir.

Geçerlik: Ölçme sonuçlarının amaca hizmet etme derecesidir.

Kullanışlılık: Ölçme aracının hazırlanması, uygulanması, puanlanması vb.

 Güvenirlik, test puanlarının tesadüfi hatalardan arınık olma derecesidir.

 Bir terazinin aynı ürünü her defasında aynı ağırlıkta göstermesi

 Aynı özelliği ölçen farklı araçların birbirine yakın sonuçlar vermesine

 İki farklı matematik testinin aynı öğrencileri başarı yönünden aynı

 Eğitimde kullandığımız ölçme araçlarındaki soru sayısını arttırmak

 Ölçme işleminin tarafsız, nesnel olmasıdır.

 Objektifliği sağlamak için yapılabilecekler:

 Güvenirlik katsayısının 0 olması ise tamamen güvenilir olmayan,

 0,70 ve üzerinde hesaplanan katsayılar sonuçların güvenilir olduğunu

 Daha sonra bireylerin birinci uygulamada aldıkları puanlarla ikinci uygulamada

Birinci ve ikinci uygulama arasındaki korelasyon testin güvenirlik katsayısını gösterir.

 Bu yöntemde bu süreyi başarı testleri için doğru ayarlamak oldukça zordur.

Kararlılık Test tekrar test

 İki testten elde edilen puanlar arasındaki korelasyon katsayısı hesaplanır.

 Formların aritmetik ortalaması ve standart sapması birbirine eşit olmalıdır.

FORM A ve FORM B arasındaki korelasyon testin güvenirlik katsayısını gösterir.

Tutarlılık Paralel formlar

Birinci yarı ve ikinci yarı puanları arasındaki korelasyon hesaplanır.

𝑟12 = iki yarı puanları arasındaki korelasyon sayısı

 Bu katsayı, test gelişigüzel cevaplanmışsa ya da testin iki yarısı farklı davranışları

 Bu katsayı yüksek bulunmuşsa test puanlarının tesadüfi hatalardan arınık olduğu ve

getirdiği sakıncaları ortadan kaldırır.

 Testi oluşturan tüm maddelerin birbiriyle ve testin bütünüyle olan uyumuna

 Testi oluşturan maddeler heterojenleştikçe, maddeler arası tutarlılık azalacak ve

 Her bir maddeye verilen cevaplar doğrultusunda korelasyona dayalı katsayılar

 Kuder-Richardson formülleri, testeki her maddenin aynı değişkeni ölçtüğü, yani

 Bu formüllerle elde edilen katsayı yüksekse test maddeleri birbirleriyle tutarlıdır.

 Test iki kategorili puanlanan maddelerden oluştuğunda yani testteki maddeler

K = Testteki madde sayısı

K = Testteki madde sayısı

 Puanlayıcı hatalarının olmadığını söyleyebilmek için, puanlayıcıların madde ve test

𝑟𝑥 : Testin güvenirlik katsayısı

 Ölçmenin standart hatası azaldıkça, testin güvenirliği artar.

 Birey veya gruba bağlı faktörler

 Uygulama koşulları ve zaman

2. Bir sınavdan kullanılacak soruların açıkça anlaşılır ve kesinlikle cevaplanabilir olması

3. Sınav puanlamasında cevap anahtarı kullanılması

4. Maddelerin ölçtükleri özellikler bakımından benzer/homojen olması

5. Testin uygulandığı grubun heterojen olması

7. Öğrencilerin sınava güdülenmiş olması

8. Sınav süresinin dengeli olması

You might also like