Professional Documents
Culture Documents
Ekonometri H.tastan
Ekonometri H.tastan
İktisat Bölümü
Ekonometri I Ders Notları
Ders Kitabı: J.M. Wooldridge, Introductory Econometrics A
Modern Approach, 2nd. edition, Thomson Learning
Ch. 1:
Giriş, Temel Tanımlar ve Kavramlar
1 Yıldız Teknik Üniversitesi, İktisat Bölümü, Yıldız Kampüsü H Blok, Oda no. 124, Beşiktaş, İstanbul.
Email: tastan@yildiz.edu.tr
EKONOMETRİNİN UĞRAI ALANLARI
2
EKONOMETRİ NEDİR ?
3
EKONOMETRİDE KLASİK (GELENEKSEL)
METODOLOJİ
• Teori ya da hipotezin formülasyonu,
• Bu teori ya da hipotezin matematiksel modelinin
oluşturulması (model specification),
• Matematiksel modelin ekonometrik model haline
getirilmesi,
• Veri (data) toplanması,
• Ekonometrik modelin parametrelerinin tahmini,
• Hipotez testleri,
• Tahmin (forecasting/prediction),
• Model sonuçlarının kontrol ya da politika
oluşturma amacıyla kullanılması. (Gujarati, p.3)
4
EKONOMİK MODEL
ÖRNEK 1: Suçun İktisadi Modeli
y = f(x1,x2,x3,x4,x5,x6,x7)
6
Ekonometrik Model: Doğrusal spesifikasyon
7
EKONOMİK VERİ (DATA) TÜRLERİ
8
Kesitler-arası (cross-sectional) veri : Örnek:
GRETL, wage1.gdt
9
Zaman serisi veri : Örnek
GRETL: prminwge.gdt
10
Veri türleriyle ilgili bazı notlar
11
BİRLETİRİLMİ KESİTLER-ARASI VERİ
(POOLED CROSS SECTIONS)
• Veri seti hem kesitler-arası hem de zaman
serisi özelliği taşır.Örneğin, iki ayrı yıla ait
kesitler-arası hane halkı anket sonuçları.
• Burada, örnekleme yeniden yapıldığı için
her bir kesitler-arası veride aynı birimler
(aile, firma, vs.) değil farklı birimler yer alır.
12
Birleştirilmiş kesitler-arası veri (pooled cross
sections) örneği
13
PANEL VERİ (LONGITUDINAL DATA)
14
PANEL VERİ ÖRNEĞİ
15
Nedensellik (Causality) ve Ceteris Paribus
Kavramı
• Ekonomik modellerin test edilmesinde ve politikaların
oluşturulmasında ekonometrisyenin temel amacı bir
değişkenin diğer bir değişken üzerinde nedensel etkisinin
ortaya konmasıdır
• Ceteris paribus: ilgili diğer faktörlerin etkisi sabit
• Nedensellikte bu varsayımın önemli bir yeri vardır. Bir çok
iktisadi soru ceteris paribus niteliği taşır
• Örneğin, tüketici talep teorisinde, fiyattaki bir değişmenin
talep edilen miktar üzerindeki etkisini öğrenmek
istediğimizde, gelir, diğer malların fiyatları, kişisel zevk ve
tercihler gibi değişkenlerin sabit tutulduğunu varsayarız.
• Diğer faktörler sabit tutulmazsa fiyat değişimi ile talep edilen
miktar arasındaki nedensel ilişkiyi ortaya koymak mümkün
olmaz.
• Ekonometrik analizlerde temel soru yeterli sayıda faktörün
sabit tutulup tutulmadığıdır. 16
Ceteris Paribus: Örnekler
Örnek 1.3: Gübre kullanımının tarımsal çıktı üzerine
etkisi
– Tarımsal ürün buğday olsun. Gübre miktarınının üretilen
buğday miktarı üzerindeki etkisini ayrıştırmak istiyoruz.
– Buğday mahsulünü gübre dışında, yağmur miktarı,
toprağın kalitesi, parazitlerin varlığı gibi bir çok faktör
etkiler.
– Gübrenin etkisini ayrıştırabilmemiz için bu faktörlerin
kontrol edilmesi gerekir.
– Bunu görebilmek için şöyle bir deney tasarlayabiliriz.
Tarlayı birbirine eşit büyüklükte (örneğin dönüm) parçlara
ayırır, ve her parçaya değişen miktarlarda gübre uygularız.
– Daha sonra her parça için çıktı miktarlarını ölçeriz ve
ilerleyen derslerde göreceğimiz yöntemlerle gübre miktarı
ile ilişkisini modelleriz
17
Örnek 1.3: Gübre kullanımının tarımsal çıktı
üzerine etkisi
– Peki bu deneyin ceteris paribus varsayımını
tam olarak sağladığını söyleyebilir miyiz?
– Hayır, çünkü toprağın kalitesini tam olarak
kontrol etmemiz (hatta gözlemlememiz)
olanaklı değildir.
– Ancak yine de ceteris paribus yaklaşımını
kullanabiliriz.
– Bunun için her toprak parçasında
kullandığımız gübre miktarının toprak kalitesi
ile ilişkisiz olması yeterli olacaktır.
– Başka bir deyişle, toprak parçalarının
özellikleri gübre miktarının belirlenmesinde
göz ardı edilmelidir. 18
Ceteris Paribus: Örnekler
Örnek 1.4: Eğitimin getirisinin ölçülmesi:
– Soru: Popülasyondan bir çalışanı seçsek ve bu kişiye fazladan bir yıl
eğitim versek, bu kişinin ücreti ne kadar artar?
– Bu da bir ceteris paribus sorusudur: eğitimi etkileyen eğitim dışındaki tüm
faktörlerin sabit tutulmuş olması gerekir.
– Gübre-tarımsal çıktı deneyine benzer şekilde şöyle bir deney
tasarladığımızı düşünelim: popülasyondan bir grup seçilmiş ve her bireye
rassal olarak belirlenmiş eğitim seviyeleri tayin edilmiş olsun (kimisi
ilkokul, kimi lise, kimi 9. sınıf kimi de üniversite eğitimine sahip olacaktır)
– Her birinin eğitimden sonra bir işte çalışacağı varsayılarak ücret
düzeyleri ölçülmüş olsun.
– Eğer eğitim düzeyleri ücretleri etkileyen diğer faktörlerden (tecrübe ve
doğuştan gelen yetenek) bağımsız olarak tayin edilirse ilave bir yıl
eğitimin ücretler üzerindeki etkisi ayrıştırılabilir.
19
Örnek 1.4: Eğitimin getirisinin ölçülmesi (devam)
• Açıktır ki böyle bir deneyin gerçekleştirilmesi mümkün değildir:
– Moral nedenler,
– Ekonomik maliyetler,
– Zaten üniversite mezunu olan birine, 8. sınıf eğitimi verilmesinin
imkansızlığı
• Deneysel veri oluşturulamasa bile, kişilerin eğitim düzeyleri ve
ücretlerine ilişkin gözlemsel veriler elde edilebilir.
• İnsanlar eğitim düzeylerini kendileri seçtiğinden, ücreti
belirleyen diğer faktörler ile eğitim düzeyinin ilişkisiz olmasını
bekleyemeyiz.
• Örneğin, doğuştan yetenekli (innate ability) insanlar daha fazla
eğitim alma eğilimindedir. Yüksek yetenek düzeyine sahip
bireyler daha yüksek ücret aldıklarından eğitim düzeyinin
ücretler üzerindeki etkisini ceteris paribus etkisini ayrıştırmak
zorlaşır.
20
Örnek 1.5: Yasal yaptırımların bir şehirdeki suç
seviyesi üzerindeki etkisi
• Soru: Bir şehirde devriye gezen polis sayısının arttırılması suç
oranını düşürür mü?
• Ceteris paribus: eğer bir şehir rassal olarak seçilir ve polis
sayısı 10 kişi arttırılırsa suç oranı ne kadar düşer?
• Başka bir deyişle: iki şehir, A ve B, polis sayısı dışında her
açıdan birbirinin aynıysa, öyle ki A şehrindeki polis sayısı B
şehrinden 10 daha fazlaysa, iki şehir arasındaki suç oranı farkı
ne olur?
• Polis sayısı dışında her açıdan birbirinin aynı olan iki şehir
bulmak imkansızdır. Ancak ekonometrik analizde bu şart
değildir.
• Bir şehirde kaç polisin görev yapacağı, o şehirdeki suç oranı
dışındaki (suç oranını etkileyen) faktörlerle ilişkilidir.
• Bir şehirdeki polis gücü ile suç oranı eşzamanlı (simultaneous)21
belirlenir.
Yıldız Teknik Üniversitesi
İktisat Bölümü
Ekonometri I Ders Notları
Ders Kitabı: J.M. Wooldridge, Introductory Econometrics A
Modern Approach, 2nd. ed., 2002, Thomson Learning.
Ch. 2:
Basit Regresyon Modeli
1 Yıldız Teknik Üniversitesi, İktisat Bölümü, Yıldız Kampüsü H Blok, Oda no. 124, Beşiktaş, İstanbul.
Email: tastan@yildiz.edu.tr
CH.2 Basit Regresyon Modeli (tek açıklayıcı
değişkenli model)
2
Basit Regresyon Modeli: Terminoloji
Değişkenlere birbirinin yerine kullanabilen çeşitli isimler
verilmiştir:
y x
Bağımlı Değişken Bağımsız Değişken
(Dependent Variable) (Independent Variable)
Açıklanan Değişken Açıklayıcı Değişken
(Explained Variable) (Explanatory Variable)
Tepki Değişkeni Kontrol Değişkeni
(Response Variable) (Control Variable)
Tahmin edilen Değişken Tahmin eden değişken
(Predicted variable) (Predictor Variable)
Regressand Regressor
3
Hata terimi (error term, disturbance) : u
10
“Sıfır Koşullu Ortalama” Varsayımı
(Zero Conditional Mean Assumption)
13
Populasyon (Anakütle) Regresyon Fonksiyonu
(POPULATION REGRESSION FUNCTION-PRF)
• (2.1) in x’e göre koşullu beklenen değerini alır ve (2.6) dan
E(u|x)=0 koyarsak, PRF’nin, E(y|x), x’in doğrusal bir
fonksiyonu olduğunu görürüz:
14
Populasyon Regresyon Fonksiyonu, PRF
15
Bağımlı değişken y’nin sistematik ve
sistematik-olmayan kısımları
(2.6) varsayımı (sıfır koşullu ortalama)
geçerli iken,
y = βo + β1 x + u
basit regresyonunda, bağımlı değişken y’yi
iki kısma ayırmak mümkün olacaktır :
1. βo + β1x : sistematik kısım (y’nin x
tarafından açıklanan kısmı) ve
2. u : sistematik-olmayan ya da x tarafından
açıklanamayan kısmı.
16
SIRADAN EN KÜÇÜK KARELER TAHMİN EDİCİLERİ
(THE ORDINARY LEAST SQUARES ESTIMATES)
17
EKK (OLS) TAHMİN EDİCİLERİ: ÖRNEK
• Rasgele seçtiğimiz 15 ailenin (n=15) belli bir yıldaki gelirlerini (x) ve
tasarruflarını (y) gözlemlediğimizi düşünelim.
• Bu 15 gözlemin serpilme çizimi (scatterplot) ve hayali bir PRF çizgisi şöyle
olsun :
18
βo ve β1’in tahmini
• Yukarıda u’nun ortalamasının sıfır olduğunu ve x ile
ilişkisinin bulunmadığını varsaymıştık:
E(u) = 0 (2.10) ve Cov(x, u) = E(xu) = 0 (2.11)
• Bu formüllerde u yerine, onun (2.1)’den bulacağımız
değerini, u = y - βo - β1x, kullanırsak :
bulunur. 21
Regresyon parametrelerinin tahmini: devam
• Yeniden düzenlenirse
bulunur.
22
Regresyon parametrelerinin tahmini: devam
Toplama işlemcisinin özelliklerinden hareketle
ve
yazılabilir.
Buradan eğim parametresinin tahmin edicisi
olarak bulunur.
23
Regresyon parametrelerinin tahmini: devam
• (2.19), yani , x ve y arasındaki örnek
kovaryansının x’in örnek varyansına bölümüdür. Bu şuradan
geldi :
E (u) = 0 ve Cov(x,u) = 0 varsayımları altında, , x ve y
arasındaki anakütle kovaryansının x’in varyansına
bölümüne eşittir.
• Demek ki, eğer örnekte x ve y pozitif yönde ilişkilerse,
pozitif olacak, tersine, negatif yönde ilişkilerse negatif
olacaktır.
• (2.18) deki koşul,
25
Tahmin edilen y değerleri ve Kalıntılar
(Fitted values-residuals)
26
OLS tahmin edicilerinin alternatif türetimi
• Minimizasyon problemi:
• olur. Bu Momentler Yöntemi ile elde edilen denklem sisteminin -2n ile
çarpılmış halidir. Dolayısıyla aynı MOM yöntemi ile aynı çözüme
sahiptir.
27
Bu çözümde OLS objektif fonksiyonunun minimum
olduğundan emin olabilir miyiz?
28
Devam:
• Kalıntı kareleri toplamı b0 ve b1’e bağlı olmadığından bu
eşitlikteki son üç terim şöyle yazılabilir:
29
POPULATION AND SAMPLE REGRESSION
FUNCTIONS: PRF , SRF
• PRF : E(y | x) = β 0 + β1 x
Anakütle regresyon fonksiyonu sabittir (tektir) ve onu ölçemeyiz, yani
bilinmezdir.
• Örneklem Regresyon Fonksiyonu (SRF) :
30
BASİT REGRESYON : ÖRNEK 2.3
• 209 ABD firmasının CEO (Chief Executive Officer) ‘larının
maaşları (y) ile bu firmaların karlılıkları (x) arasındaki ilişkiyi
araştırıyoruz (1990 yılı için).
• y : yıllık maaş, 000 $, n=209 (örnek hacmi)
• x : Firmanın son 3 yıla ait sermaye getiri oranı, % (return on
equity=net income / common equity).
• Model:
31
ÖRNEK 2.3 : Getiri oranında %1 puanlık artış (∆roe=1)
ortalama maaşlarda 18.5 bin dolarlık artış sağlayacak.
32
Tahmin edilen regresyondan ŷ ve
û ‘nın hesaplanması :
33
EKK (OLS) TAHMİN EDİCİLERİN CEBİRSEL
ÖZELLİKLERİ
(Algebric properties of OLS statistics)
1) EKK(OLS) artıklarının toplamı ve dolayısıyla da
örnek ortalaması sıfıra eşittir:
35
KARELER TOPLAMLARI (SUM OF SQUARES)
36
UYUMUN İYİLİĞİ (GOODNESS-OF-FIT) ÖLÇÜSÜ:
R2 (determinasyon katsayısı)
• (2.36) yı SST’ ye bölelim:
1=(SSE/SST) + (SSR/SST). Buradan,
40
Logaritmik ücret modeli, GRETL: wage1.gdt
43
Parametrelerde ve değişkenlerde
doğrusallık (linearity)
• Regresyonun doğrusal (linear) olup olmasını x ve
y’nin değil beta’ların doğrusallığı belirler.
• Örneğin, 1/x, x , y 1/ 4 , vs. gibi değişkenleri gerekli
dönüştürmeler yaparak kullanabiliriz. Regresyon
yine doğrusaldır.
• Oysa, aşağıdaki regresyon parametreler
bakımından doğrusal değildir, dolayısıyla da
doğrusal bir regresyon değildir.
44
EKK(OLS) tahmin edicilerinin,
( βˆ 0 , βˆ 1 ) , istatistiksel özellikleri
• Anakütleden çekilen farklı rasgele örneklerden
bulacağımız OLS parametre tahmin değerlerinin
dağılımları ne tür özellikler gösterecektir?
• OLS tahmin edicilerinin örnekleme dağılımlarının
özellikleri nelerdir?
• İlk olarak sonlu örneklem özelliklerinden sapmasızlık ve
etkinliklerini inceleyeceğiz.
• Hatırlarsak sapmasızlık örnekleme dağılımındaki
ortalamanın bilinmeyen doğru değere eşit olduğunu
söylüyordu.
• Etkinlik ise ilgili tahmin edicinin varyansının o tahmin
ediciler kümesi içinde en küçük olduğu anlamına
geliyordu. 45
OLS t.e.nin sapmasızlığı
EKK (OLS) tahmin edicilerin sapmasız (unbiasedness)
olabilmesi aşağıdaki 4 varsayıma bağlı:
1. Varsayım. SLR.1 : model parametreler bakımından
doğrusaldır : y = βo + β1 x +u (2.47) (y, x ve u’nun
üçü de tesadüfi değişkendir)
46
Sapmasızlık (unbiasedness) için varsayımlar
47
Örnek parametresi β̂1 ‘in kitle parametreleri,
β 0veβ1 cinsinden ifadesi:
• Rasgele örnekleme durumunda (2.47) deki doğrusal PRF’ı
şöyle yazabiliriz :
48
(devam)
• (2.49) da yi yerine (2.48) deki değerini koyalım:
49
(devam)
• Ek A’ da gösterildiği gibi :
Burada dir. 50
βˆ 1 v e β 1 ilişkisi
• (2.52) den görüldüğü gibi,
51
Teorem 2.1: SEK (OLS) tahmin edicilerin
sapmasızlığı (unbiasedness)
• OLS tahmin edicilerinin beklenen değerleri bilinmeyen kitle
parametrelerine eşittir :
53
Sapmasızlık üzerine notlar
• Sapmasızlık tekrarlanan örneklerden bulunan çok
sayıdaki βˆ 0 ve βˆ1 tahminlerine ait örnek
dağılımlarının (sampling distributions) bir özelliğidir.
• Dolayısıyla, tek bir örnekten (ki çoğu kez böyledir)
bulunan betalarla ilgili olarak hiçbir şey söylemez.
Bilinmeyen kitle parametrelerinden çok uzak bir tahmin
de elde edebiliriz.
• Yukarıda yaptığımız 4 varsayımdan biri veya bir kaçı
sağlanamazsa sapmasızlık özelliği geçerli olmaz.
Doğrusallığın ve rasgele örneklemenin olmaması, u ile
x’lerin ilişkili olması veya u’nun içerdiği faktörlerin x ile
ilişkili olmaları (ki, sahte “spurious” korelasyona sebep
olur) durumlarında sapmalı tahmin ediciler elde
edeceğiz.
54
OLS t.e.lerinin sapmasızlığı: Basit bir Monte Carlo deneyi
• Bağımlı değişken y için veri üretim sürecinin aşağıdaki gibi
belirlendiğini düşünelim:
y = 1 + 0.5 x + 2*N(0,1)
• Burada doğru parametre değerlerinin β0=1 ve β1=0.5 olduğuna, ve
hata teriminin u=2*N(0,1) olarak belirlendiğine dikkat edin. N(0,1)
standart normal dağılıma uyan bir rassal değişkendir.
• Ayrıca açıklayıcı değişken x’in değerlerinin sabit olduğunu ve
x=10*Unif(0,1) olarak belirlendiğini düşünelim.
• imdi bu populasyon modelinde parametre değerlerini bilmediğimizi
ve OLS yöntemini kullanarak tahmin edeceğimizi düşünelim.
• GRETL programını kullanarak yukarıda belirtilen dağılımlardan
rassal sayılar türetip çok sayıda örnekler elde edebilir ve her örnek
için OLS yöntemini uygulayıp tahmin değerlerini bir dosya içinde
kaydedebiliriz.
• Bu basit bir Monte Carlo deneyidir. Tahmin edicilerin, test
istatistiklerinin örnekleme dağılımlarının elde edilmesinde sıklıkla
kullanılır.
55
OLS t.e.lerinin sapmasızlığı: Basit bir Monte Carlo deneyi
• GRETL programında bu deney şöyle kodlanabilir
(simpleOLSMonteCarlo.inp):
nulldata 50 ↔ gözlem sayısı
seed 123 ↔ sayı üretimi için seed
genr x = 10 * uniform() ↔ açıklayıcı değişkeni türet
# open a "progressive" loop, to be repeated 1000 times
loop 1000 –progressive ↔ döngüyü aç
genr u = 2 * normal() ↔ hata terimini türet
# construct the dependent variable
genr y = 1 + 0.5 * x + u ↔ populasyon reg modeline göre y’yi türet
# run OLS regression
ols y const x ↔ OLS reg. kur
# grab the coefficient estimates and R-squared
genr a = $coeff(const) ↔ intercept terimini al
genr b = $coeff(x) ↔ eğim parametresini al
genr r2 = $rsq ↔ determinasyon katsayısını al
# and save the coefficients to file
store MC1coeffs.gdt a b ↔ a ve b’yi kaydet
Endloop ↔ döngüyü tekrarla ve sonlardır
open MC1coeffs.gdt 56
OLS t.e.lerinin sapmasızlığı: Basit bir Monte Carlo deneyi
• simpleOLSMonteCarlo.inp dosyasını çalıştırırsak OLS
tahmin edicilerinin örnekleme dağılımlarını elde ederiz.
• Bu dağılıma ulaşmak için MC1coeffs.gdt dosyasını
açmamız gerekir.
• Özet istatistikler:
57
OLS t.e.lerinin sapmasızlığı: Basit bir Monte Carlo deneyi
• Sabit terimin örnekleme dağılımı
58
OLS t.e.lerinin sapmasızlığı: Basit bir Monte Carlo deneyi
• Eğim parametresinin örnekleme dağılımı:
59
EKK (OLS) tahmin edicilerinin varyansı
• EKK tahmin edicilerin, β̂ 0 ve βˆ1 sapmasızlığı için
Varsayım SLR.1-SLR.4 yeterli idi.
• EKK tahmin edicilerin belli etkinlik (efficiency)
özellikleri için ve ayrıca betaşapkaların
varyanslarının daha basit şekilde formüle
edilebilmesi için bir başka (5.ci) varsayım daha
yapmalıyız :
• Varsayım SLR.5 : Sabitvaryans -homoscedasticity
-varsayımı. Gözlenemeyen hata terimlerinin (u), x’e
koşullu (conditional) varyansı sabittir :
60
aynı zamanda u’ların koşulsuz
(unconditional) varyansıdır
• u ve x’in bağımsız (independent) olduklarını
varsaydık (ki, bu çok kuvvetli bir varsayımdır), x
verilmişken u’nun dağılımı x’e bağlı
olmayacaktı.Dolayısıyla, E(u|x) = E(u)=0 ve
Var (u|x) =σ2
61
Varsayım SLR.3 ve Varsayım SLR.5, y’nin koşullu
(conditional) ortalama ve koşullu varyansı ile de
ifade edilebilir
62
Sabit varyans (homoscedasticity) geçerli iken basit
regresyon modeli
63
Var(u|x), x’e bağlı ise, x değiştikçe o da değişir.
Buna, değişken-varyans (heteroscedasticity) denir
• Var (u|x) = Var (y|x) olduğu için, Var (y|x), x’in bir fonksiyonu ise
değişken-varyans durumu vardır.
64
SLR.1-SLR5 varsayımları altında EKK (OLS)
tahmin edicilerin örneklem varyansları
• SLR.1-SLR5 varsayımları altında
66
Hata terimleri (errors or disturbances) ile
artıkların (residuals) farkı
• Hata terimleri (errors or disturbances)(u) ile artık
terimler(residuals) (uhat) birbirine karıştırılmamalı. Hata
terimleri kitle modelini gözlemlerle yazdığımız zaman söz
konusudur. Artıklar ise örnek parametrelerinin olduğu
denkleme aittir.
67
u ve uhat ( û ) ilişkisi
• (2.32) ve (2.48) i kullanarak artık terimleri hata
terimlerinin bir fonksiyonu olarak yazabiliriz:
69
Standart hatalar
• Varyansın karekökü “regresyonun standart hatası”
(standart error of the regression, SER) adını alır.
“Tahminin standart hatası” (standart error of the
estimate) ya da “hata kareleri ortalaması karekökü”
(root meansquared error) olarak da adlandırılır.
70
Orijinden geçen regresyon : Regresyon sabit terimine
(intercept) sıfır kısıtı konulması
• Bazı durumlarda x=0 iken y=0 olsun isteriz. Örneğin, gelir
sıfırken vergi tahsilatı da sıfır olacaktır. (2.64)’deki SSR
minimize edilecektir. Tilda’ları sabit terimli durumla
karıştırmamak için kullanıyoruz.
71
Yıldız Teknik Üniversitesi
İktisat Bölümü
Ekonometri I Ders Notları
Ders Kitabı: J.M. Wooldridge, Introductory Econometrics A
Modern Approach, 2nd. ed., 2002, Thomson Learning.
Ch. 3:
Çok Değişkenli Regresyon Analizi:
Tahmin
1 Yıldız Teknik Üniversitesi, İktisat Bölümü, Yıldız Kampüsü H Blok, Oda no. 124, Beşiktaş, İstanbul. Email:
tastan@yildiz.edu.tr
Çoklu Regresyon Analizi
(Multiple Regression Analysis)
• Basit regresyonda kilit varsayım olan SLR.3 varsayımı çoğu
zaman gerçekçi olmayan bir varsayımdır. SLR.3: “y’ yi
etkileyen tüm diğer faktörler x ile ilişkisizdir” (ceteris
paribus).
5
devam
• Demek ki, marjinal tüketim eğilimi, β1’e olduğu kadar β2’ye de
bağlıdır.
• İki bağımsız değişken durumunda “u’nun x’lerle ilişkisiz olması”
varsayımını şöyle formüle edeceğiz :
Ceoten: CEO’ nun kıdemi (tenure) (yıl). Burada, β1, diğer her
şey sabitken, satışlarda %1’lik bir artışın CEO maaşlarında
yaratacağı % artışdır. Yani, maaşların satış esnekliğidir.
Buna karşılık, β2, β3 ≠0 olduğu sürece, kıdemde 1 yıl artış
olduğunda maaşdaki % artışı göstermez. Zira, x3=ceoten2’yi
sabit tutup x2’yi bir birim artıramıyoruz, kareli terim de
artıyor.
• Bu yüzden, kıdemdeki bir birim (1 yıl) değişmenin maaşa
etkisini şu kısmi türevden bulacağız :
δlog(salary) / δceoten = β2 + 2 β3 ceoten
9
• x’lerle u’nun ilişkisizliği varsayımı burada şöyle
formüle edilir :
12
devam
• k+1 adet doğrusal denklem k+1 adet bilinmeyen beta
parametresi için çözülecektir. Bunlara, SEK birinci sıra
koşullar denir (OLS first order conditions).
13
Method of moments
• (3.13) deki denklemler momentler yöntemi
(method of moments) ile de ifade edilebilirdi. (3.8)
deki “x’lerle u ilişkisizdir” varsayımdan :
14
SEK regresyonunun yorumu
• İki bağımsız değişkenli durumu ele alalım:
15
Örnek 3.1: GRETL, gpa1.gdt
• Üniversite GPA (grade point average) notunun açıklanması
ve tahmini. Bağımsız değişkenler, high school GPA ve
achievement test score (ACT), n=141 öğrenci :
17
k değişkenli modelde yorum:
21
EKK (OLS) den bulunan tahmini değer ve
artıklar (kalıntılar)
• (3.11) deki EKK (OLS) regresyonu her bir i.nci gözlem
için bir tahmini değer (fitted or predicted value)
verecektir :
23
devam
• Bu özelliklerden ilk ikisi (3.13) deki SEKK (OLS)
denklemlerinden çıkan sonuçlardır.
• (3.13) deki ilk denklem artıkların toplamının sıfır
olacağını söyler.
• Diğer denklemler şeklindedir. Bunlar
24
x’leri birbirlerinin etkilerinden arındırarak da
betaşapkaları bulabiliriz
• İki bağımsız değişkenli, k=2, regresyonu ele alalım:
26
Uyumun başarı derecesi ya da iyiliği
(Goodness of fit)
• Bütün kareler toplamı (total sum of squares): BKT (SST)
27
R2 : determinasyon katsayısı
• Son ifadenin her iki tarafını SST’ye bölersek
• Determinasyon katsayısı
olarak tanımlanır.
• R2’nin y’nin tahmin değerleri ile gözlenen değerleri
arasındaki korelasyon katsayısının karesi olduğu
gösterilebilir:
28
devam
29
devam
• Regresyona yeni bir değişken
eklendiğinde R2 daima artış yönünde
hareket eder, hiçbir zaman azalmaz. Zira,
yeni değişkenler eklendikçe SSR (sum of
squared residuals) azalma yönünde
değişir, asla artmaz.
• Dolayısıyla, eklenen değişkenin katkısını
ölçmede R2 fazla iyi bir kriter değildir. Bu
amaç için “düzeltilmiş (adjusted) R2”
tanımlayacağız.
30
(devam) Örnek, Gretl gpa1.gdt
31
Orijinden geçen regresyon (regression
through the origin)
• Bazen iktisat teorisi regresyon sabitinin, β0, sıfır
olması gerektiğini telkin eder. Bu halde regresyon
şöyle olur :
32
devam
• Orijinden geçen regresyonda SEKK (OLS) yine SSR’ yi
minimize eder, ancak sabit terim (intercept) sıfıra eşit kılınarak
bu yapılır.
• Orijinden geçen regresyonda “1- SSR/SST” şeklinde
tanımlanmış R2 negatif çıkabilir.
• Negatif R2 sıfır olarak kabul edilebilir ya da sabit konarak
yeniden regresyon tahmini yapılır.
• R2’nin negatif çıkması, y’nin örneklem ortalamasının (ybar)
y’deki değişkenliği açıklamada modeldeki değişkenlerden daha
başarılı olduğu anlamına gelir.
• Eğer PRF’da β0 sıfırdan farklı ise orijinden geçen regresyonun
beta tahminleri sapmalı olacaktır.
• β0 gerçekte sıfır iken sıfır değilmiş gibi regresyona koymak
betaların varyanslarının daha büyük olarak tahmin edilmesine
yol açar.
33
SEK (OLS) tahmin edicilerin sapmasızlığını (kitle
parametreleri için) sağlayan varsayımlar
34
Varsayımlar (devam)
• VARSAYIM MLR.2: Rassal Örnekleme
35
Varsayımlar (devam)
• VARSAYIM MLR.3: Sıfır Koşullu Ortalama
38
devam
• x’lerden birisi diğer x’lerin doğrusal kombinezonu
ise çoklu-bağıntı durumu gerçekleşir. Örneğin,
regresyona x1 ve x2’nin yanında x3(=x1+x2)
şeklinde, ya da, x3=ax1+bx2 şeklinde (a, b sabit)
başka bir değişken sokamayız.
• Gözlem sayısının (n) tahmin edilecek parametre
(k+1) sayısından küçük olması da çoklu-bağıntıya
yol açar : n<k+1.
• Pratikte tam çoklu-bağıntı durumu ile çok seyrek
karşılaşılır. Daha çok x’ler arasında yüksek bağıntı
söz konusudur.
• Tam çoklu-bağıntı durumunda SEK tahmin
edicilerini hesaplayamayız.
39
Yukarıdaki dört varsayım altında EKK (OLS)
tahmin edicileri sapmasızdır (unbiased)
• “SEKK (OLS) tahmin edicileri sapmasızdır” derken
örnekten bulunan tahminlerini
(estimates) kastetmiyoruz. Örnekten bulunan tahmin
sabit bir sayıdır ve sapmasız (unbiased) olamaz.
Sapmasız olan SEKK (OLS) tahmin edicilerinin elde
edildiği süreçtir (procedure).
40
devam
• Dört varsayım :
1. Parametreler bakımından doğrusallık,
2. Rasgele örnekleme,
3. Sıfır koşullu ortalama (zero conditional mean), yani,
u ile x’lerin ilişkisiz olması ve
4. Tam çoklu-bağıntı olmaması.
• En kritiği 3.cü varsayım. Modelde spesifikasyon
hatası ve ihmal edilmiş önemli değişken(ler)
yoksa bu varsayım sağlanabilir.
• Diğer 3 varsayımın sağlanması zor değil.
41
Modele gereksiz (irrelevant) bağımsız
değişken sokulması
• Çoklu regresyona kitle bakımından y üzerindeki
kısmi (partial) etkisi sıfır olan değişken ya da
değişkenlerin sokulması.Yani, PRF’da beta
katsayısı sıfır olan değişkenin sokulması.
• Bu duruma modelin “overspecifying” i denir.
• (3.38) deki PRF’da x3’ün kısmi katkısının sıfır
olduğunu varsayalım.
42
devam
• X3’ün kısmi katkısının sıfır olduğunu (PRF’ da β3=0
) bilmediğimiz için onu SRF’a dahil edeceğiz :
43
İhmal edilmiş değişkenin yol açtığı
sapma (Omitted variable bias)
45
devam
• Örnek : Veri olmadığı için ability değişkenini
dışarıda bırakıyoruz:
46
Sapmanın miktarı
• (2.49) dan:
47
devam
• (3.46) da β2 ‘nin sağındaki oran, dikkat edileceği
üzere, x2 ‘nin x1 üzerine regresyonunun eğim
katsayısıdır :
49
devam
• Sapmanın büyüklüğü de önemlidir.β1 ‘in büyüklüğüne
kıyasla küçük bir sapma ciddi bir sorun oluşturmazken,
görece olarak büyük bir sapma arzu edilir bir şey değildir.
52
SEK (OLS) tahmin edicilerin varyansı
• Regresyondan tahmin edilen betalar bize ortalama hakkında
bilgi verecektir. Ayrıca, betaşapkaların nasıl dağıldıklarını
bilmek için onların varyanslarına da ihtiyacımız vardır.
• Artık terimlerin varyansının sabit olduğunu
(homoskedasticity) varsayacağız : iki nedenle, 1.varyans
formüleri daha basit hale gelir, 2. Tahmin ediciler etkinlik
(efficiency) özelliği kazanır.
• Sabit varyans varsayımı sapmasızlık (unbiasedness) için
gerekli değildir.
• VARSAYIM MLR.5: SABİT VARYANS
53
devam
54
Gauss-Markov varsayımları
57
SEK (OLS) varyanslarının bileşenleri
(components)
• (3.51) den, betaların varyansının üç faktöre bağlı olduğunu
görüyoruz :
60
devam
63
Varyans ve sapmasızlık arasında seçim
• Gerçek kitle modeli şu olsun :
64
devam
• Tahmin edilen iki beta’nın varyans ve sapmasızlık
mukayesesi şöyledir :
65
devam
• ise seçim daha zor. x2 ‘ yi dışarıda bırakmak β1’ in
tahmininin sapmalı olmasına yol açacak. Dahil etmek ise
β1’in varyansını yükseltecek. İkilem (trade-off) durumu.
• Ekonometrisyen bu iki zıt yönlü etkiyi ölçüp tartacak ve x2 ‘yi
denkleme sokup sokmayacağına karar verecek.
• Ancak, x2’ yi dahil etme yönünde işleyen iki etken var : 1.
Sapma (bias) örnek hacmi n arttıkça azalmaz, oysa, çoklu-
bağıntı (ve onun yol açtığı vayans artışı) azalır. Dolayısıyla,
x2’ yi denkleme dahil edip mümkün olduğu kadar büyük
örnek bulmalıyız. 2. Formül (3.54) ve (3.55) ‘deki σ2, x2’nin
dışlanmasını dikkate almadan hesaplanan hata terimleri (u)
varyansıdır. x2’ yi dışladığımızda u’nun varyansı artacaktır.
Dolayısıyla (3.55) deki σ2 orada gözükenden daha büyüktür.
• Yani, x2’yi dışlamanın getireceği düşük varyans avantajı
formüllerde gözükenden daha azdır. 66
σ2’nin tahmini: OLS t.e.nin standart hataları
• PRF’daki u’ları gözlemleyemeyiz. Onların yerine,
tahmin edilen regresyondan hesaplayacağımız artık
terimleri vardır :
67
devam
• Serbestlik derecesi (df) =n-(k+1) eşitliği şuradan
gelmektedir:
Birinci sıra (first order) SEKK (OLS) koşulları k+1
tane idi :
70
devam
71
SEK (OLS)’nin etkinliği: Gauss-Markov Teoremi
• Neden SEKK (OLS) tahmin edicileri diğer tahmin
edicilere tercih ediyoruz?
• Gauss-Markov teoremi SEKK (OLS) ‘i tercih
etmemizin gerekçelerini sunar.
1. Varsayım MLR.1-MLR.4 altında SEKK (OLS)
sapmasız tahmin ediciler verir.
2. Varsayım MLR.1-MLR.5 altında SEKK (OLS)
tahmin edicileri, minimum varyanslı, doğrusal ve
sapmasızdırlar :
72
BLUE
73
Gauss-Markov teoremi
76
Teorem 3.2 (sh.93)’nin ispatı:
77
Gauss-Markov teoreminin (Th. 3.4) ispatı
78
devam
79
devam
80
Yıldız Teknik Üniversitesi
İktisat Bölümü
Ekonometri I Ders Notları
Ders Kitabı: J.M. Wooldridge, Introductory Econometrics A
Modern Approach, 2nd. ed., 2002, Thomson Learning.
Ch. 4:
Çok Değişkenli Regresyon Analizi:
Çıkarsama
1 Yıldız Teknik Üniversitesi, İktisat Bölümü, Yıldız Kampüsü H Blok, Oda no. 124, Beşiktaş, İstanbul.
Email: tastan@yildiz.edu.tr
Ch. 4: Çoklu Regresyon Analizi:
Çıkarsama
• Bu bölümde PRF’nın parametreleri için hipotez testleri
oluşturacağız.
• “anakitle hata terimleri (u) normal dağılmıştır” varsayımı
(Varsayım MLR.6) altında SEKK (OLS) tahmin edicilerin
dağılımlarını inceleyeceğiz.
• Önce tek tek parametreler hakkında hipotez testleri
kuracağız (Section 4.2-4.3), sonra birden çok
parametreyi içeren testler yapacağız (Section 4.4).
• Bir gurup bağımsız değişkenin tümünün birden model
dışında bırakılıp bırakılmayacağına nasıl karar
vereceğimizi göreceğiz.
2
SEKK (OLS) tahmin edicilerin örnekleme
dağılımları (sampling distributions)
• SEKK (OLS) tahmin edicilerin beklenen değer ve
varyanslarını bildiğimize göre bu tahmin edicilerin
kesinlik derecelerini (precision) ele almamız yararlı
olacaktır.
• Ancak, istatistiksel çıkarım (inference)
yapabilmemiz için ‘nin ilk iki momentinden
(ortalama ve varyans) başka bunların tüm örnek
dağılımlarını bilmemiz gerek.
• Gauss-Markov varsayımları altında dahi ‘lerin
dağılımları herhangi bir biçimi alabilir.
3
VARSAYIM MLR.6: Normallik
4
devam
• Gauss_Markov varsayımları (MLR.1-5) +
Normallik varsayımı (MLR.6) = Klasik Doğrusal
Model (CLM) Varsayımları
• CLM varsayımları altında SEKK (OLS) tahmin
edicileri sadece doğrusal tahmin ediciler
arasında değil, yi’ler cinsinden doğrusal olsun ya
da olmasın tüm tahmin ediciler arasında en
küçük varyansa sahip sapmasız (unbiased)
tahmin edicilerdir (bkz. Appendix E).
• CLM anakitle varsayımları özet bir biçimde şöyle
gösterilebilir:
5
Tek açıklayıcı değişkenli modelde sabit varyanslı normal dağılım
(Figure 4.1)
6
u’ların dağılımını neden normal dağılım sayabiliriz?
• u’lar y’yi etkileyen (x’ler dışında) pek çok
faktörün toplam etkisini yansıtır.
• Bu nedenle, merkezi limit teoreminden (central
limit theorem, CLT) (App.C) yararlanarak u’ların
Normal dağıldığını söyleyebiliriz.
• Ancak, bu varsayımın zayıf tarafları da çoktur.
Örneğin, u’yu oluşturan faktörlerin anakütle
dağılımları çok farklı biçimlerde olabilir. CLT’in
bu durumlarda hala işlediğini varsayıyoruz.
• Bazı durumlarda değişkenlerin dönüştürmeleri
(örneğin log) kullanılarak normal dağılıma yakın
dağılımlar elde edilebilir.
7
devam
• CLT, u’ları oluşturan gözlenemez faktörlerin
toplam (additive) biçiminde yer aldıklarını
varsayar. Oysa, bunun garantisi yoktur. Eğer, u,
bu gözlenemez faktörlerin daha komplike
(karmaşık) bir fonksiyonuysa, CLT bu konuda
bize yardımcı olmaz.
• Uygulamada u’ların N dağılıp dağılmadığı
ampirik bir sorundur. Örneğin, ücretlerin; eğitim,
tecrübe ve kıdem’e koşullu dağılımının N olup
olmadığı bir ampirik sorundur. Bunun böyle
olması gerektiğini söyleyen bir teorem yoktur.
• Ücretlerin negatif değer almaması ve asgari
ücret uygulaması, ücretler için N dağılım
varsayımının fazla geçerli olmadığını telkin eder.
8
devam
• Log dönüştürme dağılımın normale
yaklaşmasına oldukça yardımcı olur.Örneğin,
fiyat (price) değişkeninin dağılımı normalden çok
uzak iken Log (price) N dağılıma yakın
olmaktadır.
• MLR.6 varsayımının açıkça sağlanamadığı
durumlar vardır. Örneğin, sadece birkaç değer
alan y’ler böyledir. “ankete katılanların belli bir
yılda, 2004 diyelim, hapse giriş sayıları”
değişkeni böyledir. Çoğu gözlem için 0, bazı
gözlemler için 1,2,3 … gibi değerler alacak.
• Ch.5’de göreceğimiz gibi, büyük örnek
hacimlerine sahipken hata terimlerinin N
dağılmaması ciddi sorun yaratmayacaktır.
9
OLS t.e.’nin Örnekleme Dağılımları Normaldir
• THEOREM 4.1: MLR.1-MLR.6 varsayımları altında OLS
tahmin edicilerinin, x’lere koşullu olarak örnekleme
dağılımları normaldir:
• Standardize edersek:
10
devam
• SEK t.e. şöyle yazılabiliyordu:
• Burada,
12
devam
• Teorem 4.1’de SEK t.e.nin örnekleme dağılımlarının
normal olduğunu ve böylelikle
17
28 serbestlik derecesinde sağ kuyruk testi için %5 düzeyinde karar kuralı
18
19
Sol kuyruk testi için karar kuralı, s.d.=18
20
Örnek
22
Regresyonun fonksiyonel biçimini
değiştirelim:Level-Log model
23
devam
24
H0:βj=0 hipotezinin iki-taraflı karşı hipotezle testi
26
Örnek 4.3: Determinants of College GPA,
(GRETL, gpa1.gdt)
27
devam
28
βj’nin sıfırdan farklı değerler için testi
29
Örnek 4.4: Campus Crime and Enrollment
GRETL: campus.gdt
30
31
32
Örnek 4.5: Housing Prices and Air Pollution
GRETL: hprice2.gdt
33
t-testi için p-değerinin hesaplanması
34
35
Terminoloji
• H0 boş hipotezini %α anlamlılık düzeyinde
reddedemiyorsak, “H0’ı % α anlamlılık düzeyinde
reddedemiyoruz” (we fail to reject H0 at the α %
level).
• “H0,%α düzeyinde kabul edildi (H0 is accepted at
th α % level)” demeyeceğiz.
• Beta katsayılarının istatistiksel olarak anlamlı
olup olmadıkları (statistical significance)
tamamen t değerlerine bağlıdır.
• Oysa ekonomik yönden anlamlı olup olmadıkları
(economic significance), ciddi bir büyüklüğü
temsil edip etmedikleri ise betahat’lerin mutlak
büyüklüklerine bağlıdır.
36
Büyük standart hatalar ve küçük t değerleri
• Örnek hacmi (n) arttıkça betaların varyansları ve
dolayısıyla da standart hataları, se(betahat),
düşer.Yani, beta parametrelerini çok daha kesin
bir şekilde (more precisely) tahmin edebiliriz.
• Bu nedenle, n büyükken küçük anlamlılık
düzeyleri (%1 gibi) ile test yapmak daha
uygundur. n küçükken α’yı %10’a kadar
düşürerek test yapabiliyoruz.
• Büyük standart hataların diğer bir nedeni bazı
x’ler arasındaki yüksek çoklu-bağıntıdır (high
multicollinearity).
• Yüksek çoklu-bağıntı durumunda daha fazla
gözlem toplamak dışında yapabileceğimiz çok
fazla bir şey yoktur.
37
Ekonomik ve istatistiksel anlamlılığın
yorumlanmasında bazı ilkeler:
• Öncelikle değişkenin istatistik bakımından anlamlı olup
olmadığı kontrol edilmelidir. Eğer anlamlı ise (statistically
significant) katsayı tahmininin büyüklüğünden hareketle
ekonomik anlamlılık tartışılabilir.
• Bu tartışma özenle yapılmalıdır. Özellikle ölçü birimlerine, log
dönüştürmesi olup olmadığına dikkat edilmelidir.
• Eğer bir değişken geleneksel düzeylerde (%1, %5, %10)
anlamlı olmasa bile, y üzerindeki etkisinin büyüklüğüne
bakılabilir. Bu etki büyükse p-değeri hesaplanıp yorumlanabilir.
• Küçük t-oranlarına sahip değişkenlerin yanlış işarete sahip
olmalarına sık rastlanır. Böyle durumda değişkenin etkisi
anlamsız olduğundan yorumlanmaz.
• Katsayı tahmini ekonomik ve istatistiksel açıdan anlamlı fakat
yanlış işaretli bir değişkenin yorumlanması daha zordur. Bu
durumda model spesifikasyonu ve veri problemi üzerinde 38
durulması gerekebilir.
4.3 Confidence Intervals (CI) (güven
aralıkları)
• Klasik doğrusal model (CLM) varsayımları
altında anakitle parametreleri (β’lar) için güven
aralıkları oluşturabiliriz.
39
Güven Aralıkları: devam
• Aşağıdaki oranın
40
Güven aralığının yorumu
• İstatistik dersinde öğrendiğimiz güven aralığı yorumunu
burda da yapacağız.
• Olanaklı tüm örneklemleri çeksek ve örneklem için
regresyon tahmin edip, ilgili populasyon katsayısı için
güven aralıkları oluştursak, bu güven aralıklarının
%100(1-α) kadarı doğru parametre değerini içerecektir.
• Örneğin 100 güven aralığından 95’inin doğru
parametreyi içerdiğini söyleriz. Burada α/2=0.025
olduğuna dikkat ediniz.
• Pratikte elimizde sadece bir güven aralığı vardır ve biz
doğru değerin bu aralık içinde olup olmadığını bilmeyiz.
41
devam
• Güven aralıklarını hesaplayabilmek için üç büyüklüğe
ihtiyaç vardır: katsayı tahmini, katsayı tahmininin
standart hatası ve kritik değer.
• Bir çok ekonometri programı ilk iki büyüklüğü hesaplar.
• c’yi bulmak için serbestlik derecesine (n-k-1) ve güven
düzeyine (1-α) ihtiyaç duyulur.
• Örneğin sd=25 ve %95 güven düzeyi ile herhangi bir
anakütle parametresi için güven aralığı
βˆ j ± 2 ⋅ se ( βˆ j )
• İle bulunabilir.
• Aşağıdaki hipotezi test etmek istediğimizi düşünelim.
43
Örnek 4.8: Hedonic Price Model for Houses
• Bir malın fiyatının o malın karakteristikleriyle açıklanması
hedonic fiyat modelinin oluşturur.
• Bir evin değerini belirleyen bir çok özelliği bulunur:
büyüklüğü, oda sayısı, şehir merkezine, parklara ve
okullara uzaklığı, vs.
• Bağımlı değişken: log(prices): ev fiyatlarının doğal
logaritması
• Açıklayıcı değişkenler:
– sqrft (square footage) evin büyüklüğü, footkare cinsinden 1
square foot = 0.09290304 m2, yani 100m2 yaklaşık 1076 ftsq.
– bdrms: evdeki oda sayısı
– bthrms: banyo sayısı
44
Örnek 4.8: Hedonic Price Model for Houses
GRETL: hprice1.gdt
• 19 gözleme dayanılarak tahmin edilen regresyon
şöyledir:
(-0.192, 0.060)
49
devam
• Test birden fazla betayı (iki beta) ilgilendirdiği için t
istatistiği tek beta durumundakinden farklı hesaplanacaktır;
50
devam
• betahat’lerin kovaryanslarını veren formül doğrusal cebir
kullanılarak türetilecektir (bkz. Appendix E).
• Ancak, burada, regresyonu yeniden düzenleyerek
‘yi direkt olarak bulabiliriz.
• Bunun için yeni bir parametre tanımlayalım:
51
(4.17) deki orijinal regresyonun tahmini
52
(4.25) deki yeniden düzenlenmiş modelin tahmini
53
Çoklu Doğrusal Kısıtların Testi: F-Test
y = β0 + β1x1 + β2 x2 + β3 x3 + β4 x4 + β5 x5 + u
• Test etmek istediğimiz hipotez şudur:
y = β 0 + β1 x1 + β 2 x2 + u
56
F-testi:
• Kısıtlanmış ve kısıtlanmamış modellerin kalıntı kareleri
toplamları (SSR) kullanılarak F istatistiği tanımlanır :
58
F-testi için karar kuralı
• H0 doğruyken yukarıda hesapladığımız F test istatistiği
payın serbestlik derecesi q paydasının serbestlik
derecesi (n-k-1) olan F dağılımına uyar:
• Karar kuralı
60
F testi, aralarında yüksek çoklu-bağıntı bulunan
x’lerin tümünün birden model dışında tutulmasının
testinde başarıyla uygulanabilir.
61
F ve t istatistiği arasındaki ilişki
62
F Testinin R2 formu:
• Değişken tanımları:
• Bağımlı değişken: bwght=birt weight, libre
• Açıklayıcı değişkenler:
– cigs: annenin hamilelik süresince günde içtiği ortalama sigara
sayısı,
– parity: bebeğin doğum sırası,
– faminc: ailenin yıllık geliri,
– motheduc: annenin eğitim düzeyi (yıl),
– fatheduc: babanın eğitimi düzeyi (yıl)
64
Örnek 4.9: Parents’ Eduction in a Birth Weight Equation
• GRETL bwght.gdt dosyası bu verileri içermektedir. Bu
veri setinde toplam 1388 gözlem vardır. Ancak anne ve
babanın eğitim düzeylerine ilişkin kayıp gözlemler
yüzünden regresyonda kullanılabilecek veri sayısı daha
azdır.
65
66
Örnek 4.9: devam
• u hipotezi test etmek istiyoruz: anne ve babanın eğitim
düzeylerinin yeni doğan bebeklerin ağırlıkları üzerinde
etkisi yoktur:
H0: β4=0, β5=0
H1: en az biri sıfırdan farklı
67
Örnek 4.9 Kısıtlanmamış model
69
Örnek 4.9: devam
• F test istatistiği, SSR form:
F =
(SSR r
− SSR ur ) / q (465167 - 464041)/2
= = 1 .4377
SSR ur /( n − k − 1) 464041/(11 91 - 5 - 1)
• R2 form:
F=
(R
2
ur )
− R r2 / q
=
(0.0387482 - 0.0364164) /2
= 1.4376
(1 − )/( n − k − 1)
2
Rur (1 - 0.0387482) /(1191 - 5 - 1)
• Kritik değer: F(2, 1185) tablosundan %5 kritik değer c=3, %10 kritik
değer 2.3
• Karar: Bu anlamlılık düzeylerinde H0 reddedilemez. Anne ve
babanın eğitim düzeylerinin doğum ağırlıkları üzerinde etkisi yoktur.
Başka bir deyişle bu iki değişken birlikte istatistik bakımından
anlamsızdır. 70
71
72
73
Regresyonun bütününü anlamlılığına ilişkin F-testi
• Sıfır hipotezimiz şudur: regresyona eklenen açıklayıcı
değişkenlerin y üzerinde birlikte etkisi yoktur:
74
Regresyonun bütününü anlamlılığına ilişkin F-testi
• H0 kısıtı altında modeli yeniden yazarsak
77
Genel Doğrusal Kısıtların Testi (devam)
• Evin uzmanlarca saptanan ekspertiz değerinin rasyonel
olup olmadığını test etmek istiyoruz.
• Eğer ekspertiz değeri rasyonel olarak belirlendiyse,
bundaki %1’lik bir artışın ev fiyatlarında %1’lik bir artışı
yol açması gerekir. Ayrıca, assess dışındaki
değişkenlerin evin değerini açıklamada anlamsız
olmaları gerekir.
• Yani sıfır hipotezimiz
olur.
78
Genel Doğrusal Kısıtların Testi (devam)
79
Örnek: Gretl, hprice1.gdt
• Unrestricted model: SSRur=1.822
80
Örnek: Gretl, hprice1.gdt
• F test istatistiği
81
Regresyon sonuçlarının sunulması:
• Tahmin edilen beta katsayılarını, ilgili bağımsız
değişkenin ve bağımlı değişkenin ölçü birimlerini
ve regresyona giriş şekillerini dikkate alarak
yorumlayınız.
• Katsayıların tek tek (t testi) ve tümü bir arada (F
testi) istatistiksel olarak anlamlı olup
olmadıklarını gösteriniz.
• Betahat’lerin standart hatalarını (se) katsayıların
altında veriniz. Bazen t değerleri de
verilmektedir.Ancak, t yerine se’leri vermek daha
doğrudur. Güven aralığı teşkil vs. için se’lar
gerekecektir.
• R2 ve n mutlaka verilmeli. Bazen SSR ve
regresyonun standart hatası (σ ) da
verilmektedir. 82
Aynı veri kümesi ile birden çok regresyon tahmin
ediyorsak sonuçlar bir tablo şeklinde verilebilir:
83
Yıldız Teknik Üniversitesi
İktisat Bölümü
Ekonometri I Ders Notları
Ders Kitabı: J.M. Wooldridge, Introductory Econometrics A
Modern Approach, 2nd. ed., 2002, Thomson Learning.
Ch. 5:
SEKK (OLS)’nin Asimptotik Özellikleri
1Yıldız Teknik Üniversitesi, İktisat Bölümü, Yıldız Kampüsü H Blok, Oda no. 124, Beşiktaş, İstanbul.
Email: tastan@yildiz.edu.tr
Bölüm 5: SEKK (OLS) Asimptotik
(büyük örneklem) özellikleri
• CH 3 ve 4’ de SEKK (OLS) tahmin
edicilerinin belirli sayıda gözlem içeren
örneklem (finite sample), küçük örnek
özelliklerini gördük.
• Bu özellikler herhangi bir örneklem
büyüklüğü, n, için geçerliydi.
• Bunlar şu özelliklerdi :
– Sapmasızlık (MLR.1-MLR4 altında)
– BLUE özelliği (MLR.1-MLR5 altında)
(Best=En Etkin)
Varsayım MLR.6’nın işlevi : Hata terimi, u,
normal dağılmıştır ve açıklayıcı
değişkenlerden (x’lerden) bağımsızdır.
• Bu varsayım, bize, OLS tahmin edicilerin x’lere
koşullu kesin örneklem dağılımlarını (exact
sampling distribution conditional on the
explanatory variables in the sample)
türetebilmemize imkan verir.
• Teorem 4.1, OLS tahmin edicilerin, MLR.1-
MLR.6 varsayımları altında “normal örnekleme
dağılımları”na sahip olduklarını gösterdi.
• Bu, hesaplanan t ve F istatistiklerinin standart t
ve F dağılımlarını izleyeceği anlamına gelir.
3
Asimptotik (büyük örneklem)
özellikleri
• OLS tahmin edicilerin sonlu (finite) ve küçük
örneklem özelliklerinin yanında büyük örneklem
özelliklerini de incelememiz gerekmektedir.
• Bu özellikler “örneklem hacmi, n, sınırsız olarak
artarken” durumu altında incelenecektir.
• Tutarlılık (consistency): Bkz. EK C, sh.709
4
Sapmasızlık her zaman sağlanamaz. Bu durumda, çoğu
kez, “bir tahmin edici hiç olmazsa (en azından) tutarlılık
koşulunu sağlamalıdır” diye düşünürüz .
5
devam
• Her bir örnek hacmi n için , bir olasılık
dağılımına sahiptir. Bu dağılım, hepsi n hacimli
farklı yinelenen örneklerde ‘nin alabileceği
mümkün değerleri gösterir.
• Sapmasızlık özelliği gereği bu dağılımların
ortalaması ‘ye eşittir.
• Eğer tahmin edici tutarlı ise, n arttıkça bu
dağılımlar βj etrafında daha dar olarak dağılır.
• n→∞ iken, ‘nin dağılımı tek bir nokta üzerine,βj,
düşer.
• Yani, ne kadar çok büyük örnek alabilirsek,
bilinmeyen kitle parametresi βj’yi o kadar az hata
ile tahmin edebiliriz. 6
devam
7
• Aşağıdaki (5.3) nolu formül OLS tahmin edicisinin
“x’lerle u’lar arasında korelasyon olmaması” koşulu
sağlandığında tutarlı olduğunu gösterir :
8
Varsayım MLR.3´
• MLR.3 (zero conditional mean),MLR.3´’nün
otomatik olarak geçerli olmasını sağlar (implies),
ancak, tersi doğru değildir.
• MLR.3´ daha zayıf (yumuşak) bir koşuldur. Bu
koşul OLS tahmin edicisinin tutarlı olmasını
sağladığı halde sapmasız olmasını
sağlayamıyor.
• Sapmasızlık için daha kuvvetli koşul olan MLR.3
gerekli.
• E(u | x1,…,xk)=0 varsayımının
ihlali→sapma(bias) yol açar.
• Corr (u, x1, x2,…,xk’lardan birisi) ≠0 →
tutarsızlık (inconsistency) 9
Asymptotic bias
• Asimptotik sapma :
olur.
• Bu durumda olasılık limiti
11
Sapmada (Bias) ise örneklem değerlerini
kullanıyoruz. (x’e koşullu Beklenti (E) alıyoruz).
12
devam
• Tahmin edici tutarsız ise örnek hacmini artırarak
sorunu çözemeyiz. n arttıkça OLS tahmin edicisi
ye yaklaşır.
• x’lerden sadece birisinin (x1 diyelim) u ile ilişkili
olması genellikle (eğer x1 diğer tüm x’lerle ilişkili
ise) tüm OLS tahmin edicilerinin tutarsız olmasına
yol açar.
• x1 ile ilişkisiz olan x’ler varsa onların katsayıları
tutarlıdır.
13
Tutarsızlık: Örnek
• y: ev fiyatları
• x1: arıtma tesislerine uzaklık
• x2: evin kalitesi (büyüklük, oda sayısı, bulunduğu
semtin çekiciliği vs gibi tüm faktörler)
• x2’nin model dışında bırakıldığını düşünelim.
• β1>0, β2>0
• Eğer ortalamada kaliteli evler çöp arıtma
tesislerinin uzağındaysa bu iki değişken (pozitif)
ilişkili olur: δ1>0
14
OLS tahmin edicilerinin tutarsızlığı
• Daha fazla gözlem toplamak tutarsızlığı ortadan
kaldırmaz.
• Hatta problemi daha kötü hale getirir, çünkü
15
Asimptotik normallik
• MLR.6 u’ların Normal dağıldığını ifade ediyordu.
Bu, y’nin x1, x2,…., xk verilmişken normal
dağıldığı anlamına gelir (y’nin x’lere koşullu
dağılımı).
• OLS t.e.’nin sapmasızlığı için normallik
varsayımına gerek yoktu. Normallik varsayımı
betaşapkaların örnekleme dağılımlarının elde
edilmesi ve istatistiksel çıkarsama yapılabilmesi
için gerekliydi.
• y’lerin x’lere koşullu dağılımı Normal değilse t ve
F testleri yapamayacak mıyız? Büyük örnek
hacimlerinde yapabiliriz (MLT).
16
Teorem 5.2: OLS’nin Asimptotik Normalliği
• Asimptotik varyans:
• xj’nin tüm açıklayıcı değişkenler üzerine
regresyonundan elde edilen kalıntılar
17
Teorem 5.2
• Teorem 5.2 çok yararlı bir teoremdir. Zira
varsayım MLR.6’ya gerek duymuyor.
• Hata terimlerinin dağılımı ile ilgili getirdiği tek yeni
kısıt “u’ların varyansının sonlu olması” dır (σ2<∞).
Bunu zaten daima varsayıyoruz.
• Teorem 5.2, “homoscedasticity ve zero conditional
mean” varsayımlarını yapmaktadır.
• n arttıkça t(n-k-1) test istatistiğinin dağılımı Normal
dağılıma yaklaşacağı için şunu yazabiliriz:
18
OLS t.e.nin standart hataları
• OLS t.e.’nin varyansı
20
(5.10) nolu formülde n ile ilişkisi (c=5 için)
se'deki
se
n se % değişme
1
30 0.91 0.9
0.8
60 0.65 -0.2929 0.7
0.6
120 0.46 -0.2929 0.5
0.4
240 0.32 -0.2929
0.3
0.2
480 0.23 -0.2929
0.1
960 0.16 -0.2929 0
0 500 1000 1500 2000 2500
1920 0.11 -0.2929
21
Diğer bir büyük örneklem testi :Lagrange
Multiplier (LM) test istatistiği
• Buna score testi de denir.
• Çoklu regresyonda bir grup betanın aynı
anda sıfıra eşit olup olmadığını test
edeceğiz :
y = βo+ β1x1 + β2x2 + β3x3 + β4x4 + u
• Son iki betanın aynı anda sıfır olup
olmadığını test edelim:
• Ho: β3= β4=0
• H1: En azından birisi sıfırdan farklıdır.
22
LM test (devam)
• Ho’daki betalara karşılık gelen x’leri dışarıda
bırakarak regresyonu (kısıtlı model) tahmin
ediniz :
y = βo*+ β1*x1 + β2*x2 + u*
• Kısıtlı modelin artıklarını x’lerin tümü üzerine
regress ediniz (yardımcı regresyon-auxiliary
regression):
u*=αo + α1x1 + α2x2 + α3x3 + α4x4 + e
• Bu regresyonun R2’si ile n’in çarpımı test
istatistiğini verir.
• LM=nR2 istatistiği q (Ho’daki kısıt sayısı)
serbestlik derecesine sahip bir ki-kare dağılımı
izler. 23
24
25
26
OLS’nin asimptotik etkinliği
27
Yıldız Teknik Üniversitesi
İktisat Bölümü
Ekonometri I Ders Notları
Ders Kitabı: J.M. Wooldridge, Introductory Econometrics A
Modern Approach, 2nd. ed., 2002, Thomson Learning.
Ch. 6:
Çok Değişkenli Regresyon Analizinde Ek
Konular
Çok Değişkenli Regresyon Analizinde Ek
Konular
Bu bölümde aşağıdaki konuları inceleyeceğiz:
• Veri ölçeğinin (data scaling) tahminlere etkisi
• Fonksiyonel kalıp ile ilgili ek konular
– Karesel (quadratic) modeller
– Etkileşim terimli (interaction term) modeller
• Regresyonda uyumun iyiliği ölçüleri ve
değişkenlerin seçimi
– Düzeltilmiş R2
• Kestirim ve kalıntı analizi
Veri ölçeğinin (data scaling)
tahminlere etkisi
• Modelde yer alan değişkenlerin ölçü
birimlerini değiştirdiğimizde bunun sabit
(intercept) ve eğim (slope) katsayıları
üzerinde nasıl etki yarattığını daha önce
(CH.2) görmüştük.
• imdi, ölçü birimi değiştirmenin standart
hatalar (SE), t istatistiği, F istatistiği ve
güven aralıkları üzerinde meydana
getireceği etkileri görelim.
Data scaling (devam)
Birimler :
Bwght: ounces (1 ounce=28.35 gr),
Bwghtlbs: pounds (lbs), 1 pound=16 ounces= 454 gr
Faminc : bin $ (000$)
Bwght Model Tahmin Sonuçları
Bağımlı değişkenin birimini 16’ya bölerek
ounce ‘dan pound’a çevirelim :
• (6.1) deki regresyonun her iki tarafını 16’ya bölelim:
• ∆x2=1 iken,
•
• Variable Coefficient Std. Error t-Statistic Prob.
•
•
• C 0.065335 1.446060 0.045182 0.9640
• ATNDRTE -0.006713 0.010232 -0.656067 0.5120
• PRIGPA -0.091174 0.363261 -0.250987 0.8019
(PRIGPA-2.59)^2 0.295905 0.101049 2.928314 0.0035
• ACT -0.128039 0.098492 -1.299998 0.1940
• ACT^2 0.004533 0.002176 2.082939 0.0376
• (PRIGPA)*(ATNDRTE-0.82)
0.005586 0.004317 1.293817 0.1962
•
•
• R-squared 0.228654 Mean dependent var 0.029659
•
Uyumun derecesinin ölçüsü: R2 (kare)
• R2, “ana kitlede, y’deki değişimin, x1, x2,…, xk
tarafından açıklanan yüzdesinin bir tahmini” dir.
Dolayısıyla, R2’nin düşük çıkması SEKK (OLS)
varsayımlarının ihlal edildiği vb gibi anlamlara
gelmez.
• Bağımsız değişken sayısı (x) arttıkça R2
yükselir. Dolayısıyla, uygun regresyonu
seçerken R2’nin kullanımı sınırlı olacaktır.
• Ancak, F testinden hatırlanacağı üzere, yeni bir
değişken eklerken R2’deki görece artış karar
kriterimizi oluşturmaktadır.
Düzeltilmiş R2 (adjusted R kare)
• R2’ yi şöyle tanımlıyorduk :
R2= 1- (SSR / SST) (3.28)
• Son terimin pay ve paydasını n’e bölelim :
R2= 1 – {(SSR/n) / (SST/n)} =
•
• C 8.953481 0.181147 49.42664 0.0000
• LNOX -0.304841 0.082164 -3.710157 0.0002
• PROBTAX -0.007607 0.000978 -7.780075 0.0000
• ROOMS 0.288707 0.018119 15.93432 0.0000
•
•
• R-squared 0.566042 Mean dependent var 9.941057
• Adjusted R-squared 0.56344 S.D. dependent var 0.409255
•
• Dependent Variable: LPRICE (CRIME eklendi)
•
• Included observations: 506 after adjustments
•
• Test Statistic Value df Probability
• F-statistic 50.34589 (2, 500) 0.0000
• Chi-square 100.6918 2 0.0000
•
• R-bar karenin R2 cinsinden ifadesi (6.22)
verilmektedir.
• Bir önceki regresyonda R2=0.6387, n=506, k=5
konursa; R-bar kare=0.6351 olarak bulunur.
• R2’nin sıfıra yakın değerleri için R-bar kare
negatif çıkabilir. Bu durumda R-bar kareyi sıfır
olarak alabiliriz.
• F testi yaparken kullandığımız (4.41) nolu
formülde R2’yi kullanmaktayız. R-bar kare
kullanılmaz burada.
Birbirinin içerisine yuvalanmış(nested) ve
yuvalanmamış (nonnested) modeller
• Yuvalanmış (nested) modeller :
y = βo + β1x1 + β2x2 + β3x3 + β4x4 + u
y= βo + β1x1 + β2x2
• 2.ci model 1.cinin özel bir halidir ve onun
içinde yuvalanmıştır. Ortak anlamlılık (joint
significance) F testinde bu tür modellerle
çalışıyorduk.
• Yuvalanmamış (nonnested) modeller :
y = βo + β1x1 + β2x2 + β3x3 + u
y = βo + β1x1 + β2x2 + β4x4 + u
(log)
en düşük 10 en yüksek 10
400 8.74831 9.56705 -0.81874 369 10.8198 9.49062 1.32918
490 8.85367 9.66379 -0.81012 373 10.8198 9.63374 1.18606
401 8.63052 9.40469 -0.77416 366 10.2219 9.0516 1.1703
402 8.88184 9.62784 -0.746 372 10.8198 9.74455 1.07525
416 8.88184 9.60437 -0.72253 368 10.0476 9.10481 0.94278
420 9.03599 9.74106 -0.70507 370 10.8198 9.89351 0.92629
399 8.51719 9.10865 -0.59146 371 10.8198 9.97127 0.84853
491 8.99962 9.58358 -0.58396 408 10.2364 9.52692 0.7095
430 9.15905 9.6979 -0.53885 367 9.99424 9.39573 0.59851
Ch. 7:
Çoklu Regresyon Modelinde Nitel Değişkenler
1
CH 7 : REGRESYON ANALİZİNDE NİTEL BİLGİ
İkili (binary) ya da kukla (dummy) değişkenler
• Önceki bölümlerde bağımlı ve bağımsız
değişkenlerimiz her zaman nicel (quantitative)
nitelikte bilgiler içeriyorlardı: ücretler, iş deneyimi, ev
fiyatları, oda sayısı vs.
•Ancak, uygulamada çoğu kez nitel (qualitative)
değişkenleri de regresyona dahil etmek zorundayız.
•Bireylerin cinsiyeti, ırkı, dini, doğduğu bölge (kuzey/
güney ya da batı/doğu gibi), eğitimi (lise/yüksek
gibi)… Tüm bu değişkenler nitel türde enformasyon
içermektedirler.
2
Bölüm Planı
3
Nitel Bilgi
4
Nitel Bilgi
• Hangi kategoriye 1 ya da 0 dediğimiz regresyon
sonuçlarını değiştirmez, ancak yorum
yapabilmemiz için hangi kategoriye 1 hangisine 0
dediğimizi bilmemiz gerek.
• Örnek :
Cinsiyet kuklası : kadın=1, erkek=0,
Evlilik kuklası : evli=1, evli değil=0
• Nitel kategorileri ayırt etmek için aslında 1/0
yerine başka iki değer de kullanabilirdik. Ancak
1/0 ile gösterildiklerinde katsayılarının yorumu
çok kolaylaşmaktadır.
5
Örnek Veri Seti: cinsiyet ve medeni durum bilgisini
içeren ücret verileri
6
TEK KUKLA DEĞİŞKENLİ REGRESYON
• İkili (nitel) enformasyonu regresyona nasıl dahil
edeceğiz?
• X’lerden birisi kukla değişken olsun. Örnek:
8
Sonucu, regresyonun sabit teriminde bir kayma
(intercept shift) olarak görürüz: δo<0
9
• Bir kukla değişken (dummy) iki kategoriyi
birbirinden ayırabilmektedir.
• Dolayısıyla, erkek için ayrı, kadın için ayrı bir
kukla oluşturmuyoruz. Tek bir kukla ile iki
kategoriyi ayırıyoruz.
• “Gerekli kukla sayısı=kategori sayısı-1”
formülünü kullanacağız.
• Grafik 7.1 de erkek için sabit terim βo, kadın
için ise βo+δo‘dır.Kaç kategori (grup) varsa o
kadar da sabit (intercept) olacaktır.
10
• Erkek/kadın için 2 dummy kullansaydık tam
çoklu bağıntı (perfect multicollinearity)
oluşacaktı ve regresyonu tahmin
edemeyecektik. Zira “female+male=1” dir.
• Buna kukla değişken tuzağı (dummy variable
trap) denir.
• Sıfır değerini alan kategori (7.1 de male) baz
ya da kıyaslama (base or benchmark)
kategorisidir.
• βo, baz kategorisinin sabitidir.
• δo ise, baz kategorisi ile diğer kategorinin
sabitleri arasındaki farktır.
11
• Kadınların baz kategori olmasını istiyorsak modeli şöyle yazarız :
12
• Diğer bir alternatif, regresyonda hiç sabit
(intercept) kullanmayıp her bir kategori için bir
dummy kullanmaktır.
wage = δo female + γ0 male + β1 educ + u
• Burada female = 1 eğer çalışan kadınsa, =0 değilse
• male = 1 eğer çalışan kadınsa, =0 değilse
• Bu durumda kukla değişken tuzağına düşmeyiz.
• Çünkü her bir kategori için bir sabit (intercept)
tahmin etmiş oluruz.
• Ancak sabitsiz bir regresyonda R2
hesaplanamamaktadır.
• Üstelik iki sabitin birbirinden farklı olup olmadığının
testi de zordur. Dolayısıyla, bu alternatife pek
başvurmayacağız.
13
• Birden fazla açıklayıcı değişken olması durumu
değiştirmez. Örneğin;
14
• Örnek 7.1
18
• Kukla değişkenler her zaman cinsiyet gibi
önceden belirlenmiş (predetermined)
kategorileri değil, bireylerin seçimleri, mülkiyet
durumu vb. farklılıkları da temsil ederler.
• Bu durumlarda nedensellik (causality) temel
konudur.
• Örneğin, kişisel bilgisayarı (PC) olan üniversite
öğrencilerinin GPA puanlarının bilgisayarı
olmayanların puanlarından daha yüksek
olduğunu saptamış olalım.
• Bu neyi gösterir? Nedenselliğin yönü nedir?
“Bilgisayar sahipliği yüksek GPA” mi yoksa
“Yüksek GPA bilgisayar sahipliği” mi?
19
• Demek ki, nedenselliğin yönünü tayin edebilmek için
öğrencilerin başarı durumları ile ilgili bazı değişkenleri
kontrol altına almamız gerektir. Bunlar lise bitirme notları,
genel yetenek testi sonuçları vs. olabilir.
• Bu değişkenleri regresyona dahil ettiğimizde, bilgisayar
sahipliğinin üniversite notuna hala pozitif katkısı çıkıyorsa,
nedenselliğin yönü “bilgisayar başarı” dır diyebileceğiz.
24
25
• Grafik (a) da, kadınlara ait regresyonun erkeklere ait
regresyonunkilere kıyasla hem sabiti, hem de eğimi
daha düşüktür.
• Yani, kadınların saat-başına ücretleri tüm eğitim
düzeylerinde erkeklerinkinden daha düşüktür.
• Fark (gap) educ yükseldikçe artmaktadır.
• Grafik (b) de ise, erkeklere kıyasla, kadın
regresyonunun sabiti daha düşük, ancak educ
değişkeninin eğimi daha yüksektir. Bu şu anlama
gelir: düşük eğitim düzeylerinde kadınlar, yüksek
eğitim düzeylerinde ise erkekler daha az
kazanmaktadır.
26
• (7.16) daki modeli female ve educ değişkenleri arasında
karşılıklı etkileşim (interaction) kurarak tahmin edeceğiz :
28
29
• Bir yıllık ilave eğitimin getirisi erkek ve kadınlar için
aynıdır. “Female*educ” etkileşim değişkeninin
katsayısının (δ1) t istatistiği -0.0056/0.0131 = -0.43
dür ve istatistiksel olarak anlamsızdır.
• Regresyonda interaction değişkeni bulunduğundan,
female değişkeninin katsayısı (δo), educ=0 iken erkek
ve kadınlar arasındaki ücret farkını ölçecektir.
Örnekte eğitim yılı sıfır olan kişi bulunmadığı için ve
ayrıca female ile female*educ değişkenleri arasında
çoklu-bağıntı (multicollinearity) olduğundan δo’ın
standart hatası yüksek, dolayısıyla da t değeri
düşüktür (-1.35).
30
• Bu nedenle, female’in katsayısını şöyle tahmin edeceğiz :
Etkileşim değişkeninde educ yerine onun ortalamasından
sapmasını (educ- ortalama) kullanacağız. Educ değişkeninin
ortalaması 12.5 yıldır.
• Yeni etkileşim değişkenimiz “female*(educ-12.5)” olacaktır.
Bu değişiklikten sonra regresyonu yeniden tahmin edeceğiz.
Bu durumda, δo, educ=12.5 iken geçerli olan ücret farkını
gösterecektir. Yani ortalama eğitim düzeyinde ücret farkı
olup olmadığını göreceğiz.
• F testi sonucu, δo ve δ1 ‘ in ikisinin birden sıfıra eşit
olmadığını gösteriyor. O halde sabit terim erkek ve kadın
için farklıdır. Dolayısıyla, yukarıdaki (7.9) modelini tercih
edeceğiz. İki farklı sabit tahmin ediyordu.
31
• ÖRNEK : Oyuncunun ırkının ve kentin ırk bileşiminin beyzbol
oyuncuları maaşlarına etkisi
33
• Oyuncuların verimliliği ile ilgili tüm değişkenleri sabit
tutarak ırk kuklalarını yorumlayalım.
• Black’in katsayısı, -0.198 : diğer her şey sabitken, hiç
siyah nüfusun bulunmadığı (percblck=0) bir şehirde
oynayan siyah oyuncu beyaz oyunculara kıyasla
%19.8 daha az kazanmaktadır. O şehirde siyah nüfus
oranı arttıkça siyah oyuncunun kazancı artacaktır
(black*percblck etkileşim değişkeninin katsayısı +
işaretli).
• Örneğin, siyahların %20 olduğu bir şehirde siyah
oyuncular beyazlardan (baz kategori) %5.2
(= -0.198 + 0.0125* 0.20 = 0.052) daha fazla ücret
alacaktır.
34
• Benzer şekilde ispanyol kökenli oyuncular, ispanyol
kökenlilerin az oranda bulunduğu şehirlerde beyaz
oyunculara kıyasla daha az kazanacaklardır.
38
• Kısıtlı modelde R2=0.352 bulunuyor. F=8.14 hesaplıyoruz.
Bu ise çok yüksek bir değer ve p-değeri sıfıra eşit, Yani,
katsayılar aynı anda sıfıra eşit değildir. Erkek ve kadın
atletlerin notları aynı model tarafından açıklanamaz. Farklı
modeller gerektir.
• Katsayıların tek tek t değerleri 2 ‘den küçük olmakla
beraber ortak anlamlılık testini kuvvetle geçebilmektedirler.
• Female’in katsayısını yorumlarken, bu katsayının
sat=hsperc=tothrs=0 iken not farkını gösterdiğini
unutmayalım. Her üç değişkenin sıfır alınması ilginç bir
senaryo olmadığı için regresyonda bu değişkenlerin
ortalama değerleri konarak female değişkeninin katsayısı
yeniden hesaplanır :
39
• Sat =1,100, hsperc=10 ve tothrs=50
koyduğumuzda puan farkı: {-
0.353+0.00075*1100-0.00055*10-
0.00012*50} = 0.461
olarak bulunur.
• Yani, kadın atletlerin GPA’leri aynı özelliklere
sahip erkeklerinkine kıyasla yarım puana yakın
daha yüksektir.
40
Chow testi
• Chow İstatistiği
• Değişken sayısı fazla ise yukarıdaki gibi her bir
değişken için interaction yaratmak pratik
olmayacaktır. İki grubun aynı modelle açıklanıp
açıklanamayacağını Chow testi ile daha kısa yoldan
belirleyebiliriz.
• Grup 1=g1, grup 2 = g2 diyelim.
45
• Yukarıdaki GPA örneğine Chow testi uygulayalım :
• Kız atlet sayısı n1= 90, erkek atlet sayısı n2= 276, toplam
örnek n =n1+n2 = 366.
• İki grubun verileri bir arada ele alınarak birleştirilmiş
regresyon (pooled regression) uygulandığında artık kareler
toplamını 85.515 olarak buluyoruz : SSRr (= formüldeki SSR)
= 85.515. Kadın atlet regresyonundan SSR1=19.603, erkek
regresyonundan SSR2=58.752 elde ediyoruz. Bölece SSRur
= 19.603 + 58.752 = 78.355 bulunur.
49
• Bu regresyonda y, sadece 1 ve 0 değerlerini
aldığı için betaların yorumu eskisi gibi (diğer
tüm faktörler sabitken, x(j)’de 1 birimlik
değişmenin y’de yol açacağı değişme)
olmayacaktır.
50
• Eğer sıfır-koşullu ortalama varsayımı, MLR.3,geçerliyse,
E (u|x1,…xk)=0, her zamanki gibi şun yazabiliriz :
51
• (7.27), başarı olasılığının, buna p(x)=P(y=1|x) diyelim,
x’lerin doğrusal bir fonksiyonu olduğunu söyler.
56
• Örnekte en çok eğitim alan kadının eğitimi 17 yıldır.
EDUC=17 için işgücüne katılma olasılığı 0.5
bulunuyor, ceteris paribus.
• Örnekte EDUC değişkeni >5 olduğu için Figure 7.3 ün
sağ tarafını kullanacağız. Eğitimin işgücüne katılma
olasılığını negatif etkilediği kısım geçerli değildir.
• nwifeinc’in katsayısının yorumu : Kocanın yıllık maaşı
10 birim (yani 10,000$)artarsa, karısının işgücüne
katılma olasılığı 0.034 düşer.
• Exper karesel biçimde alınmış. İşareti +, karesinin
işareti – olduğu için, deneyim işgücüne katılma
şansını artırıyor, ancak bu artış giderek azalıyor.
57
• Beklendiği üzere kadının işgücüne katılma
olasılığını belirleyen en önemli faktör küçük
çocuğunun olmasıdır. Kidslt6 değişkeninin
katsayısı -0.262 dir.
• Yani,ceteris paribus, 6 yaşından küçük çocuk
sayısında 1 birimlik (1 çocuk) artış kadının
işgücüne katılma olasılığını %26.2
azaltmaktadır.
• Örnekte 6 yaşından küçük en az bir çocuğu
olan kadınlar toplamın beşte biri kadardır.
58
LPM modelinin yetersizlikleri
• (7.29) daki LPM modeli dikkat edilebileceği gibi,
bağımsız değişkenlerin belli değerleri için sıfırdan
küçük ya da birden büyük olasılık tahminleri (inlf hat
= yhat) verebilir, ki bu olasılık ilkeleri ile çelişir. Olasılık
o ile 1 arasında her zaman negatif-olmayan bir
sayıdır.
63
• Arr86 =1 kişi 1986 yılında tutuklanmışsa,
=0 tutuklanmamışsa.
Örnek (sample) : 1960-61 California doğumlu ve 1986
dan önce en az bir kez tutuklanmış gençler. CRIME
1.RAW
pcnv : hükümle sonuçlanan önceki tutuklamaların
oranı;ptime86: 1986 da yatılan süre;
avgsen: önceki hükümlerden içeride yatılan süre (ay);
tottime: 18 yaşından itibaren 1986 ya kadar yatılan
hapis süresi. qemp86: 1986 da çalışılan çeyrek-yıl
sayısı.
64
• Tahmin edilen denklem :
65
• 1986 da hapiste geçirilen her ay 1986 da tutuklanma
olasılığını %2.2 azaltıyor. Tüm yılı içeride geçiren
birisinin tutuklanma olasılığı sıfır çıkmalı : Diğer
değişkenleri sıfıra eşitlersek, 0.441- 0.022*(12) =
0.177 kalıyor. Yani, “LPM’i x’lerin tüm değerleri için
uygulayamayız “ sonucu burada da karşımıza çıkıyor.
• İşte çalışmak (qemp86) tutuklanma olasılığını ciddi
bir şekilde düşürüyor : Diğer faktörler sabitken 1986
‘nın 4 çeyreğinde de çalışmış bir kişinin tutuklanma
olasılığı işsiz birisinden -0.043*4 = -0.172
kadar daha düşüktür.
66
• (7.31) e kukla bağımsız değişkenler ekleyebiliriz. Örneğin
ırk kuklaları ekleyelim : black ve hispan
69
• Grant’ın katsayısı anlamlı ve pozitiftir. Eğitim
yardımı almış firmalar, ceteris paribus,
ortalama olarak 26.25 saat daha fazla eğitim
yapmaktadırlar. Hrsemp değişkeninin örnek
ortalaması 17, max değeri ise 164 dür.
Dolayısıyla, eğitimi büyük ölçüde yardım
belirlemektedir.
• Firma satışlarının eğitim çabaları ile ilişki
çıkmamaktadır.
• İstihdam düzeyi eğitimle ters yönde ilişkili ve
katsayının t değeri -1.56 (=-6.07/3.88), %10
düzeyinde anlamlı.
70
Yıldız Teknik Üniversitesi
İktisat Bölümü
Ekonometri II Ders Notları
Ders Kitabı: J.M. Wooldridge, Introductory Econometrics A
Modern Approach, 2nd. ed., 2002, Thomson Learning.
Ch. 8:
Değişen Varyans
1
Ch.8 : Değişen Varyans (Heteroscedasticity)
• Ch. 3, MLR.5: sabit varyans (homoscedasticity)
varsayımı, “gözlenemeyen hata terimi u’nun
açıklayıcı x değişkenlerine koşullu varyansının
sabitliği” anlamına geliyordu.
8
• Bu basit regresyon modelinde Gauss-Markov
varsayımlarının ilk dördünün gerçekleştiğini
varsayalım.
• Eğer hata terimlerinde heteroscedasticity varsa
şöyle yazacağız :
9
• Basit regresyonda beta(1) ‘in OLS tahmin edicisini
yazalım :
10
• (8.2), homoscedasticity altında basit regresyon
için hesaplanan varyansın heteroscedasticity
altında geçerli olmayacağını gösteriyor.
11
• , orijinal regresyonumuzun artıkları olsun.
• Herhangi bir biçim (form) altında ortaya çıkan
heteroscedasticity (ki, bu, homoscedasticity’yi özel bir
hal olarak içerir) için Var(β1hat)’in geçerli bir tahmini
şudur :
15
• (8.6) dan görüldüğü gibi, homoscedasticity
varsayımı altında hesaplanan se’ ler (parantez
içinde) ile heteroscedasticity’den etkilenmeyen
se’ler (köşeli parantez içinde) test sonuçlarını
değiştirecek kadar farklı çıkmamışlardır.Ama bu
her zaman böyle çıkmaz.
19
• Çok sayıda heteroscedasticity testi geliştirilmiştir. Burada,
geleneksel (usual) OLS istatistiklerini geçersiz kılan
heteroscedasticity’nin tespitine yönelik modern testler
göreceğiz.
• MLR.1-MLR.4 varsayımları geçerli olsun. Böylece OLS
tahmin edicileri sapmasız ve tutarlı olacaktır.
• Model :
20
• Eğer belli bir anlamlılık düzeyinde veriler Ho’ı
reddetmemize olanak vermiyorsa “heteroscedasticity
yoktur ya da ciddi bir sorun değildir” diyeceğiz.
• u’ların koşullu beklenen değerinin sıfır olduğunu
varsaydığımız için, Var(u|x)=E(u2 |x) dir. Dolayısıyla,
(8.11) şöyle de yazılabilir :
24
• ÖRNEK:
29
• Bu denklemde her iki tarafın karesini alırsak,
sağ tarafda x’lerin kareleri ve birbirleriyle çapraz
çarpımları olacaktır. Yani, (8.19) un sağ tarafına
benzeyecektir. O halde, heteroscedasticity’ yi
şöyle test edebiliriz :
39
• (8.26), parametreler bakımından doğrusaldır (linear).
Dolayısıyla, MLR.1 varsayımını sağlar.
• Rasgele örnek (random sampling) varsayımımız yine
korunmaktadır.
• u*(i), x*’a göre koşullu olarak, sabit varyansa (σ2)
sahiptir.
• Demek ki, eğer orijinal regresyonumuz Gauss-markov
varsayımlarından 4’ünü sağlıyorsa, (8.26) bu
varsayımların tümünü sağlayacaktır.
• Eğer u(i) ~ N ise, u* da N dağılacak, böylece
dönüştürülmüş regresyon tüm CLRM varsayımlarını
(MLR.1-MLR.6) sağlamış olacaktır.
• (8.26)’ nın beta tahminleri (β1*,..., βk*) orijinal modelin
betalarından farklı olacaktır.
• Bu β* ‘lar genelleştirilmiş en küçük kareler (GEKK)
tahminidir : generalized least squares (GLS)
estimators. 40
• Burada, GLS tahmin edicilerini hata terimlerindeki
değişken varyansı düzeltmek için kullandık. Ch.12 ‘de
diğer GLS tahmin edicileri de göreceğiz.
• Dönüştürülmüş regresyon tüm klasik model
varsayımlarını sağladığı için bu regresyondan elde
edeceğimiz standart hatalar (se), t ve F istatistikleri
geçerli tahminlerdir.
• GLS tahmin ediciler (β* ‘lar) BLUE oldukları için OLS
tahmin edicilerinden (βhat ‘ler) daha etkindirler.
• Dönüştürülmüş regresyonun yorumunu orijinal
regresyonun ışığında yapmamız gerektiğini
unutmamalıyız.
• (8.26) nın R2’si F istatistiğinin hesabında kullanılır.
Ancak, artık uyumun iyiliğinin bir ölçüsü değildir.
Dönüştürülmüş regresyonun R2’si x*’ların y*’daki
değişmelerin % ne kadarını açıkladığını gösterir, ki,
bu da fazla bir anlam ifade etmez. 41
Ağırlıklandırılmış EKK (Weighted least
Squares, WLS)
• Heteroscedasticity’yi düzeltmek için kullandığımız
GLS tahmin edicileri “Ağırlıklı En Küçük Kareler”
tahmin edicileri (weighted least squares (WLS)
estimators) adını alır.
• Zira, β* ‘lar (GLS estimators) ağırlıklandırılmış artık
kareleri toplamını minimize eder.
• Her bir u(i) kare, ile ağırlıklandırılmıştır.
Yüksek varyansa sahip u’lar daha küçük ağırlığa
sahiptirler.
42
• OLS’ de tüm u’lar aynı (eşit) ağırlığa sahiptir.
Dolayısıyla, ana kitlenin tümünde hata terimleri
varyansı aynı olduğunda OLS minimum varyanslı
(en iyi- best) tahmini verecektir.
• WLS beta katsayılarını şu denklem minimize olacak
şekilde seçer :
47
• ehirler-düzeyinde adam başına bira tüketimi
regresyonu :
• Burada
51
52
1. WLS’de tüm değişkenler (kuklalar da dahil)
e bölünecektir.Yani, kullanılacak ağırlık hhat’in
karekökünün tersidir, hhat’in tersi değil.
2. Sabit terim “beta(0).( )” şeklinde tahmin
edilecektir. ÖRNEK: (8.36) nolu regresyon şöyle
tahmin edilmiştir:
Cigs/hhat^0.5=
beta(0).(1/hhat^0.5)+beta(1).log(income)/
hhat^0.5+…..+beta(5).age2/hhat^0.5+
beta(6).restaurn/hhat^0.5
53
54
• 807 gözleme ait yhat’in 13’ ü negatif çıkmıştır. Doğrusal
modellerin bazen negatif tahmin verdiklerini biliyoruz.
Ancak, negatif değerler toplamın %2’sinden azdır.
Önemli bir sorun oluşturmuyor.
• Ne gelir ne de sigara fiyatı istatistiksel olarak anlamlıdır.
Üstelik etkileri çok ufaktır.
• Örneğin, eğer gelir %10 artarsa, bir günde içilen sigara
sayısı “ (0.880 / 100)*(10) = 0.088” sigara kadar
artmaktadır.
• Bir yıllık ilave bir eğitim içilen günlük sigara sayısını
yarım sigara kadar azaltmaktadır. İstatistiksel olarak
anlamlıdır.
• Sigara içmek yaşla karesel (quadratic) biçimde ilişkilidir.
Tiryakilik 42.83 yaşa kadar yaşla birlikte artmakta sonra
azalmaktadır : 0.771 / [2 (0.009)] = 42.83.
• Restoranlarda sigara yasağı ortalama günlük tüketimi 3
sigara kadar azaltmaktadır.
55
• (8.35) de heteroscedasticity var mı ?
• Breusch-Pagan regresyonu {uhat2 ‘nin,
x1, .... , xk üzerine regresyonu} 0.040
büyüklüğünde bir R2 veriyor.
• LM = 807x (0.040) = 32.28. Serbestlik
derecesi 6 olan Ki kare dağılımının tablo
değeri = 12.59.
• Ho red. Heteroscedasticity lehine çok
güçlü kanıt var.
• FGLS kullanarak modeli yeniden tahmin
edelim:
56
• Gelirin etkisi şimdi biraz daha büyük ve
istatistiksel olarak anlamlıdır.
• Diğer değişkenlerin katsayıları biraz
değişti, ancak sonuçlar yine aynı. Tiryakilik
eğitimle ters yönlü ilişkili, yaşla karesel
ilişki içinde ve restoran yasağı tüketimi
57
düşürüyor.
LPM modelinde hata terimlerinin varyansı
değişkendir. Robust se’ler hesaplamamız
gerekmektedir.
58
Doğrusal olasılık modelinin (LPM) WLS ile
tahmini
• LPM’de y’nin koşullu varyansı şuna eşittir:
Ch. 9:
Model Spesifikasyonu ve Veri Sorunları
Ch 9 : Model spesifikasyonu ve veri
sorunları
• CH 8 ‘de Gauss-Markov varsayımlarından
birisinin (homoscedasticity) ihlalini ele aldık.
• Hata terimleri varyansının değişken olması bir
“model misspecification” olarak ele alınabilir,
ancak heteroscedasticity, görece olarak çok
büyük olmayan bir spesifikasyon hatasıdır.
• Heteroscedasticity, sapma ve tutarsızlığa yol
açmadığı için ciddi sorun oluşturmuyordu.
Robust se’ler kullanarak ya da WLS tahmini
yaparak geçerli t ve F testleri yapabiliyoruz.
• Bu Bölüm’de daha ciddi bir soruna, “u’larla
x’lerden birinin ya da bazılarının ilişkili
olması” durumunu ele alacağız.
• u’larla ilişki olan bir x içsel (endogenous) bir
bağımsız değişkendir (bkz. Ch.3).
• Yine CH.3 ve 5 de, regresyonda önemli bir
değişkenin ihmal edilmiş (dışarıda bırakılmış)
olmasının, tüm parametrelerin sapmalı ve
tutarsız olmasına yol açabildiğini görmüştük.
• İhmal edilen değişken eğer x’lerden birinin bir
fonksiyonu ise, modelimiz, fonksiyonel biçim
spesifikasyon hatası (functional form
misspecification) içerecektir.
3
• Section 9.2 de “ihmal edilmiş değişkenin yol
açtığı sapmayı (omitted variable bias) azaltıcı
yöntemleri (temsili değişkenlerin-proxy-
kullanılması )göreceğiz.
• Ölçme hataları (measurement error) da belli
bir sapmaya yol açmaktadır. Bu konuyu
Section 9.3 de ele alacağız.
• CH 9 da sadece OLS tahminlerini ele
almaktayız.
• Oysa, u’larla x’lerin ilişkili olmasının yarattığı
bazı sorunlar OLS ile çözülemez.
• Bu konuları CH.13 de inceleyeceğiz.
4
Fonksiyon Kalıbının Yanlış Kurulması
• Bir regresyonda y ile x’lerin ilişkisi doğru formüle
edilmediği taktirde fonksiyonel biçim hatası
(functional form misspecification) ortaya çıkar.
• Örneğin, log-log model yerine level-level model
kullanılması, ya da olması gereken bir karesel
terimin dışlanması fonksiyonel biçim hatasına,
bu ise, betaların sapmalı ve tutarsız olmasına
yol açacaktır.
• Örneğin, ilave bir yıl eğitimin ücrete katkısı
cinsiyete göre değişiyorsa ücret regresyonunda
female*educ karşılıklı etkileşim (interaction)
terimini kullanmak zorundayız. 5
• Regresyona eklemek istediğimiz yeni değişken
gruplarının (karesel terimler vb) gerekli olup
olmadığına F testi (ortak anlamlılık – joint
significance-testi) yaparak karar verebiliriz.
• Böylece, regresyonumuzun fonksiyonel biçimini
daha az hatasız hale getirebiliriz.
• Pek çok ekonomik seride log kullanılması düzey
(level) değişken kullanılmasına göre daha iyi
sonuç vermektedir. Log kullanarak biçim
hatalarını azaltabiliriz.
• Yine, karesel terim eklemek de doğrusal-
olmayan (nonlinear) ilişkilerin yakalanmasında
önemli bir çözüm oluşturmaktadır.
6
7
8
• 2.ci sütundaki regresyonda kareli terimler
eklendi.Tümü hem tek tek anlamlı (t testi) hem
de ortak olarak anlamlı (F testi). Dolayısıyla,
modelimiz daha iyi bir hal aldı.
• “Kareli terimlerin tümü birden anlamlı mıdır?”
sorusunun yanıtını F testi yaparak verelim : cal
F=31.37, df (3 ve 2713). Tab F =2.605< Cal F,
Ho red.
• Kareli terimler eklenince parametrelerin
yorumları da bunları dikkate alarak yapılmalı.
• d(narr86)/d(pcnv |cet.paribus)=0.533-
0.73(2)pcnv pcnv=0.365 dönüm
noktası.narr86 ile pcnv ilişkisi bu noktaya kadar
pozitif, bu noktadan sonra negatif hale geliyor. 9
Fonksiyonel biçim hatası ile ilgili genel bir test:
RESET TESTİ
• Regresyonda genel fonksiyonel biçim hatası
(misspecification) olup olmadığını teşhise yönelik bir
çok test mevcuttur.
• Ancak, bunlardan en çok kullanılanı
Ramsey(1969)’in regression specification error
test (RESET) ‘idir.
• Orijinal regresyonumuz :
11
• RESET testinde Ho hipotezinde (9.2) nin
spesifikasyonun doğru olarak yapıldığı vardır. Yani,
12
13
• RESET testinin bir yetersizliği, Ho’ın reddi
halinde ne yapacağımız konusunda bize hiçbir
şey söylememesidir.
• Bazıları RESET testinin ihmal edilmiş değişken
ve heteroscedasticity’den ileri gelen biçim
hatalarını (misspecification) da yakaladığı,
dolayısıyla çok genel bir misspecification testi
olduğunu iddia ederler.
• Bu doğru değildir. İhmal edilmiş değişkenin y ile
ilişkisi doğrusal ise RESET testi bunu
yakalayamaz. Yine, fonksiyonel biçim doğru
yapılmışsa RESET testi heteroscedasticity’yi
belirlemede de başarısızdır.
• RESET testi sadece bir fonksiyonel biçim
testidir, genel bir misspecfication testi değildir. 14
İçiçe geçmemiş-yuvalanmamış (unnested)
almaşıklara karşı test
• İki içiçe geçmemiş (nonnested) modelden hangisini tercih
edeceğiz ?
17
• Bu nonnested testlerle ilgili çeşitli sorunlar
mevcuttur :
• i) test, alternatiflerden hangisinin doğru
olduğuna her zaman karar veremeyebilir.İki
model de yanlış ya da doğru biçime sahip
olarak gözükebilir.
• ii) Alternatiflerden birinin reddi diğer alternatifin
doğru olduğu anlamına gelmez. Doğru model
çok farklı bir şey olabilir.
• iii) Almaşık modellerde bağımlı değişken aynı
değilse ciddi sorun ortaya çıkacaktır. Örneğin,
modelin birinde y diğerinde log y varsa ne
olacak? CH 6 da bu durumda R2’leri nasıl
karşılaştıracağımızı görmüştük. Bu konuda
geliştirilen karmaşık testlere burada
girmeyeceğiz. 18
Gözlenemeyen (unobserved) açıklayıcı
değişkenler yerine temsili (proxy) değişken
kullanılması
• Ölçülemeyen, veri bulunamayan önemli bir değişken
varsa ne yapacağız?
• Örneğin, ücret denkleminde kişinin doğuştan gelen
kabiliyetinin (ability) büyük bir açıklama gücüne sahip
olduğunu biliyoruz, ama bunu ölçemediğimiz için
regresyonda kullanamıyoruz.
• Hata terimi v3, x3* ile x3’ ün tam (yüzde yüz) ilişkili
olmamalarından doğan hata terimleridir.
• X3* ile x3 aynı yönde ilişkili oldukları için (aksi halde
x3 proxy olamaz) δ3 >0 olacaktır.
21
• Soru, (9.10) da x3* yerine onunla ilişkili x3
‘ü kullanarak β1 ve β2 katsayılarını
sapmasız (ya da en azından tutarlı) olarak
tahmin edip edemeyeceğimizdir.
• Bir yöntem, (9.10) da x3* yerine doğrudan
x3 (proxy) ‘ü koyarak tahmin yapmaktır.
• Buna, ihmal edilmiş değişken sorununun
“yerine koyma (ikame)” yöntemiyle
çözümü (plug-in solution to the omitted
variables problem) denir.
• Bu yöntemin tutarlı β1 ve β2 verebilmesi
için u ve v3 artıklarıyla ilgili bazı
varsayımlar yapmamız gerekir.
22
• (9.10) da, standart varsayım gereği,u; x1, x2 ve x3*
ile ilişkisiz olmalıdır.
• Buna ek olarak u, proxy x3 ile de ilişkisiz olmalıdır.
• Bu şu demektir : populasyon modelinde x1, x2 ve
x3* yer alıyor iken x3’ün yer alması artık gereksizdir
(irrelevant).
• Bu varsayımı şöyle de ifade edebiliriz : u’nun x1, x2
ve x3* ‘e koşullu beklenen değeri sıfırdır.
• v3 ile ilgili varsayım ise şudur : v3; x1, x2 ve x3 ile
ilişkisizdir.
• v3’ün x1 ve x2 ile ilişkisiz olması, proxy x3’ün iyi bir
temsili değişken olduğu (x3*’ı iyi temsil ettiği)
anlamına gelir. 23
• Bunu koşullu beklenen değerle şöyle ifade edebiliriz :
25
• Proxy (x3) değişkeni kullanarak yaptığımız
tahminde katsayılarının
sapmasız (en azından tutarlı) tahminlerini yapmış
olacağız.
• Ücret denkleminde α3, kişinin IQ puanında 1
puanlık bir artışın ücrette yaratacağı % artışı
verecektir.
• Ayrıca, ability ‘yi temsilen IQ değişkeninin
denkleme girmasi, educ ve exper değişkenlerinin
gerçek katkılarının saptanmasını sağlayacaktır.
IQ olmadığında muhtemelen bu değişkenlerin
katkıları abartılarak ölçülmektedir.
26
27
28
• IQ değişkeninin katsayısı anlamlı çıkmıştır.
• IQ de 10 puanlık bir artış ücrette %3.6
artış sağlıyor.
• IQ dağılımının ABD için standart sapması
15 olduğuna göre, IQ de 1 st.sapmalık
artış ücrette %5.4 ‘lük artış sağlıyor. Bu, 1
yıllık ilave eğitimin katkısına eşittir.
• IQ’ nün eklenmesi siyah-beyaz ücret
farkını biraz azalttı, ancak fark hala çok
büyük. Aynı IQ’ye, eğitime vs sahip bir
siyahla beyazın ücret farkı %14.3 siyahın
aleyhinedir. 29
• “Ability’si yüksek olan kişilerde educ’un ücrete
katkısı daha yüksek olabilir” diye düşünerek
educ*IQ karşılıklı etkileşim (interaction) terimini
ekledik (Sütun 3). Ancak anlamsız çıktı.
• Ability ‘ ye temsili değişken olarak IQ yerine
(veya onunla birlikte) KWW (Knowledge of the
World of Work) test sonuçları da kullanılabilir
(bkz. Exercise 9.7).
• Yukarıdaki varsayımlar sağlanmazsa proxy
değişken kulanılması da sapmaya yol
açacaktır.Örneğin, x3*’ın sadece x3 ile değil
[(9.11) deki gibi] x1 ve x2 ile de ilişkili olduğunu
varsayalım. Bu durumda x1 ve x2’ nin katsayıları
sapmalı olacaktır. 30
Bağımlı değişkenin hatalı ölçülmesi
durumu
• y* : Açıklamak istediğimiz (kitleye ait) değişken,
örneğin ailelerin yıllık tasarrufları.
• y : y*’ın gözlenen ölçümü olsun.
• Regresyonumuz Gauss-Markov koşullarını
sağlasın:
• Asıl önemli olan, ölçme hatası, e(o), ile x’lerin ilişkili olup
olmadığıdır.
32
• Genellikle yapılan varsayım, “ölçme hatalarının
istatistiksel olarak x’lerle ilişkisiz olduğu” şeklindedir.
• Eğer bu varsayım doğru ise, (9.19) dan OLS ile
bulacağımız tahminler sapmasız ve tutarlıdırlar.
Ayrıca, t, F, LM istatistikleri geçerlidir.
• Eğer e(o) ile u ilişkisiz ise (ki, genellikle öyle
varsayılır):
39
The classical errors-inivariable
assumption
• “e1’in x1 ile ilişkisizdir” varsayımı Section 9.2’deki
temsili (proxy) değişkenle ilgili olarak yapılan varsayıma
benzemektedir.
• Ekonometri yazınında bu varsayımın yerine daha çok
“e1, x1* ile ilişkisizdir” varsayımı yapılmaktadır.
• Ölçme hatalarının gözlenemeyen açıklayıcı
değişkenlerle ilişkisiz olduğu varsayımına The
classical errors-in-variables (CEV) varsayımı denir:
• Varsayım şuradan gelmektedir : Ölçülen
büyüklüğü, gerçek değişkenle ölçme
hatasının toplamı şeklinde yazalım :
42
• β1’ in sağındaki çarpan terimi Var (x1*) / Var (x1)
oranıdır. CEV varsayımı gereği bu oran daima
1’den küçüktür. Dolayısıyla, β1>0 iken, CEV
varsayımı altında, OLS tahmin edicisi β1hat daima
β1’den daha küçük (underestimation) olacaktır.
43
• Buna OLS’de CEV varsayımının küçültme
sapması (attenuation bias) denir.
• Eğer x1*’ın varyansı ölçme hataları (e1)
varyansına kıyasla büyükse, Var(x1*) / Var
(x1) oranı 1’e yakın çıkacağı için, OLS’deki
tutarsızlığın büyüklüğü önemsiz olacaktır.
• u ana kadar tek bir x (basit regresyon) söz
konusu idi. Birden çok x’in yer aldığı çoklu
regresyonda durum daha karmaşık hal
alacaktır.
• Örneğin, üç tane x değişkeninin olduğu bir
regresyonda x1* hatalı ölçülmüş olsun : 44
• Her zamanki “u, x1*, x2 ve x3 ile ilişkisizdir”
varsayımını yapacağız. Kritik varsayım e1 ile
ilgili olanıdır. Ama her durumda “e1’in doğru
ölçülen x2 ve x3 değişkenleriyle ilişkisiz”
olduğunu varsayıyoruz.
• Eğer e1, x1 ile ilişkisiz ise OLS tutarlı
olacaktır. Bu şuradan kolayca görülebilir :
46
47
• üphesiz, ölçme hataları sadece bir değişkende
değil bir çok değişkende olabilecektir.
• Pratikte gerçek durum çoğu kez bu iki zıt
varsayımın, (9.23) ve (9.25), ortasında bir yere
denk düşmektedir.
• Yani, ölçme hataları hem x1* hem de x1 ile ilişkili
olabilmektedir.
• Bu halde OLS tutarsız tahmin ediciler verecektir.
Ancak, bu, OLS’yi terk etmemiz anlamına
gelmez.
• CH_15 de, bazı varsayımlar altında genel ölçme
hatalarının varlığı alında da tutarlı olabilen
tahmin ediciler bulabileceğiz.
48
Verilerde boşluk (missing data), rasgele-
olmayan örnekleme (nonrandom
sampling) ve aşırı uç değerler (outliers)
• Verilerle ilgili şu ana kadar karşılaştığımız sorunlar
çoklu-bağıntı (multicollinearity) ve ölçme hataları
(measurement errors) idi.
• MLR.2 varsayımını ihlal eden bir veri sorunu rasgele-
olmayan örneklemedir (nonrandom sampling). Bazı
durumlar dışında rasgele-olmayan örnekleme OLS
tahmin edicilerinin sapmalı ve tutarsız olmasına yol
açmaktadır. Bu konu ayrıntılı biçimde CH_17 de
işlenecektir.
• Veride boşluklar (missing data) çok çeşitli şekillerde
karşımıza çıkar. En yaygın biçimi, bazı deneklerin
anket sorularının bir kısmını yanıtlamaması halidir.
49
• Ekonometri paket programları veri boşluğu olan
serilerde boşluğa denk gelen gözlemleri otomatik
olarak dışlamaktadır. Dolayısıyla, veri boşluğu
örnek hacmini küçültmektedir.
• Veri boşluğunun daha ciddi istatistiki sorunlara yol
açıp açmayacağı boşluğun nedeni ile ilgilidir. Eğer
boşluklar rasgele oluşmuşsa, bu, örnek hacmini
küçültmenin dışında sapma ve tutarsızlık sorunları
doğurmaz, MLR.2 varsayımı hala geçerlidir.
Boşluklar, rasgele değil de sistematik ise sorun
ciddidir.
• Veride boşluklar rasgele-olmayan örneklemede
daha ciddi sorun yaratır. Örneğin, doğumda bebek
ağırlıkları veri setinde EDUC değişkenindeki
boşluklar eğitim düzeyi ortalamanın altında olan
anne-babalarda daha yaygın ise, bu sistematik bir
olaydır.
50
• Bazı tür rasgele-olmayan örneklemeler
sapma veya tutarsızlığa yol açmaz. MLR.2
(random sampling) dışındaki Gauss-Markov
varsayımları sağlandığı taktirde, örnek
(sample) dışsal (exogenous) bağımsız
değişkenlere dayanılarak seçildiğinde sapma
ve tutarsızlık ortaya çıkmaz. Buna dışsal
örnek seçimi (exogenous sample
selection) denir. Örnek : 35 yaşın üzerinde
olan kişileri içeren şu regresyon :
51
• Yaş dağılımı açısından rasgele olmamasına
karşılık bu regresyondan hala nüfusun tümü
için geçerli tahminler elde edebiliriz. Zira, örnek
x’e dayanılarak seçilmiştir.
• Seçilen örneğin rasgele olmamasına rağmen
sapmasız tahmin ediciler elde edebilmemizin
nedeni, income, age ve size değişkenleri
kontrol edildiğinde ortalama tasarrufların
nüfusun her kesiminde aynı olmasıdır.
52
• Eğer örnek x’lere göre değil de bağımlı
değişkene (y) bağlı olarak seçiliyorsa sapma
ortaya çıkacaktır.
• Buna içsel örnek seçimi (endogenous
sample selection) denir.
• Örneğin, aşağıdaki regresyona sadece
serveti 75,000$ ‘ı aşan kişileri dahil edelim
57
Yıldız Teknik Üniversitesi
İktisat Bölümü
Ekonometri II Ders Notları
Ders Kitabı: J.M. Wooldridge, Introductory Econometrics A
Modern Approach, 2nd. ed., 2002, Thomson Learning.
Ch. 10:
Zaman Serileri Verileriyle
Regresyon Analizi
CH 10 : ZAMAN SERİLERİ VERİLERİYLE
REGRESYON
Bu Bölüm’de şu konuları ele alacağız :
• Zaman serilerinin kullanıldığı doğrusal regresyon
modellerinde OLS tahmin edicilerin özellikleri.
• Section 10.1 : kesitler-arası (cross-section) ve
zaman serileri (time series) verileri arasında
kavramsal farklılıklar.
• Section 10.2 : En yaygın kullanılan zaman serileri
modellerinden örnekler.
• Section 10.3 : Klasik varsayımlar altında OLS
tahmin edicilerin sonlu (finite) örnek özellikleri.
• Hipotez testleri (inference)
• Veride trent ve mevsimsel (seasonal) hareket.
ZAMAN SERİSİ VERİLERİNİN ÖZELLİKLERİ
• Kesitler-arası veriden farklı olarak burada veriler
belli bir zaman sıralaması izlemektedir.
• Zaman serilerini analiz ederken geçmişin geleceği
etkilediğini ama bunun tersinin doğru olmadığını
unutmamalıyız.
• Kesitler-arası veride örnek uygun bir kitleden
rasgele örnekleme (random sampling) ile
çekiliyordu.
• Her bir ayrı örnekte farklı x ve y değerleri elde
edildiği için bu örneklerde OLS tahmin edicileri
(betahat’ler) de farklı olabiliyordu. Bu nedenle OLS
tahmin edicileri rasgele değişken (random variable)
olarak ele alıyorduk. 3
4
• Peki, zaman serilerinde rasgeleliği
(randomness) nasıl yorumlayacağız?
• Zaman serisi değişkenlerin (GSMH, İMKB
indeksi, vs) bir sonraki dönemde hangi
değerleri alacaklarını öngöremediğimiz için
bu değişkenleri rasgele değişken olarak
görebiliriz.
• Zaman (t) indeksi taşıyan rasgele
değişkenlerin oluşturduğu diziye
(sequence) stokastik süreç (stochastic
process) ya da zaman serisi süreci (time
series process) diyeceğiz.
• Stokastik sözcüğü rasgele (random) ile
aynı anlamda kullanılmaktadır.
5
• Mevcut bir zaman serisi stokastik sürecin
mümkün bir realizasyonu olarak
görülebilir.
• Zamanda geriye gidip başka bir
realizasyon elde edemeyeceğimiz için tüm
zaman serileri tek bir realizasyonun
(gerçekleşmenin) sonuçlarıdır.
• üphesiz elimizdeki zaman serisi farklı
tarihsel koşullar olsaydı farklı olacaktı.
• Dolayısıyla, bir zaman serisi sürecinin tüm
mümkün gerçekleşmelerinin (outcomes)
oluşturacağı küme, burada, kesitler-arası
veride kitlenin (population) oynadığı rolü
oynayacaktır. 6
• imdi, sosyal bilimlerde en çok kullanılan
modellerden örnekler görelim :
• Statik model : Eşanlı (contemporaneously)
zaman endeksi taşıyan iki serimiz olsun : y ve z.
• y ‘yi z ile ilişkilendiren statik bir model şöyle
yazılabilir :
7
• Statik Phillips eğrisini statik modele bir
örnek olarak verebiliriz:
8
►Sonlu Dağıtılmış Gecikme Modelleri
(Finite distributed Lag Models, FDL models)
• Bu modellerde y’yi belli bir gecikme (lag) ile
etkileyen bir çok değişken olacaktır :
14
• (10.4) de δ(o), pe’de 1 $’lık artışın doğurganlıkta
yaratacağı eşanlı değişmeyi ölçer. Bu etki ya sıfır ya
da çok küçük olacaktır. δ(1) ve δ(2), sırasıyla, bir
dönem ve iki dönem evvelki 1 dolarlık pe
değişmelerinin etkilerini ölçmektedir. Bu katsayıların
pozitif olmalarını bekleyebiliriz.
• Eğer pe, t döneminden itibaren her dönem sürekli
olarak c+1 olursa, gfr, 2 dönem sonra δ(0)+ δ(1)+δ(2)
kadar artacaktır. İki yıl sonra ise gfr’de artık değişme
olmayacaktır.
• q.cu sıradan sonlu bir dağıtılmış gecikme modeli (a
finite distributed lag model of order q, FDL(q)) :
15
• FDL modelleri, bağımsız değişkenin (z)
bağımlı değişken (y) üzerinde gecikmeli
etkisinin (lagged effects) olup olmadığını
görmemize yarar.
• Cari dönem değişkeni z(t)’nin katsayısı, δ(o),
etki çoğaltanı (impact multiplier or impact
propensity) adını alır.
• Uzun dönem çoğaltanı (long-run
propensity, LRP) tüm z(t-j) katsayılarının
toplamıdır
16
• z ‘nin çeşitli gecikmeli değerleri arasında çoğu kez
yüksek korelasyon bulunur. Bu, (10.6) da çoklu-
bağıntıya yol açar. Bu ise, δ(j)’lerin ayrı ayrı kesin bir
şekilde tahmin edilmelerini güçleştirir.
• FDL modellerinde birden fazla açıklayıcı değişken
gecikmeli olarak bulunabilir. Yine, cari dönem
(contemporaneous) değişkenleri, x(t), w(t) vb gibi,
ekleyebiliriz.
• Örnek : Aşağıdaki yıllık verilerle tahmin edilmiş FDL
modelinde etki (impact) ve uzun dönem çoğaltanları
(LRP) neye eşittir ? (int: interest rate, inf: inflation rate)
• 0.48 ve {0.48 + (-0.15) + 0.32}= 0.65
17
• ► KLASİK VARSAYIMLAR ALTINDA OLS
TAHMİN EDİCİLERİN SONLU (KÜÇÜK) ÖRNEK
ÖZELLİKLERİ
• OLS’ nin sapmasızlığı (unbiasedness):
Varsayımlar
20
• Bu kritik bir varsayımdır. Bu varsayım şunu
söylüyor : t dönemine ait hata terimi, u(t), her bir
x ile tüm dönemler itibariyle ilişkisizdir.
• Bu varsayım koşullu beklenen değer cinsinden
ifade edildiği için, y ile x’lerin arasındaki ilişkinin
biçiminin (form) doğru olarak belirlenmesi
gerekmektedir. Yani, spesifikasyon hatası
yapmamamız lazım.
• Eğer u(t), X’den bağımsız ve E[u(t)] = 0 ise,
varsayım TS.2 otomatik olarak sağlanır. 21
• u(t)’lerin, aynı zamanda t dönemine ait x
‘lerle de ilişkisiz olması gerekmektedir :
22
• TS.2 varsayımı cari dönem dışsallığından
(contemporaneous exogeneity) öte koşullar
getirmektedir: u(t) , x(sj) ile, s≠t iken bile ilişkisiz
olmalıdır. Yani, t dönemi artık terimi, u(t)’nin ortalama
değeri, x’lerin tüm geçmiş, şimdiki (cari) ve gelecek
değerleriyle ilişkisiz olmalıdır.
• TS.2 sağlandığında x’lerin kesin olarak dışsal (strictly
exogenous) olduğunu söyleriz.
• OLS’nin tutarlılığı için (10.10) un sağlanması yeterlidir.
Ancak, OLS’nin sapmasızlığı için kesin dışsallık
gerekmektedir( bkz. CH 11).
• Kesitler-arası regresyonda örneğin rasgele oluşu
(MLR.2) kesin dışsallık varsayımını gereksiz kılıyordu.
Zaman serilerinde rasgele örnekleme olmadığı için
kesin dışsallık varsayımına ihtiyaç duyuyoruz.
23
• Varsayım TS.2, x’lerin ve u’nun kendi
geçmişleri ile korelasyonlarına izin
vermektedir.
• İzin verilmeyen, u(t)’nin beklenen
değerinin x’lerle zaman içinde ileri ve
geriye doğru ilişkili olmasıdır.
• TS.2’nin sağlanamamasına yol açan
başlıca iki faktör ihmal edilmiş
değişkenler ve ölçme hatalarıdır.
• Ancak başka nedenler de varsayımın
ihlaline yol açabilmektedir.
24
• u basit statik (yani, açıklayıcı değişkenler arasında
gecikmeli değişken yok) regresyonu ele alalım :
32
• TS.5 varsayımı iki ayrı zaman dönemine (t ve s,
diyelim) ait u’ların x’lere koşullu olarak ilişkisiz
olması anlamına gelmektedir.
• x’ler rasgele-olmayan (nonrandom) değişken ya
da tekrarlanan örneklerde sabit değerler olarak
ele alınırsa, bu halde “x’lere koşullu olma”
kaydını kaldırırız :
33
• (10.12) sağlanmadığında artıklar (u) ardışık
korelasyon (serial correlation) ya da
otokorelasyon (autocorrelation) içeriyor
demektir.
• Yani, artıklar zaman dönemleri itibariyle
(across time) ilişkilidirler.
• Otokorelasyon, ard arda gelen u’ların tümünün
birden pozitif ya da tümünün birden negatif
olması şeklinde ortaya çıkar.
• Oysa, ideal durum bu artıkların tamamen
birbirinden bağımsız olarak rasgele
dağılmaları durumu idi. 34
• Kesitler-arası regresyonda bu varsayımı
yapmadık. Nedeni, oradaki “rassal örnekleme”
varsayımıydı.
• Rassal örnekleme varsayımı altında herhangi
iki i ve h gözlemlerine ait artıklar, u(i) ve u(h),
birbirinden bağımsızdır. Bu, tüm açıklayıcı
değişkenlere koşullu olarak da böyledir.
• Demek ki, otokorelasyon sadece zaman serileri
regresyonlarına özgü bir sorundur.
• Ancak, örneğin rasgele olmadığı kesitler-arası
verilerde de otokorelasyon sorunu çıkabilir.
Artıkların şehirler itibariyle ilişkili olması gibi. 35
• (10.13) den bulduğumuz varyans ile CH.3 ‘de Gauss-
Markov koşulları altında kesitler-arası regresyon için
türettiğimiz varyans aynı şeydir. Çoklu-bağıntı gibi
varyansın büyük çıkmasına sebep olan faktörler
burada da aynı etkiyi göstermektedir.
• Hata terimleri varyansının OLS tahmin edicisi,
TS.1 – TS.5 varsayımları altında sapmasızdır ve yine
bu varsayımlar altında Gauss-Markov teoremi
sağlanmaktadır. 36
• OLS tahmin edicileri, TS.1-TS.5 varsayımları
altında tıpkı MLR.1-MLR.5 varsayımları altında
olduğu gibi arzu edilir küçük örnek özelliklerine
sahip olmaktadırlar.
37
• Zaman serileri regresyonlarında hipotez testleri yapabilmek ve
güven aralıkları oluşturablmek için, başka bir deyişle, se, t ve F
tahminlerini kullanabilmemiz için kesitler-arası regresyonda
yaptığımız normallik varsayımının bir benzerini burada
yapacağız :
38
• Teorem 10.5, TS.1-TS.6 varsayımları sağlandığında kesitler-
arası regresyonda tahmin (estimation) ve çıkarımla (inference)
ilgili olarak elde edilen tüm sonuçların zaman serileri
regresyonuna da uygulanabileceğini ifade ediyor.
43
• prepop : istihdam oranı (çalışan
sayısı/nüfus),
• mincov =(ortalama asgari ücret / ortalama
ücret)* (asgari ücretli sayısı / tüm çalışanlar).
Böylece, mincov değişkeni asgari ücretin
ortalama ücrete göre görece önemini
ölçüyor. Dönem : 1950-1987. 44
• Prepop’un mincov’a göre esnekliği -0.154
bulunmuştur ve anlamlıdır.
• Daha yüksek bir asgari ücret, istihdam oranını
düşürmektedir. Bu, iktisat teorisinin öngörüsüne
uygun bir sonuçtur.
• USGNP serisi anlamsız çıkmıştır. Ancak, aşağıda
göreceğimiz gibi regresyona trend ekleyince bu
sonuç değişecektir.
45
• Logaritmik fonksiyonel biçimi “distributed lag” modelleri (DLM)
için de kullanabiliriz. Örneğin, para talebini (M) GDP’nin bir
fonksiyonu olarak çeyrek yıllık veriden şöyle tahmin edebiliriz :
50
• Örnek hacmi gecikme sayısı (2) kadar azaldı. Yani
gecikme sayısı kadar gözlem kaybediyoruz.
• pe(t), pe(t-1) ve pe(t-2) arasında çok yüksek çoklu-
bağıntı olduğu için katsayılarının se’leri çok yüksek
çıktı ve ayrı ayrı hiçbirisi anlamlı değildir. Ancak,
üçü birden (jointly) anlamlıdır (F istatiğinin p-değeri
0.012).
• pe katsayılarının üçü de anlamsız çıktığı için pe’nin
gfr üzerindeki etkisinin cari dönem itibariyle mi
(contemporaneous effect) yoksa gecikmeli mi
olduğunu bilemiyoruz. Bunun için pe(t-1) ve
pe(t-2)’nin katsayılarının birlikte anlamlı olup
olmadığını yine F testi ile test ediyoruz. Testin p-
değeri 0.95 çıktığı için gecikmeli değişkenlerin etkisi
yoktur diyoruz ve statik modeli (10.18) tercih
ediyoruz. 51
• (10.19) dan uzun-dönem esnekliğini (long-run propensity) :
0.073-0.0058+0.034 = 0.101 olarak buluyoruz. Bu tahminin
anlamlılık testini yapabilmemiz için onun se’ini bilmemiz gerek.
• Bunun için Section 4.4 deki yola başvuruyoruz. :
52
• se(θohat) = 0.030 ve böylece t istatistiğini 3.37
buluyoruz. θohat anlamlıdır.
• Her üç δ da tek tek anlamsız çıktığı halde
onların toplamı olan uzun-dönem esnekliği
kuvvetli bir şekilde sıfıra karşı testi geçmektedir.
• θohat için %95’lik bir güven aralığı
oluşturursak, bu aralığın 0.041 ile 0.16
olduğunu görürüz.
53
• Pek çok ekonomik değişken zaman içinde artma
eğilimi gösterir. Yani zaman içinde trent gösterir (time
trend).
• İki değişkenin aynı ya da zıt yönde trent göstermesi
onların mutlaka birbirleri üzerinde etkiye sahip
oldukları anlamına gelmez. Herhangi iki seri çoğu kez
diğer başka gözlenemeyen faktörlerin etkisiyle zaman
içinde trent gösterdikleri için ilişkili çıkmaktadır.
• Değişkenlerdeki trendi hangi istatistiksel modellerle
ifade edebiliriz ? En yaygın model “doğrusal zaman
trendi” (linear time trend) modelidir :
54
55
• Burada, {e(t)}, bağımsız, özdeş dağılmış
(independent, identically distributed, iid) bir
silsiledir (sequence).
58
• Karesel trent (quadratic trend) : serinin eğimi zaman
içinde artıyorsa, yani büyüme giderek hızlanıyorsa
(hiper enflasyonda olduğu gibi) kareli t terimi de
ekleriz:
59
►Trende sahip değişkenlerin regresyonda kullanımı :
• Değişkenlerin trent ihtiva etmesi TS.1 – T.S.6
varsayımlarımızı bozmaz.
• Ancak, eğer y ’ye trent kazandıran gözlenemeyen
faktörler x ’lerle de ilişkili ise, bu durumda sahte
(spurious) bir ilişki bulmuş oluruz. Buna
sahte(spurious) regresyon denir.
• Regresyona bir zaman trendi ekleyerek bu sorunu
aşabiliriz. Eklenen zaman endeksi t ‘nin katsayısı (β3)
y ‘deki x’lerle ilişkili olmayan artışı ya da azalışı
verecektir.t’ nin eklenmemesi “ihmal edilmiş değişken
sapması”na yol açar.
60
• ÖRNEK 1.7 : Ev yatırımları ve ev fiyatları ilişkisi,
1947- 88, ABD verileri.
• İnvpc : adam başına reel ev yatırımları (bin $),
price : ev fiyatları endeksi (1982=1).(10.32) deki
sahte regresyondur. Trent alınınca ilişki kayboldu.
61
• Regresyona trent eklemek, y ve x
değişkenlerinin önce trentlerini bertaraf
etmek (detrending), sonra bu trendi
alınmış değişkenler arasında regresyon
tahmin etmek ile aynı şeydir :
• yt= αo + α1t + et;
x1t = δ0+ δ1t+vt;
x2t = δ’0+ δ’1t+v’t
• y ‘nin artıklarının (e), x’lerin artıkları (v ve
v’) üzerine regresyonu bize (10.31) den
elde ettiğimiz β1 ve β2 ‘yi verecektir
(değişkenlerin ortalamaları alındığı için
sabit koymaya gerek yoktur):
62
et = β1x1 + β2x2 + εt
y trende sahipken R2 ‘nin
hesaplanması
• Çoğu kez zaman serisi regresyonlarının R’ ‘leri
kesitler-arası veriye kıyasla çok daha yüksektir.
• Bunun bir nedeni zaman serilerinde verilerin
genellikle toplulaştırılmış (aggregated) nitelikte
olmasıdır.Toplu verileri açıklamak bireysel verilere
göre daha kolaydır.
• Ancak R2’ yi zaman serisi regresyonlarında asıl
yükselten faktör y ‘nin trende sahip olmasıdır. y
trende sahipken SST / (n-1), artık Var (y(t)) ‘nin
sapmasız ve tutarlı bir tahmin edicisi değildir.
63
• R2, hata terimi varyansının y’nin varyansına göre
görece büyüklüğünün bir ölçüsü idi. Bunu
Rbarkare formülünden görebiliyoruz :
64
65
Mevsimsellik (Seasonality)
• Belli bir zaman aralığında (çeyrek yıl, aylık,
haftalık vb) gözlenmiş ekonomik veriler
genellikle mevsimsellik (seasonality) izler.
Örneğin,ayların iklim koşulları, tatillerin belli
aylara toplanması (örnek, Aralık ayı için
Christmas etkisi) vs. değişkenlerde sistematik
mevsimsel kalıplar yaratır.
• Önemli ölçüde mevsimsel yapı (pattern)
gösteren seriler düzeltmeye (seasonal
adjustment) tabi tutulur.
• Mevsimsel düzeltme yapılmamış ham verilerle
çalışıyorsak regresyona mevsimsel kukla
değişkenler (seasonal dummy) eklemeliyiz.
66
• Aylık verilerin kullanıldığı bir regresyonda 11 aya ait
aylık kukla değişkenler kullanırız, 12.ci ay (genellikle
Ocak) baz ayımız olur.
Ch. 11:
Zaman Serileri Verileriyle
Regresyon Analizinde Ek Konular
B. 11. Zaman Serileri ile OLS tahmininde
diğer konular
3
• Zaman serilerinde örneklem hacmi genellikle
sınırlı olmasına rağmen başka çözüm olmadığı
için büyük örneklem özelliklerinden sık sık
yararlanacağız.
• Altbölüm 11.2’de bağımlı değişkenin gecikmeli
halinin, y(t-1) gibi, açıklayıcı değişken olarak
kullanılmasının kesin dışsallık (strict
exogeneity) varsayımını (TS.2) nasıl ihlal
ettiğini göreceğiz.
4
Bölüm 11 Zaman Serileri
6
Durağan vs. durağan olmayan süreç
7
Başka bir deyişle, zaman serisi dizisi özdeş
(identically) dağılmıştır.
8
Kovaryans-durağanlık Kavramı
9
Kovaryans-Durağanlık Kavramı
10
Durağanlık Kavramı
11
Durağanlık Kavramı
• Eğer x(t) ve y(t) değişkenleri zaman içinde keyfi
olarak (arbitrarily) değişiyor ise, zaman
serilerinde bu değişkenlerin sadece tek bir
realizasyonları elimizde olduğu için, birbirlerine
etkilerini sağlıklı olarak ölçemeyiz
• Çoklu zaman serisi regresyonlarında β(j)
katsayılarının zaman içinde değişmemesi için
belli bir durağanlık (stationarity) varsayımına
ihtiyaç duymaktayız.
• Ayrıca, TS.4 ve TS.5 varsayımları, hata terimleri
varyansının zaman içinde sabit olmasını ve
zaman itibariyle art arda gelen (adjacent)
u’ların ilişkisiz olmasını gerektirir.
12
► “Zayıf Bağımlı Zaman Serileri (Weakly
Dependent Time Series)”
13
Zayıf-bağımlı zaman serileri
14
Zayıf-bağımlı zaman serileri
15
Zayıf-bağımlı zaman serileri
• Zayıf bağımlı (weakly
dependent) zaman
serisine bir örnek i.i.d. 2.5
(independently and
2
1.5
identically distributed) 1
silsilesidir. 0.5
0
• Örneğin, normal dağılım -0.5
tablosundan rasgele -1
-2
• Yandaki grafikte standart -2.5
normal dağılımdan
0 10 20 30 40 50 60 70 80 90 100
18
MA(1) Süreci
• Komşu x(t) ve x(t+1) terimleri ilişkili çıkmasına
rağmen birbirlerine daha uzak x terimleri
bağımsızdırlar.
• Örneğin, x(t+2) = e(t+2)+ α1.e(t+1) değişkeni x(t)
değişkeninden bağımsızdır.
• Çünkü e(t), zaman içinde kendi geçmiş ve
gelecek değerlerinden bağımsızdır.
• Ayrıca e(t) özdeş (identical) dağıldığı için MA(1)
durağan bir süreçtir.
• Bunun yanı sıra zayıf olarak bağımlı (weakly
dependent) bir süreçtir.Bu nedenle, x(t) sürecine
LLN ve CLT uygulanabilecektir. 19
1. Dereceden otoregresif süreç –
AR(1) Süreci
20
• AR(1) sürecinde, │ρ1│<1 koşulu, hem sürecin
kararlılık (stability) hem de zayıf bağımlılık (weak
depedence) koşuludur.
• Durağan bir AR(1) sürecinde (yani, │ρ1│<1 iken) :
21
• (11.4), y(t) ile y(t+h) ‘in korelasyonlarının sıfır
olmadığını, ancak, bu korelasyonun h
büyüdükçe sıfıra doğru gittiğinin gösterir.
22
Trend-durağan (trend-stationary) süreç
24
TS1. Doğrusallık ve Zayıf-bağımlılık
• TS.1 varsayımı modelin β parametreleri
bakımından doğrusal olduğunu söylüyordu.
• Eğer x değişkenleri arasında y(t-1), y(t-2) vb gibi
gecikmeli bağımlı değişken varsa, TS.1 şöyle
değişecektir:
25
TS2. Sıfır koşullu ortalama
• u(t) ile x’in tüm geçmiş, şimdiki ve gelecek
değerlerinin ilişkili olmasını yasaklayan TS.2
varsayımı yerine daha yumuşak şu varsayımı
yapacağız
26
TS3. Tam Çoklu-doğrusallığın olmaması
• Bu varsayım aynıdır:
27
OLS tahmin edicilerinin tutarlılığı
28
Örnek
• Aşağıdaki modelde z(t1), para arzı aylık büyüme
hızı; y(t) enflasyon oranıdır.
33
TS4. Sabit Varyans Varsayımı
TS5. Otokorelasyon Olmaması Varsayımı
37
38
39
Güçlü-bağımlı zaman serileri
• Zaman serileri zayıf bağımlı oluğu zaman OLS
çıkarsama prensiplerinin klasik varsayımlardan
daha zayıf varsayımlar altında geçerli olduklarını
gördük.
• Ancak bir çok iktisadi zaman serileri zayıf
bağımlı olmaktan ziyade güçlü-bağımlı olarak
sınıflandırılır.
• Yani, zaman serileri geçmiş değerleriyle yüksek
dereceden ilişkilidir (highly persistent, strongly
dependent).
• Bu alt bölümde bu türden zaman serileri
örneklerini inceleyeceğiz. 40
• Pek çok ekonomik zaman serisi “Kuvvetli şekilde
bağımlı” (strongly dependent) ya da başka bir
deyişle “kuvvetlice yapışkan” (highly persistent)
serilerdir. Örnek, enflasyon oranı, bütçe açıkları vb.
• CH. 10’daki CLM varsayımları sağlanıyorsa
strongly dependent serilerin regresyonda
kullanımı sorun çıkarmaz.Ancak, veri, weakly
dependent değilse bu varsayımlarda ufak bir
bozulma LLN ve CLT ‘in uygulanmasını imkansız
kılacaktır.
• AR(1) modelde ρ1 katsayısı 1’e doğru gittikçe
serinin yapışkanlığı artmaktadır.
• ρ1 =1 olduğunda AR(1) süreci rastsal yürüyüş
(random walk) süreci adını alır. 41
• RANDOM WALK :
42
• Yinelemeli yerine koyma yöntemi
(Repeated substitution): y t = y t −1 + et
43
• Random walk’ un beklenen değeri sıfır olduğu
halde varyansı t ile birlikte (t’nin doğrusal bir
fonksiyonu olarak) artmaktadır :
44
• Demek ki, random walk’de bizim gelecekle, y(t+h),
ilgili yapabileceğimiz en iyi tahmin bugünkü, y(t),
değerdir.
• Oysa, bu tahmin, kararlı AR(1) sürecinde, yani
│ρ1│<1 iken, h→∞ giderken sıfıra gidiyordu:
48
49
50
Kuvvetlice Yapışkan zaman serilerinin
dönüştürülmesi
Ch. 12:
Zaman Serisi Regresyonlarında Ardışık
Bağıntı (Serial Correlation)
ve Değişen Varyans
• Bölüm 11’de gördüğümüz gibi, herhangi bir
modelin dinamik özellikleri doğru belirlendiği
takdirde hata teriminde ardışık bağıntının
(otokorelasyonun) olmaması gerekir.
• Bununla beraber bazı statik modellerde ve FDLM
modellerinde spesifikasyon hatası olmasa bile hata
terimlerinde otokorelasyon olabileceğini gördük.
•Bu bölümde “ardışık bağıntı” nın (serial
correlation) nelere yol açacağını ve ne tür önlemler
alabileceğimizi göreceğiz.
Bölüm 12 Planı
• Altbölüm 12.1 de hata teriminde ardışık bağıntı varken
OLS tahmin edicilerin özelliklerini göreceğiz.
• Altbölüm 12.2 de ardışık bağıntı testlerini göreceğiz.
Testler, açıklayıcı değişkenler kesin dışsal (strictly
exogenous) iken geçerli olan testleri ve asimptotik
olarak geçerli testleri kapsayacaktır.
• Altbölüm 12.3 de x’ler kesin dışsal iken serial
correlation ‘i nasıl gidereceğimizi göreceğiz.
• Altbölüm 12.4 de farkı alınmış seriler kullanıldığında
ardışık bağıntının nasıl ortadan kalktığını
inceleyeceğiz.
• Altbölüm 12.5 de ardışık bağıntı varken OLS standart
hataları ve test istatistiklerinin nasıl düzeltileceği
konusunu ele alacağız. 3
• ► Hata terimlerinde ardışık bağıntı (serial correlation)
varken OLS tahmin edicilerinin özellikleri nasıldır?
• CH 10’da TS.1- TS.3 varsayımları altında OLS ‘nin
sapmasız olduğunu gördük. Burada sapmasızlığı
sağlayan x’lerin kesin dışsal (strictly exogenous)
oluşuydu. Artıklarda otokorelasyon olması önemli
değildi.
• Değişen varyans OLS t.e.nin sapmasızlığına zarar
vermiyordu. Benzer şekilde kesin dışsallık altında
serial correlation da sapmasızlığı zedelemez.
• CH 11 de kesin dışsallık varsayımının yerine “verinin
zayıf bağımlı (weakly dependent) olması” koşulunu
koyarak yumuşattık. Bu halde OLS sapmasız olmasa
bile tutarlı (consistent) oluyordu ve bu sonuç ardışık
bağımlılık ‘tan etkilenmiyordu.
4
►Etkinlik (efficiency) ve hipotez testleri
• Teorem 10.4 (Gauss-Markov teoremi) BLUE için hem
homoscedasticity hem de “hatalarda ardışık bağıntı
olmaması” koşulunu getiriyordu. O halde, hata
teriminde otokorelasyon olması durumunda OLS
tahmin edicileri artık BLUE değildir. Test istatistikleri
ve se’ler asimptotik olarak bile geçerli değildir.
• Bunu, Gauss-Markov varsayımlarının ilk 4 ‘ü geçerli ve
artıklar AR(1) süreci izliyor iken OLS tahmin edicilerin
varyansını hesaplayarak gösterebiliriz.
5
• e(t), sıfır ortalamalı ve sabit varyanslı ilişkisiz bir rassal
değişkendir (uncorrelated random variable). (12.2),
daha önce gördüğümüz gibi kararlılık (stability)
koşuludur.
• Basit bir regresyonda β1 eğim katsayısının OLS
tahmin edicisini şöyle yazabiliriz :
6
• (12.4) de ilk terim Gauss-Markov varsayımları altında
ρ=0 durumunda ki standart OLS varyansıdır. Eğer
serial correlaton varsa (ρ≠ o) (12.4) de ikinci terimi
ihmal etmemiz varyans tahmininde sapmaya yol
açacaktır. 7
• Pek çok ekonomik seride ρ>0 ve x’ler zaman
içinde kendi geçmişleriyle pozitif yönde ilişkili
olduğu için (12.4) deki ikinci terimin ihmal
edilmesi varyansın olduğundan daha düşük
tahmin edilmesine (underestimation) yol
açacaktır.
• Betaşapkaların se’leri bu varyansların kare
köküne eşit oluğu için varyansdaki sapma tüm
test istatistiklerini(t, F, LM) geçersiz kılacaktır.
• Düşük hesaplanan varyans, daha yüksek t
değerleri demek olduğu için, aslında sıfırdan
farklı olmayan katsayıların anlamlı imiş gibi
çıkmalarına sebep olacktır.
8
• Ekonometri kitapları çoğu kez “regresyonda gecikmeli bağımlı
değişken varsa ve hata terimleri otokorelasyon içeriyorsa OLS
tutarsızdır” şeklinde ifadeler içerir. Bu çok muğlak bir ifadedir
ve doğru değildir. Daha kesin (precise) bir ifade bulmamız
gerekir.
9
• Burada {u(t)} nin otokorelasyona sahip olmasını
yasaklayan bir koşul yoktur.
• Koşul (12.7) u(t) ile y(t-1)’in ilişkisiz olması gerektiğini
söylüyor, ancak u(t) ile y(t-2) ilişkili olabilir.
• u(t-1) = y(t-1) – βo –β1.y(t-2) olduğu için
Cov [u(t), u(t-1)] = - β1 Cov [u(t),y(t-2)]
• ‘ye eşittir ve sıfır olması için bir zorunluluk yoktur.
• Yani, hata terimlerinin serial correlation içerdiği ve
y(t-1) ‘in bağımsız değişken olduğu (12.6) daki
regresyonda OLS betaları tutarlıdır (consistent).
Çünkü bu betalar (12.5) deki koşullu beklenen değer
denkleminin parametreleridir.
• Bu durumda serial correlation varyansın sapmalı
çıkmasına ve test istatistiklerinin geçersiz olmasına yol
açacak, ancak tutarlılığı (consistency)
etkilemeyecektir.
10
• Peki, y(t-1) ‘in açıklayıcı değişken olarak yer aldığı ve
artıkların otokorelasyon içerdiği bir regresyonda beta
katsayıları ne zaman tutarsız (inconsistent) olacaktır ?
• (12.6) daki regresyonda u(t)’nin (12.1) deki gibi bir
AR(1) süreci izlemesi durumunda OLS betaşapkaları
tutarsız olacaktır.
11
• Ancak, burada şu nokta gözden kaçmamalı : Eğer
(12.6) da u(t) AR(1) süreci izliyorsa, bu, y(t) nin bir
AR(2) süreci izlediğini, dolayısıyla da (12.6) modelinde
spesifikasyon hatası olduğunu gösterir. Bunu (12.6) ile
(12.1) ‘i birleştirerek görebiliriz :
12
• AR(2) modelinin kararlılık (stability) koşulları (Section
12.3 de göreceğiz) altında, (12.9) un OLS tahminleri
tutarlı (consistent) ve asimptotik olarak normal
dağılmış tahmin edicilerdir.
• Demek ki, regresyona hem gecikmeli bağımlı
değişken koyup hem de hataların belli bir model
izlediğini varsaydığımız durumlarda çok dikkatli
olmalıyız. Aksi halde, tutarsız tahmin ediciler elde
edebiliriz.
• Dinamik modellerde hata teriminin serial correlation
içermesi çoğu kez modelimizin eksik
spesifikasyonuna delalet eder.
• Yukarıdaki örnekte (12.6) daki regresyona y(t-2)
değişkenini ekleyince sorun kalmadı.
13
Otokorelasyon Testleri
• İlk önce x’lerin kesin dışsal (strictly exogenous)
olduğu durumda çoklu regresyonda hata terimlerinin
serial correlation içerip içermediğini teşhise yönelik
çeşitli testler göreceğiz.
• Kesin dışsallık, u(t)’nin x’lerin tüm dönemlere ait
(geçmiş, şimdiki zaman ve gelecek) değerleriyle
ilişkisiz olduğu anlamına geliyordu. Dolayısıyla,
gecikmeli bağımlı değişken kullanılan modellere
bu testler uygulanamaz.
► (i) u(t) AR(1) izlesin ve x’ler kesin dışsal :
• Artık terimler çok farklı biçimde otokorelasyon
gösterebilir. En basit model, artıkların (12.1) ve (12.2)
deki gibi AR(1) süreci izlemeleri halidir.
14
• Kesin dışsallık varsayımı dolayısıyla u(t)’nin beklenen
değeri x’lerin tüm geçmiş, cari ve gelecek değerlerine
koşullu olarak sıfırdır :
15
16
17
18
• Durbin-Watson (1950), CLM varsayımları altında
DW istatistiğinin dağılımını türetti.
• Hata terimlerinin Normal dağıldığı varsayımı da
dahil tüm CLM varsayımlarının sağlanması
gerekmektedir.
• Orijinal regresyonda sabit terim (intercept) olmak
zorundadır.
• Yine, regresyonda açıklayıcı değişkenler arasında
gecikmeli bağımlı değişken, y(t-1) gibi,
olmayacakır.
• Kritik değerler gözlem sayısı (n) ve x sayısına (k’)
göre değişen alt (dL) ve üst (dU) limitlerden
oluşmaktadır.
19
20
21
• Açıklayıcı değişkenler kesin dışsal (strictly
exogenous) değilse, bu durumda herhangi bir x(tj)
u(t-1) ile ilişkili olabileceğinden ne (12.14) deki t testi
ne de DW testi geçerli olacaktır.
• Hatta büyük örneklerde bile bunlar geçerli
olmayacaktır.
• Kesin dışsallığın olmadığı modellere en iyi örnek
gecikmeli bağımlı değişkenlerin, y(t-1), bulunduğu
modellerdir. Bu modelde y(t-1) ile u(t-1) açıktır ki ilişkili
olacaklardır.
• x’lerden bazılarının kesin dışsal olmadığı durumda
Durbin’in şu alternatif testi uygulanır :
22
23
24
25
26
27
28
• Artıklar AR(1) süreci izliyor ve değişkenlerimiz kesin
dışsal iseler ardışık bağıntı durumunda test
istatistiklerinde bazı düzeltmeler yapabiliriz.
29
30
31
32
33
34
35
36
37