BASKINonparametrik Regresyon Analizi 1

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 212

NONPARAMETRİK REGRESYON ANALİZİ:

Farklı Yaklaşımlar ve R Hesaplamaları

Dursun Aydın
Ersin Yılmaz
NONPARAMETRİK REGRESYON ANALİZİ:
Farklı Yaklaşımlar ve R Hesaplamaları
Dursun Aydın, Ersin Yılmaz

Yayın No.: 1716


ISBN: 978-625-398-737-4
E-ISBN: 978-625-398-738-1
Basım Sayısı: 1. Basım, Eylül 2023

© Copyright 2023, NOBEL BİLİMSEL ESERLER SERTİFİKA NO.: 20779


Bu baskının bütün hakları Nobel Akademik Yayıncılık Eğitim Danışmanlık Tic. Ltd. Şti.ne aittir.
Yayınevinin yazılı izni olmaksızın, kitabın tümünün veya bir kısmının elektronik, mekanik
ya da fotokopi yoluyla basımı, yayımı, çoğaltımı ve dağıtımı yapılamaz.
Nobel Yayın Grubu, 1984 yılından itibaren ulusal ve 2011 yılından itibaren ise uluslararası düzeyde düzenli olarak faaliyet
yürütmekte ve yayınladığı kitaplar, ulusal ve uluslararası düzeydeki yükseköğretim kurumları kataloglarında yer almaktadır.
“NOBEL BİLİMSEL ESERLER” bir Nobel Akademik Yayıncılık markasıdır.

Genel Yayın Yönetmeni: Nevzat Argun -nargun@nobelyayin.com-


Genel Yayın Koordinatörü: Gülfem Dursun -gulfem@nobelyayin.com-

Sayfa Tasarım: Furkan Mülayim -furkan@nobelyayin.com-


Redaksiyon: Seda Polat -sedapolat@nobelyayin.com-
Kapak Tasarım: Mehmet Çakır -mehmet@nobelyayin.com-
Görsel Tasarım Uzmanı: Mehtap Asiltürk -mehtap@nobelyayin.com-

Kütüphane Bilgi Kartı


Aydın, Dursun., Yılmaz, Ersin.
Nonparametrik Regresyon Analizi: Farklı Yaklaşımlar ve R Hesaplamaları / Dursun Aydın, Ersin Yılmaz
1. Basım, VIII + 206 s., 13,5x21,5 cm. Kaynakça var, dizin yok.
ISBN: 978-625-398-737-4
E-ISBN: 978-625-398-738-1
1. Nonparametrik Regresyon 2. Yoğunluk Tahmini 3. Düzleştirme Teknikleri 4. Kernel Tahmini 5. Splayn Düzleştirme

Genel Dağıtım
ATLAS AKADEMİK BASIM YAYIN DAĞITIM TİC. LTD. ŞTİ.
Adres: Bahçekapı Mh. 2465 Sk. Oto Sanayi Sitesi No:7 Bodrum Kat, Şaşmaz/ANKARA
Telefon: +90 312 278 50 77 - Faks: 0 312 278 21 65
Sipariş: siparis@nobelyayin.com- E-Satış: www.nobelkitap.com - esatis@nobelkitap.com
www.atlaskitap.com - info@atlaskitap.com
Dağıtım ve Satış Noktaları: Alfa, Kırmızı Kedi, Arkadaş, D&R, Dost, Kika, Kitapsan, Nezih, Odak, Pandora, Prefix, Remzi
Baskı ve Cilt: Meteksan Matbaacılık ve Teknik Sanayi Tic. Anonim Şirketi / Sertifika No.: 46519
Beytepe Köy Yolu No.: 3 06800 Bilkent-Çankaya/ANKARA
ÖN SÖZ

Nonparametrik regresyonun genel tanımı, yanıt (bağımlı) de-


ğişken ile bir veya daha fazla açıklayıcı (bağımsız) değişken ara-
sındaki ilişkinin açıklanması için kullanılan yöntemler bütünü de-
nilebilir. Doğrusal regresyon yöntemlerden en önemli farkı ise
değişkenler arasındaki ilişkinin şekline dair güçlü varsayımlar
içermemesidir. Tahmin modelinin elde edilmesinde veriye daha
serbest davranarak değişkenler arası ilişkiyi modellemeye yarayan
bir nonparametrik bir fonksiyon tahmini kullanılır.
Bu kitapta, Nonparametrik Regresyon modellerinin tahmin
edilmesi için literatürde kullanılan en yaygın yöntem ve yaklaşım-
lara odaklanılmış ki bunlar Kernel düzleştirme, lokal polinom reg-
resyonu ve splaynlara dayalı düzleştirme yöntemleridir, istatistiksel
özellikleri detaylı incelenerek çıkarsamalar yapılmış ve R progra-
mında hem simülasyon hem de gerçek veri örnekleri kullanılarak
sonuçlar sunulmuştur. Ayrıca, kitabın başında nonparametrik
yaklaşımlarla yoğunluk tahmini ele alınarak regresyon model
için kullanılan tahmin süreci temellendirilmiştir. Bu kitabın amaç-
ları aşağıdaki gibi sıralanabilir:
 Doğrusal ve doğrusal olmayan parametrik regresyon mo-
dellerinin yanıt değişkeni ve açıklayıcı değişkenler arası
ilişkiyi açıklamakta yetersiz kaldığı, söz konusu ilişkinin
parametrelere dayalı açıklanamadığı durumlar için gelişti-
rilen nonparametrik tahmin (düzleştirme) yöntemlerinin
hem teorik hem de pratik yönlerini detaylı olarak açıkla-
mak,
 R programında hazırlanan kodlarla birlikte okuyucuların,
yöntemlerin uygulanışını da eş zamanlı izlemesini sağla-
mak ve araştırmacıların bu yöntemlere dair bilgi birikimini
arttırmak ve teşvik etmektir.

iii
 Nonparametrik yaklaşımlara dair temel kavramların derin-
lemesine anlaşılmasını sağlayabilmek.
 Düzleştirme yöntemlerinin teknik yönlerinin, teorik çıkar-
samalarla birlikte kavranmasına yardımcı olmak.
 Nonparametrik regresyon modellerinin pratikte tahmin
edilmesine ve yorumlanabilmesine katkı sağlamak.
 Kitap boyunca anlatılan düzleştirme yöntemleri ve bu yön-
temler için kritik öneme sahip düzeltme parametrelerinin
seçimi konusunda R programında kullanılabilecek araçları
tanıtmak ve nasıl çalıştıklarını göstermek.
 Simülasyonlar ve gerçek veri örnekleriyle nonparametrik
regresyon modellerinin veri setleri üzerinde nasıl çalıştığını
göstermek.
Prof. Dr. Dursun Aydın
Arş. Gör. Ersin Yılmaz

iv
İÇİNDEKİLER

ÖN SÖZ ................................................................................................. iii

GİRİŞ...................................................................................................... 1

Bölüm I
DÜZLEŞTİRME VE BAZI KAVRAMLAR...................................................... 5
1.1. Düzleştirme Kavramı .................................................................. 5
1.2. Verilerin Stokastik Doğası ......................................................... 11
1.3. Düzleştirme Sürecinde Karşılaşılan Zorluklar ............................. 13
1.4. Yan-Varyans Dengesi ................................................................ 15

Bölüm II
YOĞUNLUK TAHMİNİ........................................................................... 19
2.1. Giriş ......................................................................................... 19
2.2. Ampirik Kümülatif Dağılım Fonksiyonu...................................... 20
2.3. Histogram ................................................................................ 23
2.3.1. Histogram Özellikleri ....................................................... 27
2.3.2. Frekans Poligonu ............................................................. 29
2.3.3. R’de Hesaplama .............................................................. 31
2.4. Kernel Yoğunluk Tahmini .......................................................... 32
2.4.1. Kernel Yoğunluk Kestiricilerinin Özellikleri ....................... 36
2.4.2. R’de Hesaplama .............................................................. 42

Bölüm III
DÜZLEŞTİRME TEKNİKLERİ ................................................................... 45
3.1. Giriş ......................................................................................... 45
3.2. k- En Yakın Komşu Düzleştirme ................................................. 46
3.3. Kernel Düzeltme (Regresyonu) ................................................. 53

v
3.4. Lokal Polinomial Ağırlıklı Regresyon .......................................... 58
3.4.1. Lokal Sabit (Local Constant) Kestirici ................................ 64
3.4.2. Lokal Doğrusal (Local Linear) Kestirici .............................. 65
3.5. B-Splayn Düzeltme ................................................................... 73
3.6. Cezalı Splayn Regresyonu ......................................................... 80
3.6.1. Budanmış üstel tabanlı basit doğrusal splayn ................... 80
3.6.2. Budanmış üstel tabanlı p. dereceden splayn .................... 84
3.7. Splayn Düzeltme (smoothing Spline) ......................................... 87
3.7.1. Cezalı En Küçük Kareler Yaklaşımı .................................... 89
3.7.2. Splayn Düzeltmeye Dayalı Tahmin ................................... 90
3.7.3. Tahmin süreci için özel bir durum .................................... 94

Bölüm IV
ÇIKARSAMA....................................................................................... 105
4.1. Çıkarsama .............................................................................. 105
4.2. Yan-Varyans ve Serbestlik Derecesi ......................................... 106
4.3. Uyum Değerleri için Güven Aralıkları....................................... 108
4.4. Hipotez testi ........................................................................... 112

Bölüm V
PERFORMANS ÖLÇÜLERİ VE DÜZLEŞTİRME PARAMETRESİNİN SEÇİMİ .. 117
5.1. Performans Kriterleri .............................................................. 117
5.1.1. Hata Kareler Ortalaması (HKO) ...................................... 120
5.1.2. Diğer performans kriterleri ............................................ 124
5.2. Varyans Tahmini ..................................................................... 127
5.2.1. Artıklara dayalı varyans tahmin edicisi ........................... 128
5.2.2. Farklara dayalı varyans tahmin edicisi ............................ 131
5.3. Düzeltme Parametresi Seçim Kriterleri.................................... 132
5.3.1. Klasik seçim kriterleri..................................................... 133
5.3.2. Riske dayalı seçim kriterleri ........................................... 137

vi
5.3.3. Simülasyon Uygulamaları............................................... 138
5.3.4. Gerçek Veri Uygulamaları .............................................. 146
5.4. Splayn kestiricileri için düğüm seçim yöntemleri .................... 153

KAYNAKÇA ........................................................................................ 159

DİZİNLER............................................................................................ 163

EKLER ................................................................................................ 165


EK-A: R Kodları .............................................................................. 165

ÖZGEÇMİŞ ......................................................................................... 203

vii
GİRİŞ

Regresyon analizi, yanıt (bağımlı) değişken ile bir veya daha


fazla açıklayıcı (bağımsız) değişken arasındaki ilişki, matematiksel
bir model oluşturmak için kullanılan yöntemler bütünü olarak ta-
nımlanabilir. Elde edilen regresyon modeli yardımıyla hem ilgi-
lenilen örneklemin içinde, gözlenmemiş yanıt değişkenleri için
hem de örneklem dışı (gelecek) değerler için bağımsız değiş-
kenlerin ilgili değerleri kullanılarak tahminler elde edilebilir.
Basit düzeyde ele alınacak olursa yanıt değişkeni ve bağım-

,
sız değişken değerleri ile elde edilen n örneklem büyüklü-
ğüne sahip ikili gözlemlere göre regresyon modeli
aşağıdaki gibi yazılabilir;
= + , = 1, … ,
Burada . regresyon fonksiyonu ve ’ler sıfır ortalama ve

temel amacı, . fonksiyonu için bir model kurmak ve fonksiyo-


sabit varyansa sahip rassal hata terimleridir. Regresyon analizinin

nunu ′lere dayalı olarak tahmin etmektir. Burada şu belirtilmeli-


= +
şeklinde yazılabiliyorsa burada . fonksiyonu değişlenler
dir ki eğer ile arasındaki ilişki doğrusal ise yani

,
arası ilişkiyi bir doğru şekli ile ifade eder ve en küçük kareler yön-
temi ile regresyon katsayıları tahmin edilebilir.
Fakat gerçek veri örneklerinde sıkça karşılaşıldığı üzere ile
arasındaki ilişki genellikle bir doğru ile ifade edilemeyecek şe-
kilde belirsiz olabilmektedir. Şekil 1, bu duruma bir örnek olması
açısından simülasyon verisi ile elde edilmiştir. Açıkça ilişkinin bir
doğru ile temsil edilemeyeceği görülebilir.

1
Nonparametrik Regresyon Analizi

Şekil 1: Nonparametrik ilişki için simülasyon örneği

Genellikle parametrik regresyon modelleri . fonksiyonu-


nun şeklinin bilindiğini ve sonlu sayıda model bilinmeyen paramet-
re değerine (regresyon katsayıları) bağlı olduğunu varsayar. Bu
varsayımlar altında elde edilen ve teorik olarak “uygun” olduğu
düşünülen modellerin sistematik yanlılığının artacağı ve yanlış
çıkarımlara neden olacağı Şekil 1’de gösterilen veri yapısına uygun

. Fonksiyonu için önceden belirlenmiş bir şekil varsaymaz.


olarak açıkça söylenebilir. Nonparametrik regresyon modelleri ise

Bunun yerine fonksiyonunu “pürüzsüzlük” ve “süreklilik” özellik-


leri üzerinde varsayımlar yapar ki bu varsayımların model paramet-
relerine bir etkisi yoktur. Nonparametrik regresyon modelinin
amacı, verinin kendini ifade etmesine olanak tanımaktır. Dolayısıy-
la bu modeller veri yapısına çok daha esnek bir yapıdadırlar ve
doğrusal modellerin yakalamayacağı veri yapılarını yakalayabile-
cek yetenekleri vardır.
Bağımlı ve bağımsız değişkenler arasındaki ilişkile-
rin nonparametrik olarak modellenmesi için kullanılan en yaygın
düzleştirme yöntemlerinden bazıları: değerlerinin küçük aralık-
lara bölünmesi ile elde edilen cezalı splaynlar (penalized splines),

2
Giriş

toplamsal splaynlar (additive splines), kısmi splaynlar (partial spli-


nes), B-splayn (B-spline) ve splayn düzeltme (smoothing spline)
gibi splayn tabanlı yöntemler; Kernel (çekirdek) düzeltme, dalga-
cık düzelticiler (wavelet smoothers), ortogonal seri ve lokal poli-
nomial yaklaşımları gibi düzeltme yöntemleri olarak söylenebilir.
Literatür parametrik olmayan regresyon konusunda, örneğin,
splayn düzeltme (Wahba, 1990; Eubank,1999), kernel düzeltme
(Nadaraya 1964 ve Watson 1964) ve yerel polinom düzeltme (Fan
vd. 1996) gibi kaynaklara bakılabilir.
Bu kitap beş ana bölümden oluşmaktadır. Birinci bölümde
düzleştirme (smoothing) yöntemlerinin temel esasları ve kavram-
ları ele alınmıştır. Verilerin stokastik doğasına değinilmiş ve veri
yapısına bağlı olarak düzleştirme tekniklerinin uygulanmasından
karşılaşılan bazı zorluklardan bahsedilmiştir. Tahmin modeli için
teorik olarak sağlanması beklenenyan-varyans dengesi açıklan-
mıştır.
İkinci bölümde, nonparametrik regresyon modelinin tahmi-
ninden önce, düzleştirme kavramının özünün anlaşılabilmesi için
nonparametrik yoğuluk tahmini ve histogram açıklanmış, teorik
detaylarla birlikte R programında örnekler sunulmuştur. Ayırca
yoğunluk tahmininde en yaygın kullanılan yoğunluk tahmin edicisi
olan Kernel yoğunluk tahmini anlatılmış, regresyon modeline uyar-
lanmasından bahsedilmiştir.
Üçüncü bölünmde, nonparametrik regresyon modelinin tah-
mini için geliştirilen düzleştirme teknikleri detaylı olarak anlatıl-
mıştır. Bu teknikler, k-en yakın komşu regresyonu, kernel düzelt-
me yöntemi, lokal polinom regresyonu, B-splayn yöntemi, cezalı
splayn yöntemi ve splayn yöntemleridir. Burada bahsedilen altı
düzeltme yöntemi literatürde en yaygın kullanılan tekniklerdir ve
bu bölümde her bir yöntemin tahmin prosedürü detaylı olarak açık-
lanmış, teorik özellikleri sunulmuş ve R programında örnekler,
kodlarıyla birlikte sunulmuştur.

3
Nonparametrik Regresyon Analizi

Dördüncü bölümde tanıtılan nonparametrik regresyon modeli


tahmin edicileri için genel bir form kullanılarak yan-varyans den-
gesi, serbestlik derecesi, uyum değerlerinin elde edilmesi ve güven
aralıklarının hesaplanması anlatılmış ve çıkarsamalar sunulmuştur.
Model anlamlılıığının test edilmesi için hipotez testleri anlatılmış-
tır. Bu bölümüm, üçüncü bölümde verilen düzeltme tenkniklerin-
den elde edilen tahmincilerin istatistiksel çıkarsamalarını içermesi
nedeniyle göreli önem taşıdığı söylenebilir.
Beşinci bölüm, parametrik olmayan regresyon modeli tahmi-
ninde, tanıtılan altı düzeltme yöntemi için de tahminin doğruluğu
açısından kritik öneme sahip düzeltme parametresinin seçimini,
seçim yöntemlerini ayrıca model tahmin performansını ölçmek için
kullanılan performans ölçütlerini içerir. Bu bölümde düzeltme pa-
rametresinin seçimi için literatürde birçok farklı kaynakta bulu-
nan seçim kriterleri bu kitapta derlenmiş ve nasıl kullanıldığı,
hesaplandığı sunulmuştur. Bu kriterlerin hespalanması için model
tahmin varyansı için varyans tahmini açıklanmıştır. Ayrıca B-
splayn ve cezalı splayn kesitricileri için düzeltme parametresinin
yanında düğüm seçim yöntemleri de incelenmiş bölüm sonunda
hem simülasyon hem de gerçek veri örnkerli R kodları ile birlikte
sunulmuştur.

4
Bölüm I

DÜZLEŞTİRME VE BAZI KAVRAMLAR

En genel alamda düzleştirme, bir veri setinde ortaya çıkan pü-


rüzlü (dalgalı veya engebeli) kenarları yok etmektir. Daha doğrusu,
düzleştirmenin amacı atfedilebilir bir nedene sahip olmayan veri
değişkenliğini ortadan kaldırmak ve böylece verinin sistematik
özelliklerini daha açık hâle getirmektir. Son zamanlarda düzleştir-
me terimi, istatistik literatüründe biraz daha özel bir anlam ka-
zanmıştır. Öyle ki fonksiyonların tahmininde kullanılan çeşitli
parametrik olmayan yöntemlerle düzleştirme eşdeğer anlama
gelmiştir. Bu açıdan bakıldığında, ilginç veri özelliklerini ortaya
çıkarmak için düzleştirme, veri analizinde yararlı bir araç ve veri
bazlı düzleştirme parametresinin seçim alanının, etkili yöntemle-
rin yazılım paketlerinde varsayılan olarak kullanıma hazır olması
noktasında olgunlaşmasıdır. Değişik kaynaklarda düzleştirme
yöntemlerinin önemli hesaplamaları ile karşılaşmak mümkündür.
Bu konu ayrıntılı bilgi şu kaynaklarda bulunabilir: Hardle (1990),
Wahba (1990), Terrel ve Scott (1992), Tarter ve Lock (1993),
Green ve Silverman (1994), Wand ve Jones (1995), Fan vd. (1996)
ve Wasserman, (2004).

1.1. Düzleştirme Kavramı


Bu bölümde bir eğri tahmini veya düzleştirme olarak adlan-
dırdığımız olasılık yoğunluk fonksiyonlarının ve regresyon fonksi-
yonlarının parametrik olmayan kestirimini ile ilgili bazı kavramları
tartışıyoruz. Önceki deneyimler gösteriyor ki F hakkında herhangi
bir varsayımda bulunulmadan bir F kümülatif dağılım fonksiyo-

5
Nonparametrik Regresyon Analizi

nunu tahmin etmek mümkündür. Ancak, bir g


= | =
yoğunluk fonksi-
yonu veya regresyon fonksiyonunu tah-
min etmek istiyorsak burada durum bir öncekinden farklıdır. Bazı
düzgünlük varsayımları yapmadan bu fonksiyonu tutarlı bir şekilde
tahmin edemeyiz. Buna bağlı olarak veriler üzerinde bir çeşit düz-
leştirme (smoothing) işlemi yapmamız gerekiyor.
Yukarıda belirtilen ifadelerden anlaşıldığı gibi, bir olasılık
yoğunluk fonksiyonu veya regresyon fonksiyonu gibi bir eğriyi
tahmin etmek için verileri bir şekilde düzleştirmek gerekir. Bu
bölümde, düzleştirme kavramıyla ilgili bazı tartışmalara yer verile-
cektir. Esas itibariyle tartışılacak iki temel problem vardır. Bunlar-
dan birincisi, “yoğunluk fonksiyonu tahmin” diğeri ise “regresyon
fonksiyonu tahmin” problemidir.
Birinci problemde yani olasılık yoğunluk fonksiyonun tahmi-
ninde aşağıdaki gibi
,…, ~g (1.1)
ifade edilen "g" yoğunluklu bir G dağılımından alınan bir , … ,
örneklem değerlerine dayanarak "g" olasılık yoğunluk fonksiyonu
(probability density function -pdf) tahmin edilmek istenir. Bu bağ-
lamda, sürekli bir rassal değişken ve onun pdf’sini dikkate aldığı-
mızı varsayalım. Kısaca pdf “rassal değişkenin nasıl dağıldığını”
ifade eder. Pdf’den yalnızca ortalama ve varyans gibi istatistiksel
özellikler hesaplanmaz, aynı zamanda bu değişkenin belirli bir
aralıktaki değerleri almasının olasılığı da hesaplanabilir. Bu neden-
le pdf, rassal bir değişkenin “davranışını” tamamen karakterize
ettiği için çok kullanışlıdır.

,
İkinci durumda ifade edilen regresyon fonksiyonun tahmin
probleminde gözlem çiflerinden oluşan örneklem verile-
rine göre yanıt gözlemlerinin bir ortalaması açıklayıcı değiş-
keninin aldığı değerler ile aşağıdaki biçimde modellenir:
= | = = + , = 1,2, … , (1.2)

6
Düzleştirme ve Bazı Kavramlar

| =
yandan, . bilinmeyen regresyon fonksiyonu ve
Burada koşullu beklenen değeri belirtir. Diğer

! = 0# ve sabit bir varyansa sahip rassal gözlem hataları gös-


sıfır ortama

termektedir. Burada temel amaç, aşağıda belirtilen regresyon fonk-


siyonu tahmin etmektir:
| = =
Ayrıca, bu tahmin, . ’in pürüzsüz (smooth) bir fonksiyon
olması varsayımı altında yapılmaktadır. Parametrik olmayan reg-

= noktada . ’in tahminini üretirler. Diğer bir


resyon kestiricileri genellikle yerel ağırlıklandırma yaklaşımları ile
keyfi bir
deyişle, parametrik olmayan regresyonda yanıt değişkeni ’nin
gözlemleri üzerinden ortalma alınarak ’i tahmin edilir.
Eşitlik (1.1)’de ifade edilen bir g yoğunluk fonksiyonun kesti-
ricinin en basit örneği bir histogramdır. Bir g yoğunluğunun histog-
ram kestiricisini oluşturmak için, gerçek çizgi kutu denilen ayrık
kümelere bölünür. Histogram kestiricisi, fonksiyon yüksekliğinin
her bölmedeki gözlem sayısı ile orantılı olduğu parçalı sabit bir
fonksiyondur (bkz. Şekil 1.1). Kutu sayısı, düzleştirme parametresi
olarak dikkate alınır. Çok fazla düzleştirme (taban uzunluğu büyük
olan kutular ya da bölmeler) çok yanlı bir tahminci elde ederken
çok az düzleştirme sonucu (taban uzunluğu küçük olan kutular)
çok değişken bir tahminci elde edilir. Eğri tahmininin çoğu, bölüm
1.4’te verilen varyans ve yanlılığı en iyi şekilde dengelemeye ça-
lışmakla ilgilidir.
Örnek 1.1 (Yoğunluk Tahmini): Yukarda ifade edilen "g"
yoğunluğunu tahmin etmek için kullanılan en basit yöntemlerden
bir histogramdır. Bu çalışmanın asıl konusunu ouşturmadığı için
fazla ayrıntıya girmeden yoğunluk, özet olarak bir örnek üzerinde
tanımlanacaktır. Bu bağlamda Şekil 1.1, rüzgâr verilerinden elde
edilen üç farklı histogramı ve bir eğri grafiğini göstermektedir.
Şekilde görüldüğü gibi, gerçek doğru aralıklara bölünerek her bir

7
Nonparametrik Regresyon Analizi

aralık ya da kutudaki gözlem sayıları dikkate alınmıştır. Histog-


ramdaki çubukların (bar) yükseklikleri her bir kutudaki sayıyla
orantılıdır. Bu grafikte görülen üç histogram farklı kutu sayılarını
esas almaktadır. Sol üst histogram çok sayıda kutuya (dikdörtgene)
sahiptir. Buna karşın, sağ üstteki histogram bir öncekine göre daha
az sayıda kutuya ve sol alt histogram da öncekilerine göre daha az
sayıda kutuya sahiptir. Dikdörtgen kutuların genişliği (h), bir “düz-
leştirme (ya da düzeltme) parametresini” olarak adlandırılır. Bura-
dan anlaşıldığı gibi, büyük h değeri (taban uzunluğu geniş olan az
sayıda kutu), büyük yan fakat küçük varyans içeren bir kestiriciye
(optimumun üzerinde yani aşırı düzleştirme-oversmoothing) yol
açmaktadır. Küçük h değeri (taban uzunluğu küçük olan çok sayıda
kutu), küçük yan fakat büyük varyans içeren bir kestiriciye (opti-
mumun altında yani az düzleştirme-undersmooothing) yol açmak-
tadır. Sağ alt grafik, kestiricinin yanlışlığının bir ölçüsü olan his-
togram kestiricisinin ortalama kareli hatasının (mean squared er-
ror-MSE) bir tahminini gösteriyor. Tahmin edilen MSE, kutuların
sayısının bir fonksiyonu olarak görülmektedir.
Özet olarak, bir "g" yoğunluğunun histogram kestiricisini
oluşturmak için gerçek doğruyu, kutu olarak adlandırılan ayrık
kümelere böleriz. Böylece, histogram kestiricisi parçalı bir sabit
fonksiyondur. Burada fonksiyon yüksekliği her kutudaki gözlem-
lerin sayı ile orantılıdır (bkz. Şekil 1.1). Kutu sayısı düzgünleş-
tirme sayının ifade eden bir örnektir. Çok fazla düzgünleştirirsek
(büyük bölmeler) çok yanlı bir kestirici elde ederken çok az düz-
leştirirsek (küçük bölmeler) çok fazla değişken bir kestirici elde
ederiz.

8
Düzleştirme ve Bazı Kavramlar

Şekil 1.1: Rüzgâr verilerine dayalı elde edilen histogramlar.

Sol üst histogramda çok fazla sayıda kutu varken sol alt his-
togramda çok daha az sayıda kutu vardır. Sağ üst histogram ise
çapraz geçerlilik yöntemi ile seçilen optimum sayıda kutu kulla-
nılmıştır. Sağ alt grafik, kutuların sayısına karşılık tahmin edilen
ortalama kareli hatayı (yanlışlık) gösterir. Bu grafiklerde görülen
eğriler, rüzgâr verisi için tahmin edilen MSE ve kernel yoğunluk
kestiricilerini göstermektedir. Sol üst grafik, optimumun üzerinde
düzleştirmeyi; sağ üst grafik, optimum düzleştirmeyi (çaprak
geçerlilik ile seçilen düzleştirme parametresi); sol alt grafik, op-
timum altında düzleştirilmiş ve sağ alt grafik, düzleştirme para-
metresinin bir fonksiyonu olarak tahmin edilen MSE değerlerini
göstermektedir.
Örnek 1.2 (Parametrik olmayan regresyon): Bir önceki pa-
ragrafta da belirtildiği gibi, ikinci problem regresyon fonksiyo-
nunun tahminidir. Bu durumu açıklayabilmek için simüle motosik-

9
Nonparametrik Regresyon Analizi

let kazası verileri (simulated motorcycle accident data) dikkate


alınmıştır (bkz. Şekil 1.2). Schmidt vd. (1981) tarafından yapılan

, , = 1, … ,
çalışmadan elde edilen motosiklet verileri 133 gözlem içermekte-
dir. Bu noktada analiz, n çift veriye dayalı

olarak ölçülen zaman ve ’lerde "g" cinsinden çarpma anındaki


olarak yapılmaktadır. Burada belirtmek gerekirse, ’ler milisaniye

hızlardaki değişimi (ivmeleri) göstermektedir. Parametrik olmayan


regresyonda, amaç hakkında sadece minimal varsayımlar yapa-
rak bu fonksiyonunu tahmin etmektir.
Şekil 1.2’de görüldüğü gibi, hız ve zaman arasındaki ilişkiyi
doğrusal regresyon denklemi açıklayamaz. Çünkü verilerin yayıl-
ma diyagramları arasında bu verileri temsil eden bir doğru geçir-
mek mümkün değildir. Bu durumda, böyle bir ilişkiyi açıklamak
için parametrik olmayan regresyon yöntemlerine başvurmak daha
doğru olur. Bu bağlamda, bu ilişkiyi açıklamak için Şekil 1.2’ye
yer verilmiştir. Şekil 1.2’de ilk grafik, Bölüm 5’te ifade edilen
çapraz geçerlik (Cross validation-CV) hatalarına karşın düzgünleş-
tirme parametrelerinin aldığı değerleri gösteriyor. Aşağıdaki gra-
fiklerde gösterildiği gibi, düzgünleştirme parametresinin değerin-
deki büyük değişmeler elde edilen tahminlerin düzgünlüğü (smo-
othness-pürüzsüzlüğü) üzerinde büyük etkilere sahiptir. Bunu gö-

$ hızdaki değişim = 0 zaman tahminleri elde edilmiştir. Bu


rebilmek amacıyla üç faklı düzleştirme parametresi (h) için,

anlamda, sağ üst grafik, zamana karşın hız verileri ve CV ile seçi-
len optimum bir h için fonksiyonun kernel regresyon tahminini
gösterirken sol alt grafik, optimum altında bir düzgünleştirmeyi ya
da uyumu ve sağ alt grafik ise optimum üstünde bir düzleştirmeyi
göstermektedir.

10
Düzleştirme ve Bazı Kavramlar

Şekil 1.2: Motosiklet kaza veri seti için farklı bant genişliği değerlerine
göre tahmin eğrileri

Şekil 1.2. Bu şekil üzerinde üst sol grafik düzleştirme para-


metresinin faklı değerlerine karşın CV’nin grafiğini gösterir. Üst
sağ ve alt grafikler ise kazalarda kasklarının etkinliği üzerine yapı-
lan simülasyonda bir motosiklet kazası deneyinden elde edilen
açıklayıcı (x = zaman) değişkene karşın yanıt (y = hızdaki değişim
ya da ivme) değişkenin dağılıma diyagramları göstermektedir.
Motosikletler üzerinde simülasyonda geçen süre (milisaniye cin-
sinden) ya da zaman, x değişkeni olarak dikkate alınmıştır. Yanıt
değişkeni y bir test objesinin g cinsinden ivmesidir.

1.2. Verilerin Stokastik Doğası


Bu bölümde , , = 1,2, … , verilerinin nasıl oluştu-

tır. İlk senaryo bağımsız, aynı dağılımlı rassal , değişkenleriy-


rulduğu veya olduğu konusunda bazı senaryolar dikkate alınacak-

le (independent, idenatically distributed random variables-iid)


ilgili olacaktır. Regresyon eğrisi,

11
Nonparametrik Regresyon Analizi

= | = (1.3)
olarak tanımlanır. Eğer | | < ∞ ise, regresyon eğrisi çok iyi ta-
nımlanır. Değişkenlerden ziyade g , bileşik yoğunluk fonsiyo-
nu mevcut ise regresyon eğrisi aşağıdaki gibi ifade edilir:

= 4 g | 5 =4 = | =
67 8,6 96
7 8
(1.4)

Burada g = 4 g , 5 ifadesi ’in marjinal yoğunluk


fonksiyonunu gösterir ve g | fonksiyonu = verildiğinde
’nin koşullu olasılık yoğunluk fonksiyonunu gösterir. Eşitlik (1.4)
denklemine ilişkin teknik tartışmalar için şu kaynaklara bakılabilir
(Hardle and Linton, 1994). Bu versiyona “rastgele tasarım modeli”
(random design model) olarak atıfta bulunmak yaygın bir terimdir.

+ , 0 ≤ ≤ 1 ve 0 ≤ ≤ 1
Örnek 1.3: Aşağıda verilen bileşik yoğunluk fonksiyonu

g , =:
0, =>? 5@A@B5=
ve X ’in marjinal yoğunluk fonksiyonu,

4 g , 5 = + , 0≤ ≤1
g =C D
0, =>? 5@A@B5=
olarak verildiğini varsayalım. Böylece, yukardaki verilenlere göre

1 1
regresyon eğrisi,

g , 5 + 2 +
=E =E 5 = 3= | =
g 1 1
+ +
2 2

| =
Belirtmek gerekirse ’den ’e bu görüntüleme, koşullu
beklenen fonksiyon adını alır ve çoğunlukla olarak
gösterilir. Bu ifade bize ve ’nin ortalama olarak nasıl ilişkilen-
dirildiğini ifade eder. Buyüzden, temel düşünce fonksiyonunu
(yani, regresyon eğrisini) tahmin etmektir.
Yukarıda belirtildiği gibi, , değişkenlerinin bağımsız,
aynı dağılımlı rassal değişkenler olduğu belirtilmiştir. Ancak, araş-

12
Düzleştirme ve Bazı Kavramlar

tırmacının açıklayıcı değişkeninin değerlerini kontrol edebildiği


uygulamalar vardır ve bu durumda , tek rastgele değişkendir.
Örneğin, bir kişinin yıllık geliri ( ) ile yıllık harcama miktarı ( )
arasındaki ilişkiyi araştırmak için yapılan bir araştırmayı hayal
edin. Bu durumda , artık bir rastgele değişken olmayacak. Di-
ğer bir ifadeyle , stokastik olmayan bir değişkendir. Buna karşı-
lık ise bir rassal değişkendir. Bu senaryo genellikle “sabit tasa-
rım modeli” (fixed design model) olarak adlandırılır. Dolayısıyla,
stokastik olmayan bir değişkeni ve bir rassal değişkeni ara-
sındai ilişki, Model (1.2)’de belirtildiği gibi aşağıdaki modelle
açıklanabilir:
= = = + , 1≤ ≤ (1.5)

değerleri bir !=, G# aralığında eşit olarak dağıtılır. Bunun yanı sıra,
Birçok doğa bilimleri deneylerinde, açıklayıcı değişkenin

bilgi kaybı olmaması için !=, G# = !0,1# ve = − 0.5 / ya da


simülasyon çalışmalarımda veri yaratılması durumunda, genellikle

= / , = 1,2, … , dizilerinin dikkate alındığı varsayılır. Eşit


aralıklı bu diziler, sabit tasarım modelinin özel bir durumudur.
Sabit tasarım ve rastgele tasarım modellerinde stokastik me-
kanizma farklı olmasına rağmen, düzleştirmenin temel düşüncesi
hem sabit hem de rastgele tasarım modellerinde aynıdır. Her iki
durumda da araştırmacı eldeki gözlemlere göre ortalama almayı ve
her iki durumda da bir düzleştirme parametresi seçerek analiz
yapmayı arzu eder. Bu kitapta elde edilen sonuçların çoğu özellikle
sabit tasarım modeli için sunulmuştur. Ancak, bu fikirler rastgele
tasarım modeline uyarlanabilir.

1.3. Düzleştirme Sürecinde Karşılaşılan Zorluklar


Her istatistiksel yöntemlerde olduğu gibi, düzleştirme işle-
minde de özel düşünce ve koordinasyon gerektiren bazı engeller
vardır. Düzleştirme prosedüründe, doğru bir analiz için bu engelle-
rin kaldırılması gerekir. Parametrik bir yaklaşımla karşılaştırıldı-

13
Nonparametrik Regresyon Analizi

ğında, asimptotik bir anlamda, değişkenlikte bir artış olduğu bili-


nen bir gerçektir. Sade nicel bir bakış açısından bakıldığında, ista-
tistiksel doğruluktaki kaybın “sadece asimptotik anlamda” olduğu
ve bu nedenle eldeki veriler için büyük zorlukların beklenmeyeceği
şeklinde bir düşünce ortaya çıkar. Aslında, orta örneklem büyüklü-
ğü için düzleştirme sürecinde güven aralıkları parametrik bir mo-
delden çok daha büyük olmayacaktır. Bununla birlikte, eldeki veri-
lere nitel anlamda, düzleştirme işleminin ne yaptığını da doğal
olarak sormak gerekir. Diğer bir deyişle, nitel engeller (örneğin,
şekil bozulmaları) nelerdir? Ayrıca, ne zaman sınırlı bir veri setine
düzleştirme yapılması beklenir? Bu gibi soruları cevaplamanın en
basit yolu, verilerde hiçbir gürültünün olmadığını varsaymak ve
buna göre bir pürüzsüzleştirme stratejisi izlemektir. Başka bir de-
yişle, verilerin dağılma diyagramlarında izlendiği gibi bunları en
iyi temsil eden bir düzleştirme yöntemi bulmaya çalışmaktır.
Bu stratejilerden biri, bilinmeyen regresyon fonksiyonu ’in
veri kümesi içerisinde yer alan gözlemler konusunda maksimum ya
da tepe noktalardaki davranışı ile ilgilidir. Açıkçası, zirve (tepe)
noktasındaki ’in tahmini, bu maksimum noktayı bir dereceye
kadar düzleştirecektir. Bu davranış, 'nin yerel eğriliğine bağlı olan
sınırlı bir örnek yanlılığı beklememiz gerektiğinin bir göstergesidir.
Bu durum için asimptotik alamda bir çare, o nokta etrafında yer
alan gözlemlerin küçültülmesine (shrink) ya da ayarlanmasına
olanak sağlayan yöntemleri dikkate almak gerekir. Ancak uygula-
mada yukarda ifade edilen verileri ayarlama işlemi sınırlı bir veri
seti altında yapılır. Bu ayarlama Bölüm 5’te, bölümde yer verilen
yöntemlerden herhangi biri ile seçilen düzleştirme parametresi
yardımı ile yapılır. Bu düzleştirme parametresi aynı zamanda tah-
minler ve gerçek değerler arasındaki farka dayanan hata kriterini
optimize eder. Düzleştirme işlemlerinde karşılaşılan en önemli
zorlukların başında böyle bir düzleştirme parametresinin seçimi
gelir. Bu konu ayrıntılı olarak Bölüm 5’te ele alınmıştır.
Herhangi bir düzleştirme yönteminin tahmin değerleri, göz-
lem aralığının sınırına yakın yerlerde iç kısımlara kalan gözlemle-

14
Düzleştirme ve Bazı Kavramlar

rin tahminlerine göre daha az doğru olacaktır. Sınırdaki birkaç


gözlemin ortalaması alınabilir ve bu nedenle kestiricilerin varyans
veya yanı etkilenebilir. Örneğin, kernel ağırlıklarını dikkate alalım.
Gözlem değerlerinin sınır noktalarına yaklaştıkça kernel ağırlıkları
asimetrik olurlar. Bu "sınır etkisi" gözlem aralığının iç kısmında
mevcut değildir, ancak küçük ila orta büyüklükteki bir örneklem
için, gözlem aralığının önemli bir kısmı sınır davranışından etkile-
nebilir.
Bir başka durum ise sıfıra çok yakın değer alan veri (sparse
data) bölgelerinin olduğu durumdur. Örneğin, düzleştirme yöntemi
olarak kernel regresyonu dikkate aldığımızı varsayalım. Kernel
ağırlıkları bu duruma uyum sağlamazsa ortalamalar için gözlem
bulunmadığından ağırlıklar tanımsız olabilir. Bu tanımsızlığı orta-
dan kaldırmanın güvenli bir yolu ağırlıkları değişken aralıklarla
tasarlamaktır. Bu ve benzeri tür sorunlar Bölüm 3'te tartışılmakta-
dır. Bir başka karşılaşılan zorluk durumu düzleştirme yönteminin

olarak burada dikkate alınan yöntemler için harcanan süre, K D


hesaplanma ya da elde edilmesi için harcanan zamandır. Genel

işlemleriyle sonuçlanmaktadır. Bu tür bir algoritma bazı etkileşimli


cihazlara uygulanırsa hesaplamalar işlemin gerçekten etkileşimli
olmadığı kadar uzun sürebilir. Bu nedenle, düzleştirme yöntemle-
rinin sayısal verimliliğine çok dikkat etmek gereklidir. Farklı yön-
temler için hesaplama yönleri, Bölüm 3'te tartışılmaktadır.

1.4. Yan-Varyans Dengesi

bilinmeyen bir fonksiyonu göstersin. Ayrıca, 0 ’de ’in bir kestiri-


Varsayalım g bir yoğunluk ve bir regresyon fonksiyonu gibi

cisini göstersin. Burada belirtmek gerekirse 0 kestiricisi, bir

kestirici veriye bağlı olduğu için rasgeledir. Bu anlamda 0 , bir


noktasında değerlendirilen bir rassal değişkendir. Aynı zamanda bu

fonksiyonunun tahminidir. Burada belirtilen fonksiyon ve

15
Nonparametrik Regresyon Analizi

tahmini arasındaki farka dayanan “kareli hata ve LM -kayıp fonksi-


yonu”,

ND O , 0 P=O − 0 P
D
(1.6)
şeklinde ifade edilir. Kayıp fonksiyonun ortalaması “risk (loss)”
veya hata kareler ortalaması (mean squared error-MSE) olarak
adlandırılır ve aşağıdaki gibi gösterilir:

QR = SO , 0 P= TOND O , 0 P PU (1.7)

gözlenen verilere bağlı olan 0 fonksiyonudur. Bu anlamda risk ve


Eşitlik (1.12) denklemindeki rastgele değişken dolaylı olarak

MSE terimlerini birbirlerinin yerine kullanacağız.


Lemma 1.1: Risk aşağıdaki gibi yazılabilir:
SO , 0 P = 4 V =? D 5 + 4 W=A 5 (1.8)
Bu denklemde

V =? = T0 U− , (1.9)

sabit bir noktasındaki 0 ’in yanını gösterirken,


D
W=A = W=A T 0 U=X0 − T0 U Y, (1.10)

sabit bir noktasındaki 0 ’in varyansını gösterir.


Regresyon ya da düzleştirme problemlerinde esas zorluk, ne
kadar düzleştirme yapılacağını belirlemektir. Veriler çok fazla
düzleştirildiğinde, yan terimi büyük ve varyans küçüktür. Veriler
az düzleştirildiğinde, bunun tersi geçerlidir (bkz. Şekil 1.3). Buna
yan-varyansı dengesi denir. Bu bağlamda riski en aza indirme, yan
ve varyansı dengelemeye karşı gelir. Aşağıdaki Şekil 1.3’te görül-
düğü gibi, eğri tahminlerinin çoğu en uygun şekilde (optimal ola-
rak) yan ve varyansı dengelemeye çalışmayla ilgilidir.

16
Düzleştirme ve Bazı Kavramlar

ZT 0 Z0 T0 U [+\ T 0
D D D
− U [= − U− ]

= W=A T 0 U + V =? D T 0 U

Şekil 1.3: Tahmin ediciler için Yan-Varyans dengesi

Şekil 1.3'teki grafik yan-varyans dengesini göstermektedir.


Düzleştirme miktarı artarken yan artar ve varyans azalır. Dikey
çizgi ile gösterilen optimal düzleştirme miktarı riski miktarını mi-
nimum yapan değerdir.
Lemma 1.1’den risk,
S ?> = QR = = D
= V =? D + W=A = ? = W=A (1.11)
şeklinde yazılabilir. Ayrıca, Lemma 1.1 ve Eşitlik (1.11)’de ifade
edilen tanımlar, bir noktasındaki riski ifade eder. Şimdi, x'in fark-
lı değerleri üzerindeki riski özetlemek istiyoruz. Genelde yoğunluk
tahmini problemlerinde risk,
S g, ^g = 4 S g , ^g 5 (1.12)

17
Nonparametrik Regresyon Analizi

şeklinde ifade edilen “integarli alınan riski (integrated risk)” veya


“integrali alınan hata kareler ortalaması (integrated mean squa-
red error)” ile hesaplanır. Regresyon problemleri için risk,
SO , 0 P = ∑ S` ,0 a= ∑ ` − 0 a = QR
D
(1.13)

biçimde hesaplanan “integrali alınan MSE (integrated MSE)”


veya “ortalaması alınan hata kareler ortalaması (averaged mean
squared error)” ile hesaplanır.

18
Bölüm II

YOĞUNLUK TAHMİNİ

2.1. Giriş

istatistik ve olasılıkta temel bir kavramadır. x'in g


Olasılık yoğunluk fonksiyonu, tek değişkenli veri analizi için
olasılık yo-

lım. Sözü edilen bu g


ğunluk fonksiyonuna sahip rastgele bir değişken olduğunu varsaya-
yoğunluk fonksiyonu, x değişkenin dağı-
lımının doğal bir tanımını verir ve aşağıda verilen denklem yardı-
mıyla ile ilişkili olasılıkların hesaplanmasını sağlar:

b =≤ ≤ G = 4e g 5 =c G −c =
d
(2.1)

Burada c = 4fg g @ 5@ kümülatif dağılım fonkisyonunu


8

gösterir. Belirtmek gerekirse c =b ≤ ve 0 ≤ c ≤ 1.


Burada esas amaç, , … ,
dayanarak g yoğunluk fonksiyonu veya c
örnekleminden alınan veri noktalarına
birikimli dağılım
fonksiyonunu tahmin etmektir.
Yoğunluk tahmin etmek için parametrik ve parametrik olma-

ailesinden, örneğin µ ortalama ve h D varyanslı normal dağılımdan


yan yaklaşımlar vardır. Verilerin bilinen bir parametrik dağılım

alındığını varsayalım. Bu durumda, verilerden µ ve h D tahminleri

larak "g" yoğunluk fonksiyonu, tahmin edilebilir. Bu kitapta, bu tür


bulunur ve bu tahminler normal yoğunluk formülünde yerine yazı-

parametrik tahminler dikkate alınmamıştır. Burada sadece paramet-


rik olmayan yaklaşımlar dikkate alınmıştır. Bu tür yaklaşımlar

dayanır. Parametrik olmayan yaklaşımda, dağılımın "g" olasılık


gözlemlenen verilerin dağılımı hakkında daha az katı varsayımlara

yoğunluğuna sahip olduğu kabul edilmekle birlikte, g'nin belirli bir

19
Nonparametrik Regresyon Analizi

parametrik aileye düşmesi zorunluluğu olsa bile, g’nin tahmininin


belirlenmesinde verilerin kendilerinin daha belirleyici olmasına
olanak sağlanır.
Yoğunluk tahmini, parametrik olmayan regresyon ile yakın-
dan ilgili bir tekniktir. Bu tahmin bir veri kümesinin genel seyrini
ya da izlediği kalıbı incelemek için kullanılır. Yoğunluk tahmini,
yoğunluğun simetrisinin yanı sıra tepe (peaks) ya da maksimum ve
vadiler (walleys) ya da minimumların sayısını ve yerlerini de içerir.
Bu konunun ve uygulamalarının kapsamlı bir açıklaması Terrel ve
Scott (1992), Simonoff (1996) ve Efromovich (1999) da detaylı
olarak verilmiştir. Bu anlamda, tekniğin önemli yönleri izleyen
kısımlarda tartışılmıştır.

2.2. Ampirik Kümülatif Dağılım Fonksiyonu


Ampirik kümülatif dağılım fonksiyonu (empirical cumulative
distribution function-ECDF) kısaca, kümülatif dağılım fonksiyo-
nunun tahminidir. Bu durumu açıklayabilmek için varsayalım tek

ğerleri j = ,…, k
olsun. Ayrıca j bağımsız ve aynı dağılan
değişkenli bir rassal değişkenin gerçekleşmeleri olan gözlem de-

rassal değişken ve bu rassal değişkenin c =b ≤


sahip olduğu varsayılır [j~c ]. Bu bilgilere göre, c l
dağılıma
ile gös-
terilen bir ampirik kümülatif dağılım fonksiyonu (ECDF) aşağıdaki
gibi tanımlanır:

cl = bl ≤ = ∑ I ≤ (2.2)

burada I ≤ = 1 eğer ≤ , aksi durumda 0 değerini alan


bir gösterge fonksiyonudur.

değerine 1/ olasılığı
Eşitlik (2.2)’den anlaşıldığı gibi, ’in örnekle uzayındaki her-
hangi bir A kümesi için ECDF her bir
atar:

bl o = ∑ I ∈o (2.3)

20
Yoğunluk Tahmini

Örnek 2.1: Bir zarın 100 kez atılması deneyinde elde edilen

lımı şeklinde düzenlenmiştir. Bu bağlamda cl , ampirik dağılımı son


sonuçlar (x) aşağıdaki Tablo 2.1’de verildiği gibi bir frekans dağı-

sütündaki gibi elde edilir.

Table 2.1: Frekans dağılımı

cl
Sonuç Frekans Ampirik Dağılım
( ) ( )
1 13 0.13
2 19 0.19
3 10 0.10
4 17 0.17
5 14 0.14
6 27 0.27
Toplam N =100

Tablo 2.1 Bir zarın 100 kez atılmasın deneyinden alınan bir
örneklemi gösteriyor: Eşitlik (2.3)’e göre, ampirik dağılım 100

değerin meydana gelme oranı ile j = ,…,


sonucun her birine 1/100 olasılığı atıyor. Ampirik dağılım, her
örneklerinden
elde edilen değerlerin bir listesidir. Genellikle, örnekte meydana

ler, Tablo 2.1'deki gibi bir kısaltma sağlar. Örneğin = 1 gelme


gelen her değer, yalnızca bir kez görünür. Ancak tekrar eden değer-

sonucu dikkate alındığında,

cl = 1 = bl ≤1 =∑ 1 = = 0.13. Diğerle-
q q

ri de benzer olarak hesaplanır.

sini şu şekide tanımladığımızı varsayalım: o = , r : 0 < < 2,


Tablo 2.1’deki 100 gözlemi dikkate aldığımızı ve bir A küme-

2 < r < 4 . A kümesi incelendiğinde 100 gözlemin 30’u burada


yer almaktadır. Çünkü 30 gözlemlerden biri = 1 olup bu gözlem
13 kez ve diğeri r = 3 olup bu ise 17 kez tekrar etmiştir. Dolayı-
sıyla, bl o = = 0.30. Belirtmek gerekirse, ampirik dağılım bu
q

21
Nonparametrik Regresyon Analizi

30 gözlemin her birine yine 1/100 olasılığı atmasına rağmen, A


kümesi için farklı ampirik olasılıklar elde ediliyor.
Örnek 2.2:
= 57, 61, 57, 57, 58, 57, 61, 54, 68, 51, 49, 64, 50, 48, 65,
52, 56, 46, 54, 49, 51, 47, 55, 55, 54, 42, 51, 56, 55, 51, 54, 51, 60,
61, 43, 55, 56, 61, 52, 69, 64, 46, 54, 47 .
Bu değişkenin histogramı ve iki farklı şekilde görülen ampirik
kümülatif dağılım fonksiyonlarının grafikleri aşağıdaki şekilde
verilmiştir.

Şekil 2.1: X değişkenin histogramı ve ECDF grafikleri

Bu grafikler R’de aşağıdaki komutlar yardımıyla elde edilmiştir:


par(mfrow=c(1,3))
hist(x,ylab=c("Frekans"), main=("x’in Histogramı"))
Fhat = ecdf(x)
plot(Fhat, ylab=c("Kümülatif Oran"),
main=("Ampirik Kümülatif Dağılım Fonksiyonu"))
lines(xseq,punif(xseq))
plot(sort(x),1:length(x)/length(x),type="s",ylim=c(0,1),
xlab="x",ylab=c("Kümülatif Oran"),
main=("Ampirik Kümülatif Dağılım Fonksiyonu"))

22
Yoğunluk Tahmini

Açıkçası ECDF, bir adım (step) fonksiyonu olmasıyla birlikte


temel bir dağılım fonksiyonu için makul bir tahminci gibi görünü-
yor. Bu tahmin edicinin özelliklerini daha iyi anlayabilmek için
aşağıda verilen ifadeler yol gösterici olacaktır.
Önerme (preposition) 2.1: Sabit bir ∈ ℝ noktası için
cl ifadesi ve başarı olasılığı c olan iki parametreli bir

ECDF’in yani, cl ’in beklenen değeri ve varyansı


binom dağılımına sahiptir. Bu yüzden, herhangi bir değeri için

Tcl U= c ve W=A Tcl U=


v 8 fv 8

→ ∞ iken cl
sılıkta c ’e yakınsar.
olarak yazılabilir. Bu durum gösteriyor ki, ola-

uniform (düzgün) olarak c ’e yakınsar. Yani, → ∞ iken,


Teorem 2.1 (Glivenko-Cantelli teoremi): Ampirik dağılım

?@x8∈ℝ ycl
e.z
−c y {| 0.
Burada üst simge =. ?, neredeyse mutlak yakınsamayı gösterir.
Bu bölümde esas amaç, , … , örneklem verilerinden c
veya g
mevcut olduğu varsayılan c k = g yoğunluğu, tahmin edilmek is-
fonksiyonlarını tahmin etmektir. Özellikle türevinin

tenmektedir. Dağılım için parametrik bir model varsaymak yerine


(örneğin, bilinmeyen ortalama ve varyanslı normal dağılım), sade-
ce yoğunluğu mevcut ve uygun şekilde pürüzsüz (örneğin türevi

te alınır. Bu durumda, bilinmeyen g . yoğunluk fonksiyonunu


alınabilen) olduğu varsayılan parametrik olmayan bir model dikka-

tahmin etmek mümkündür.

2.3. Histogram

,…, değerleri !=, G# aralığında bağımsız ve aynı dağılan göz-


Histogram en popüler ve basit olan bir yoğunluk kestiricisidir.

lemler olduğunu varsayalım. Histogramın amacı [a, b] kümesini


birkaç kutuya bölmek ve kutu sayısını bir yoğunluk tahmini olarak

23
Nonparametrik Regresyon Analizi

kullanmaktır. Basitlik olması açısından [0,1] aralığını dikkate aldı-


ğımızı varsayalım. Eğer m sayıda kutu varsa, verisi için şu şekil-
de bir bölünme (ya da sınıf aralıkları) elde edilir:

V = T0, ] , VD = T , ] , … , V} = T , 1]
D }f
} } } }
(2.4)

Bu durumda verilen bir ∈ V~ , • = 1,2, … , B noktası için his-


togramdan elde edilen yoğunluk kestiricisi,

g$ =T U×T U(2.5)
ˆ‰ ç 9…‹ „ö•†…}†…Ž ze6•z•
€ •‚ƒ‚ ‚ „… ş† ğ

Kutu genişliği, ℎ = , V~ ’deki gözlemlerin sayısı ‘~ ve


}
x̂ ~ = ‘~ / olarak tanımlanacak olursa (2.5) eşitliğinde verilen

x̂ /ℎ ∈V
histogram kestiricisi,

x̂ D /ℎ ∈ VD
g$ =“
⋮ ⋮
x̂ } /ℎ ∈ V}
(2.6)

olarak ifade edilir. Böylece, (2.6)’da verilen histogram kestiricisi


daha kompakt bir şekilde aşağıdaki gibi yazılabilir:

g$ = ∑~ – ∈ V~ = ∑~ –O ∈ V~ P = ∑~ –O ∈ V~ P (2.7)
•$‰ }
€ €

Bu tahmin edicinin beklenen değeri ve varyansı aşağıdaki teo-


remde verilmiştir.
Eşitlikler (2.4) ve (2.5)’ten anlaşıldığı gibi, gerçek doğru (veri
aralığı) eşit büyüklükteki aralıklara (bölmeler (bins) olarak adlan-
dırılan) bölünerek histogram oluşturulur. Histogram, orijinde baş-
layan ve yükseklikleri her bir bölmede bulunan örnek noktalarının
sayısıyla orantılı olan bir adım fonksiyonudur. Kutu genişliği ve
orijin verinin özelliklerini gösterecek şekilde seçilmesi gerekir.
Teorem 2.2 (Wasserman, 2004): Sabit bir ve B
dikkate alınsın ve V~ açıklayıcı değişkeninin içeren kutu olsun. O
zaman, g yoğunluğunun beklenen değer ve varyansı,

24
Yoğunluk Tahmini

!g$ #= = ve W=A!g$ #=
— •$‰ •‰ •‰ f•‰
€ € €˜
(2.8)

olarak tanımlanır.

x̂ ~ = ‘~ / ve x̂ ~ = g @ 5@ olsun. Burada ‘~ , !=, G# ‘™ @ ∈ V~ .


4e
d
Histogram kestiricisinin motivasyonunun anlamak için

Ayrıca ℎ yeteri kadar küçük bir sayı olsun. Bu durumda,

x̂ ~ x~ 4 g @ 5@ g
d

!g$ #= = = e ≅ =g
ℎ ℎ ℎ g
Örnek 2.3 (Gayzer veri seti): Bu veriler ABD’nin Wyoming
şehrinde Yellowstone Ulusal Parkı'ndaki eski sadık Gayzerin pat-
lamaları ve patlamaları arasındaki sürelerinden (dakika olarak) elde
edilmiştir. Bu verisi seti iki değişken üzerinden toplanan 272 göz-
lemden oluşmaktadır (Hardle,1991). Bu değişkenlerden püskürtme
sürelerine ilişkin histogramı ve bundan elde edilen yoğunluk değer-
leri aşağıdaki Şekil 2.2’de gösterilmiştir.

Aralıklar Frekans c g$
[1.5, 2) 55 0.202 0.4044
[2, 2.5) 37 0.338 0.2721
[2.5, 3) 5 0.357 0.0 68
[3, 3.5) 9 0.390 0.0662
[3.5, 4) 34 0.515 0.2500
[4, 4.5) 75 0.790 0.55 5
[4.5, 5) 54 0.989 0.3971
[5, 5.5) 3 1.000 0.0221

Şekil 2.2: Eski bir gayzerin patlaması sonucunda oluşan püskürtme


sürelerinin histogramları ve bu verilerin frekans, kümülatif frekans
(CDF) ve yoğunluk dağılımları.

genlerin yani sınıfların aralıkları ve yoğunlukları (g$ ), sırasıyla


Yukardaki Şekil 2.2’de görülen histogramı oluşturan dikdört-

(2.4) ve (2.6) eşitlikleri kullanılarak oluşturulmuştur. Bu histog-


ramda görülen dikdörtgen kutuların genişliği yani h=0.5 alınmış ve

25
Nonparametrik Regresyon Analizi

V = 1.5, 2#, VD = 2, 2.5#, … , V› = 5, 5.5# olmak üzere 8 kutu


buna göre 8 sınıf ya da kutu oluşturulmuştur. Gayzer verisi için

ve bu kutuların her birine düşen gözlem sayıları sırasıyla 55, 37, …


,3 olarak bulunmuştur. Şekil 2.2’ye göre püskürtme sürelerin en
yoğun olduğu aralık (4-4.5] olduğu görülmektedir. Verinin yakla-
şık %40’ı bu aralıkta gerçekleşmektedir. Ancak, sınıf genişliği
değiştikçe farklı sonuçlar elde edilebilir. Bu nedenle, histogram ve
yoğunluk tahmininde sınıf genişliği önemli bir etkiye sahiptir.
Bu durumu gösterebilmek için Şekil 2.3’te farklı histogramlar
verilmeye çalışılmıştır. İlk olarak x’in histogramda, kutuların ge-
nişlikleri eşit ve her sınıfa düşen gözlem sayıları sınıf kutlarının
üzerlerinde gösterilmiştir. Sınıfları ayıran nokta sayısı (kutu sayısı)
4 alındığında, yine eşit aralıklı farklı bir histogram elde edilmiştir.
Daha önceden belirtildiği gibi, burada az sayıda kutu, aşırı düzleş-
tirmeye yol açmaktadır. Örneğin, bant genişliği 0.10 alındığında
fazla sayıda kutu elde edilmekte ve bu durumda az düzleştirmeye
yol açmaktadır. Son olarak faklı sınıf aralıklarına sahip olan bir
histograma da Şekil 2.3’ün sağ alt köşesinde yer verilmiştir.

Şekil 2.3: Eski bir Gayzerin patlaması sonucu püskürtme sürelerine


ilişkin ferkans ve yoğunluk grafikleri

26
Yoğunluk Tahmini

Verilerin sunumu ve araştırılması için özellikle tek değişkenli


durumda, histogramlar son derece yararlı bir yoğunluk tahmini
sağlarlar. Ancak, histogramda bir boyutta bile orijin seçimi oldukça
etkili olabilir. Örneğin, Şekil 2.3’ün sol altındaki grafikte, orijin ve
iki modun ayrılması konusunda diğerlerinden farklı izlenimler
vermektedir. Bu grafikler, düzleştirmedeki zorlukları gösteriyor.
Kutu yükseklikleri genellikle gerçek yoğunlukları izlemesine rağ-
men, onlar grafikten grafiğe değiştikleri görülüyor. Özellikle 0.10
bant genişlikli grafikteki kestirici, düşük yan fakat büyük varyansa
sahiptir. Diğer yandan farklı sınıf aralıklı ve “breaks=4” olan gra-
fikler ise öncekinin aksine aşırı bir düzleştirmeyi gösteriyorlar. Bu
grafiklerde kutu yükseklikleri oldukça durağan, fakat gerçek yo-
ğunluğu çok iyi takip etmiyorlar. Yani, kestirici küçük varyans ve
büyük yana sahiptir.

2.3.1. Histogram Özellikleri


Histogramın şekli iki parametre tarafından yönetilir: bant ge-
nişliği (h) ve kutunun orijin seçimi ( ). Orijin seçimine bağımlı-
lıktan histogramı kurtarmanın en uygun yolu histogramın ortala-
masını değiştirmektir. Uygun bir h’ın seçiminde ikna edici ve uy-
gulanabilir bir kuralın ortaya konması Bölüm 5’te tartışılmıştır.

meyen özellikleri korur: Bunlardan birincisi, histogram V~ aralığı


Histogram orijin seçimine bağımlılıktan kurtulsa bile, bazı isten-

içindeki her 'e g için aynı tahmini atar. Bu aşırı derecede kısıtla-
yıcı görünüyor. İkincisi, histogram sürekli bir fonksiyon değildir,
ancak kutuların sınırlarında atlamalara sahiptir. Histogram sıçrama
noktalarında türevlenebilir değildir ve bunun dışında sıfır türev
vardır. Bu durumda pürüzsüz, sürekli bir pdf tahmin edilmek isten-
diğinde, özellikle istenmeyen bir histogramın pürüzlü görüntüsüne
yol açar.
Yukarda ifade edildiği gibi, histogram kestiricisinin en önemli
özelliği, h ile gösterilen dikdörtgen kutuların genişliğine (veya
eşdeğer olarak dikdörtgen kutuların sayısı) bağlıdır. Optimum bir

27
Nonparametrik Regresyon Analizi

düzleştirme parametresi kullanılarak elde edilen g ’in bir kestiri-


cisi olan g$ ’i matematiksel olarak değerlendirmenin en basit
yolu, aşağıda ifade edilen kareli hata (squared error-SE) ölçüsünü,
SE = !g − g$ #D
ve bu eşitliğin beklenen değeri olan hata kareler ortalamasını
(mean squared error-MSE),
MSE = !g − g$ #D
dikkate almaktır. Ayrıca, bütün destek aralığı üzerinde doğruluk
genellikle önemli olduğu için bazı durumlarda integrali alınan hata
kareli hata (integrated squared error-ISE),
Ÿg
–R =E Og − g$ P 5
fg

ve bunun beklenen değeri de (mean integrated squared error-MISE)


ilgi çekmektedir. Herhangi bir kutudaki histogram kestiricisinin
değeri bir binom dağılımı izler:
~€
–O ∈ V~ P = b –O ∈ V~ P = 1¡ = E g 5
~f €

aksi durumda yani,


~€
–O ∉ V~ P = b –O ∉ V~ P = 0¡ = 1 − E g 5
~f €

Bu nedenle g$ ’in gerçek MSE değerini hesaplamak müm-


kündür. Ancak, asimptotik (yani, örneklem hacmi ⟶ ∞) MSE

kutu başına düşen gözlem sayısı arttıkça ⟶ ∞ , kutuların da-


değerini incelemek daha basittir. Kestiricinin tutarlı olması için

ralması gerekir. Diğer bir deyişle, ℎ ⟶ ∞ iken, ℎ ⟶ 0. Temel


yoğunluk fonksiyonu yeteri kadar pürüzsüz ( g′ fonksiyonu
mutlak sürekli ve kare integrali alınan) ise o zaman yoğunluk kesti-
ricinin yan ve varyansları sırasıyla aşağıdaki gibi ifade edilir:

28
Yoğunluk Tahmini

x~
= Og$ P = E!g$ #−g = −g

= gk `ℎ − 2O − G~ Pa + ¤ ℎ D , ∈ G~ , G~Ÿ #
D
(2.9)

W=AOg$ P= +¤
7 8 f

(2.10)

Böylece, kareli yan ve varyansın birleştirilmesi sonucu histog-


ramın MSE değeri elde edilir:

QR Og$ P= ¥Og$ −g P ¦= = D Og
$ P + W=AOg$ P
D

= + `ℎ − 2O − G~ Pa + ¤ + ¤ ℎq
7 8 7§ 8 ˜ D f
€ ¨
(2.11)

Böylece, MSE değerini minimum yapan ℎ genişliği, ne aşırı


düzleştirme ne de az düzleştirmeye neden olan bir histogram üretir.
Bu konuda ayrıntılı bilgi Jeffrey S. Simonoff (1996), Wasserman
(2004) ve Hardle vd. (2004) kitaplarında bulunabilir.

2.3.2. Frekans Poligonu


Verilerin sunumunda histogramların faydası ne olursa olsun,
özlerinde parçalı sabit olmasında dolayı onlar, pürüzsüz bir yoğun-
luk fonksiyonunun yeterli bir tanımını sağlamadığı açıktır. Daha
doğru tahmin edicinin mutlaka daha pürüzsüz olması gerekir. Bir
histogramı daha pürüzsüz göstermenin en basit yolu, histogramı
oluşturan dikdörtgen kutuların üst orta noktalarını birleştirerek
doğru parçalarından oluşan bir eğri çizmektir. Ortaya çıkan bu
eğriye frekans poligonu (frequency polygon) denir. Frekans poli-
gonu sürekli, ancak kutuların orta noktalarında türevleri tanımlı
değildir.
Varsayalım ™ , … ™•Ÿ kümesinin elamanları ℎ uzunluklarına

, … • ve bu kutu aralıklarının orta


sahip kutuların kenarlarını göstersin. Bu kutların içerisine düşen

noktaları 5 , … , 5•Ÿ olarak tanımlansın. Örneğin, burada belirt-


gözlem sayıları sırasıyla,

mek gerekirse kutuların orta noktaları aşağıdaki gibi ifade edilir:

29
Nonparametrik Regresyon Analizi

O…‰ Ÿ…‰©ªP
5~ = , • = 1,2, … , «, 5 = ve 5•Ÿ =
…ª f€ …¬©ª Ÿ€
D D D

Bu bilgilere göre histogram poligonu,

g$ = ` ~ 5~Ÿ − ~Ÿ 5~ + O ~Ÿ + ~P a, ∈ ` ~, ~Ÿ a
€˜
(2.12)
olarak tanımlanır. Burada = •Ÿ ≡ 0. Ayrıca, frekans poligo-
nu altında kalan bölgenin alanının bire eşit olduğunu belirtmekte
fayda vardır.
Örnek 2.4 (Gayzer veri seti): Frekans poligonunun oluşumu
göstermek için önceki bölümde verilen Gayzer veri seti dikkate
alınmıştır. Bu veri seti için histogramlara dayalı frekans poligonu-
nun oluşumlarını gösteren örnekler Şekil 2.4’te gösterilmiştir. Şekil
2.4’te görüldüğü gibi, sonuçta elde edilen her bir yoğunluk tahmi-
ni, basitliğini ve yorumlama kolaylığını koruyarak yoğunluğun
histogramdan daha estetik olarak hoş bir gösterimini sağlar.

Şekil 2.4: Gayzer verisi için püskürtme sürelerinin histogramına dayalı


frekans poligonlarının oluşumlarının gösterimi

30
Yoğunluk Tahmini

2.3.3. R’de Hesaplama


Regresyonda histogramlar, bağımsız ve bağımlı değiş-
kenlerinizin dağılımını göstermek için kullanılabilir. R program-
lama dilinde histogram için temel fonksiyon “hist(.)” olmasına
karşın, daha karmaşık histogramlar için “ggplot2” paketi kullanıla-
bilir. Bununla birlikte, R programında, “hist(data,breaks=k)”
komutta yer alan “(breaks=k)” kısmındaki k yerine sayısal bir
değer verilerek “eşit uzunluklu” düzleştirme parametresi (veya h
değeri) içeren kutular elde edilir. R verileri ayırmak için algoritma-
sını çalıştırdığı için bu kutuların sayısı, tam olarak verdiğiniz sayı-
ya karşılık gelmez. Ancak genellikle girdiğiniz k değeri, karşı ge-
len kutu sayısını verir. Ayrıca, “breaks=c(k1,k2,…,kr)” komutu
yardımıyla sınıfları ayıran noktalar, bir vektör olarak tanımlanabi-
lir. Bu durumda “farklı genişliğe sahip” sınıf ya da kutular elde
edilir. Optimum bir h değerinin seçimi ile ilgili detaylar için Bölüm
5 incelenebilir.
Frekanslar örnek büyüklüğüne bağlı olduğu için genelde, de-
ğişkenlerin dağılımı söz konusu olduğunda, frekanstan ziyade yo-
ğunluğa daha çok ilgi duyulur. Diğer bir deyişle, kutu başına düşen
veri noktaları saymak yerine, bunların olasılık yoğunluklarını dik-
kate almak daha çok ilgi uyandırmaktadır. Hist fonksiyonunda
“freq=FALSE” veya prob=TRUE, seçeneğini kullanarak frekans
yerine olasılık yoğunluklarını elde edilebilir. Yoğunluk tahminle-
rinin çok doğal bir kullanımı, belirli bir veri kümesinin özellikle-
rinin gayriresmî araştırmasındadır. Yoğunluk tahminleri, veriler-
deki çarpıklık ve çok modlu olma gibi özelliklerin önemli göster-
gelerini verebilir. Bazı durumlarda onlar, açık bir şekilde doğru
kabul edilebilecek sonuçlar verirken bazen de daha fazla veri
toplama veya analiz yapma gibi yolları işaret ederler (Ekte R-
kodları sunulmuştur).

31
Nonparametrik Regresyon Analizi

2.4. Kernel Yoğunluk Tahmini


Önceki bölümde, ampirik bir frekans dağılımının grafiksel
gösteriminde histogramın uygun bir araç olduğu ifade edilmiştir.
Ayrıca, histogram bilinmeyen bir olasılık yoğunluk fonksiyonunu
tahmin etmek için de yaygın olarak kullanılan bir yöntemdir. An-
cak, histogramın bazı eksiklikleri vardır ve bu anlamda kernel yo-
ğunluk tahmin yöntemi, birçok açıdan histograma göre tercih edi-
lebilir. Kernel yoğunluğunu kestiriminde orijin seçme problemi
yoktur, ancak burada bant genişliği seçim problemi söz konusudur.
Aşağıda bahsedildiği gibi uygulamada farklı kernel fonksi-
yonları olmasına rağmen, aşağıda iki kernel fonksiyonu örneği
verilmiştir. Bunlardan biri “Epanechnikov kernel ”,
±˜
X f Y
« =®
°̄ ²
| | < √5
ë
0 µ ğ™A µ@A@B¶=A5=
olarak ifade tanımlanırken bir diğeri “normal (guassian) ker-

1
nel ”,

« = ™ x T− U
· 2¸ 2

olarak tanımlanır. Bu bilgilerden sonra kernel yoğunluk kestirici-


sinin ilişkin bir tanım verilebilir.
Tanım 2.1: Verilen bir K kernel ve bant genişliği (bandwidth)
olarak adlandırılan pozitif bir h için kernel yoğunluk kestiricisi
(kernel density estimator),
g$ , ℎ = ∑ «T U= ∑ «T U= ∑ «€ −
8f8¹ 8f8¹
€ € € €
(2.13)

olarak tanımlanır.

, = 1,2, … , veri noktası, h ile gösterilen bir bant genişlikli (ör-


Kernel yoğunluk tahmininin altında yatan temel düşünce, her

neğin, bu veri noktaların bir standart sapması olarak düşünülebilir)

32
Yoğunluk Tahmini

ve nokta üzerinde merkezli belirli bir dağılımla (tipik olarak normal)


yer değiştirilir. Normal dağılımlar bir araya getirilir ve bir birim
alana sahip olacak şekilde ölçeklendirilen sonuç dağılımı, eşitlik
(2.13) ile verilen kernel yoğunluk tahmini olan düzgün bir eğridir.

(1962), g
Klasik bir yaklaşım olarak Rosenblatt (1956) ve Parzen
fonksiyonunu tahmin etmek için (2.13) denklemini

histogram kutuların toplamı olarak düşünülebilir. Burada « ile


önermişlerdir. Rosenblatt ve Parzen tahmini, gözlemlerde ortalanan

gösterilen kernel fonksiyonu tümseklerin (aşağı yönlü tek tepeli


eğri)” şeklini belirlerken onların genişliklerini h sembolü ile göste-
rilen pencere genişliği (bant genişliği) ya da düzleştirme paramet-

«T U
8f8¹
resi belirler. Bu konuyu açıklamak için bir grafiksel gösterim Şekil

€ €
2.5’te verilmiştir. Burada 7 veri noktasına karşı gelen

oluşturulan yoğunluk tahmini (g$) de gösterilmiştir. Böyle küçük bir


bireysel tümseklerin gösterilmesinin yanı sıra bunları toplayarak

numuneden bir yoğunluk tahmini yapmanın genellikle uygun ol-


madığı, ancak netlik amacıyla 7 büyüklüğünde bir numunenin kul-
lanıldığı vurgulanmak gerekir.

= −1.3, … . , º = 1.9
Belirtmek gerekirse Şekil 2.5, Eşitlik (2.11)’de verilen kernel

durumu ve ℎ=0.5 bant genişlikli standart bir normal kernel (yani,


yoğunluk kestiricisinin belirli 7 gözlem,

« = O1/√2¸P™ f8 /D standart normal yoğunluk) için nasıl ça-


˜

lıştığını göstermektedir. Kernel yoğunluk kestiricisi, her bir göz-


lemde ölçeklendirilmiş bir çekirdeğin merkezlenmesiyle oluşturu-
lur. Bu durumda, bir noktasındaki kernel tahmininin değeri, o

şıldığı gibi, kernel tahmini 1/ ağırlıklı her bir “tümseği (aşağı


noktadaki 7 çekirdeğin ordinatlarının ortalamasıdır. Buradan anla-

yönlü tek tepeli eğri)” pürüzsüz bir şeklide çoğaltır. Dolayısıyla,


her bir veri noktasındaki birleşik katkı, çok gözlemin olduğu bölge-
lerde daha büyük olacaktır. Açıkçası, bu bölgelerde yoğunluğun
nispeten büyük bir değere sahip olması beklenmektedir. Tersi bir
durum göreceli olarak az gözlem bulunan bölgelerde ortaya çıkar.

33
Nonparametrik Regresyon Analizi

Şekil 2.5: Kernel yoğunluk tahmincisinin genel gösterimi

Şekil 2.5: Kernel yoğunluk tahmincisinin nasıl çalıştığını gös-


termektedir: Diyagramda 7 tane belirli veri noktaları çizgilerle
gösterilmiştir. Standart normal kernel fonksiyonları her veri nokta-
sında ortalanır (centered) ve daha sonra kernel yoğunluk tahmini,

ℎ = 0.5 bant genişliği ve !−3, +3# aralığında belirlenen kernel


söz konusu bu kernel fonksiyonlarının normlu toplamından oluşur.

fonksiyonları = −1.3, −1, −0.3, −0.5, 0, 1, 1.9 olarak alı-


nan 7 veri noktası tarafından kontrol edilmektedir. Kısaca yoğun-
luk tahmini 7 veri noktasından türetilmiştir.
Uygulamada kullanılan farklı tipte kernel fonksiyonları var-
dır. Ancak kernel fonksiyonunun seçimi bant genişliğinin seçimin-
den daha az önemsizdir. Kernel fonksiyonları aşağıda verilmiştir:

i. Normal (gaussian) kernel: « @ = ™ , @ ∈ !−∞, +∞#


ª̃
Tf ‚˜U
√D¼

ii. Düzgün kernel (uniform): « @ = D , @ ∈ !−1, +1# veya I |@| ≤ 1


iii. Üçgensel (triangular) kernel: « @ = 1 − |@| , @ ∈ !−1, +1#
iv. Tricube kernel: « @ = › 1 − |@|q q , @ ∈ !−1, +1#,
º

34
Yoğunluk Tahmini

v. Epanechnikov kernel: « @ = 1 − @D , @ ∈ !−1, +1#,


vi. Dördüncü dereceden kernel (biweight): « @ = 1 − @D D ,


´
¾
@ ∈ !−1, +1#
vii. Altıncı dereceden kernel (triweight): « @ = qD 1 − @D q ,

@ ∈ !−1, +1#
viii. Cos kernel: « @ = ¨ ¿À? T D @U , @ ∈ !−1, +1#
¼ ¼

|Á|
ix. Silverman kernel: « @ = D ™ sin T + U
f |‚| ¼
√˜
√D ¨

Bu maddelerde @ = − /ℎ olarak ifade edilebilir. Bu


fonksiyonların bazıları ile elde edilen kernel yoğunlukları aşağıda
verilen Şekil 2.6’da görülmektedir.

Şekil 2.6: Sıfır etrafında üretilen kernel yoğunlukları

35
Nonparametrik Regresyon Analizi

Belirtmek gerekirse bir ağırlıklandırma fonksiyonu olarak ör-


neğin Epanechnikov kernel kullanılacak olursa eşitlik (2.13)’te
ifade edilen kernel yoğunluk kestiricisi aşağıdaki gibi yeniden ya-
zılabilir:

1 3 − D −
g$ = ë @ = à :1 − T U Ä I TÅ Å ≤ 1U 2.14
ℎ 4 ℎ ℎ ℎ

Burada daha önce belirtildiği gibi, @ = − /ℎ. Yukarıda


da grüldüğü gibi, bir kernel yoğunluk kestiricisini oluşturmak için
bir kernel K fonksiyonu ve pürüzsüzleştirme miktarını kontrol eden

riyor ki « seçiminin çok önemli değil, ancak, bant genişliği h’ın


h>0 değerini seçmemiz gerekir. Teorik ve ampirik bulgular göste-

seçimi çok önemlidir. Bu konu S’de hesaplanmanın yanı sıra, düz-


leştirme parametresinin seçimi konusunda ele alınmıştır.

2.4.1. Kernel Yoğunluk Kestiricilerinin Özellikleri


Kernel yoğunluk tahmini, rastgele bir değişkenin olasılık yo-
ğunluk fonksiyonunu tahmin etmenin parametrik olmayan bir yo-
ludur. Kernel yoğunluk tahmini, sonlu bir veri örneğine dayalı
olarak kitle hakkında çıkarımların yapıldığı temel bir veri düzleş-
tirme problemidir. Kernel yoğunluk tahmin edicileri daha pürüz-
süzdür ve histogramlardan ziyade gerçek yoğunluğa daha hızlı
yaklaşırlar. Ayrıca, histogramlar süreksizdir.
Varsayalım , … ,
veriler olsun. Bu bağlamda, « herhangi bir kernel fonksiyonu ol-
bir g dağılımından alınan gözlemlenen

mak üzere, şu özelliklere sahiptir:


Ÿg
« ≥ 0, « =« − , E « 5 =1
fg
Ÿg
4fg « 5 = 0 ve h•D ≡ E « 5 >0
Ÿg D
fg

36
Yoğunluk Tahmini

Kernel fonksiyonları, rastgele değişkenlerin yoğunluğunu


tahmin etmek için ve parametrik olmayan regresyonda ağırlık

« . kernel, şu dört koşulu sağlayan basit bir fonksiyondur.


fonksiyonu olarak kullanılır. Bu özelliklerden anlaşıldığı gibi

(i.) « ≥ 0 gösteriyor ki yoğunluk olan kernel fonksiyonunun

(ii.) Kernel fonksiyonunun değerleri hem − hem de


değeri negatif olamaz.
için
aynıdır yani simetriktir (genellikle sıfır etrafında simetriktir).

simum değerinin (B= « @ ) eğrinin ortasında olmasını sağ-


Kernel fonksiyonunun simetrik özelliği, fonksiyonun mak-

lar.
(iii.) Fonksiyonun eğrisinin altındaki alan bire eşit olmalıdır.
(iv.) Beklenen değeri sıfır ve sabit varyanslı gerçek bir fonksi-
yondur.
Bu bölümde, kernel yoğunluk kestiricinin güvenilir ve pratik

"g" yoğunluğundan alınan ,…,


kullanım sağlayan teorik özelliklerinden bazıları verilmiştir. Bir

olduğumuzu varsayalım ve « . ’da bir kernel ağırlık fonksiyonu


rassal değişkenlerine sahip

olsun. Bu durunda, verilen bir ℎ değeri için g$ ’in beklenen de-


ğeri şu şekilde ifade edilir:

1 − 1 −
!g$ #= Ã \« T U] = Ã \« T U]
ℎ ℎ ℎ ℎ
1
= Ã O«€ − P = !«€ −x #

1 −@
= E«T U g @ 5@
ℎ ℎ
= E« r g − rℎ 5r 2.15

Burada r = dönüşümü yapıldığında, @ = − rℎ olur.


8f‚

37
Nonparametrik Regresyon Analizi

Eşitlik (2.15)’ten anlaşılan o ki bant genişliği ℎ → 0 olduğun-


da, !g$ # ⟶ g 4 « r 5r = g olduğundan g$
g ) yoğunluk fonksiyonun asimptotik yansız bir kestiricisidir.
tahmini,

Buradan görünen o ki bant genişliği büyük ölçüde örneklem boyu-


tuna bağlıdır. Bu nedenle, örnek boyutu büyüdüğünde bant genişli-
ği küçülme eğilimi gösterir.
Kernel yoğunluk kestiricisi için yan (bias) değeri,
V =?!g$ # = !g$ #−g = 4« r g − rℎ − g 5r (2.16)
olarak yazılabilir. Şimdi, temel yoğunluk g
türevi g kk
fonksiyonun ikinci

nu varsayalım. Sonra, etrafında bir Taylor serisinde g − rℎ 'yi


’in kesinlikle sürekli ve kare integrallenebilir olduğu-

genişletirsek şu ifade elde edilir:


ℎ D r D kk
g − rℎ = g − rℎg k + g + À ℎD
2

ℎ → 0 iken yoğunluk tahmin edicisinin yanlılığı şu şekilde ifade


Böylece, kernel fonksiyonuna yüklenen koşullar kullanılarak

edilebilir:
ℎ D kk
V =?!g$ #= g h•D + À ℎ D 2.17
2
Burada h•D = 4 r D « r 5r.
Bu bilgilerden sonra tahmin edilen kernel yoğunluk fonksiyo-
nun varyansı, (2.15)'te verilen benzer adımlar kullanılarak hesapla-
nabilir:

38
Yoğunluk Tahmini

1
W=A!g$ # = W=A Ê Ã «€ − Ë

1 1
= D
à W=AO«€ − P= W=AO«€ − P

1
= O `«€D − a− !«€ − # DP

1 1 1 −@
Burada

O `«€D − aP = E «D T U g @ 5@
ℎ D ℎ

!«€ #=g
ve
− +À ℎ

açılımı ve benzer değişken ikamesi gösteriyor ki, ℎ → ∞ iken


kullanarak (2.17)’de verilen yanın elde edilmesindeki gibi Taylor

1 1
kernel yoğunluk fonksiyonun varyansı, şu şekilde elde edilebilir:

W=A!g$ #= S « g +ÀX Y 2.18


ℎ ℎ
Burada S « = 4 « D r 5r = ‖«‖DD (« k Î >=A™¶ ÀAB@).
Örnek (Kernel eğrilerinin oluşturulması): Elimizde 71 tane
kargo kolisinin ağırlıklarını gösteren ~ = 10,11,12, … . , 69,70

= 35, 40, 55 için Gauss


gözlem değerleri olsun. Bunlar arasından alınan, üç kargo kolisinin
ağırlıklarını gösteren veri noktaları
kernel fonksiyonunu kullanarak her bir veri noktasında kernel eğri-
sini ve bu eğrileri gösteren yoğunlukların ortalamasından oluşan
kernel yoğunluk kestiricisini oluşturmaya çalışalım.
Çözüm:
veri noktaları etrafındaki ~ noktaları dizisinden kernel
eğrilerini oluşturmak için ℎ düzeltme (ya da bant genişliği) para-
Bu

metresinin değeri gereklidir. Bu değerin yani, ℎ = 5 olduğunu


varsayalım. Bu örnek veri setlerini kullanarak verilen optimum

39
Nonparametrik Regresyon Analizi

bant genişliğini için (2.13)’teki denklem yardımıyla kernel yoğun-


luğunu tahmin etmek için Gauss kernel fonksiyon denklemi dikka-
te alınır:
1 1 1 1 − D
« @ = ™ x X− @D Y = ™ x Ð− T U Ñ
~
ℎ√2¸ 2 ℎ√2¸ 2 ℎ
=o×V

8¹f8‰ D
Burada o = ´√D¼ ve V = ™ x X− D T ´
U Y. Bu değerlerinin
hesaplanması sonucu elde edilen bilgiler aşağıda verilen tabloda
gösterilmiştir.

~ o V « @ ~ ve « @ , kernel eğrisini
=o×V görselleştirmek için aşağıdaki
şekilde verilmiştir.
10 35 0.079809 3.72665e-06 2.97419e-07
11 35 0.079809 9.9295e-06 7.92461e-07
12 35 0.079809 2.54193e-05 2.02868e-06
⋮ ⋮ ⋮ ⋮ ⋮
70 35 0.079809 2.74879e-43 2.19377e-44
Toplam 1

Benzer şekilde, gözlemlenen üç veri noktası içinde kernel


fonksiyonun değerleri, aşağıda verilen tablo ve şekildeki gibi tah-
min edilir.

g$ =
~ « = 35 « = 40 « = 55 ∑q «
D q q

10 2.97419e-07 1.21548e-09 2.05648e-19 9.95449E-08


11 7.92461e-07 3.95564e-09 1.21946e-18 2.65472E-07
12 2.02868e-06 1,23684e-08 6.94769E-18 6.80351E-07 Üç farklı noktaları

⋮ ⋮ ⋮ ⋮ ⋮
için kernel eğrileri

70 2.19377e-44 1.21548e-09 0.000886594 0.000295532


Top 1 1 1 1

40
Yoğunluk Tahmini

Şimdi, tüm veri seti için bileşik yoğunluk değerleri hesapla-


nır. Basitçe tüm 'deki kernel değerleri toplanarak tahmin edilir.
Yukarıdaki tabloya referansla, tüm veri seti için kernel yoğunluk
kestiricisi, tüm satır değerleri toplanarak elde edilir. Toplam daha
sonra, bu örnekte üç olan veri noktalarının sayısına bölünerek
normalleştirilir. Kernel yoğunluk kestiricisi, eğrisi altındaki alanı
bire getirmek için normalizasyon yapılır. Bu nedenle, her için
kernel yoğunluk kestiricisini hesaplama denklemi şu şekilde ifade
edilir:

1 1 8¹f8‰ ˜
« = Ã ™ D €
f T U

~
ℎ√2¸

Burada = 3 veri noktalarının sayısıdır. Üç normalleştirilmiş

luk kestiricisi [g$ = q ∑q « − kırmızı çizgi], Şekil 2.7’de


kernel yoğunluklarının tümü toplanarak elde edilen kernel yoğun-

gösterilmiştir. Aşağıda verilen R-kodları kullanılarak bu şekil elde


edilmiştir.

Şekil 2.7: Her bir veri nokarsı etrafındaki kernel fonksiyonlarının


grafikleri (koyu siyah çizgilerler gösterilen eğriler) ve onların toplamların-
dan oluşan kernel yoğunluk kestiricinin garfiği (kımızı çizgi ile verilen eğri).

41
Nonparametrik Regresyon Analizi

R-Kodları:
data <- c(35,50,55,70)
plot(NA,NA,xlim = c(10,100),ylim = c(0,0.035),xlab =
'X',ylab = 'K = [density]')
h = 5
kernelpoints <- seq(10,90,1)
kde <- NULL
for(i in 1:length(data)){
z <- (kernelpoints-data[i])/h
multi <- 1/(sqrt(2*pi))
kerneld <- ((multi)*exp(-0.5 *
z^2))/(length(data)*h)
lines(kernelpoints,kerneld, lwd = 3)
kde <- cbind(kde,kerneld)
}
kde_sum<- rowSums(kde)
lines(kernelpoints,kde_sum, lwd = 3, col = 'red')
grid(20,20)

Bir kernel fonksiyonun bant genişliği (ℎ), verileri uygun şe-

yoğunluğu çok fazla varyansla tahmin ederken ℎ’ın yüksek değeri


kilde tahmini için önemli bir rol oynar. Düşük bir bant genişliği,

büyük sapma üretir. Bu nedenle, ℎ'ın optimal değerinin tahmini, en


anlamlı ve doğru yoğunluğu oluşturmak için çok önemlidir. Bu
durum bir sonraki kısımda açıklanmıştır.

2.4.2. R’de Hesaplama


Kernel tahmini, uygun bir h değeriyle hesaplandığında, her-
hangi bir varsayım yapmadan, örneğin normal bir dağılım olduğu
varsayımı olmadan popülasyon yoğunluğu fonksiyonunun iyi bir
tahminini verir. Bu, normallikten sapmanın yaygın olduğu analitik
bilimden örneklerde faydalıdır. Hesaplamalar kolayca programla-
nabilir ve grafik olarak üretilebilir. Tek komplikasyon h için uygun
bir değerin belirlenmesidir. Bu seçim bağlama özgüdür ve deneyim
ve yargı gerektirir.

42
Yoğunluk Tahmini

Tek değişkenli (veya çok değişkenli) kernel yoğunluğu tah-


mini sağlayan çeşitli R paketlerinde çok sayıda fonksiyon vardır.
Kapsamlı olmayan bir örnek listesi (örneğin, www.RSeek.org site-
sinde arama "kernel density estimation" terimi ile bulunur) şunları
içerir: density fonksiyonu, KernSmooth R-paketleri (Wand
vd., 2015), sm (Bowman ve Azzalini, 2014)), C (Hayfield ve Raci-
ne, 2008), feature (Duong ve Wand, 2015), ks (Duong vd.,
2022) ve kedd fonksiyonları (Guidoum, 2015).
Örneğin, R’de en sık kullanılan density fonksiyonu, kernel
yoğunluk tahminlerini hesaplar. Kullanımı şu şekilde belirtilmiştir:

density(x, bw = "ucv", kernel = c("gaussian",


"epanechnikov", "rectangular","triangular",
"biweight","cosine", optcosine"))

Burada x, bir sayısal vektör olup aynı zamanda tahmini hesap-


lanacak olan verileri gösteriyor; bw, kullanılacak bant genişliğini
ifade ediyor. Bunun karşılığına sayısal bir değerin yanı sıra bant
genişliğini belirmek için farklı seçim kriterleri yazılabilir. Bu bağ-
lamda, kernel yoğunluk kestiricinin bant genişliğini seçmek için,
MASS paketi içerisinde yer alan bandwidth.nrd, ucv, bcv ve
width.SJ gibi seçim kriterleri kullanılabilir: bandwidth.nrd,
iyi desteklenmiş bir temel kuralı olup normal referans dağılımı ile
yoğunluk için bant genişliğini kullanır. ucv (unbiased cross valida-
tion), bant genişliği seçimi için yansız çapraz doğrulama seçim
yöntemini kullanırken bcv (biased cross validation) yanlı çapraz
doğrulma seçim yöntemini kullanır. width.sj, bir normal kernel
yoğunluk kestiricinin bant genişliğini seçmek için Sheather ve
Jones’in (1991) yöntemini kullanır. Kernel, kullanılacak kernel
fonksiyonlarını göstermektedir.
Örnek 2.5: Copas ve Fryer (1980) tarafından intihar riskleri
çalışmasında kontrol olarak kullanılan 86 hastaya uygulanan psiki-
yatrik tedavi büyüsünün gün olarak süreleri incelenmiştir. Bu süre-

43
Nonparametrik Regresyon Analizi

lerin farklı bant genişliği (R’de default olarak yer alan) seçim kri-
terlerince belirlenen düzleştirme parametreleri için normal (Gaus-
sian) kernel yoğunlukları aşağıdaki Şekil 2.8’de verilmiştir.

Şekil 2.8: Bant genişliği farklı kriterlerce belirlenen kernel yoğunlukla-


rının grafikleri

Amaç, mutlak sürekli bir F dağılım fonksiyonu ile ∼ c’in


bağımsız tekrarlarının rastgele bir , … , örneğinden bilinmeyen
bir g = c′ yoğunluğunu elde etmektir. Kernel yoğunluk tahmi-
ninde, öncelikle , … , veri kümesinin cl
(birikimli) fonksiyonu, her bir veri noktasına 1/ kütlesi konarak
ampirik dağılım

elde edilir. Ancak veri yapısı cl fonksiyonun grafiği ile zor in-

düşünce, her bir veri noktasındaki 1/ kütlesini onun çevresine


celenebilir. Ampirik dağılım fonksiyonu üzerine daha gelişmiş bir

pürsüz bir şekilde yeniden dağıtmaktır. Diğer bir deyişle, temel


olarak kernel yoğunluk kestiricisi, küçük yoğunluklu bir tümsekte-
ki her bir veri noktasını pürüzsüzleştirir ve daha sonra nihai
yoğunluk tahminini elde etmek için tüm bu küçük tümsekleri bir-
leştirir ya da toplar (bkz. Şekil 2.5).

44
Bölüm III

DÜZLEŞTİRME TEKNİKLERİ

3.1. Giriş
Düzleştirme teknikleri (smoothing techniques), farklı ölçüm-
ler arasında fonksiyonel bir ilişki bulmaya çalışır. Standart (para-
metrik) regresyon ifadesinde olduğu gibi, bu ortamdaki verilerin
bir ya da daha fazla açıklayıcı değişken ve bir bağımlı değişken
ölçümlerinden oluştuğu varsayılır. Standart regresyon teknikleri,
bağımsız ve bağımlı değişkenler arasındaki ilişkiyi tanımlamak
için bir doğru denklemi şeklinde fonksiyonel bir eğriyi kullanırlar.
Düzleştirme teknikleri ise uyum eğrisinin şeklini belirtmek için
kendileri de veri noktaları sağlayan daha esnek yaklaşımlardır.
Uygulamada yaygın kullanılan bazı düzeltme teknikleri aşağıda
verilmiştir:
i.) k. En Yakın Komşu Düzleştirme ya da Regresyonu (K-
Nearest Neighbors Smoothing)
ii.) Kernel (Kernel) Düzleştirme (Kernel Smoothing)
iii.) Lokal Polinom Düzleştirme (Local Polinomial Smoothing)
iv.) B-Splayn Düzleştirme (B-Spline Smoothing)
v.) Cezalı Splayn Düzleştirme (Penalized Spline Smoothing)
vi.) Splayn Düzleştirme (Smoothing Spline)
Tüm bu tekniklerde, düzeltme parametresi olarak bilinen bir
miktarın belirtilmesi gerekir. Bu miktar yardımıyla yukarıda sırala-
nan tekniklerden herhangi birisiyle elde edilen uyum eğrisi, aşağı-
da tanımlanan vektörle belirlenir:

45
Nonparametrik Regresyon Analizi

k
Ó0Ô =T0 ,…, 0 U = ÕÔ Ö = Ö$Ô (3.1)

Burada ÕÔ , × > 0 pozitif bir düzeltme miktarı ve bağımsız


değişkenine bağlı olan, fakat Ö yanıt değişkenine bağlı olmayan
× bouyutlu bir düzeltme (ya da düzleştirme) matrisi olarak
bilinir. Tüm bu düzeltme teknikleri (3.1)’deki gibi yazılıştan dolayı
doğrusal düzelticiler olarak adlandırılırlar. Doğrusal modellerin
birçok özelliği bu kestiricilerle elde edilmiştir.
Bu tekniklerin temel amacı, tahmin edilmesi gereken ortalama
fonksiyonu, parametrik olarak ifade etmek yerine verileri sağlaya-
cak bir fonksiyonel şekil yardımıyla ifade etmektir. İzleyen bölüm-
de adı geçen düzeltme teknikleri ana hatlarıyla ele alınmıştır.

3.2. k- En Yakın Komşu Düzleştirme


Bu bölümde, en basit ve en yaygın bilinen parametrik olma-
yan yöntemlerden biri olan k-en yakın komşu düzleştirmesi ya da
regresyonunu (k-nearest neighbors (k-NN) smoothing veya regres-
sion) ele alıyoruz. Verilen bir k değeri ve bir tahmin noktası için,
k-NN regresyonu öncelikle, gözlem ile temsil edilen ’e en yakın
k-eğitim gözlemlerini tanımlar. Daha sonra k-NN regresyonu
n’deki tüm eğitim yanıtlarının ortalamasını kullanarak değe-

> ≥ 1 sakaleri için bir noktasındaki


rini tahmin eder. Diğer bir deyişle, araştırmacı tarafından ayarlanan
’in tahmi,
0 = ∑∈ 8
‹ Ø
(3.2)

biçiminde ifade edilir. Burada ‹ , , … , noktaları arasında


’e k-enyakın komşu noktaların indislerini içermektedir.
Belirtmek gerekirse eşitlik (3.2) ifadesi hiç de kötü bir tah-
minci değil ve birçok durumda muhtemelen basitliği nedeniyle

. fonksiyonunda geniş bir esneklik yelpazesi


uygulamalarda kullanılmaktadır. Komşu k sayısını değiştirerek
tahmin edilen

46
Düzleştirme Teknikleri

sağlanabilir. Küçük k değeri, daha esnek bir tahmine neden olurken


büyük k daha az esnek bir uyuma karşılık gelir. Ancak, (3.2) eşitli-

veya orta büyüklükteki k değerleri için, tahmin edilen . fonksi-


ği konusunda bazı sınırlamaları vardır. Örneğin, özellikle küçük

yonu temelde her zaman tırtıklı ya da pürüzlü görünmektedir. Bu

. fonksiyonunun elde edilmesine yardımcı olur.


nedenle gözlemlere ağırlık vermek daha pürüzsüz tahmin edilen bir

, ,…, ,
ki ilişkiyi açıklamak için, = + , = 1,2, … , parametrik
Varsayalım ki gözlem değerleri arasında-

olmayan regresyon modeli dikkate alınsın. Yukarıda belirtildiği


gibi k-NN tahmini, değişen komşuluklarda ağırlıklı bir ortalamadır.
Bu komşuluk, Öklid uzaklığındaki ’nin k-en yakın komşular ara-
sında bulunan değişkenleri aracılığı ile tanımlanır. Sembolik
olarak “k-NN kestiricisi”,
0‹ = ∑ Ù‹ (3.3)

şeklinde tanımlanır. Bu eşitlikte yer alan Ù‹ , = 1,2, … ,


ağırlıkları,

, ∈ Ú8 ?™,
Ù‹ = C‹ Û
0 =>? 5@A@B@¶=A5=
(3.4)

ile tanımlanır. Burada, Ú8 = : , k ™ ™ =>Î > Ü= ™ Ýör¶™B5™ G A


şeklinde belirtilen indeks dizisidir.
Yukarıda ifade edilen (3.4) eşitliğinde yer alan, > düzleştirme
parametresi olarak adlandırılır. Bu parametre, (3.2)’de olduğu gibi
tahmin edilen eğrinin pürüzsüzlüğünün derecesini düzenler ve bir
sonraki bölümde yer verilen kernel düzelticilerinin bant genişliğine

fonksiyonu daha yavaş değişir. > = ise fonksiyonu, yanıt (ya-


(düzleştirme parametresi) benzer bir rol oynar. Eğer k büyükse

ni, y) değerlerini ortalamasına eşit ve sabittir. k küçükse daha


hızlı değişir.

47
Nonparametrik Regresyon Analizi

Burada bir düzleştirme parametresi seçim problemi söz konu-


sudur: Bu bağlamda, k değerinin örneklem hacmimin (yani, n de-
ğerinin) veya verilerin bir fonksiyonu olarak seçilmesi gerekir.
Belirtmek gerekirse varyansı mümkün olduğu kadar küçük tuta-
bilmek için, mümkün olduğu kadar büyük k seçilmelidir. Bu yüz-
den yine, gözlemlenen gürültünün bir indirgemesi ve "regresyon
fonksiyonuna iyi bir yaklaştırma" arasındaki bir denge problemi ile
karşı karşıyayız. Bu denge problemi k-NN tahmininin hata kareler
ortalamasının genişlemesiyle ifade edilebilir (Hardle,1994).
Örnek 3.1: Ağırlıkların oluşturmasında bilgi vermek için

, ´ = 1, 0.54 , 3, −0.91 , 4, −0.95 , 5, 0.99 , 7, 0.30


aşağıdaki örneği dikkate alalım.

Olduğunu varsayalım. = 2 ve > = 3 için 0‹ ’in k-NN tahmi-

bu yüzden, Ú8 = Ú¨ = 1, 3 ,4 ve böylece
nini hesaplayalım. ’e en yakın k gözlemleri son üç veri noktasıdır,

1 1
Þ‹ = 2 = , Þ‹D = 2 = , Þ‹q = 2
3 3
1
= , Þ‹¨ = 4 = 0 ve Þ‹´ =4 =0
3

olur. Buna göre x=2 noktasındaki 3 en yakın gözleme dayalı


fonksiyonun 3-NN tahmini,
$ = 0‹ q = 2
! 0.54 × 1.667 # + ! −0.91 × 1.667 # + ! −0.95 × 1.667 #
=
5
= −0.44

olarak hesaplanır. Bu örnekteki gözlemleri kullanarak = 2 ve


> = 3 için tahmin ve gerçek değerler aşağıda verilen Şekil 3.1’de
gösterilmiştir.

48
Düzleştirme Teknikleri

Şekil 3.1: q = 2 ’in k-NN tahminin gösterimi

, … , gözlemlerine sahip olduğumuzu


Eşitlik (3.3)’te verilen k-NN kestiricisi alternatif olarak şu şe-

varsayalım. Sabit herhangi bir ∈ S noktası için, ‖ ‖ = √ ′


kilde hesaplanabilir:

Öklid uzaklığı kullanılarak her bir noktasının ’e ne kadar ya-


kın olduğu hesaplanabilir. Bu Öklid uzaklığı

µ =‖ − ‖=· − ′ − (3.5)
Şeklinde ifade edilir. µ uzaklıkları 0 ≤ µ ≤ µ D ≤ ⋯ ≤
µ olarak sıralanır ve bu sıralı istatistiklere karşı gelen gözlemler

,
’e en yakın gözlemler olarak belrlenir. Diğer bir ifadeyle, bu

, … ,
uzaklıklar ile sıralanan ’e en yakın gözlemler gözlemler,
D olarak ifade edilir. Belirtmek gerekirse ’in k’ıncı en
yakın komşusu ‹ sembolü ile gösterilir. Böylece, verilen bir k
için, ve ‹ arsındaki Öklid uzaklığı,

µ‹ =à ‹ − à = KS 8 (3.6)

49
Nonparametrik Regresyon Analizi

kullanılarak = + , modelindeki fonksiyonunun


(3.3) tanımlanan klasik k-NN tahmini, aşağıdaki şekle dönü-
şür:
0 = ∑ IO‖ − ‖ ≤ KS 8 P

(3.7)

olarak hesaplanır. Burada, I . bir gösterge fonksiyonudur. Eğer


‖ − ‖ ≤ KS 8 ise – = 1 ve aksi durumda – = 0 olur.

Eşitlikler (3.2), (3.3) ve (3.76) verilen en yakın komşu reg-


resyonu tek düze (uniform) ağırlıkları kullanır. Diğer bir deyişle,
yerel komşudaki her nokta bir sorgu noktasının tahmin edilmesine
eşit olarak katkı sağlarlar. Açıkçası ağırlıklar “uniform” dağılım-
dan alındığında, tüm noktalara eşit ağırlık verilmiş olur. Oysa bazı
koşullar altında, yakın noktalar regresyona uzak noktalardan daha
fazla katkı sağlayabilme avantajına sahip olabilirler. Bu durumu
dikkate almak için alternatif olarak ağırlıkları hesaplamada kullanı-
lacak mesafenin araştırmacı tarafından tanımlanmış bir fonksiyon
ile sağlanması mümkündür.
Eşitlik (3.4)’te verilen tekdüze (uniform) ağırlıklarına ilave-
ten, bir sonraki bölümde verilen bir rassal değişken ve bir bant
genişliğine sahip olan bir kernel düzleştirme (kernel smoothing)
yöntemindekine benzer ağırlıklar ile klasik olanlara alternatif bir k-
NN yöntemi tanımlanabilir. Buradaki temel düşünce, kestirimi
istenen noktaya en yakın sabit k-sayıda gözlemi dikkate almaktır.
Böylece, regresyon fonksiyonunun daha pürüzsüz (smooth)
bir k-NN kestiricisi,

0 =∑ Ù X áâ
‖8f8¹‖
Y ã∑ Ù X áâ
‖8f8¹‖
Y
± ±
(3.8)

şeklinde hesaplanabilir. Burada Ù . ağırlıkları göstermektedir.


Eşitlik (3.8)’den görüldüğü gibi, 0 kestiricisi k en yakın komşu
gözlemlerin ağırlıklı bir ortalamasıdır.
Örnek 3.2 (Motosiklet verisi): Örnek 1.2’de ele alınan simü-
le edilmiş motosiklet kazası verilerini kullanarak farklı komşu nok-

50
Düzleştirme Teknikleri

talarına göre zaman ve hız değişimleri arasındaki ilişkiyi gösteren


k-NN tahminleri, (3.8) eşitliği kullanılarak elde edilmiş ve bu tah-
min eğrileri Şekil 3.2’de gösterilmiştir. Şekil 3.2’den görüldüğü
gibi, hız ve zaman arasındaki ilişkiyi açıklamak için en iyi uyum,
k=20 en yakın komşu gözlem değerleri kullanılarak elde edilmiştir.
Diğer komşuluklarda elde edilen uyumların bu ilişkiyi açıklamada
yetersiz kaldıkları görülmektedir. Başka bir ifadeyle, milisaniye
olarak ölçülen zaman ve g cinsinden çarpma sonucu hızlardaki
değişimi açıklayan regresyon fonksiyonu için iyi bir tahmin, k=20
en yakın komşu gözlem değerleri kullanılarak elde edilmiştir. Buna
göre, söz konusu zaman ve hızlardaki değişim arasındaki ilişkinin
doğrusal bir regresyon fonksiyonu ile değil, parametrik olmayan
bir regresyon fonksiyonu ile açıklanabildiği söylenebilir.

Şekil 3.2: Gerçek gözlemler ve onların farklı komşuluklar için pürüzsüz


k-NN yönteminden elde edilen tahminleri

görsel olarak daha iyi açıklayabilmek için ~ä!0,5# uniform dağı-


Örnek 3.3 (Simülasyon verisi): Komşu sayısının önemini

lımından açıklayıcı değişken ve ~å!0,1# normal dağılımdan hata

51
Nonparametrik Regresyon Analizi

terimleri yaratılmak suretiyle, = = D + , denklemin-

,
den 100 birimlik yanıt değişkeninin değerleri elde edilmiştir. Böy-
lece, değişken çiftine ilişkin benzetim verisi oluşturuldu.
Farklı komşu sayıları için bu değişken çifti arasındaki ilişkiyi gös-
teren k-NN tahminleri, Şekil 3.3’te gösterilmiştir.

rinde k-NN regresyonunu kullanarak ede edilen 0 ’in grafikleri: Sol


Şekil 3.3: 100 gözlemli (siyah noktalar) ve simülasyon verisi üze-

grafik k = 1 için pürüzlü bir uyum olarak sonuçlanırken sol grafik k = 25


için çok daha smooth bir uyum üretir.

Şekil 3.3, , veri kümesi üzerinde iki k-NN uyumları-


nı göstermektedir. Sol panelde k=1 için uyum görülürken, sağ pa-
nelde k = 25’e karşı gelen uyum görülmektedir Bu şekilden görül-
düğü gibi, k = 1 olduğunda, k-NN eğitim gözlemlerini fit ettiği
ancak, 25 gözlemin ortalaması, daha pürüzsüz bir uyuma neden
olmaktadır. Genel olarak k için en optimal değer, Bölüm 5'te ortaya
koyduğumuz yan varyans dengesine bağlı olacaktır. k için küçük
bir değer, düşük yan fakat büyük varyansa sahip olacak çok daha
esnek bir tahmin sağlar. Bu varyans, belirli bir bölgedeki tahminin
tamamen tek bir gözleme bağlı olmasından kaynaklanır. Buna kar-
şılık, daha büyük k-değerleri pürüzsüz ve daha az değişken bir
uyum sağlar; Bir bölgedeki tahmin birkaç noktanın ortalamasıdır
ve dolayısıyla bir gözlemi değiştirmenin daha küçük bir etkisi olur.
Ancak, düzleştirme f(x)'teki yapının bir kısmını maskeleyerek yan-
lılığa neden olabilir. Bu yöntemler k-NN regresyonunda optimal k
değerini tanımlamak için kullanılabilir.

52
Düzleştirme Teknikleri

3.3. Kernel Düzeltme (Regresyonu)


Bu bölümde, (1.2) parametrik olmayan regresyon modeli kes-
tiricisinin daha genel bir şekli dikkate alınmaktadır. Böyle bir pa-
rametrik olmayan regresyon kestiricisi, ilk kez Nadaraya (1964) ve
Watson (1964) tarafından önerilmiştir. Verilerin ağırlıklı ortalama-
sını kullanan kernel kestiricisi,

$= 0 = ÃÙ 3.9

biçiminde tanımlanır. Burada Ù , kernel düzelticisi için ağırlık


değerleri göstermek üzere, şu biçimde hesaplanır:

«T U « @
Ù€ = ℎ
− = 3.10
∑ «T U ∑« @

Burada, : Gözlemlerin sayısı (örneklem hacmi),
«: Seçilen kernel fonksiyonu (bkz., Bölüm 3.4),
ℎ: Bir bant genişliği ya da düzeltme parametresi ve
Ù€ =Ù , : − uzaklığına bağlı ve .gözlem
’ye atanan ağırlık olarak tanımlanır.

« @ kernel fonksiyonunu kullandığından dolayı kernel düzelticisi


Eşitlik (3.9)’da verilen bu yaklaşım ağırlıkları belirlemek için

(kernel smoother) olarak adlandırılır. Bu « @ fonksiyonu, ℎ bant


genişliği ile tahmin edilen parametrik olmayan eğrinin şeklini be-
lirler. Bölüm 2.4’te belirtildiği gibi bu kernel fonksiyonu, sürekli,
sınırlı ve integrali 1’e eşit olan simetrik reel bir fonksiyonudur.
Bunlar aynı zamanda, parametrik olmayan yoğunluk tahmini ile
ilişkiyi vurgulayan simetrik bir olasılık fonksiyonunun özellikleri-
dir. Uygulamada kullanılan farklı tipte kernel fonksiyonları vardır.
Ancak kernel fonksiyonunun seçimi bant genişliğinin seçiminden
daha az önemsizdir. Belirtmek gerekirse bazı kernel fonksiyonları
yine Bölüm 2.4’te verilmiştir.

53
Nonparametrik Regresyon Analizi

Eşitlik (3.10)’da verilen ağırlıklar toplamı yani, ∑ Ù€ = 1


değerini alır. Bu ağırlıklar, ilgilenilen belirli bir bölgenin tanımla-

için ÙÔ ≅ 0 olacak şekilde seçilirler. İlgilenilen bu komşuluğu


nan komşuluğu (neighborhood) dışındaki tüm yanıt değerleri

tanımlamak için bu kernel düzelticileri ℎ ile gösterilen bir bant


genişliği (ya da düzeltme parametresi) kullanırlar. “Büyük bir ℎ
değeri spesifik bölgedeki yanıtı tahmin etmek için kullanılan çok

değerlerin ortaya çıkan grafiği, ℎ arttıkça çok daha pürüzsüz


daha fazla gözlem olarak sonuçlanır. Dolayısıyla, tahmin edilen

oluken ℎ azaldıkça tahmin yapmak için az veri kullanılır ve ortaya


çıkan grafik çok daha oynak ve tümsekli olur”. « @ fonksiyonu-
nu kullanmaktaki temel düşünce, bir açıklayıcı değişkeninden
uzak gözlemlere daha az ağırlık (yani, uzaklık büyükse daha düşük

se daha yüksek ağırlık) vermektir. Bu ağırlıklar « @ tarafından


ağırlık) ve ’e yakın gözlemlere daha fazla ağırlık (uzaklık küçük-

belirtilir ve bant genişliği olarak bilinen, ℎ tarafından kontrol edi-


lir. Diğer bir deyişle, ağırlıkların hacmi ℎ tarafından parametreleş-
tirilir. Buna göre, Ù€ ağırlık dizisi (3.9)’da yerine yazıldığında,


kernel tahmini (düzelticisi) aşağıdaki şekli alır:

∑ «T U ∑ « @
0€ = ℎ
− = 3.11
∑ «T U ∑ « @

(3.11) tahmin genellikle, “Nadarya-Watson kestiricisi” ola-
rak adlandırılır.
Özel olarak Gaussian (normal) Kernel fonksiyonu kullanıla-
cak olursa fonksiyon şu biçimde ifade edilir:
1 1 − D
« @ = exp −@D = exp ç− T U è
~

√2¸ √2¸ ℎ
Böylece, (3.11) eşitliğine göre kernel tahmini,

54
Düzleştirme Teknikleri

− ~
∑~ «T U ~ ∑« @

$ = 0 = − ~ = ∑« @
∑~ « T U

1 − ~ D
∑~ exp Z− T U [ ~
√2¸ ℎ
= = ÙkÖ
1 − ~ D
∑~ exp Z− T U [
√2¸ ℎ

biçimde ifade edilir. Benzer olarak diğer kernel fonksiyonları için


de tanımlanabilir. Eşitlik (3.11)’de tanımlanan kernel düzelticisi,
matris ve vektör formunda,
k
Ó0€ =T0 … 0 U = é€ Ö = Ö$ (3.12)

olarak yazılabilir. Burada,


ík Ù … Ù
⎡ ⎤ ⎡ ⎤ − ~
⋮ ⋮ … ⋮ «T ℎ U
⎢ ⎥
é€ = ⎢ í k ⎥ = ⎢ Ù … Ù ⎥ ve Ù ~ =
− ~
⎢ ⋮ ⎥ ⎢ ⋮ …
… Ù
⋮ ⎥ ∑~ « T

U
⎣í k ⎦ ⎣Ù ⎦

Böylece (2.1), parametrik olmayan regresyon modelindeki

$ = 0
regresyon fonksiyonunun noktasındaki kernel tahmini,
= ∑~ Ù~ ~ = í~k Ö, = 1,2, … , 3.13
Örneğin burada noktasındaki yanıt gözleminin kernel tah-
mini,

0 = í~k Ö = Ù …Ù Ê ⋮ Ë= $

olarak ifade edilebilir.


Sonuç olarak verilen bir ℎ > 0 parametresi için açıklayıcı
değişkenin her bir değerine karşı gelen yanıt gözlemleri için kernel
tahmini aşağıdaki biçimde elde edilir (Aydın, 2007):

55
Nonparametrik Regresyon Analizi

Ù … Ù
0
⎛ Ù⋮ … ⋮
… Ù ⎞
Ó0€ = ñ ⋮ ò =⎜ ⎟ Ê⋮Ë = é€ Ö = Ö$
⋮ … ⋮
×
0
(3.14)
Ù … Ù ×
⎝ ⎠
×
×

Örnek 3.4: Bu örnekte, Crowley ve Hu’nun (1977) çalışma-


sındaki kalp nakli verileri dikkate alınmıştır. Bu veriler Stanford
kalp nakli programı için bekleme listesindeki hastaların hayatta
kalma süreleri (survival time-gün olarak) ve hastaların yaşlarını
(yıl olarak) içermektedir.
Bu örnekte verilen yaşam süreleri ve yaşlar arasındaki ilişki
kernel düzeltme ile tahmin edilmiştir. Aşağıdaki Şekil 3.4’te veri-
len grafikte görüldüğü gibi, normal dağılımlı kernel fonksiyonunu
kullanan kernel (kernel) düzeltmeye dayalı tahmin, bu değişkenler
arasında eğrisel bir ilişki olduğunu ifade edilmektedir. Konun ko-
lay anlaşılır olması sağlaması bakımından bu tahmini veren R kod-
ları da aşağıda verilmiştir.

Şekil 3.4: Kernel düzeltme (regresyonu) yönteminden elde edilen yaş


ve yaşam süreleri arasındaki ilişkiyi gösteren uyum eğrisi

56
Düzleştirme Teknikleri

library(rdd)
age<-jasa$age
stime<-jasa$futime
stime[15]<-1
x<-age
y<-stime
GCV<-0
n<-length(x) #Sample size
#--------------------------------------------
for (i in 1:20){
b<-seq(3,4,length=20)
kernelp<-
ksmooth(x,y,kernel="normal",bandwidth=b[i]) #kernel
estimation
ksyhatp<-kernelp$y
W<-kernelwts(x,0,b[i],kernel="gaussian")
GCV[i]<-((1/n)*((y-
ksyhatp)^2))/(((1/n)*sum(diag(W)))^2)
}
for (j in 1:20){
if (GCV[j]==min(GCV)){
band<-b[i]
}
}
fit<-ksmooth(x,y,kernel="normal",bandwidth = band)
#kernel estimation
ksyhat<-fit$y
plot(x,y,xlab ="Yaş",ylab ="Yaşam Süreleri")
lines(fit, lwd = 2, col = 2)
m <-sum(diag(W))
m=1
mse<-(1/(n-m))*sum(y-ksyhat)^2
mse:21449.54

Örnek 3.5: Benzetim verisi kullanılarak değişkenler arasın-


daki ilişki veren kernel tahmini elde edilmiş olup buna ilişki R
kodları ve bu ilişkiyi açıklayan kernel tahmini ile edilen grafiksel
görüntü (bkz. Şekil 3.5) aşağıda verilmiştir. Çok küçük bir MSE
(hata kareler ortalaması-HKO) değeri gösteriyor ki kernel düzeltme
yöntemi bu ilişkiyi oldukça iyi tahmin etmektedir.

57
Nonparametrik Regresyon Analizi

Şekil 3.5: Kernel düzeltme yöntemine göre, 1000 birimlik gözleme


sahip ve değişkenleri arasındaki serpilme diayagramı ve bu ilişkiyi
gösteren uyum eğrisi

set.seed(4)
n <-1000
x <-runif(n,min=0,max=10)
e <-rnorm(n,mean=0,sd=1)
y <-sin(x)+e
m <-sum(diag(W))
m:1
Mse <-(1/(n-m))*sum(y-ksyhat)^2
Mse:0.137306

3.4. Lokal Polinomial Ağırlıklı Regresyon


Önceki bölümde verilen, Nadaraya-Watson kestiricisi, lokal
polinom tahmin edicileri olarak adlandırılan daha geniş bir para-
metrik olmayan tahmin edici sınıfının özel bir durumu olarak görü-
lebilir. Lokal regresyon (LOESS) ya da lokal ağırlıklı regresyon
(LOWESS), kernel regresyonu gibi, spesifik bölge etrafında bir

58
Düzleştirme Teknikleri

komşuluktan alınan veriyi kullanır. Tipik olarak komşuluk “span”


olarak bilinir. Burada span, komşulukları oluşturmak için kullanı-
lan toplam nokta sayısından elde edilen oranını ifade etmektedir.
Örneğin, 0.5 span gösteriyor ki toplam veri noktalarının yarısı en
yakın komşuluk olarak kullanılır. O zaman LOESS işlemi, yanıt
değişkeninin ağırlıklı en küçük kareler tahmini elde etmek için
komşuluktaki noktaları (yani spanı) kullanır. Ağırlıklı en küçük
kareler işlemi genellikle, basit doğrusal regresyon veya kuadratik
regresyon modeli gibi düşük derecenden bir polinom kullanır.
Ağırlıklı en küçük karelere göre tahminde kullanılan ağırlıklar,
ilgilenilen spesifik bölgeden alınan ve tahmininde kullanılan nokta-
ların uzaklığına dayanır.
Yukarda belirtildiği gibi LOESS, değişken bant genişliği ro-
lünü oynayan bir "span" argümanı kullanır "span", civarında
yerel uyumu gerçekleştirmek için dikkate alınan örneklem noktala-
rının oranını verir ve ardından katkıları ağırlıklandırmak için genel-
likle üç ağırlıklı bir kernel (triweight kernel) kullanır. Bu nedenle,
nihai tahmin yerel polinom tahmin edicinin tanımından farklıdır,
ancak temel alınan prensipler aynıdır.
Lokal ağırlıklı regresyonda tahmin süreci:
Parametrik olmayan regresyonun esnekliği ile klasik en küçük
kareler yönteminin matematiksel basitliği ve yorumlanabilirliğini

arkasındaki temel düşünce, ′in küçük bir komşuluğunda x dere-


birleştiren yerel ağırlıklı en küçük kareler kernel regresyonunun

celi bir polinom ile bilinmeyen . regresyon fonksiyonun tahmi-


=
+ modelindeki fonksiyonunu,
nine noktasal bir yaklaşımıdır. Bu noktasal yaklaştırmada

da) yerel bir Taylor serisi açılımı kullanarak x. dereceden bir poli-
civarında (komşuluğun-

nom,

59
Nonparametrik Regresyon Analizi

′′
= + k
− + − D
+⋯
2!

+ − •
3.15
x!

ile yaklaştırmak mümkündür. Bu durumda sıradan en küçük kare-


ler (least squares-LS) kriteri,
• D
~
NR = min ÃO − P = Ãñ − Ã − ~ò
3.16
D
•!
~

mediği ve aynı zamanda ~ , • = 0,1, … , x’ye bağlı olduğu


biçiminde ifade edilebilir. Eşitlik (3.16)’daki fonksiyonu bilin-

∑•~
için (3.16) denklemi uygulanabilir değildir. Temel düşünce,
= −
ú ‰ 8û ú ‰ 8û
~! ~ ~!
≅ ∑•~
olarak ayarlamak yani,
~
~ − ~

bilinmeyen ~ = , , … , • = ü parametreler vektörü açısın-


şeklinde yazmak ve (3.16) ifadesini,

dan doğrusal bir regresyon problemine dönüştürmektir. Bu fikri


kullanarak (3.16) yeniden yazacak olursa en küçük kareler kriteri
şu biçime dönüşür:
• D
~
NR ý = min à ñ − à − ~
ò
•!
~
• D

≅ Ãñ − Ã ~ − ~
ò 3.17
~

Bu durumda, ü vektörünün elde edilen tahminleri otomatik


~
/•! için tahminler üretir. Burada esas amaç,
(3.17)'yi minimum yapan bir ü þ tahmin vektörünü bulmak ve 'in
olarak

'a yakınlığına göre her , verisinin 'nin tahminine olan


katkılarını ağırlıklandırmaktır. Bunu tam olarak lokal (ya da ker-

60
Düzleştirme Teknikleri

verilen ağırlıklı en küçük karelerini minimum yapan x dereceli


nel) ağırlıklı regresyon ile sağlanabilir. Diğer bir deyişle, aşağıda

poliom, ağırlıklı en küçük kareler (weighted least squares-WLS) ile


ilgilenilen her bir noktada lokal olarak fit edilir:
D
⎧ ⎫
⎪ ⎪


ÞNR ý = min©ª à −à − ~
«T U 3.18
∈ℝ ⎨
~
⎬ ℎ
⎪ ~ ⎪
⎩ ⎭
‹e†
† }

Burada « . , ölçülebilir bir fonksiyon (kernel fonksiyonu) ve


ℎ > 0, yerel komşuluğun büyüklüğünü kontrol eden bir bant geniş-

parametresi ℎ'nin kernel tahmininde en uygun şekilde seçilmesi


liği veya düzeltme (düzgünleştirme) parametresidir. Düzeltme

gerektiğine dikkat edilmelidir. Büyük bir ℎ değeri, son derece düz-


gün bir tahmin sağlarken küçük bir ℎ değeri dalgalı bir fonksiyon
eğrisi üretir. Bu bağlamda, gerekli miktarda pürüzsüzlüğü veren ℎ
parametresini belirlemek için Bölüm 5’te verilen yöntemlerden
örneğin, genelleştirilmiş çapraz geçerlilik (GCV) gibi bir parametre
seçim yöntemleri kullanılabilir.

− ~
, • = 0, … , x¡
Uygun bir gösterim sunulursa eşitlik (3.18)’i çözmek kolay
olur. Bu denklemden görüldüğü gibi,
kullanılarak bir matrisi aşağıdaki gibi ifade edilebilir:
1 − … − •

= Ê⋮ ⋮ ⋱ ⋮ Ë
1 − … − •
× •Ÿ

Ayrıca, lokal kısma dayalı ağırlıklar ve yanıt değişkenine kar-


şı gelen vektör aşağıdaki gibi elde edilebilir:

T U ⋯ 0
⎛ ℎ ⎞
é=⎜ ⋮ ⋱ ⋮ ⎟, =Ê⋮Ë

0 ⋯ T U ×
⎝ ℎ ⎠

61
Nonparametrik Regresyon Analizi

Burada é, bir × boyutlu diagonal matris ve , bir × 1


boyutlu yanıt vektördür. O zaman (3.18) denkleminin kesin çözü-
münü için, ağırlıklı en küçük karelere dayalı bu denklemi matris ve
vektör formunda yeniden ifade etmektir:
ÞNR ý = arg min©ª ( − ý)′ é ( − ý)
∈ℝ
(3.19)

Eşitlik (3.19)’da verilen denklemin açılımı sonucunda bu ifade,


ÞNR ý = Ö − ý ′é Ö − ý
= Ö k éÖ − Ö k é ý − ýk k
éÖ + ýk k
é ý
= Ö k éÖ − 2ý k éÖ + ýk k
é ý
olarak bulunur. Burada Ö k é ý ve ýk k éÖ (ayrıca, Ö k éÖ ve
ýk k é ý) terimlerinin skaler olduğu için, ýk k éÖ k = Ö k é ý
eşit olur. ÞNR ý fonksiyonunun ýk ya göre birinci türevlerini
sıfıra eşitleyerek (3.19) denklemini minimize ederiz:
ÞNR ý
= −2 k éÖ + 2ý k é
ý
Bu ifade sıfıra eşitlenecek olursa
−2 k éÖ + 2ý k é = 0
elde edilir. Gerekli cebirsel işlemlerden sonra cezalı en küçük kare-
lerin normal denklemleri,
ý k
é = k
éÖ
elde edilir. Burada ý yerine ýþ € alınarak (3.19) denkleminin çö-

þ€ = éÖ = 0 , 0 , … , 0•
zümü aşağıdaki şekilde bulunur:
ý k
é f k k
(3.20)

Bu ýþ € vektörü, “lokal polinomial ağırlıklı en küçük kareler


kestiricisi” olarak bilinir.

62
Düzleştirme Teknikleri

þ € vektörünün girişleri aşağıda


len Taylor serisi kullanıldığı için ý
Bilinmeyen foknsiyonunu tahmin etmek için (3.15)’te veri-

0′′ 0
verilen ifadeye eşdeğerdir:

O 0 , 0 , … , 0• P = Ð 0 , 0k , ,…, Ñ
2! x!

Böylece, (3.20) denkleminde ilk giriş, 0 = 0 bilinmeyen

0k = 0 regresyon fonksiyonun birinci türevini tahmin etmek-


regresyon fonksiyonunun kendisini tahmin ederken, ikinci giriş

tedir. Benzer biçimde x′ ¿ giriş 0 • = 0• regresyon fonkis-


yonun x′ ¿ türevini tahmin ediyor. Verilen bir ℎ düüzeltme pa-
rametresi ve x dereceli polinom için amaç sadece fonksiyo-
nunu tahmin etmek olduğu için onun tahmini şu şekilde ifae edile-
bilir:

0€,• þ €,• =
=ü k k
é f k
éÖ = Ã Þ 3.21

Burada Þ = k k é f k éÖ ve ayrıca k = 1, 0, … ,0 ,
ilk konumda 1 ve aksi durumda 0 olan × x + 1 boyutlu mat-
ris olarak dikkate alınabilir. Tıpkı Nadaraya-Watson gibi, yerel
polinom tahmincisi, yanıtların ağırlıklı doğrusal bir kombinasyo-
nudur.
Eşitlik (3.21)’de verilen lokal polinomial kestirici, doğrusal
bir kestirici olması sebebiyle şu biçimde de yazılabilir:
k
Ó0€,• = €,• Ö = T 0€,• , … , 0€,• U (3.21a)

Burada

1, 0, … ,0 O 8ª é8ª 8ª P 8ª é8ª
k f k

€,• = ⋮
1, 0, … ,0 O 8ª P
f
é8 é8
,
k k
8 8

63
Nonparametrik Regresyon Analizi

yanıt değerlerini tahmin değerlerine dönüştüren × boyutlu


lokal polinomial ağırlıklı bir düzeltme matrisini gösterir. Belirt-
mek gerekirse (3.18) denkleminin çözümü için farklı iki özel du-
rum vardır.

3.4.1. Lokal Sabit (Local Constant) Kestirici


Lokal sabit kestirici lokal polinom kestiricinin özel bir du-

karelerini minimum yapan x dereceli poliomda, x = 0 için lokal


rumudur. Eşitlik (3.18) denkleminde verilen ağırlıklı en küçük

sabit veya Nadaraya-Watson kestiricisi veren şu ağrlıklı kriter elde


edilir:


ÞNR = min à − D
«T U
û ℎ

= min Ã Þ − D
3.22
û

Burada, Þ = «T U ∑ «T U kernel
8ûf8¹ 8ûf8¹
€ €
ağırlıklarını

∑Þ =∑ «T U ∑ «T U = 1. Ayrıca burada
8ûf8¹ 8ûf8¹
gösterir. Daha önceden bilindiği gibi, ağırlıkların toplamı yani,

€ €
= şeklinde bir sabite ayarlanması nedeniye (3.22)’den
elde edilen kestiriciye lokal sabit denir.
Eşitlik (3.22)’deki ÞNR fonksiyonun k
ya göre birinci
türevi sıfıra eşitlenecek olursa

ÞNR
= 2ÃÞ − =0

ifadesi elde edilir. Gerekli cebirsel işlemlerden sonra şu denklem


bulunur:

64
Düzleştirme Teknikleri

ÃÞ = ÃÞ 3.22a

Burada ∑ Þ = 1 ve yerine 0€, alınarak verilen bir ℎ dü-


zeltme parametresi ve x = 0 dereceli bir polinom için noktasın-
daki (3.22a) denkleminin çözümü aşağıda verilen regresyon uyu-
munu sağlar:

0€, = Ã Þ = 0€, 3.22b

Bu kestirici, Lokal sabit kerticisi olarak adlandırılır ve (3.11) ve


(3.14)’te verilen kernel kestiricisine eşdeğerdir. Bu bağlamda,
“kernel regresyonu, (lokal olarak) ağırlıklı en küçük karelerden
elde edilen lokal sabit kestiriciye karşılık gelir”.
Eşitlik (3.22b)’de verilen lokal sabit kestiricisi, matris ve vek-
tör formunda aşağıdaki biçimde yazılabilir:
0
Ó0€, = ñ ⋮ ò = é€ × Ê⋮Ë = é€, Ö = Ö$ ×
0
(3.22c)
× ×

Burada é€ , eşitlik (3.11) ve (3.14)’te tanımlandığı gibi gözlem


uzaklıklarına bağlı olarak yanıt gözlemlerine atanan ağırlıklardan
oluşan kernel düzeltme matrisini gösterir.

3.4.2. Lokal Doğrusal (Local Linear) Kestirici


Bir önceki bölümde olduğu gibi, Lokal doğrusal kestirici lo-

Burada = + modelindeki fonksiyonunu,


kal polinom regresyon kestiricisinin bir diğer özel durumudur.

ğunda yerel bir Taylor serisi açılımı kullanarak x = 1 dereceli bir


komşulu-

polinom yardımıyla tahmin edilebilir:

65
Nonparametrik Regresyon Analizi

= + k
− =Ã ~ − ~

~
= + −

Bu durumda, x = 1 için (3.18) denklemi lokal doğrusal kestiriciyi


sağlayan şu ağırlıklı kritere dönüşür:


ÞNR , = min Ã! − + − #D « T U
û, ª ℎ

= min Ã Þ ! − + − #D 3.23
û, ª

Bu ifade matris ve vektör formunda, şu biçimde gösterilebilir:


ÞNR ý = min ( − ý)′ é ( − ý
û, ª
(3.23a)

Burada,
1 −
= Ê⋮ ⋮ Ë ,ý = X Y ve
1 −
− −
é = 5 =Ý Ð« T U,…,«T UÑ
ℎ ℎ
sırasıyla tasarım matrisi, tahmin edilecek regresyon katsayıları ve

verilen bir ℎ düzeltme parametresi için (3.23a) denkleminin çözü-


kernel ağırlıklarını gösterir. Gerekli cebirsel işlemlerden sonra,

þ€ = éÖ = 0 , 0
mü,
ý k
é f k k

þ € vektörü, “lokal doğrusal ağırlıklı en kü-


(3.23b)
olarak elde edilir. Bu ý

þ€
tahmin etmek için yukarda verilen Taylor serisi kullanıldığı için ý
çük kareler kestiricisi” olarak bilinir. Bilinmeyen foknsiyonunu

vektörünün girişleri şu biçimde verilir:

66
Düzleştirme Teknikleri

O0 , 0 P=T0 , 0k U

Böylece, (3.23) denkleminde ilk giriş, 0 = 0 bilinmeyen

0k = 0 regresyon fonksiyonun birinci türevini verir. Burada


regresyon fonksiyonunun kendisini tahmin ederken ikinci giriş

etmektir. Bu bağlamda, verilen bir ℎ düzeltme parametresi ve


amaç önceden olduğu gibi, sadece fonksiyonunu tahmin

x = 1 dereceli bir polinom için noktasındaki bu fonksiyonun


tahmini aşağıda verilen lokal lineer regresyon uyumu sağlar:

0€, = k k
é f k
éÖ = Ã Þ 3.23¿

Burada Þ = k k é f k éÖ ve ayrıca k = 1, 0 , ilk


konumda 1 ve aksi durumda 0 olan × 2 boyutlu matris olarak
dikkate alınabilir. Tıpkı Nadaraya-Watson gibi, yerel polinom
tahmincisi, yanıtların ağırlıklı doğrusal bir kombinasyonudur.
Eşitlik (3.23c) kestiricisi bir doğrusal kestirici olduğundan
şu biçimde de yazılabilir:
k
Ó0€, = €, Ö = T 0€, , … , 0€, U (3.23d)

Burada

1 0 O 8ª é8ª 8ª P 8ª é8ª
k f k

€, = ⋮
1 0 O 8ª P
f
é8 é8
,
k k
8 8

yanıt değerlerini tahmin değerlerine dönüştüren × boyutlu


lokal doğrusal ağırlıklı bir düzeltme matrisini gösterir.
Örnek 3.6 (Motosiklet verisi): Simülasyonda bir motosiklet
kazası deneyinden elde edilen açıklayıcı (x = time (zaman-
milisaniye (ms) cinsinden)) değişkeni ile yanıt (y = hızdaki değişim
ya da g cinsinden ivmesi (accelaration)) değişkeni arasındaki iliş-

67
Nonparametrik Regresyon Analizi

kiyi açıklamak için lokal ağırlıklı regresyon yöntemlerini kullandı-


ğımızı varsayalım.
Daha önceden belirtildiği gibi, LOESS değişken bant geniş-
liği rolünü oynayan bir "span" argümanı kullanır. Span paramet-
resi için çeşitli değerler kullanarak bu veri kümesine birkaç
LOESS regresyon modelinin tahmini için loess() fonksiyonunu
kullanabiliriz:

loess(y~ x,span=”sayı”, degree=”sayı”,family=”


gaussian”)

Burada loess() için derece belirtilmez ise, degree=”2” değe-


rini kullanır. Aksi belirtilmedikçe LOESS “lokal polinomial ağır-
lıklı regresyon” anlamına gelmektedir. Bu bağlamda, x’e karşın
y’nin dağılma diyagramı ve farklı span değerine dayalı lokal poli-
nomial, lokal sabit ve lokal doğrusal yöntemlerinden elde edilen
tahminlere ilişkin sonuçlar, Şekil 3.6’daki grafik ve Tablo 3.1’de
verilmiştir. Bu grafikten görüldüğü gibi, span değeri 0.25 ayarlı
tüm tahminlerinin en iyi performansı gösterdiği (yani, en iyi uyum
ve pürüzsüzlük kombinasyonunu sağladığı) görülüyor. Span değeri
0.50 ayarlı yerel tahminler çok pürüzsüz olup bu tahmin eğrileri 10
ms civarında gerçek gözlemlerden çok miktarda sapma ve 30 ms
civarındaki zirveyi kaçırıyorlar. Son olarak span değeri 0.75 ayarlı
Lokal ağırlıklı regresyon tahminleri, ilk ikisine göre oldukça kötü
bir tahminler üretiyor.

68
Düzleştirme Teknikleri

Şekil 3.6: Motosiklet kazası verilerinin serpilme diyagramı (gerçek


gözlemler) ve bu değişkenler arası ilişkiyi gösteren farklı span ayarlı
Lokal ağırlıklı regresyon tahminleri.

Tablo 3.1: Farklı spanlara dayalı lokal ağırlıklı regresyon kestiricilerinin


performansları
Yöntemler MSE RMSE DF Span
Lokal Polinomial 454.2291 21.3127 14.56083 0.25
Regresyon 535.2092 23.1346 7.554022 0.50
979.736 31.3007 5.273478 0.75
Lokal Sabit (Kernel) 570.0192 23.8751 7.329561 0.25
Regresyon 1065.606 32.6436 3.446173 0.50
1629.086 40.3619 2.226609 0.75
Lokal Doğrusal 491.0984 22.1607 9.27694 0.25
Regresyon 784.8051 28.0144 4.933413 0.50
1300.983 36.0691 3.549419 0.75

69
Nonparametrik Regresyon Analizi

Yukarda verilen Tablo 3.1’de görüldüğü gibi, span için kul-


landığımız değer ne kadar düşük olursa regresyon modelinin o
kadar az "pürüzsüz" olacağına ve modelin veri noktalarını o kadar
çok kapsamaya çalışacağına dikkat edin. Bu sonuçlar karşılaştırıl-
dığında, her üç yöntemde 0.25 ayarlı yöntemler için iyi sonuç ver-
mektedirler. Ayrıca, bu veri için lokal polinomial ağırlıklı regres-
yon yönteminin diğerlerinden daha iyi performans gösterdiği söy-
lenebilir.
Kullanılacak en uygun span değerini bulmak için, Bölüm 5’te
verilen seçim kriterlerinden herhangi biri kullanılabilir. Bu bağ-
lamda, yukarda verilen örnek verileri için dört farklı seçim krite-
rine göre belirlenen span ayarlı lokal regresyon tahmin eğrileri
Şekil 3.7’de ve bunlardan elde edilen performans değerleri Tablo

gibi örneğin W kriteri etkin olarak şu şekilde hesaplanabilir:


3.2’de verilmiştir Burada belirtmek gerekirse, Bölüm 5’te verildiği

∑ − 0€ ¡
D
1/
W ℎ =
1− ÜA ¡
D
f
€,•

Burada ÜAO €,• P = µc, (3.21a)’da tanımlanan €,• şapka (ya da


düzeltme) matrisinin izini yani, köşegen değerleri toplamını (fonk-

W ℎ tahminini minimum
siyon tahmininin serbestlik derecesinin bir tahmini) veren serbest-

yapan ℎ değeri span olarak belirlenir. Bu ℎ ve x = 2 değerlerine


lik derecesine eşdeğerdir. Ayrıca,

karşı gelen lokal polinomial ağırlıklı uyum değerleri vektörü (ya da


lokal polinomial ağırlıklı regresyon tahmini),

0€,• = ÃÞ = €,• Ö = k k
é f k
éÖ

olarak belirlenir.

70
Düzleştirme Teknikleri

Tablo 3.2: Farklı Düzeltme parametrelerine dayalı LOESS kestiricilerinin


performansları
Yöntemler MSE RMSE DF Span
LOESS.CV 1082.686 32.90419 5.034264 0.8099507
LOESS.GCV 464.5118 21.55254 10.49846 0.3419471
LOESS.AICc 535.2092 23.13459 7.554022 0.4989211
LOESS.Cp 1505.736 38.80381 3.683536 1.000068

Şekil 3.7: Şekil 3.6’ya benzer fakat farklı seçim kriterleri ile seçilen
span ayarlı lokal regresyon tahminleri

Şekil 3.7 ve Tablo 3.2’de görüldüğü gibi, GCV kriteri ile seçi-
len span ayarlı lokal polinomial regresyon tahmini, diğerlerine göre
daha küçük MSE ve RMSE değerlerine sahip olması nedeniyle en
iyi performansı gösterdiği söylenebilir.

ketinden alınan), 1971 yılında = 102 Kanadalı bireylerin mesle-


Örnek 3.7 (Prestij veri seti): Prestij veri seti (R’deki car pa-

ğinin prestijini ( ) ve ayrıca mesleğin ortalama gelirini ( ) içermek-


tedir. Prestij ve gelir arasındaki ilişkiyi açıklamak için lokal polino-
mial ağırlıklı regresyon yöntemini kullandığımızı varsayalım.

71
Nonparametrik Regresyon Analizi

Aşağıda verilen Grafik 3.8 ve Tablo 3.3’ten anlaşıldığı gibi,


AICc kriteri ile seçilen span ayarlı LOESS tahmininin küçük MSE
ve RMSE değerlerine sahip olması nedeniyle en iyi performansı
gösterdiği, CV ile seçilen span ayarlı yerel ortalamanın en iyi ikin-
ci performansı gösterdiği ve GCV ile belirlenen span ayarlı lokal
regresyon tahmini ile Cp ayarlı tahminin diğerlerine göre kötü
oldukları söylenebilir.

Tablo 3.3: Farklı düzeltme parametrelerine dayalı LOESS kestiricilerinin


performansları
Yöntemler MSE RMSE DF Span
LOESS.CV 733.6723 27.08639 5.256084 0.8727827
LOESS.GCV 738.5741 27.17672 3.000201 98.99994
LOESS.AICc 733.1091 27.07599 5.373314 0.863594
LOESS.Cp 738.575 27.17674 3.000108 149.9999

Şekil 3.8: ve değişkenleri arasındaki serpilme diayagramı ve farklı


seçim kriterlerine göre LOESS düzeltme yönteminden elde edilen
uyum eğrileri.

72
Düzleştirme Teknikleri

3.5. B-Splayn Düzeltme


Budanmış üstel tabanlar, splayn tabanlı regresyonun mekani-
ğini anlamak için kullanışlı ve düğümler dikkatlice seçilir veya
cezalı bir uyum kullanılırsa pratikte kullanılabilirler. Bununla bir-
likte, budanmış üstel tabanlarının, ortogonal olmaktan uzak olma-

olduğunda ve ceza parametresi × küçük olduğunda (veya sıradan


ları gibi pratik dezavantajları vardır. Bu, bazen çok sayıda düğüm

en küçük kareler durumunda sıfır olduğunda) sayısal kararsızlığa


yol açabilir. Bu nedenle, pratikte, özellikle OLS tahmini için, daha
kararlı sayısal özelliklere sahip eşdeğer tabanlarla çalışılması tav-
siye edilir. En yaygın kullanılan seçeneklerden bazıları Şekil 3.9’da
gösterilen B-splayn tabanlardır. Şekil 3.9, yedi düzensiz aralıklı
düğüm durumunda, 1, 2 ve 3 derecelerinin B-spline tabanlarını
göstermektedir. Bunların her biri, aynı dereceden budanmış üstel
tabana eşdeğerdir.

Şekil 3.9: Panellerden (a) bir, (b) iki ve (c) üçüncü derece B-spline ta-
banlarını göstermektedir. Düğümlerin konumları, koyu küçük kare sim-
geleri ile belirtilmiştir.

73
Nonparametrik Regresyon Analizi

Regresyon bağlamında B-splayn tabanı, kübik splaynı (ve ay-


rıca daha yüksek veya daha düşük dereceli) temsil edebilir. Bu

olarak adlandırılan x. dereceden V~



yöntemde, bilinmeyen smooth fonksiyon aşağıdaki gibi B-splayn
ile gösterilen B-splayn
taban fonksiyonlarının doğrusal bir kombinasyonu ile yaklaştırılır:
9 •Ÿ•Ÿ

= Ã ~ V~

, = 1,2, … , 3.24
~

Burada «, !min = < D < ⋯ < • = max # koşulunu


sağlayan iç düğüm noktalarının sayısı, 5 = x + « + 1, toplam
~ =
, … , 9 , B-splayn’nın tahmin edilecek katsayıları ya da kont-
k
kullanılan B-splayn taban fonksiyonlarını sayısı ve

= ), yinelemeli olarak en uy-



rol noktalarıdır (bkz. de Boor, 1978). (3.24) denklemindeki B-
splayn taban fonksiyonları (V~

− ~ −
gun şekilde aşağıdaki gibi tanımlanır:

V~ = + V 3.25
• •f ~Ÿ Ÿ •f
~Ÿ• − − ~Ÿ ~Ÿ
~
~ ~Ÿ•Ÿ

Burada V~ = 1, ~ ≤ ≤ ~Ÿ ; =>? 5@A@B5=, 0

, … , • değerleri, gerçek bir [= = min , G=


Yukarıda yer verilen ifadelerden anlaşıldığı gibi, bu bölüm

max ] aralığında yer alan sıralı düğüm noktalarıdır. x > 0 mer-


boyunca

tebesinden bir splayn, x. mertebeden parçalı bir polinom fonksiyon


ve öyle ki x − 1 mertebesine kadar olan türevleri , … , • gibi her
düğüm noktasında süreklidir. Bunun yanı sıra, « = ,…, •
düğümleri üzerindeki x. mertebeden splaynlar kümesi, x + « + 1
boyutunda bir vektör uzayıdır.
B-Splaynın özellikleri:

ban fonksiyon, x + 1 bitişik düğümler üzerinde sadece sıfırdan


B-splaynların avantajı o ki onlar kesinlikle yerel ve her bir ta-

farklıdır. 5 taban fonksiyonlu bir B-splaynı tanımlamak için


« + x + 1 düğümü ayarlamak gerekir.

74
Düzleştirme Teknikleri

< D <⋯< •Ÿ•Ÿ

Burada splaynın üzerinde değerlendirileceği aralık ! •Ÿ , • # yani


ilk ve son x düğüm yerleri esasen keyfidir. Her taban fonksiyon,
2x komşu taban fonksiyonla çakışır ve x + 2 komşu düğümlere
göre pozitiftir. B-splayn x − 1 kez sürekli türeve sahiptir.
B-Splayn tahmin süreci:
B-spline taban fonksiyonlarını, parametrik ve parametrik ol-
mayan gibi bir kısma ayıramadığımız için regresyon katsayılarına
uygulanan ceza açık değildir. Bu nedenle genel olarak pürüzsüz bir
fonksiyon istediğimiz için aşağıdaki cezayı kullanabiliriz:

× E ′′ 5

B-splaynlar için bu ceza terimi eşdeğer olarak,


9

× E ′′ 5 = × Ã OΔ• ~ P
D

~ •Ÿ

biçiminde oluşturulabilir. Böylece, B-splayn yaklaşımına göre


bilinmeyen smooth fonksiyonun tahmini, aşağıdaki cezalı kareler
toplamını (penalized sum of squares-bRR) minimum yaparak elde
edilir:
D
9 9

bRR = Ã ® −Ã ~ V~ # + × Ã OΔ• ~ P 3.26


• D

~ ~ •Ÿ

Burada Δ• yinelemeli olarak tanımlanan x’inci sıra farkıdır. B-


splayn katsayıları üzerindeki bu farklılıklar aşağıdaki gibi tanımla-
nır:
∆ ~ = ~ − ~f

75
Nonparametrik Regresyon Analizi

∆D ~ = ∆ O∆ ~P= ∆ ~ − ∆ ~f = ~ − ~f − ~f − ~fD
= ~ − 2 ~f + ~fD


Δ• ~ = ∆•f ~ − Δ•f ~f (3.26a)
Belirtmek gerekirse (3.26) denkleminde x = 0 için B-Splayna
dayalı ridge regresyon elde edilir. Aynı denklemde × = 0 için sıra-

edilir ve × > 0 için ceza sadece B-Splaynın üst üste gelme kısıtı-
dan en küçük kareler regresyonunun minimizasyon denklemi elde

dan kaynaklanan bant yapılı sistemin alt-diagonalı ve ana köşegeni


etkiler. Eşitlik (3.26a)’da Ceza matrisi aşağıdaki kod yardımıyla
elde edilebilir:

P <- function(order = 2, k = 7) {
D <- diag(k)
for(i in 1:order)
D <- diff(D)
K <- crossprod(D, D)
return(K)
}

Daha sonra yedi düğümlü birinci dereceden fark matrisi şu şekilde

1 −1 0 0 0 0 0
verilir (## Order 1 penalty):

⎡−1 2 −1 0 0 0 0⎤
⎢ 0 −1 2 −1 0 0 0 ⎥⎥

%=⎢ 0 0 −1 2 −1 0 0⎥
⎢ 0 0 0 −1 2 −1 0⎥
⎢ 0 0 0 0 −1 2 −1⎥
⎣ 0 0 0 0 0 −1 1 ⎦

Eşitlik (3.26) denklemi matris ve vektör formunda aşağıdaki


gibi yeniden yazılabilir:

76
Düzleştirme Teknikleri

bRR = Ö − &ý k
Ö − &ý + ×‖%ý‖D 3.27
Burada ‖. ‖ Öklid normunu gösterir, Ö = ,…, ′ bir × 1
boyutlu yanıt vektörü, &, Eşitlik (3.25) ile tanımlanan ve B-
× 5 -boyutlu bir matris (yani, ) ve ayrıca,
ý= , … , 9 k B-splayn fonksiyonun parametre vektörü, × > 0
splaynları içeren

düzeltme parametresi ve %, eşitlik (3.26a) tanımlan ∆• fark ope-


ratörünün matris notasyonunu gösterir. Verilen bir λ > 0 düzeltme
parametresi için (3.27)’nin çözümü veren ý vektörünün B-saplayna

þ ˆ( = !&k & + λ%k %#f &k Ö = !


dayalı kestircisi,
ý k
+ λ%k %#f k
Ö (3.28)
olarak elde edilir. Böylece, bilinmeyen pürüzsüz (smooth) regres-

þ ˆ( = ` 0
þ ˆ( = ý
Ó0ˆ( = &ý ,…, 0
yon fonksiyonun tahmin vektörü aşağıdaki gibi tanımlanır:
a′ (3.29)
Eşitlikler (3.28-3.29) görünen o ki yanıt gözlemlerinin uyum vek-

þ ˆ( = !
Ö$ = Ó0ˆ( = ý
törü ağıdaki gibi elde edilir:
k
+ λ%k %#f k
Ö= ˆ( λ Ö (3.30)
Burada ˆ( λ = ! k
+ λ%k %#f k
, B-splayn için şapka ya da
düzeltme matrisidir.
Örnek 3.8 (Motosiklet verisi): Bu örnek için motosiklet ka-
zası verileri dikkate alınmıştır:

data("mcycle", package = "MASS")


par(mar = c(4.1, 4.1, 0.1, 0.1))
plot(mcycle)

Motosiklet verileri 133 gözlem yani , , = 1, … ,133


veriye dayalı olarak yapılmaktadır. Burada belirtmek gerekirse
’ler çarpışmadan sonra milisaniye cinsinden kaydedilen süreler
(x=times) ve ’lerde g cinsinden çarpma anındaki hızlardaki de-
ğişimi yani, ivmeleri (y=accel) göstermektedir.

77
Nonparametrik Regresyon Analizi

Şekil 3.10: B-splayn regresyonu ile motosiklet kazası verilerinin tahmini

Tahmin edilen pürüzsüz fonksiyon doğrusal olmayan ilişki-


ye oldukça iyi yaklaştırıyor, ancak yine de budanmış polinom
eğrilerinde olduğu gibi, küçük zaman değerleri için biraz daha
iyileştirme yapılabilir, çünkü fonksiyon kıvrımı mükemmel bir
şekilde modelleyemiyor. Diğer yandan, pürüzsüz fonksiyonun
tahmini serbestlik derecesi 12.15, budanmış polinom tabanıyla
basit ağ aramasını çalışırken aslında hemen hemen aynıdır (bkz.
Şekil 3.10).
Örnek 3.9 (Prestij veri seti): Örnek 3.7’de verilen değişken-
leri dikkate aldığımızı varsayalım. Bu değişkenler arasındaki ilişki
B-Splayn regresyonu ile tahmin etmek için düzeltme parametre-
sinin farklı iki seçim kriteri ile elde edildi ve sonuçlar aşağıda veri-
len Şekil 3.11’de görüntülenmiştir.

78
Düzleştirme Teknikleri

Şekil 3.11: GCV ve CV ile seçilen düzeltme parametresine dayalı B-


splayn regresyonu ile motosiklet kazası verilerinin tahminleri ve bazı
performans göstergeleri

Şekil 3.11’de görüldüğü gibi, CV kriteri ile seçilen düzeltme


parametresi kullanıldığında, B-splayn tahmininin küçük MSE de-
ğerlerine sahip olması nedeniyle iyi performansı gösterdiği söyle-
nebilir. Burada belirtmek gerekirse bu kısımda sabit düğüm sayısı
ile GCV ve CV gibi iki seçim kriteri dikkate alınmıştır. Oysaki
farklı durumlar dikkate alınabilir. Bu bağlamda, Bölüm 5’te bu
konu ile ilgili hem düğüm sayılarının farklı seçimleri hem de farklı
düzeltme parametresi seçim kriterlerine göre B-Splayn tahminleri
dikkate alınmıştır. İlgili okuyucuların bu bölümü incelemesi öne-
rilmektedir.

79
Nonparametrik Regresyon Analizi

3.6. Cezalı Splayn Regresyonu


Parametrik olmayan regresyonda alternatif yaklaşımlardan bi-
ri de cezalı splayn regresyonu ya da cezalı splayn düzeltme olarak
bilinen bir yaklaşımdır. Burada amaç polinom parça sayısını
azaltmanın yanı sıra, bir pürüzlülük cezası ekleyerek tahminin
varyansı kontrol altına almaktır. Örneğin, splayn düzeltme yönte-

< D < ⋯ < • gibi düğüm nokta-


minde olduğu gibi, her bir noktasında bir düğüm koymak yerine,
bu yöntemde daha az sayıda

görüldüğü gibi « sayıda düğüm noktası içeren x. dereceden bir


ları kullanılabilir. Özel olarak aşağıda verilen regresyon modelinde

budanmış splayn fonksiyonu (budanmış üstel taban fonksiyonu) ile


bilinmeyen fonksiyonu tahmin edilebilir:

=) = + + ⋯+ +Ã − • Ÿ* + 3.31
• •
• ‹

Burada x, splayn regresyonu için kullanılan polinomum derecesi


(genellikle önceden seçilir), , , … , • , • , … . , •• regresyon
Ÿ ≡ max 0, , herhangi bir ∈ ℝ pozitif
sayısı ve ‹ , > = 1, … , « , genellikle ′lerin çeyrekliklerine (kan-
katsayıları dizisi,

ayarlanmış düğüm noktalarıdır. Eşitlik (3.31)’de x yerine kullanı-


tillerine) göre yaklaşık olarak eşit aralıklı olarak alınan önceden

lan sayılara göre farklı derceden cezalı splayn polinomları kullanı-


larak bilinmeyen regresyon fonksiyonu tahmin edilebilir.

3.6.1. Budanmış üstel tabanlı basit doğrusal splayn


Eşitlik (3.31)’de x = 1 alınırsa 1. dereceden > = 1, … , «

= + + ∑• − • Ÿ.
düğümlü budanmış üstel tabanlı bir polinom fonksiyon elde edilir:
‹ ‹
. fonksiyonu, (1.2) modelinde yerine yazılacak olursa paramet-
Elde edilen bu

rik olmayan regresyon modeli,

80
Düzleştirme Teknikleri

=+ = + +Ã ‹ − ‹ Ÿ, + 3.32

olarak yeniden yazılabilir.


Eşitlik (3.32)’deki . fonksiyonunun , , , … , • bi-
linmeyen katsayıları, bu yöntemin doğası gereğince aşağıda verilen
cezalı kareler toplamını minimum yapan değerler olarak seçilir:

B )Ã − D
+×à D
‹ * 3.33

Bu denklem, × ≥ 0 düzeltme parametreli cezalı en küçük kareler

3.32 denklemini matris formunda yazmak matematiksel işlem-


(penalized least squares) olarak bilinir. Belirtmek gerekirse

ler açısından oldukça kolaylık sağlayacaktır. Bu durumda para-


metrik olmayan regresyon modeli matris formunda aşağıdaki gibi

Ö= ý+-
yazılabilir.
(3.34)
Burada Ö = , D, … , ′, × 1 boyutlu yanıt vektörü (ba-

ý= , , , … , • ′, « + 2 boyutlu tahmin edilecek katsa-


ğımlı değişkenin aldığı gözlem değerler),

yılar vektörü, - = , D, … , ′, rasgele hataların × 1 boyut-


lu vektörü ve , aşağıda tanımlan × x G@A=5= x = « +
2 boyutlu açıklayıcı değişken tarafından tanımlan tasarım matri-
sidir:
1 − ⋯ − •
D− ⋯ D−
= .1 /
D •
⋮ ⋮ ⋮ ⋯ ⋮
1 − ⋯ − •

Temel amaç, ý katsayılar vektörünü tahmin etmektir. Bu katsayı-


ların tahminini sağlayan en küçük kareler denklemi,
‖Ö − ý‖D = Ö − ý ′ Ö − ý (3.35)

81
Nonparametrik Regresyon Analizi

ifadesini mimimize eden ý þ= , , , … , • ′ vektörü olarak


tanımlanır. Ancak burada belirtmek gerekirse ‹ = ,…, • ′
katsayıları için böyle bir kısıtsız tahmin oynak bir uyuma yol açar.
‹ üzerine
∑ D‹ < şeklinde bir kısıt koymak gerekir. Burada > 0 her-
Bu durumla baş edebilmek için (3.33)’teki gibi,

hangi bir sayıdır. Bu sayının uygun seçimi daha pürüzsüz (smooth)


bir eğriye yol açar.

üzerine bir kısıt konmaktadır. Bu durumda, ý þ vektörü ile uyumlu


Eşitlik (3.33)’ten anlaşıldığı gibi sadece, budanmış katsayılar

aşağıdaki gibi bir « + 2 × « + 2 boyutlu D matrisi,

tanımlanırsa o zaman (3.33) minimizasyon problemi,


B ‖Ö − ý‖D , ý′%ý < >Î?ÎÜζÎ

gösteriyor ki bu cezalı kareler toplamı verilen bir × ≥ 0 düzletme


olarak tanımlanır. Bir Lagrange çarpanı argümanının kullanılması

ý vektörünün seçimine eşdeğerdir:


parametresi için aşağıdaki cezalı kareler toplamını minimum yapan

B ‖Ö − ý‖D + × ý′%ý (3.36)


Yukardaki denkleminin açılımı,
RR ý = ‖Ö − ý‖D + × ýk %ý = Ö − ý ′ Ö − ý + × ýk %ý
= Ö k Ö − Ö k ý − ýk k
Ö + ýk k
ý + × ýk %ý
= Ö k Ö − 2ý k Ö + ýk k
ý + × ýk %ý
olarak bulunur. Burada Ö k ý ve ýk k Ö (ayrıca, Ö k Ö ve ýk k ý)
terimlerinin skaler olduğu gerçeğinden yararlanıyoruz. Böylece,

82
Düzleştirme Teknikleri

ýk k Ö k = Ö k ý eşit olur. RR ý 'nın, ýk ya göre birinci türevleri-


ni sıfıra eşitleyerek (3.36) denklemini minimize ederiz:
RR ý
= −2 k Ö + 2ý k
+ ×2ý% = 0
ý
elde edilir. Gerekli cebirsel işlemler yaptıktan sonra cezalı en kü-
çük karelerin normal denklemleri,
ý k
+ ×% = k
Ö 3.37
elde edilir. Burada ý yerine ýþ alınarak (3.37) denkleminin çözü-

þ =
mü aşağıdaki şekilde bulunur:
ý k
+ ×% f k
Ö
þ vektörü, cezalı en küçük kareler kestiricisi olarak bilinir.
(3.38)
Bu ý
Böylece, en küçük kareler uyumuna benzer olarak cezalı en küçük

þ=
kareler yöntemiyle elde edilen uyum değerleri vektörü,
Ö$ = ý k
+ ×% f k
Ö= Ö
Burada = k
+ ×% f k , × boyutlu düzeltme matrisi
olarak bilinir. Uyum değerleri vektörü aynı zamanda (3.33) denk-
leminin çözümü olan şu tahmin edilen fonksiyonu sağlar:

$ = 0Ô = 0 + 0 +Ã 0 = T 0Ô , … . , 0Ô
k
‹ − ‹ Ÿ U 3.39

Bu bölümde tahmin edilen regresyon modellerinin her biri sürekli


ve parçalı doğrusal fonksiyonlardır. Daha esnek uyumlar elde ede-

üstesinden gelebilmek için en basit bir yol, tabana D eklemek ve


bilmek için parçalı doğrusallıktan ayrılmak gerekir. Bu durumun

− ‹ Ÿ budanmış kısmı bunun karesiyle yani,


− ‹ Ÿ ile değiştirmek gerekir. Bu durumda,
D
ayrıca her bir

1, , − ‹ Ÿ, … , − • Ÿ

> = 1, … , « düğümlü doğrusal splayn tabanları yerine aşağıda


verilen yine , … , • düğümlü fakat kuadratik (ikinci dereceden)
splayn tabanları dikkate alınır:

83
Nonparametrik Regresyon Analizi

1, , D
, − Ÿ, … ,
D
− D
• Ÿ

Bu genellikle estetik açıdan daha çekici bir uyumla sonuçlanacak-


tır. Kuadratik splayn taban fonksiyonlarını kullanmanın bir başka
avantajı, dağılım grafiğinde tepe ve inişleri uydurmada daha iyi bir

splaynlar cezalı en küçük karelere tahmin edilirken 1, ‘™ D nin


iş yapma eğiliminde olmasıdır. Diğer yandan, ikinci dereceden

cezalandırılır. Aşağıda görüldüğü gibi 0′in i'inci satırı,


katsayıları cezalandırılmaz sadece budanmış kısmın katsayıları

01 = !1 D
− D
Ÿ ⋯ − • Ÿ#
D

2 = 5= Ý 0, 0, 0, 1, … ,1 biçiminde olur. Böylece, (1.2) modelin-


şeklinde ifade edilen taban fonksiyonları ise o zaman ceza matrisi

de bilinmeyen . fonksiyonu aşağıda verilen budanmış üstel


tabanlı kuadratik splayn fonksiyonu ile yaklaştırılabilir:

= + +⋯+ •
D
+Ã •‹ − D
• Ÿ = 0ý

Buradan hareketle, daha genel dereceli bir splayn fonksiyonu ile

rın kullanımıyla, x.dereceden budanmış üstel taban olarak bilinen


yaklaştırma yapılabilir. Bu bağlamda, budanmış üstel fonksiyonla-

taban fonsiyonları kullanılabilir. Bu durum izleyen kısımda ele


alınmıştır.

3.6.2. Budanmış üstel tabanlı p. dereceden splayn


Eşitlik (3.31)’de verilen regresyon modelini dikkate aldığımı-

Ö= ý+-
zı varsayalım. Bu model, matris ve vektör formunda,
3.40
biçiminde ifade edilir. Burada matrisi ve ý vektörünün ele-
manları,

84
Düzleştirme Teknikleri

1 ⋯ − ⋯ −
• • •
⎡ • ⎤

= ⎢⎢1
•⎥
⋯ D− D−
• •
⎥ ve
D D •
⋮ ⋯ ⋮
⎢⋮ ⋯ ⋮ ⋮ ⎥
⎣1 ⋯ •
− • ⋯ − •


ý=O , ,…, •, • ,..., •• P
k

cezalı en küçük kareler yöntemine dayalı ý parametreler vektörünü


biçiminde tanımlanır. Böylece, (3.36) denklemini minimum yapan

tahmini aşağıdaki gibi elde edilir:


þ 3( =
ý k
+ ×% f k
Ö 3.41
Burada ×, pozitif değer alan bir düzeltme parametresi ve % ceza
matrisi, doğrusal splayndakine benzer olarak,
0 … 0 0 … 0
⎡⋮ ⋱ ⋮ ⋮ ⋱ ⋮⎤
⎢ ⎥
% = ⎢0 … 0 0 … 0 ⎥ = Z4 •Ÿ × •Ÿ 4 •Ÿ ו
[ , B =«+x+1
⎢0 … 0 1 … 0⎥ 4•× •Ÿ 5•×•
⎢⋮ ⋱ ⋮ ⋮ ⋱ ⋮⎥
}×}

⎣0 … 0 0 ⋯ 1⎦

şeklinde elde edilir. Böylece, bu modelin cezalı en küçük kareler


yöntemiyle elde edilen uyum değerleri vektörü şu şekilde tahmin
edilir:
þ 3( =
Ö$ = ý k
+ ×% f k
Ö= 3( Ö (3.42)
Burada 3( = k
+ ×% f k , × boyutlu düzeltme mat-
risi olarak bilinir. Uyum değerleri vektörü aynı zamanda (3.31)
modelindeki bilinmeyen fonksiyona çözüm sağlar:
þ

$ = 0Ô = 0 + 0 + ⋯ + 0•$ + Ã 0•$‹ − ̂‹
•$ •$
Ÿ

k
= T 0Ô , … . , 0Ô þ
U = 0ý

85
Nonparametrik Regresyon Analizi

þ sabitleri sırasıyla x, «, ve ý
þ , ̂ ve ý
Böyle bir yaklaştırmada x̂ , «
bilinmeyen parametrelerin tahminleridir Ayrıca 0 matrisinin i’inci
satırı aşağıdaki biçimde tanımlanabilir:
01 = `1, , D
,…, •
, − •
Ÿ ,⋯, − • Ÿa

Burada görüldüğü gibi, ý parametrelerinin tahminin yanı sıra, poli-


nomun derecesi (x) düğümlerin yeri ( ) ve düğümlerin sayısını («)
seçmek gerekir. Bu işlemi gerçekleştirmek için iki genel strateji

rek sıradan en küçük kareler ile ý parametrelerinin tahmin etmek.


vardır. Birinci strateji, oldukça az sayıda düğüm noktalarını seçe-

ji ise oldukça çok sayıda düğüm noktası kullanmaktır. Ancak, ý


Bu stratejide düğümlerin seçimi son derece önemlidir. İkinci strate-

parametrelerinin tahmini için sıradan en küçük kareler kullanılmaz.


Bu durumda örneğin yukarda anlatılan cezalı en küçük kareler gibi

strateji için düğümlerin seçiminin önemi daha azdır. Önemli olan ý


bir yöntemi kullanarak gerekir. Birinci stratejinin tersine, ikici

parametrelerinin nasıl tahmin edileceğidir.


Örnek 3.10 (Motosiklet verisi): Bu örnekte yukarıda anlatı-
lan budanmış üstel tabanlı doğrusal ve kuadratik splayn fonksiyon-
ları ile yaklaştırılan regresyon fonksiyonundan elde edilen uyum
eğrileri, bu eğrilerin elde edilmesinde kullanılan ve GCV kriteri ile
seçilen düzeltme parametrelerinin değerleri ve düzeltme matrisleri-
nin izinden elde edilen serbestlik dereceleri aşağıdaki Şekil 3.12’de
verilmiştir. Her iki splayn ile oldukça iyi uyumlar elde edikleri
görülmektedir.

86
Düzleştirme Teknikleri

Şekil 3.12: (a) Budanmış üstel tabanlı doğrusal splayn fonksiyonlarına


ve (b) ikinci dereceden budamış üstel tabanlı splayn fonksiyonlarına
dayalı olarak motosiklet verilerine cezalı splayn regresyonu uyumları.
Her iki durumda da on bir eşit aralıklı düğüm kullanılır.

3.7. Splayn Düzeltme (Smoothing Spline)


Önceki bölümde düğümler ve bir dizi taban fonksiyon belirle-
yerek bilinmeyen regresyon fonksiyonunun nasıl tahmin edildiğini
inceledik. Burada, maksimum bir düğüm kümesi kullanarak düğüm
seçimi sorununu tamamen ortadan kaldıran eğri tabanlı bir yöntemi
tartışıyoruz. Çok sayıda düğüm kullanımı, eğrilerinin özelliklerini
gereğinden fazla kullanacağı için daha düşük bir hata kareler orta-
lamasına yol açan tahminler ortaya koyar. Splayn düzeltme, mate-
matiksel olarak daha zordur, ancak aynı zamanda daha pürüzsüz ve
esnektir. Ayrıca yukarda belirtildiği gibi, düğüm sayısının seçilme-
sini gerektirmez, sadece dalgalanmaları veya model fonksiyonunun
pürüzlülüğünü ve varyansını kontrol eden bir pürüzlülük cezasının

diğer önemli şey de 6 ′nin her tek değeri için ( 6 ′nin farklı ve sıralı
seçilmesini gerektirir. Splayn düzeltmede hatırlanması gereken bir

87
Nonparametrik Regresyon Analizi

değerleri küçükden büyüğe doğru sıralanır) bir düğüme sahip ol-


malarıdır.

. fonksiyonunu tahmin etmektir. Bu bağlamda, en popüler yön-


Parametrik olmayan regresyonda amaç bilinmeyen gerçek

fonksiyonu, 0 = = + G şeklinde tahmin edilir. Sırasıyla,


temlerden biri doğrusal regresyonudur. Doğrusal regresyonda

= ve G sabit ve eğim kestiricileri, = + G şeklindeki tüm fonksi-


yonlar arasında aşağıda verilen hata kareler toplamını minimum
yaparak elde edilir:

RRS = Ã − D
=Ã − =+G D

Dikkate alınan gözlem verileri için . fonksiyonu yaklaşık ola-


rak doğrusalsa bu yaklaşım etkin olabilir. Doğrusal değilse sabit
eğim koşulu bozulur ve bu durumda doğrusal regresyon uygun
sonuçlar vermez. Bu nedenle, veri uydurmada başarılı olabilmek

. fonksiyonları
için, doğrusal regresyon modelinde öne sürülen tahmin koşulları
değiştirmeli ve tasarımlarda değişen eğimli
üzerinde hata kareler toplamının minimizasyonunu dikkate alın-
malıdır.
Değişen eğimli bir problem, parametrik regresyon problemi
ile kıyaslandığında daha zor ve karmaşıktır. Böyle bir problem,

laylaştırılabilir. Örneğin, birinci ve ikinci türevleri !=, G# aralığı


dikkate alınacak fonksiyonlar sınıfını belirtilerek biraz da olsa ko-

. fonksiyonlarının oluşturduğu
D
!=, G# kümesinde (uzayında) hata fonksiyonunun minimizasyo-
üzerinde sürekli olan bütün

nu dikkate alınabilir. Bununla birlikte, doğal kübik splaynların adı


geçen fonksiyonlar sınıfında minimumu gerçekleştirmesi, paramet-
rik olarak ifade edilemeyen problemi bir anlamda parametrik hâle
getirilmiş olur. Bu durumda sonsuz boyutlu problemin sonlu bo-
yutlu bir probleme indirgenmesiyle çözümün bulunması yeterince
kolaylaşır.

88
Düzleştirme Teknikleri

3.7.1. Cezalı En Küçük Kareler Yaklaşımı


Değişen eğimli problemlerin çözümünde kullanılan bu yakla-
şımı açıklayabilmek için (1.2)’de verilen parametrik olmayan reg-
resyon modelini dikkate aldığımızı varsayalım:
= + , =< <. . . < < G, ~å 0, h D (3.43)
Burada, ∈ D !=, G# ikinci dereceden sürekli !=, G# aralığında

nin esası, ∈ D !=, G# uzayındaki tüm fonksiyonları arasında,


bilinmeyen bir pürüzsüz fonksiyondur. Splayn düzeltme yöntemi-

R ,× = 7 − + × 4e 5
D d 8 D
(3.44)

eşitliği ile belirtilen R “cezalı en küçük kareler kriterini” mini-

0 tahmin eğrisi D !=, G# uzayının fonksiyonları arasında R


mum yapmaktır. Diğer bir ifadeyle, splayn düzeltme kestiricisi olan
ce-
zalı kriterini minimum yapan eğri olarak tanımlanır.
Eşitlik (3.44) ifadesindeki ilk terim, hata kareler toplamını
(RSS) gösterir ve bu ifade uyumdan yoksunluğu cezalandırır. Di-
ğer bir deyişle, uyumun verilere yakınlığını ölçer. İkinci terim pü-
rüzlülük (PS) cezasını gösterir ve bu pürüzlülüğe bir ceza yükler.

terde yer alan × ise birinci bölümde de açıklandığı gibi düzeltme


Başka bir deyişle, fonksiyondaki eğriliği cezalandırır. Cezalı kri-

parametresini belirtir ve bu parametre 4e 5 ile ölçüm-


d 8 D

lenen eğrinin pürüzlülüğü ve 7 − D

verilere uyumunu dengeler. Ayrıca, × parametresi 0’dan +’a de-


ile ölçümlenen

Eğer × = ∞ alınırsa o zaman (3.44) denklemi sabit eğimli doğru-


ğişirken çözüm interpolasyondan basit bir doğrusal modele değişir.

×=0
( üzerinde kısıt yok ) alınırsa tümüyle esnek eğimli bir interpo-
sal regresyon uyumu üretir, buna karşılık

lasyon uyumuna karşı gelir.

adlandırılır ve , . . . ,
Problem (3.44) için çözüm splayn düzeltme kestiricisi olarak
düğümleri ile bir “doğal kübik splayn”

89
Nonparametrik Regresyon Analizi

olarak bilinir. İzleyen bölümde 0 ’in nasıl elde edildiği gösterile-


cektir.

y = f (x)

h1 hi hi+1 hn-1
a x1 x2 ... xi xi+1 xi+2 … xn-1 xn b x

kübik parçalar, ℎ = Ÿ − , i’inci aralığın uzunluğu


ve , = 1, … , düğüm noktaları olmak üzere bir doğal kübik splayn
Şekil 3.13:

fonksiyonun grafiği

3.7.2. Splayn Düzeltmeye Dayalı Tahmin


Varsayalım fonksiyonu <⋯< düğümlü doğal kü-
bik splayn olsun. Her bir düğüm noktasında fonksiyonun kendisi
ve ikinci türevini vererek tümüyle eğrisini belirten aşağıdaki gibi
doğal kübik splayn vektörleri elde edebilir:
= ,…, ′= ,…, ′=Ó
ve
kk
= O ′′ D , … , ′′ f P′ = <D , … , < f
k
==

90
Düzleştirme Teknikleri

Ancak belirtmek gerekirse, tüm olası Ó ve = vektörleri doğal kübik


splayn eğrilerini temsil etmezler. Bu anlamda, Green ve Silverman
(1994) tarafından tartışılan aşağıdaki teorem, vektörlerin verilen
düğüm noktalarında bir doğal kübik splayn olması için bir koşul
sağlar.
Teorem 3.1 (Green ve Silverman, 1994): Ó ve = vektörleri,
aşağıdaki koşulu sağlaması durumunda, fonksiyonu bir doğal
kübik splayn belirtir:
Qk Ó = R= (3.45)
Denklem (3.45) sağlanırsa (3.44)’teki pürüzlülük cezası terimi,

4e 5 = =k R= = Ó′@Ó
d kk D
(3.46)

ifadesine eşdeğer olacaktır.


Eşitlik (3.46)’da verilen @, aşağıdaki biçimde ayrıştırılabilen
× boyutlu simetrik pozitif tanımlı bir ceza matrisidir:
@ = ABf Ak 3.46=
Burada A, elemanları aşağıdaki gibi belirlenen üç-köşegenli
× − 2 boyutlu bir matristir:

A = 1/ℎ , A , Ÿ =T + UC, ŸD = 1/ℎ Ÿ


€ ¹ €¹©ª

Aynı biçimde, B elemanları şu biçimde belirlenen üç köşegenli


− 2 × − 2 boyutlu simetrik bir matristir:
B f , =B , f = ℎ /6, B = ℎ + ℎ Ÿ /3
ve ℎ = Ÿ − ardışık düğüm noktaları arasındaki uzaklığı gös-
terir. Burada belirtmek gerekirse B A ~ ve A D ~ bant matrisleri-
nin elemanları ise aşağıdaki gibi hesaplanır:

91
Nonparametrik Regresyon Analizi

⎧¾ ℎ~f = • − 1,
⎪ Oℎ + ℎ~ P , = •,
A~ = q ~f
= 2,3, . . . , − 1 ve • = 2,3, . . . , − 1 (3.46a)
⎨ 0, | −•| ≥ 2

⎩ ¾ ℎ~ , =•+1

ve

⎧ €‰Eª , = • − 1,


− X€ + € Y , = • ,
D~ = = 1,2, . . . , ve • = 2,3, . . . , − 1 (3.46c)
⎨ 0,
‰Eª ‰

| −•| ≥ 2

⎪ , =•+1
⎩ €‰

Eşitlik (3.46a) denkleminde belirtilen B ve A matrislerinin


açık bir şekilde gösterilişi aşağıdaki şeklide yazılır:
1 1
⎡ ℎ + ℎD ℎ 0 . . . 0 ⎤
⎢3 6 D ⎥
1 1 1
⎢ ℎ ℎ + ℎq ℎ 0 . . . ⎥
⎢ 6 D 3 D 6 q ⎥
⎢ 1 1 1 ⎥
0 ℎ ℎ +ℎ ℎ 0 . .
F=⎢ . 6.q 3 q. ¨ 6.¨ . . .

⎢ ⎥
⎢ . . . . . . 0 ⎥
⎢ 1 1 1 ⎥
. . . 0 ℎ ℎ +ℎ ℎ
⎢ 6 fq
3 fq fD
6 fD

⎢ 1 1 ⎥
⎣ 0 . . . 0 ℎ ℎ +ℎ ⎦
6 fD
3 fD f

1 1 1 1
⎡ − + 0 . . . . 0 ⎤
⎢ℎ ℎ ℎD ℎD ⎥
⎢ 1 1 1 1 ⎥
⎢0 ℎD
− +
ℎD ℎq ℎq
0 . . . . ⎥
⎢ . . . . . . . . . ⎥
G3 = ⎢ . . . . . . . . . ⎥
⎢ . . . . . . . . . ⎥
⎢ 1 1 1 1 ⎥
⎢ . . . . 0 − + 0 ⎥
⎢ ℎ fq ℎ fq ℎ fD ℎ fD ⎥
⎢0 1 1 1 1 ⎥
. . . 0 0 − +
⎣ ℎ fD ℎ fD ℎ f ℎ f ⎦

Buradan anlaşıldığı gibi, B ve A matrisleri üç köşegen (tridi-


agonal) matrislerdir.
Teorem 3.1'in yararlı bir cebirsel sonucu, (3.44)'teki ceza te-
riminin karesel bir form olarak yazılabilmesidir. Bu durumunda

92
Düzleştirme Teknikleri

(3.44) kriteri, matris ve vektör formunda aşağıdaki gibi yeniden


yazılabilir:
R Ó, × = ‖Ö − Ó‖DD + ×Ó k @Ó (3.47)
Burada Ö = ,..., k
yanıt vektörüdür. Verilen × > 0 paramet-
resi için (3.47) denklemi aşağıdaki gibi yazılabilir:
R Ó, × = Ö − Ó k
Ö − Ó + ×Ó k @Ó
= Ö k Ö − Ö k Ó − Ó k Ö + Ó k Ó + ×Ó k @Ó
= Ö′Ö − 2ÖÓ + Ó k 5 + ×@ Ó
Bu ifadenin Ó′e göre alınıp sıfıra eşitlenecek olursa
R Ó, ×
= −2Ö + 2Ó 5 + ×@ = 0
Ó
eşiliği elde edilir. Ayrıca bu denklemde Ó ile Ó0Ô yer değiştrilerek

Ó0Ô 5 + ×@ = Ö
aşağıdaki denklem sistemi elde edilir:

Böylece, yukarıdaki denklemin her iki yanı 5 + ×@ f terimi ile


(3.48)

Ó0Ô = 5 + ×@
çarpılarak, saplayn düzeltmeye dayalı çözüm elde edilir:
f
Ö
Bu eşitlik ile belirlenen Ó0Ô splayn düzeltme kestiricisi, (3.44) veya
(3.49)

(3.47)’de verilen R , × cezalı kriterlerini minimum yapan bir


fonksiyondur. Eşitlik (3.49)’da görülen 5 + ×@ f matrisi, dü-

× > 0 düzeltme parametresi için j = ,...,


zeltme matrisi olarak adlandırılır ve bu matris, sadece verilen bir
düğüm noktaları

×
vektörü ile belirlenir. Böylece y değerlerini f vektörüne görüntü-

= 5 + ×@
leyen boyutlu düzeltme matrisi,
f
Ô

eşiliği ile tanımlanır. Ó0Ô = ! 0Ô , . . . , 0Ô


(3.50)
#′ splayn düzeltme
kestiricisi, (3.50)’de verilen düzeltme matrisinin yardımıyla

93
Nonparametrik Regresyon Analizi

Ö= ,..., vektörünün bir doğrusal dönüşümü olarak da ta-


nımlanabilir:

⎛ 0Ô D ⎞ ⎛ .⎞
D

Ó0 = ⎜ . ⎟ = ya da, Ó0Ô =
⎜ ⎜
⎜ .⎟ Ô Ö.
⎜ . ⎟
⎟ ⎟
Ô ×

.
(3.51)
.
⎝ 0Ô ⎠ ⎝ ⎠ ×
×

Burada Ó0Ô , × > 0 sabit düzeltme parametresi için , . . . ,


düğümlü doğal kübik splayn ve Ô , (3.50)’de verilen × değerine
bağlı bilinen pozitif tanımlı bir düzeltme matrisidir. Splayn dü-
zeltme fonksiyonu ’e ait gözlem değerlerine uygun olan bir doğal
kübik splayndır.

3.7.3. Tahmin süreci için özel bir durum


Onceki bölümde, , = 1, . . . , , düğüm noktalarının farklı
ve sıralı olduğunu varsayıldı. Bu bölümde ele alınan değişkenin
değerleri yani noktaları farklı ve sıralı olmayabilir. Bu durumu

H − tekrarlanma matrisi (incidence matrix):


izleyen kısımda detaylı olarak açıklanmıştır.

Parametrik olmayan açıklayıcı değişkenin , . . . ,


noktalarının (gözlem değereleri) farklı ve sıralı değerleri ? , . . . , ?
düğüm

ile gösterilsin. , . . . , ve ? , . . . , ? arasındaki bağlantı, = ?~


ise å ~ = 1, değilse 0 girişli olan bir × D boyutlu gözlem de-
ğerlerinin å tekrarlanma matrisi (incidence matrix) yardımıyla
gerçekleştirilir. å-matrisinin satırları
?~ düğümlerine uygun olarak belirlenir:
düğümlerine, sütunları ise

zª ⋯ zM
IJJJJKJJJJL

1, = ?~ ?™

å= Ê ⋮ ⋱ ⋮ Ë = å~ = X Y
… 0, 5 ğ™A 5@A@B¶=A5=

94
Düzleştirme Teknikleri

å-tekrarlanma matrisinin her satırında ancak bir elaman 1, kalanla-


rı ise 0’dır. Sütunlarda ise birkaç elaman 1 olabilir. Ayrıca, dü-

dan da D ≥ 2 olduğu sonucu çıkar.


ğüm noktalarının hepsinin aynı (yani, özdeş) olmadığı varsayımın-

Minimumun karakterizasyonu ve düzeltme matrisi:


Varsayalım =~ = ?~ değerlerin vektörü Ó olsun. Yani,
O= , . . . , = P = T ? , . . . , O? PU = Ó olsun. Bu durumda (4.5)
cezalı kareler toplamı, matris ve vektör formunda,
bNR Ó = Ö − åÓ k
Ö − åÓ + ×4 8 D
5 3.51=
olarak yazılabilir. Kavramsal olarak R Ó ifadesinin minimum
problemi iki adımda dikkate alınabilir: Önce =~ = O?~ P, • =
1,2, … , D ifadesine bağlı minimum ve daha sonra ardındanda sonu-
cu Ó’nın seçimi göre minimum yapılır.
<. . . <
= = , = 1, . . . , noktalarını veren
Belirtmek gerekirse koşulunu (sıralı) sağlayan

interpolasyonuna bağlı, 4 8 D
5 fonksiyonunun minimum
ve fonksiyonunun

eğrisi; B, A bant matrisleri ve


problemi splayn düzeltme bölümünde tartışılmıştır. Hatırlandığı

@ = ABf Ak ceza matirisi yardımıyla elde edilen


gibi, bu minimumu sağlayan

ğal kübik splayndır. Ancak burada @ ceza matrisi, ,...,


düğümlü do-

ğüm noktaları ile yer değiştiren ? , . . . , ? düğüm noktaları yardı-


dü-

olduğu gibi @ matrisi, × boyutunda değil D × D olur. Ayrı-


mıyla hesaplanıdığı için parametrik olmayan regresyon modelinde

ca, Teorem 3.1 gösteriyor ki 4 8 D 5 fonksiyonunun minimum


değeri Ó 3 @ Ó. Böylece, (3.51a) cezalı kriteri,
bNR Ó = Ö − åÓ k
Ö − åÓ + ×Ó k K f (3.52)
şeklinde yeniden yazılabilir. Pürüzlülük ceza yaklaşımını olarak
adlandırılan cezalı en küçük karelerin esası geleneksel doğrusal

lere benzer olarak (3.52) denklemini minimum yapan Ó fonksiyo-


regresyon modelinin çözümünde kullanılan sıradan en küçük kare-

95
Nonparametrik Regresyon Analizi

denkleminin Ó’e göre türevleri alınıp sıfıra eşitlenirse


nunun kestirimidir. Bunun için basit hesaplamalar yapılarak (3.52)

bNR , Ó
= Ö k Ö − Ö k å Ó − Ó k å k Ö + Ó k å k å + ×f 'K f

= Ö k Ö − 2Ö k å Ó + Ó k å k åÓ + ×f 'K f
= −2å′Ö Ó + Ó D å k å + ×Ó D K=0
bulunur. Gerekli cebirsel işlemlerden sonra,
Ó å k å + ×K = å′Ö (3.53)
olarak elde edilir. Eşitlik (3.53)’dan ? <. . . < ? koşulunu sağla-
yan (yani, farklı ve sıralı) düğüm noktalarına karşı gelen gelen
uyum vektörü,
Ó0 = å k å + ×K f
å k Ö = 0 O?~ P, • = 1,2, … , D
ve böylece , . . . , düğüm noktaları için semiparametrik modelin

0 = OåÓ0P = å å k å + ×K
parametrik olmayan bileşenine karşı gelen uyum değerleri vektörü,
f
å k Ö = OÔ Ö

etmek için Ö vektörüne uygulanması gereken düzeltici ya da dü-


olarak tanımlanır. Böylece, bu uyum değerleri vektörünün elde

OÔ = å å k å + ×K
zeltme matrisi (smoothing matrix),
f
åk (3.54)

sıralıysa, å = – (birim matris) olması nedeniyle, OÔ düzeltme mat-


biçiminde elde edilir. Ayrıca, düğüm noktaları farklı ve önceden

risi, şu biçimine indirgenir:


OÔ = – + ×K f
(3.54a)
Bu matris (3.50)’de verilen matris eşdeğer matristir.
Örnek 3.11. Aşağıda verilen Şekil 3.14, tekrarlanma matrisi
(P) ile tekil değerleri de içeren bir tahmin sonucu sunulmuştur. Bu
tahmin 1971’de Kanada’da orta eğitim seviyesindeki erkeklerden
toplanan maaş ve yaş değişkenlerini içeren veriseti ile oluşturul-

96
Düzleştirme Teknikleri

muştur. Örneklem büyüklüğü = 205 düğüm sayısı ( ’in tekil


değer sayısı) ise D = 45’tir. Bu bağlamlda tahmin 205 × 45 boyut-
lu P matrisi yardımıyla gerçekleştirilmiştir. Tahmin Şekil 3.14
altında verilen kod ile elde edilebilir.

Şekil 3.14: Simülasyon verisi ve tahni edilen uyum eğrisi

obj <- sspline(x,0.01) #Bkz. Ek A20


S <- obj$S
fhat <- S%*%y
plot(x,y,pch=19,col="gray",ylab="log(wage)",xlab="
Age",main="Splayn Düzeltme Tahmini")
par(new=TRUE)
lines(x,fhat,lwd=2)
grid()
legend("topleft",legend=c("Veri noktaları","Splayn
eğrisi"),lty=c(NA,1),col=c("gray",1),pch=c(19,NA))

Not: R’de alternatif hesaplama:


Splayn düzeltme, bir açıklayıcı ve bir yanıt değişkenleri
arasındaki fonksiyonel ilişkileri tahmin etmek için güçlü bir yakla-

97
Nonparametrik Regresyon Analizi

şımdır. Splaynlar, smooth.spline fonksiyonu (stats paketinde)


veya ss fonksiyonu (npreg paketinde) kullanılarak fit edilebilir. Bu
doküman, splayn düzeltme konusunda teorik arka planın yanı sıra
smooth.spline ve ss fonksiyonlarının nasıl kullanılacağını gösteren
örnekler sağlar. Bu metinde gösterdiğimiz gibi, iki fonksiyon çok
benzerdir, ancak ss fonksiyonu bazı ek seçenekler sunar.
Örnek 3.12 (Simülasyon verisi): Bu örnekte, doğal kübik

gösteriyoruz. Spesifik olarak = 100 boyutundaki bir örnek için,


splayn eğrilerini nasıl tahmin edildiğini simüle edilmiş verilerle

= ? 2¸ şeklinde ta-
açıklayıcı değişkeni [0,1] aralığında farklı ve sıralı olarak elde

= + , modelinden üretil-
edilmiştir. Bilinmeyen fonksiyon

miştir. Burada ~å 0, 0.5 dağılımından üretilmiştir. Yani, 0


nımlanmış ve yanıt değişkeni

ortalama ve 0.5 standart sapmalı normal dağılımdan üretilmiştir.

set.seed(1)
n <- 100
x <- seq(0, 1, length.out= n)
fx <- sin(2*pi*x)
# generate noisy data
y <- fx + rnorm(n, 0,sd = 0.5)

# fit using ss
mod.ss <- ss(x, y, nknots = 10)
mod.ss
# fit using smooth.spline
mod.smsp <- smooth.spline(x, y, nknots = 10)
mod.smsp

R ortamındaki ss fonksiyonu ve smooth.spline fonksi-


yonu kullanılarak elde edilen uyum sonuçları aşağıdaki Tablo ve
Şekil 3.14’te verilmiştir.

98
Düzleştirme Teknikleri

Fonksiyon Lamda DF RSS GCV RMSE


ss 8.520961e-06 7.029959 6.881791 0.07871255 0.0545369
smoothspline 0.0009552411 6.946441 6.904474 0.07883182 0.0544994

Şekil 3.15: Gerçek gözlem değerleri ve gerçek ’in grafiği ile ss ve


smooth.spline fonksiyonları yardımıyla bu fonksiyonun
tahmin eğrileri

Bu sonuçlar gösteriyor ki her iki fonksiyonda oldukça iyi so-


nuçlar vermektedir. Ayrıca, ss fonksiyonunun bazı ekstra özellikle-
ri ("grafik" ve "özet") içerir:

99
Nonparametrik Regresyon Analizi

Call:
Residuals:
Min 1Q Median 3Q Max
-0.71220 -0.16465 0.00119 0.17462 0.63203

Approx. Signif. of Parametric Effects:


Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.03133 0.02694 1.163 0.2478
x -0.20988 0.17850 -1.176 0.2426
---
Approx. Signif. of Nonparametric Effects:
Df Sum Sq Mean Sq F value Pr(>F)
s(x) 5.03 18.656 3.70898 50.65 0 ***
Residuals 93.97 6.882 0.07323
---
Residual standard error: 0.2706 on 93.97 degrees of
freedom
Multiple R-squared: 0.8785, Adjusted R-squared:
0.8705
F-statistic: 110.9 on 6.03 and 93.97 DF, p-value:
<2e-16

Bu tablodaki s(x) konu içeresinde yer verilen fonksiyo-


nuna karşı gelmektedir. F değeri gösteriyor ki tahmin edilen uyum
değerleri istatistiksel açıdan anlamlı yani nonparametrik etki anlam-
lıdır. Ayrıca, belirlilik katsayısına göre bağımlı değişkendeki değiş-
melerin %87.85’i bağımsız değişken tarafından açıklanmaktadır.

Şekil 3.16: Koyu çizgi gerçek ’in eğrisini gösterirken gri gölgeli alan
ise bu fonksiyonu için % 95 "güven aralığını" göstermektedir.

100
Düzleştirme Teknikleri

müle edilmiş veriler üzerinde × = 1™ − 15 çÀ> >üçü> ¿™r= , gcv


Örnek 3.13 (Düzletme parametresinin etkisi): Aşağıda si-

ile seçilen × parametresi (ideal ceza) ve × = 100 (büyük ceza) için


sırasıyla bilinmeyen fonksiyonun spalyn düzeltme tahminleri aşa-
ğıdaki şekilde gösterilmiştir.

Şekil 3.17: İlk grafik çok küçük düzeltme parametresine karşılık gelen
bir interpolasyonu, ortadaki grafik GCV kriteri ile seçilen düzeltme

ğı, son grafik büyük bir düzeltme parametresi yani, × = 100 için
parametresi için splayn düzeltme tahminini ve onun %95 güven aralı-

splayn düzeltmenin doğrusal regresyon uyumuna karşılık geldiğini


göstermektedir.

101
Nonparametrik Regresyon Analizi

library(npreg)
n <- 101
x <- seq(0, 1, length.out= n)
fx <- sin(2*pi*x)
set.seed(1)
y <- fx + rnorm(n,0, sd = 0.3)

# subplots (1 x 3)
par(mfrow = c(1,3))

# lambda = 1e-15 (df = n)


mod.ss0 <- ss(x, y, all.knots = TRUE, lambda = 1e-15)
plot(mod.ss0, ylim = c(-1.75, 1.75))
points(x, y)

# GCV selection
mod.ss <- ss(x, y, all.knots = TRUE)
plot(mod.ss, ylim = c(-1.75, 1.75))
points(x, y)

# lambda = 100 (df = m)


mod.ss10 <- ss(x, y, all.knots = TRUE, lambda = 100)
plot(mod.ss10, ylim = c(-1.75, 1.75))
points(x, y)

Yukarda verilen örnekteki grafiklerden de anlaşılacağı


gibi,
 Düzeltme parametresi × → 0 iken R ,× = 7 −
+× 4e 5 kriter fonksiyonu için cezanın
D d 8 D

la, ×'nın çok küçük değerleri için, 0Ô


en küçük kareler üzerinde daha az etkisi vardır. Dolayısıy-
tahmini artık kare-
lerin toplamını asgariye indirger yani interpolasyona yol

×→∞ R ,× =
açar.

7 − +× 4e 5 kriter fonksiyonu
d
 Düzeltme parametresi iken
D 8 D

için ceza, cezalı en küçük kareleri daha fazla etkiliyor. Bu

102
Düzleştirme Teknikleri

nedenle, ×'nın çok büyük değerleri için, 0Ô


4e 5 Q 0 olacak şekilde
d
tahmini, esa-
8 D
sen sıfır ceza ile yani

 Düzeltme parametresi ×, 0'dan ∞'a yükseldikçe 0Ô


sınırlandırılmıştır. Yani, düz bir eğri ile sonuçlanır.

fonksiyon tahmini, × 4e 8 5 fonksiyonel cezaya


d D

tahmini için "doğru" düzgünlük derecesini üreten bir × pa-


göre daha pürüzsüz olmaya zorlanır. Amaç, fonksiyon

rametresini bulmaktır. Bu konu Bölüm 5’te ayrıntılı olarak


incelenmiştir.

miş veriler üzerinde B = 1 olarak ayarlanan doğrusal bir splayn


Örnek 3.14 (Ceza derecesinin etkisi): Aşağıda simüle edil-

düzeltme, B = 2 olarak ayarlanan bir splayn düzeltme ve B =


3 olarak ayarlanan bir splayn düzeltme tahminleri aşağıdaki şekilde
gösterilmiştir.

Şekil 3.18: İlk grafik doğrusal splayn düzeltme, ortadaki grafik kübik
splayn düzeltme tahminlerini ve son grafik bir splayn düzeltme uyu-
muna karşılık gelen tahmin eğrisini göstermektedir.

103
Nonparametrik Regresyon Analizi

Şekil 3.12:R Kodları


library(npreg)
n <- 101
x <- seq(0, 1, length.out= n)
fx <- sin(2*pi*x)
set.seed(1)
y <- fx + rnorm(n,0, sd = 0.3)
mod.lin <- ss(x, y, nknots = 10, m = 1)
mod.cub <- ss(x, y, nknots = 10, m = 2)
mod.qui <- ss(x, y, nknots = 10, m = 3)
par(mfrow = c(1,3))
plot(mod.lin, ylim = c(-1.75, 1.75))
points(x, y)
plot(mod.cub, ylim = c(-1.75, 1.75))
points(x, y)
plot(mod.qui, ylim = c(-1.75, 1.75))
points(x, y)

Yukarda erilen örnekten anlaşıldığı gibi, 4e 5 =


d } D

4e kk 5 ifadesinde B = 2 olarak ayarlanması, fonksiyonun


d D

karesel ikinci türevini cezalandıran bir kübik splayn düzeltmeyi


üretir. Kübik düzleştirme eğrileri, birçok yazılımda varsayılandır.
Kübik splayn düzeltme "düğümler" (önceki bölümlerde anlatıldığı

parçalı kübik fonksiyonları kullanarak . tahmininde bulunur.


gibi, örneğin regresyon splayn) olarak bilinen noktalara bağlanan

Fonksiyon tahminlerinin düğümlerde sürekli iki türevi vardır ve

sağlar. Diğer yandan B = 1 olarak ayarlanması, doğrusal bir


fonksiyonun ve türevlerinin düzgün bir şekilde tahmin edilmesini

B = 3 olarak ayarlanması, beşli bir splayn düzeltmeyi (parçalı


splayn düzeltme (parçalı bir doğrusal fonksiyon) ve son olarak

beşli bir fonksiyon) üretir.

104
Bölüm IV

ÇIKARSAMA

4.1. Çıkarsama
Parametrik regresyonda tahminin merkez odağında regresyon
katsayıları yer alır. Doğal olarak istatistiksel çıkarsama bu katsayı-
lar üzerine yapılır. Bu anlamda, örneğin, katsayıların güven aralık-
ları ve hipozet testleri yapılabilir. Aksine, nonparametrik regres-
yonda, regresyon katsayıları yoktur. Onun yerine, tahminin merkez
odağında regresyon fonksiyonu yer alır ve çıkarsama doğrudan
regresyon fonksiyonu üzerine yapılır.
Örneğin, (3.1)’de belirtilen yerel (lokal) regresyon kestirici-
sinde olduğu gibi, burada adı geçen tüm nonparametrik regresyon
kestiricileri, şu şekilde yazılıştan dolayı doğrusal düzelticiler olarak
bilinirler:

0€ = ÃÞ 4.1

Burada Þ 1 ağırlıkları 1 noktasında eşdeğer kernel olarak bili-


nir. Böylece, bu kestiriciler gözlemler açısından doğrusal düzeltici-
lerdir. Bu düzeltici (ya da uyum değerleri), matris ve vektör for-
munda,
k
Ó0€ = T 0€ , … , 0€ U = €Ö 4.2

Burada € = !Þ 1 # her bir kestirici için × boyutlu düzelt-


me matrisine karşılık gelir:

105
Nonparametrik Regresyon Analizi

ℎ ℎ D … ℎ … ℎ
… ℎD … ℎD
⎛ ℎD ℎDD ⎞
⋮ ⋮ ⋱ ⋮ … ⋮
=⎜ ⎟

⎜ ℎ ℎD … ℎ … ℎ ⎟
⋮ ⋮ ⋮ ⋮ ⋱ ⋮
⎝ℎ ℎ D … ℎ … ℎ ⎠

€ matrisinin sıraları, gözlemlenen ,…, değerlerinin herbi-

kestirici sabit bir fonksiyonu bulundurur. Dolayısıyla, € × R =


rindeki uyumların üretimi için eşdeğer kernellerdir. Her bir makul

R (burada 1, birler vektörüdür) olarak ifade edilir. Örneğin,


∑~ ℎ ~ = 1. Bu toplam diğer her bir sıra için de geçerlidir. Bu
€ matrisinin her bir sırasındaki ağırlıkların toplamının 1 olduğu-
nu ima etmektedir. Belirtmek gerekirse € matrisi sıradan en kü-

= S S éS S matrisine benzerdir.
k f k
çük kareler regresyonundaki şapka matrisi yani,

4.2. Yan-Varyans ve Serbestlik Derecesi


Bu kestiricilerin yan (bias- T) vektörü,
T = Ó − Ó0€ = Ó − €Ö =Ó− €Ó = 5− € Ó
olarak hesaplanabilir. O zaman hata kareler ortalaması (MSE) aşa-
ğıdaki biçimde yazılabilir:

1 1
QR = Ã W=A T 0€ U + Ã TD 4.3

ÜA k
TTk
= hD +
€ €

Burada ilk terim varyansı gösterirken ikinci terim yanların karesini


göstermektedir. Ancak bu MSE değeri varyans bilinmediğinden
pratik değildir. Bunun yerin örneklem değerlerine dayalı olarak
hesaplanan tahmini varyans değeri kullanılır. Bu varyans değeri şu
şekilde tahmin edilir:

106
Çıkarsama

∑ − 0€ ¡ ∑ − 0€ ¡
D D

h$ =
D
= 4.4
− µc − ÜA €
Burada µc = ÜA € , düzeltme matrisinin izine ya da köşegen
değerleri toplamına karşılık gelen serbestlik derecesini gösterir.
Burada temel düşünce doğrusal kestiriciler için serbestlik de-

lanır. Genel doğrusal kestiriciler için µc, şu yaklaştırmalardan her


recesini yaklaştırmaktır. Bu lineer modellere benzer şekilde hesap-

hangi biriyle ifade edilebilir:


µc = A= > € ≅ ÜA €

≅ ÜA € €
k
≅ ÜA 2 € − € €
k

Burada belirtmek gerekirse yüksek µc için çok hareketli ya da


oynak düzelticiler olurken düşük µc için çok pürüzsüz düzeltici-
ler görülür.
Bu bilgilerden hareketle, doğrusal düzelticiler için =
noktasındaki uyum değerleri $ = 0€ ’nin tahmin edilen var-
yansı aşağıdaki biçimde ifade edilebilir.

W=A $ = h$ D Ã ℎ D~ 4.5
~

Burada h$ D , (4.4)’te hesaplandığı gibi, hata terimlerinin tahmin


edilen varyansı ve ℎ ~ ′ler ise (4.2)’de görüldüğü gibi, değerleri-
nin fonksiyonları olan ağırlıkları gösteren € düzeltme matrisinin
elemanlarıdır. O zaman (4.2)’de verilen uyum değerlerinin sütun
vektörü,
k
Ö$ = €Ö = $ , … , $
k
= T 0€ , … , 0€ U = Ó0€

biçimde ifade edilecek olursa bu uyun değerlerinin varyans kovar-

= W=A Ó0€
yan matrisi, şu şekilde hesaplanabilir:
W=A Ö$ = € W=A Ö €
k
= h$ D € €
k
4.6

107
Nonparametrik Regresyon Analizi

Bu matrisin köşegen değerleri karşı gelen uyum değerlerinin


varyanslarını gösterirken köşegen dışı elemanlar kovaryanslarını
göstermektedir.

4.3. Uyum Değerleri için Güven Aralıkları

0
Bir nonparametrik regresyon modelinde, regresyon

,…,
fonksiyonunun tahminini olduğunu varsayalım. Burada var-
sayılan temel nokta, regresyon fonkisyonu açıklayıcı
değişkenin gözlemlenen değerlerinde değerlendirilir. Bu bölümün

değişken ’in değerelerine göre ′nin nonparametrik regresyonun-


giriş kısmında belirtildiği gibi (bkz. 4.1 ve 4.2 eştlikleri), açıklayıcı

dan elde edilen uyum değerleri $ = 0 olarak sonuçlanır. Bu


uyum değeri,

$ = Ãℎ ~ ~ = 0
~

olarak yazılabilir. Bu durum gösteriyor ki uyum değeri gözlemlerin


ağırlıklı bir toplamıdır.
Nonparametrik regresyonda model hataların normal dağıldı-

O y = = P için yaklaşık %95 güven aralığı,


ğını varsayıldığında, ana kitle regresyon fonksiyonu

$ ± 2·W=A $
biçiminde veya eşdeğer olarak şu şekilde hesaplanabilir:
b! $ − 2 × R $ ≤ = | = ≤ $ −2×R $ # = 0.95
k
Burada $ = 0 = T 0€ , … , 0€ U regresyon fonksiyonu

R $ = ·W=A $ = ·5 =Ý h$ D
uyum değerlerini gösterirken
k
€ € , uyum değerlerinin
standart hatalarını gösterir. Buna göre, yukarıda verilen güven ara-
lığı şu biçimde de yazılabilir:

108
Çıkarsama

b Ê $ ∓ 2 × ÐW5 =Ý h$ D € €
k
ÑË = 0.95

Benzer olarak farklı güven düzeyleri içinde farklı güven aralıkları


tanımlanabilir.
Yukarıda tanımlanan güven aralıkları noktasal aralıkları belir-
tir yani her değeri için noktasal %95 güven aralığını gösterir.
Ortalama olarak ( ) fonksiyonunun gerçek değerlerinin %5’i bu
aralıkların dışında kalırken bu aralıkların %95’i ise ( )'nin gerçek
değerlerini kapsadığı söylenebilir.
Örnek 4.1: R ortamında Simülasyon ile yaratılan veriler için
lokal regresyon yönteminden elde edilen uyum değerleri ve onların
noktasal güven aralıkları aşağıdaki tablo ve grafikte verilmiştir.
R-Kodları:
n<-20
x<-seq(0,1, length=n)
fx<-sin(2*pi*x)
y<-fx+rnorm(n,0,sd=0.1)
plot(x, y)
fit<- loess(y ~ x, degree = 2, span = 0.5)
pred <- predict(fit,data.frame(x=x), se=TRUE)
lines(x, pred$fit, col=2, lwd=2)
lines(x, pred$fit + 1.96*pred$se, col=4,lwd=2)
lines(x, pred$fit - 1.96*pred$se, col=4,lwd=2)

109
Nonparametrik Regresyon Analizi

Tablo 4.1: Gerçek gözlemler, uyum değerleri ile %95 alt ve üst güven
sınırları

$ = 0€
Gözlem
Alt sınır Üst sınır
No
1 -0.15318084 -0.2219934 -0.37652324 0.06746347
2 0.13021688 0.2336367 0.13687226 0.33040122
3 0.58452060 0.5880778 0.50088979 0.67526590
4 0.79147620 0.8438518 0.75054196 0.93716170

⋮ ⋮ ⋮ ⋮ ⋮
5 1.08836139 0.9932173 0.89579119 1.09064345

20 0.05866922 0.1348207 -0.01971881 1.09616936

Burada

o¶Ü ?Î ÎA = $ − 1.96 × ÐW5 =Ý h$ D € €


k
Ñ

ve

Ü?Ü ?Î ÎA = $ + 1.96 × ÐW5 =Ý h$ D € €


k
Ñ

Burada verilen € matrisinin bölüm girişinde anlatıldığı gibi,


her bir sırasının toplamı 1’e eşit olduğu görülmektedir. Koyu renkli
rakamlar matrisin köşegen elemanlarını vermektedir. Üst satır ve
birinci sırada yer alan rakamlar matrisin sıra ve sütun numaralarını
göstermektedir.

110
Çıkarsama

Sıra ve sütun
1 2 10 11 19 20
numaraları
8,26E+05 7,31E+05 ⋯ -6,63E+01 -3,24E+00 ⋯ -4,11E-17 -5,13E-20
3,90E+05 5,75E+05 ⋱ -4,00E+02 -2,78E+01 ⋯ -5,35E-15 -9,34E-18
1
2
⋮ ⋮ ⋮ ⋮ ⋮ ⋮
10 2,99E-02 8,78E-01 ⋯ 2,53E+05 1,99E+05 ⋯ 1,14E-02 2,10E-04
€ D ×D = 11 2,10E-04 ⋯ 1,99E+05 2,53E+05 ⋯ 8,78E-01

1,14E-02 2,99E-02
⋮ ⋮ ⋮ ⋮ ⋮ ⋮
19 -9,34E-18 -5,35E-15 ⋯ -2,78E+01 -4,00E+02 ⋯ 5,75E+05 3,90E+05
20 -5,13E-20 -4,11E-17 ⋯ -3,24E+00 -6,63E+01 ⋯ 7,31E+05 8,26E+05

Şekil 4.1: Uyum eğrisi ve onun %95 güven sınırları

Örnek 4.2: Aşağıda sırasıyla, Motosiklet ve prestige verileri


için lokal polinom regresyondan elde edilen uyu değerlerinin eğri-
leri ve onlara ilişkin %95 güven aralıkları verilmiştir.

111
Nonparametrik Regresyon Analizi

Şekil 4.2: Lokal regresyondan elde edilen uyum eğrileri ve %95 güven
aralıkları

4.4. Hipotez testi


Sıradan en küçük kareler regresyonunda, alternarif modelleri
karşılaştırma konusunda hipotezleri test etmek için F- test istatistiği

1 ve − 2 serbestlik dereceli F istatistiği, ve arasındaki doğru-


kullanılır. Örneğin basit doğrusal en küçük kareler regresyonunda,

sal olmayan ilişkiyi test eder:


YRR − SRR / µc} 9…† − 1 YRR − SRR / 2 − 1
c= = 4.7
SRR/µceŽƒ•‹ SRR/ − 2
Burada YRR = ∑ − Z D genel kareler toplamı ifade eder ve
= + + full modeli için ′deki değişim gösterir;
SRR = ∑ − $ D artık kareler toplamı verir ve indirgenmiş
model = + için ′deki değişim gösterir. Ayrıca µc} 9…† ,
full model için serbestlik derecesini gösterirken; µceŽƒ•‹ , full mo-
delden elde edilen artıklar için serbestlik derecesini gösterir.
Yukıdakine benzer olarak nonparametrik regresyon ortamında
bir nonparametrik regresyon modeli lineer ile bir lineer regresyon

112
Çıkarsama

modelini karşılaştırarak için F-testi kulllanılabilir. Uygun hipotez-


ler şu şekilde ifade edilebilir:
[ : QÀ5™¶ 0 ¶ ™A BÀ5™¶™ 5= =¶Î @ @B 5™ >¶™B
[ : QÀ5™¶ 1 À x=A=B™ÜA > BÀ5™¶™ 5= =¶Î @ @B 5™ >¶™B
Yukarda öne sürülen hipotezleri test etmek için µc} 9…† −2
ve µceŽƒ•‹ serbestlik dereceli c − ?Ü=Ü ?Ü ğ kullanılır:
SRR − SRR / µc − µc SRR − SRR / µc} −2
c = = 4.8
9…†
SRR / − µc SRR /µceŽƒ•‹
Burada,
SRR = ∑ − $ D , lineer model = + r + ar-
tıkları için kareler toplamı; SRR = ∑ − $ , nonnparamet-
D

= + artıkları için kareler toplamı; µc = 2,


lineer model parametreleri için serbestlik derecesi, µc = µc} 9…†
rik model

µceŽƒ•‹ = − µc , nonparamerik model artıkları için hesaplanan


nonparametrik model parametreleri için serbestlik derecesini ve

serbestlik derecesini gösterir.


Bu değerler eşdeğer olarak aşağıdaki biçimde de hesaplanır:

SRR = Ã − 0€ ¡ = OÖ − Ó0 P OÖ − Ó0 P burada Ó0
D k

= €Ö ve µc = ÜA €

SRR = Ã −$ D
= Ö − Ö$ k
Ö − Ö$ burada Ö$ = Ö

= Ó0 ve µc = ÜA

Not: ÜA = r , matrisin köşegen değerleri toplamını


göstermektedir. Ayrıca, diğer bölümlerde tanımlandığı gibi, €
verilen bir ℎ düzeltme parametresi için herhangi bir parametrik
olmayan yönteminden elde edilen düzeltme matrisi ve , sıradan

113
Nonparametrik Regresyon Analizi

bir lineer regresyon ortamında elde edilen şapka matrisi ifade et-

Burada temel düşünce, Ó0 uyum değerlerinin Ó0 uymlarından


mektedir.

etmek istiyoruz. Sıfır hipotezi altında Ó0 ve Ó0 uyumlarının yansız


daha pürüzlü olabileceği ve önemli bir sapma alıp almadığını test

olduğunu varsayıyoruz. Böylece, sıfır hipotezi, iki düzleştirici ara-


sında önemli bir fark olmadığını ima eder. Bu durumda yukarıda
verilen F testini kullanabiliriz.
Örnek 4.3 Motosiklet verisi: Bu örnekte motosiklet verisi
dikkate alınmıştır. Bu veride zamana karşın hızlanmanın regres-
yonu için iki farklı model kullanılmıştır. Bu modellerden bir lokal
doğrusal regresyon diğeri ise lokal kuadratik regresyon modelidir.
Temel amaç bu modellerden hangisi hızlanmadaki değişimi daha iyi
temsil eden bir eğri vereceğini ortaya koymaktır. Bu amaçla, aşağıda
verilen R-komutu yardımıyla iki model karşılaştırılmış ve sonuçlar
aşağıda verilmiştir.

xs <- sort(x)
plot(x, y, xlab="time",ylab="accelaration" )
fit.lineer<- loess(y ~ x, degree = 1, span = 100)
fit.kuadratik<- loess(y ~ x, degree = 2, span = 0.5)
lines(xs, predict(fit.kuadratik),col="blue",lty=2,
lwd=2)
lines(xs, predict(lineer), col="green",lty=1, lwd=2)
anova(fit.linear,fit.local)

[ : QÀ5™¶ 0 ¶ ™A BÀ5™¶™ 5= =¶Î @ @B 5™ >¶™B


[ : QÀ5™¶ 1 >@=5A=Ü > BÀ5™¶™ 5= =¶Î @ @B 5™ >¶™B

114
Çıkarsama

Model 1: loess(formula = y ~ x, span = 100, degree =


1): Lineer
Model 2: loess(formula = y ~ x, span = 0.5, degree =
2): Kuadratik
Analysis of Variance: denominator df 125.16
ENP RSS F-value Pr(>F)
[1,] 2.00 281136
[2,] 6.86 71183 58.867 < 2.2e-16 ***

[ : QÀ5™¶ 0 yani sıfır hipotezini reddediyoruz. Çünkü hesaplan F-


Yukarıda verilen varyans analizi sonucuna göre,

istatistiği çok küçük bir p-değerine sahiptir. Bu nedenle, doğrusal-


lıktan istatistiksel olarak anlamlı bir sapma olduğu sonucuna varı-
yoruz. Bu sonuçlar aşağıda verilen grafik ile desteklenmektedir.
Çünkü lokal kuadratik regresyondan elde edilen uyum eğrisi veriyi
çok iyi izlemektedir. Diğer kesikli doğrusal çizginin yani lokal
doğrusal regresyondan elde edilen uyum değerlerinin veriyi iyi
temsil etmediği görülmektedir.

Şekil 4.3: Zamana göre hızlanmanın iki farklı regresyon modeli ile
tahmininden elde edilen uyum eğrileri

115
Bölüm V

PERFORMANS ÖLÇÜLERİ VE DÜZLEŞTİRME


PARAMETRESİNİN SEÇİMİ

Bir kestiricinin performansı bağımsız bir veri seti üzerinde


onun tahmin yeteneği ile ilişkilidir. Uygulamada, performans de-
ğerlendirmesi son derece önemlidir. Çünkü performans göstergele-
ri kestirici seçimine rehberlik ettiği için bize nihai olarak seçilen
modelin kalitesinin bir ölçüsünü de verir. Bu bölümde “iyi kestirici
(good estimator) nasıl olmalıdır?” sorusuna yanıt aramaya çalışa-
cağız. Bu bağlamda, izleyen bölümlerde regresyonu fonksiyonu
için kestiricilerin birkaç ailesini çalışacağız. Her bir aile genellikle
düzeltme parametresi olarak adlandırılan bir parametre ile indeks-
lenir. Verilen bir aileden bir kestiricinin seçimi bu indeks paramet-
resi için bir değerin seçimini gerektirir. Böyle bir seçim subjektif
olarak yapılabiliyorken genellikle en azından izleyen kestirici için
ceza ayarı yapılması konusunda bir başlangıç noktası olarak objek-
tif bir seçim tercih edilecektir. Bunlar sadece nonparametrik reg-
resyon problemleri ile sınırlı değil, gerçekte onlar, değişik model
ya da değişken seçimi konusundaki problemleri çözmek içinde
kullanılabilir.

5.1. Performans Kriterleri


İstatistiksel modelleme perspektifinden bakıldığında tahmin
edilen çıktı değerleri ile gerçek değerler arasındaki mesafe, hem

nın ölçülmesinin temel argümanıdır. Buna göre . fonksiyonu-


tahmin edicinin (kestiricinin) hem de genel model performansları-

nun kestiricisi olan 0 . ile arasındaki mesafe O − 0 P modelin


uyum iyiliği ile ilişkilidir ve iyi bir kestirici için bu mesafenin ola-

117
Nonparametrik Regresyon Analizi

bildiğince küçük olması beklenmektedir. Bu bölümün temel amacı,


tahmin edilen kestiricinin ve bu kestiriciye bağlı olarak modelin
performansının ölçülmesini ve bu doğrultuda kullanılan yöntemle-
rin hem teorik bağlamda hem de uygulama alanında özelliklerini
ve karakteristiklerini anlatmak ve göstermektir. Ayrıca her bir yön-
temin avantaj ve dezavantajlarının incelenip örneklerle açıklanma-
sının iyi bir kestiricinin elde edilmesinde araştırmacılara yol göste-
receği öngörülmektedir.
= ,…, ∈ ℝ ve
= ,…, 3
∈ ℝ rasgele değişkenleri ile ,
Nonparametrik regresyon modeli,
ikili değerle-

arasındaki ilişkiyi ölçülebilir fonksiyon : ℝ →


rinden oluşmaktadır. İlgilenilen durum, yanıt değişkeni ile açık-

ℝ ile modellemektir. Buna göre amaç


layıcı değişken
’in için belirli kriter-

geçen kriter ise temelde | − | ifadesinin mümkün olduğu


lere göre “iyi bir yaklaştırma” olarak elde edilmesi amaçlanır. Adı

, rasgele olduğu için | − |


kadar minimum elde edilmesi olarak açıklanabilir. Burada belirt-

ifadesi de rasgele olarak ifade edilir ve bu durum, | − |


mek gerekir ki değişkenler

değerinin minimum değerinin belirsiz hâle getirmektedir. Litera-


türde oldukça yaygın olarak kullanıldığı üzere, minimum kriteri

nı ölçmek için ND -risk olarak da adlandırılan


olarak dolayısıyla elde edilen tahmin edicisinin performansı-
değeri için hata
kareler ortalaması kullanılır;

ND = !Ó − #D = ! − #D = f
Ã! − #D 5.1

Burada Ó = ! ,…, #. Buna göre için iyi performan-

bilir. Ayrıca (5.1)’de verilen karesel risk ifadesini, "A"inci derece-


sın tanımı (5.1) eşitliğinin minimum elde edilmesi olarak söylene-

den genelleştirilmiş hâli aşağıdaki gibi ifade edilebilir:

N• = !Ó − #• = ! − #• = f
Ã! − #• 5.2

Burada x ≥ 1 olmalıdır. (5.1)’e dönülürse karesel riskin litera-


türde genel kabul görmesinin nedenleri aşağıdaki gibi sıralanabilir;

118
Performans Ölçüleri ve Düzleştirme Parametresinin Seçimi

 ND , önceki bölümlerde detaylı olarak verilmiş olan çe-


şitli düzleştirme yöntemlerine dayalı model tahmininde
matematiksel işlemleri basit hâle getirmesi ve çözümün ko-

 ND
lay ve etkin şekilde elde edilmesini sağlaması.
minimizasyonu doğal olarak tahminlerin çok daha
hızlı elde edilmesini sağlar ki bu en önemli avantaj olarak
söylenebilir.

mesi için dikkate alınacak amaç fonksiyonu, ND


Buna göre tahmin edilen modelin performansının ölçülebil-
bağlı olarak
aşağıdaki gibi ifade edilebilir;
! − #D = min ! − #D 5.3
ú:ℝ→ℝ

Önceki bölümlerden hatırlandığı gibi, aşağıdaki gibi


ifade edilebilir:
= | = 5.4
Eşitlik (5.4)’te verilen regresyon fonksiyonunun ND riskini

Burada, 5: ℝ → ℝ herhangi bir fonksiyon olsun;


minimum yaptığı aşağıdaki gibi matematiksel olarak gösterilebilir.

! − #D = ! −5 +5 − #D
= ! −5 #D + !5 − #D
= `O −5 PO5 − P| a¡
= O −5 P !5 − | #¡
= O −5 PO5 −5 P¡
= 0.
Böylece sonuç aşağıdaki gibi yazılabilir;

! − #D = E| −5 |D ] 5 + |5 − |D , 5.5

Burada ],
eder. Eşitlik (5.5)’in ilk terimi 4ℝ| −5 |D ] 5 ,
değişkenine ait dağılımın ortalamasını ifade

fonksiyonunun ND hatasıdır ve hiçbir zaman negatif değer almaz.

119
Nonparametrik Regresyon Analizi

Yalnızca =5 olduğunda “0” değerini alır ki bu durum


en uygun (optimum) yaklaşımın elde edildiği anlamına gelir.
Daha önceki bölümlerde de detaylı olarak anlatıldığı gibi,
nonparametrik regresyon fonksiyonu, (5.1) ve (5.5) eşitliklerinin

modelinin performansı da benzer şekilde ND


minimizasyonu ile tahmin edildiğinden tahmin edilen regresyon
riskine dayalı öl-
çütler yardımıyla ölçülür. Bu ölçütler, performans kriterleri olarak
adlandırılır ve başlıklar hâlinde aşağıdaki gibi sunulabilir.

yon fonksiyonu için genel bir notasyon olarak 0


Performans ölçütleri tanıtılmadan önce, tahmin edilen regres-
belirlenmiştir.

0
Buna göre kullanılan düzleştirme yöntemine göre ilgili tahmin
yer değiştirilerek (kernel, lokal yaklaştırma, cezalı splayn
vb.) ilgili yöntem için performans skoru hesaplanabilir.

5.1.1. Hata Kareler Ortalaması (HKO)

0
Herhangi bir tahmin yöntemi için, regresyon fonksiyonu

edilir (smoothing/bandwidth parameter). Eğer × → 0, ℎ → 0 olarak


için pürüzsüzlük miktarı düzleştirme parametresi ile kontrol

çok küçük bir değer olarak belirlenirse tahmin edilen regresyon


fonksiyonunun keskin geçişlerle her bir gözlem noktasından geç-
meye çalıştığı görülür. Buna göre eğer pürüzsüzlük azalırsa model
daha az “Yanlılık” içerir fakat tahmin edilen ortalama eğriden uzak
kalan veri noktaları nedeniyle tahmin edilen modelde gürültü (noi-

anlamına gelir. Aksi durumda, eğer × → ∞, ℎ → ∞, ise yanlılık ve


se) yüksek olur ki bu modelin “Varyans” değerinin yüksek olduğu

varyans için bahsedilenin tam tersi bir manzara ortaya çıkar. Buna
göre model için “Toplam Hata” aşağıdaki gibi ifade edilebilir;
YÀx¶=B [=Ü= = üAü¶Üü + = ¶Î¶Î> D
+ W=A = ? 5.6
Burada gürültü, rasgele hata yani regresyon modelin de yer

= ¶Î¶Î> D ve W=A = ? düzleştirme veya bant genişliği paramet-


alan ve araştırmacı tarafından kontrol edilemez. Fakat

relerine bağlı olarak optimum şekilde belirlenebilir. “Toplam Hata”

120
Performans Ölçüleri ve Düzleştirme Parametresinin Seçimi

ve bileşenlerindeki değişimin düzleştirme parametresi (× veya ℎ)


ile ilişkisi Şekil 5.1’te gösterilmiştir.
Şekil 5.1’den de anlaşılabileceği gibi, düzleştirme (smoothing)
miktarının bir optimum seviyesi vardır ve dolayısıyla tahmin süre-
cinde bu miktarı kontrol eden üç önemli kriter aşağıdaki gibidir;
1. Bant genişliği (ℎ) veya düzleştirme (×) parametrelerinin
düzgün seçilmesi. Parametre seçimi ile ilgili detaylar Bö-
lüm 5.3’te verilmiştir.
2. Gerçek regresyon eğrisi (verinin yapısı).
3. Veri setinin büyüklüğü, çünkü veri sayısı arttıkça varyans
azalır ve toplam hatadaki payı düşer. Bu durumda, Şekil
5.1’de gösterilen varyans eğrisi sayı doğrusunun soluna
kayar ve bu bağlamda düzleştirme miktarının azaltılması
beklenir.

Şekil 5.1: Eşitlik (5.6)’da verilen “Toplam Hata” ve bileşenlerinin düzleş-

kullanılmıştır. Panel (A), = 100, panel (B), = 150, (C) = 250,


tirme parametrelerine göre değişimleri. Yöntem olarak kernel yöntemi

panel (D), = 500.

121
Nonparametrik Regresyon Analizi

tematiksel olarak ∈ g olarak ifade edilebilir. Bu ifade, .


Bilindiği gibi parametrik olmayan regresyon fonksiyonu ma-

fonksiyonunun yalnızca sürekli değil, ayrıca tüm sıralı türevlerinin


de var ve sürekli olduğu anlamına gelir. Böylece, fonksiyonu için
Taylor açılımı yapılarak noktasındaki türevleri alınarak herhan-

≤⋯≤
gi bir yerdeki değerleri bulunabilir. Diğer yandan, sıralı ’ler olan
kullanılarak için “interpolasyon” yardımıyla
eğri üzerindeki eksik noktalar tamamlanır ve böylece tahmini
yapılabilir.
,
=
Eşitlik (5.4) gösterildiği gibi, gözlemleri varsa, reg-

| = olarak yazılabilir ve eğer her bir yanıt gözlemi için


resyon fonksiyonu, beklenen değer yardımıyla

~ =

olarak yazılabilen çok fazla sayıda gözlem elde edilirse
“büyük sayılar kanunu” yardımıyla söylenebilir ki .

şılık, tek bir = elde edilir. Dolayısıyla Eşitlik (5.4) regresyon


Fakat bilindiği gibi, pratikte her bir yanıt gözlemi değerine kar-

fonksiyonu tahmininde verimli çalışmaz. Verimsizliği ise çok yük-


sek “Yanlılık” ve “Varyans” içermesinden kaynaklanır. Eşitlik

varyansı (gürültü-noise: h^D ) ile aynı elde edilir. Burada HKO ile
(5.4)’e bağlı olarak hata kareler ortalaması (HKO), rasgele hata

Eşitlik (5.6) ile ilişkili olarak ve kavramsal olarak [«K =


= ¶Î¶Î> D + W=A = ? olarak ifade edilebilir. Bu bağlamda, tah-
min edilen eğride ≠ için elde edilen eğri üzerindeki ortalama
değerler, yanlılığa işaret eder ve böylece, “iyi bir tahmin” için
amaç, yan-varyans dengesini bulmak olarak ifade edilir.
Yukarıdaki bilgiler ışığında HKO değerini hesaplamak için
Kernel tahmin edicisini ele alalım. Buna göre Kernel tahmin edici-
sinin varyansı aşağıdaki gibi yazılabilir;
h^D 4 «D @ 5@
W=A` 0 | = ,…, = a= + À! ℎ f
# 5.7

122
Performans Ölçüleri ve Düzleştirme Parametresinin Seçimi

= h^D , = 0 olduğunu hatırlatmak gerekir.


Ayrıca Eşitlik (5.7)’de verilen « . daha önceki bölümlerde anlatı-
Burada

lan Kernel fonksiyonudur. Burada, ilgilenilen tahminler "ℎ" bant


genişliği açıklığında « @ dayalı ağırlık matrisi ile ağırlıklandırı-
= 0 + h^D
olacaktır. Bu da yaklaşık olarak ℎ
lan ve değeri değerine yaklaşan değerlerler
kadar eğitim verisi ile

noktasındaki [«KO 0 P
tahmin yapıldığı anlamına gelir. Eğer “Yanlılık” ile Eşitlik (5.7)’de
ifade edilen varyans birleştirilirse
fonksiyonu aşağıdaki gibi yazılabilir;
Ak k D
[«K T 0
D
U= h^D + ℎ ç0.5A
¨ kk
+ è ThúD0 U 5.8

h^D 4 « D @ 5@
+ + À ℎ ¨ + À 1/ ℎ

Burada À . asimptotik olarak (5.8)’de verilen toplamın ikinci
teriminin ℎ ¨ oranının sıfıra gittiğini ifade eder. Eşitlik (5.8), ger-

pratikte bilinmeyen A , A k , A kk
çek regresyon fonksiyonunun Taylor açılımından elde edilen ve
ve en uygun seçilmiş “ℎ”

diğinde, (5.8) ℎ’e göre kısmi türevi alınarak tek bir optimum bant
parametresinde bağlı olarak elde edilir. Daha derin olarak incelen-

genişliği parametresi elde edilebilir. Fakat bu optimal “ℎ” değeri


başta belirtildiği gibi pek çok bilinmeyene dayalı olarak teorik

Eşitlik (5.8)’de verilen [«KO 0 P değeri her ne kadar Çe-


olarak elde edilir.

kirdek (Kernel) yöntemi için elde edilmiş olsa da yerel fark alma

yandan, [«KO 0 P değeri, (5.8)’de verilen bilinmeyenlerden


ve splayna dayalı yöntemler için de kolaylıkla elde edilebilir. Diğer

arındırılmış olarak simülasyon ve gerçek ve uygulamalarında pra-


tik olarak aşağıda verildiği şekilde kullanılır;

[«KO 0 − 0 OÓ − Ó0P OÓ − Ó0P


3
P= Ã` a = 5.9
f D f

123
Nonparametrik Regresyon Analizi

Verilen (5.9) eşitliği, yukarıda belirtilen [«K =


= ¶Î¶Î> D + W=A = ? tanımına uygundur ve teorik olarak
= ¶Î¶Î> D ve W=A = ? bileşenlerini içerir. Ek olarak Bölüm
5.3’te verilen düzeltme parametresi seçim kriterleri, (5.9) ve Bö-
lüm 5.2’de verilen varyans tahmini değerlerine göre yapılır.

5.1.2. Diğer performans kriterleri

olmayan regresyon fonksiyonu tahmini 0


HKO kriterine bağlı veya bağımsız, literatürde parametrik
için kullanılan bazı
önemli performans ölçütleri bu bölümde tanıtılmıştır. Buna göre en
yaygın kullanılan bazı kriterler alt başlıklar hâlinde sunulmuştur.

mış hâli olan Karekök-HKO= √[«K değeri özellikle parametrik


i) Karekök-HKO (KHKO): HKO değerinin standartlaştırıl-

olmayan yöntemler söz konusu olduğunda sıklıkla kullanılan ölçüt-


lerden biridir. Burada, KHKO skorunun, HKO ile ne fark olduğu,
neden bu kriterin kullanıldığı açıklanmıştır. Bu bağlamda, ilk ola-
rak KHKO nasıl hesaplandığı aşağıdaki gibi gösterilsin;

1 1
«[«K = √[«K = ` Ã` − 0 a = a OÓ − Ó0P OÓ − Ó0P 5.10
D 3

Eşitlik (5.10) az da olsa derinlemesine incelemek için, bu eşitliğin


“Öklid uzaklığı” ile olan benzerliği vurgulanabilir. Bilindiği gibi
“Öklid uzaklığı” aşağıdaki gibidir;

ä , D = `Ã − D
D

Buna göre ä , D göz önünde bulundurulduğunda, «[«K


skorunun gerçek değerler (y) ile tahmin değerleri (f(x)) arasındaki

Fakat dikkatle bakıldığında KHKO değeri 1/√ çarpanını içerir.


standartlaştırılmış bir mesafe olduğu sezgisel olarak söylenebilir.

124
Performans Ölçüleri ve Düzleştirme Parametresinin Seçimi

Burada parametrik olmayan regresyon modelini = +

gerekir. Bilindiği gibi ~å ]^ = 0, h^D . Buna göre h^ değeri


ve model hata terimleri hakkında bazı detayların incelenmesi

matematiksel olarak ifade edilirse;

∑ −$ D
1 1
ç è= Ã ! D# = Ã ! D # = h^D + ]^D 5.11

Burada ]^ = 0 olduğu hataların dağılımından biliniyor. Eğer bu


değer (5.10)’da yerine yazılır ve eşitliğin karekökü alınırsa:

` ) ÃO − P * = Wh^D + 0D = h^ 5.12
D
f

kök ifadesi içinden beklenen değer fonksiyonu !. # Çıkartıldığında


Eşitlik (5.12)’den görülebileceği gibi eşitliğin sol tarafındaki kare-

eşitlik (5.12) kesin olarak (5.10)’da verilen KHKO ifadesinde dö-

→ ∞ ise h^D → 0 olması beklenir. Bu sonuç, Eşitlik (5.9)’da veri-


nüşmektedir. Merkezî limit teoremine göre örneklem büyüklüğü

len HKO değerinin model varyansı h^D için, KHKO değerinin ise
model standart sapması h^ için iyi bir tahmin edici olabileceğini
asimptotik bağlamda gösterir. Ayrıca 1/√ hakkında şu belirtilme-

standart hata h^ değeri elde edilmesini de sağlar. Bu bağlamda, veri


lidir ki bu çarpan, toplam hata yerine, her bir gözlem için tipik bir

noktasını içeren veri kümesinin (örneklemin) büyüklüğü tahmin


sürecine dâhil edildiğinden, örneklem değiştiğinde hesaplanan
KHKO değerinin belirli bir tutarlılıkta kalması sağlanmış olur. Bu
durum, farklı “ ” değerler için üretilmiş bir veri setinde KHKO
değerleri hesaplanarak Şekil 5.2’de gösterilmiştir.

125
Nonparametrik Regresyon Analizi

Şekil 5.2: Farklı örneklem büyüklüklerine göre HKO ve KHKO değerleri-


nin değişimi

ii) Ortalama toplam hata kareler (OTHK): Genellikle

tahminlerinde uyumu ölçmek için kullanılsa da ND -riske dayalı


OTHK kriteri parametrik olmayan olasılık yoğunluk fonksiyonu

olduğundan, regresyon fonksiyonu tahminlerinde benzer şekilde


uyum ölçmek için de kullanılabilir. Burada belirtmek gerekir ki bu
kriter yalnızca simülasyon çalışmalarında kullanılabilir ve hesapla-
nışı aşağıdaki gibidir;
D
à0 àD = :E` 0 a5 Ä
D
− − 5.13

Burada 0 , “ ” örneklem büyüklüğü için elde edilen ve bu ki-


tapta açıklanan yöntemlerden biriyle tahmin edilen regresyon fonk-
siyonudur.
iii) Göreli risk (GR): Göreli risk regresyon fonksiyonu tah-
min edicileri arasında makul bir karşılaştırma yapmak için litera-
türde oldukça yaygın kullanılan bir ölçüttür. Temel olarak risk
kriterinin seçimine göre farklı karşılaştırmalar elde edilebilir. Bu-

126
Performans Ölçüleri ve Düzleştirme Parametresinin Seçimi

yonu SO 0 P = [«KO 0 P olarak ifade edilebilir. Burada “ 0 ” birinci


rada risk fonksiyonu HKO olarak seçilsin. Buna göre risk fonksi-

SO 0D P = [«KO 0D P olarak ifade edilir ve bu durumda göreli risk


yöntemin notasyonudur. Benzer şekilde, ikinci yöntem için

SO 0 , 0D P = SO 0 P SO 0D P
aşağıdaki gibi tanımlanır;
5.14
Burada risk fonksiyonu olarak HKO yerine KHKO veya modelle-

S . fonksiyonuna dayalı olarak yazılmıştır. Eğer SO 0 , 0D P > 1


rin varyansı da kullanılabilir. Bu bağlamda Eşitlik (5.14) yalnızca

ise 0D tahmininin 0 ’ye göre daha az riskle tahmin edildiği söyle-


nebilir.

5.2. Varyans Tahmini


Bu bölümde, parametrik olmayan regresyon modelinin tahmi-

kestiricisinin 0
ninde kullanılan yöntemlerden elde edilen regresyon fonksiyon
varyans tahminleri ele alınmıştır. Bu bağlamda
her bir yöntem için ayrı ayrı varyans tahminleri yerine genelleşti-
rilmiş bir varyans tahmini sunulmuş ve ilgili yöntemler için nasıl
kullanılacağı açıklanmıştır. Buna göre parametrik olmayan regres-
yon fonksiyonu aşağıdaki gibi yeniden yazılsın;
= + h^ , 1 ≤ ≤ , 5.15
burada h^ , hata terimlerinin noktasındaki standart hata değerini
ifade eder ve bu varyansın model varsayımları gereği sabit olduğu

tilmelidir. Hataların varyansı veya model varyansı olan h^D değeri-


’i ye göre değişmediği yani ’nin bir fonksiyonu olmadığı belir-

nin tahmin edilmesi pek çok araştırmacının da vurguladığı gibi

gösterildiği üzere h^D değeri, verilen bir


regresyon modellerinde çok büyük öneme sahiptir. Çünkü (5.15)’te
için tahmin edilen

olarak temellendirilebilir. Küçük bir örnekle h^D tahmininin regres-


ortalamasının değişkenliğinin ölçülmesine yarar ve bu ölçüm teorik

yon modeli açısından önemini açıklamak gerekirse eğer araştırmacı

127
Nonparametrik Regresyon Analizi

tahmin ettiği modeldeki 0 regresyon fonksiyonu için uyum


iyiliğini değerlendirmek istediğinde, bu fonksiyon için %95 güven
aralığı oluşturmak istediğinde veya örneklem dışı noktaları tahmin

tanesi hataların varyansı, h^D veya tahmin edicisi h$^D olacaktır. Lite-
(out-of-sample prediction) etmek istediğinde, kilit noktalardan bir

ratürde model (5.15) için varyans tahmini söz konusu olduğunda


bu tahminin yapılmasında temel olarak iki farklı yol izlendiği söy-
lenebilir;
(i) Farklara dayalı varyans tahmin edicisi
(ii) Artıklara dayalı varyans tahmin edicisi

5.2.1. Artıklara dayalı varyans tahmin edicisi

= b3ý +
Bilindiği üzere parametrik regresyon modelleri için varyans

¡ ele alınsın. Burada S = Ob , … , b• P × x boyutlu x adet


tahmini kısaca aşağıdaki gibi özetlenebilir. Model

3
parametrik açıklayıcı değişkenin matrisi ve ý = O , … , • P
x × 1 boyutlu regresyon katsayılarının vektörüdür. Buna göre
parametrik regresyon modeli için hataların varyansı h Dc aşağıdaki
gibi hesaplanır;

∑O þP
− b3ý
D

h Dc = 5.16
−x
− x modelin serbestlik derecesini ifade eder ve
3þ þ P = ™̂ artıkları (residuals) ifade
b ý = $ olmak üzere O − b 3 ý
Burada

eder. Böylece h c = $ 3 $⁄ − x olarak da yazılabilir. Buna göre


D

için de h$^D tahminini elde etmek benzer yaklaşımla mümkündür.


eşitlik (5.16)’dan hareketle parametrik olmayan regresyon modeli

ninden elde edilen artıkların vektörü ($ = ™̂ , … , ™̂ 3 ) ve serbest-


Bunun için öncelikle parametrik olmayan regresyon model tahmi-

lik derecesinin (Rµ) elde edilmesi gerekir. Öncelikle hatırlatmak


gerekir ki eşitlik (5.15)’te verilen parametrik olmayan regresyon

128
Performans Ölçüleri ve Düzleştirme Parametresinin Seçimi

olduğu, (ii) ~å 0, h^D ve (iii) h^D sabit olduğu varsayılmaktadır.


fonksiyonunda (i) hata terimlerinin bağımsız ve aynı dağılımlı

Verilen varsayımlar, bu bölüm boyunca geçerli olacak varsayım-


lardır ve burada değişen varyanslı model (heteroscedastic) ele
alınmayacaktır.

model tahminini yapmak yani ! | # = $ = 0


Artıklara dayalı varyans tahmini için ilk yapılması gereken
elde etmektir.

sorusudur. 0
Burada ortaya çıkan soru ise tahminin hangi yöntemle yapılacağı
, fonksiyonu hangi parametrik olmayan tahmin
yöntemiyle elde edilecektir? Bu yöntemler kitabın ilgili bölümle-
rinde detaylı şekilde ele alındığından burada bahsedilmeyecektir.
Dolayısıyla burada kullanılan yönteme göre uyarlanabilecek genel
bir varyans tahmini formülü sunulmuş ve bunu yaparken (ii) var-
yans tahmini yaklaşımı dikkate alınmıştır. Ayrıca bölüm sonunda
varyans tahmini için kullanılan bir diğer yaklaşım olan farklara

0
dayalı varyans (i) tahmininden de bahsedilmiştir.
, herhangi bir parametrik olmayan yöntemle tahmin
edilmiş regresyon fonksiyonu olsun. Buna göre ’inci artık değeri
aşağıdaki gibidir;

™̂ = − Ã[~ ~ , = 1, … , 5.17
~

Ayrıca (5.17) eşitliğin vektör ve matris formu artık vektörü ( ),


yanıt değişkeni vektörü ve düzeltme matrisi ( ) dayalı olarak

− Ó0 =
aşağıdaki gibi yazılır;
= − 5.18

mincisi h$^D aşağıdaki gibi elde edilir;


Buna göre (5.17) ve (5.18) dayalı olarak hataların varyansının tah-

∑ O [ ~ ~P
− ∑~
D

h$^D = 5.19
− 2 ∑ [ + ∑ ∑~ [D~

129
Nonparametrik Regresyon Analizi

Ve vektör ve matris formunda yeniden aşağıdaki gibi yazıla-


bilir;
‖ 5− ‖D
h$^D = 5.20
ÜA 5 −
Burada matrisi, kullanılan tahmin yöntemine bağlı olarak elde

lırsa, , Bölüm 3’te Kernel için tanımlanan düzeltme matrisi é ile


edilen düzeltme matrisidir. Örneğin eğer Kernel regresyon kullanı-

yer değiştirilerek Eşitlik (5.20) yardımıyla hataların varyansı Ker-


nel regresyonu için elde edilebilir. Benzer şekilde, kNN regresyon
için, B-splayn regresyonu için, lokal regresyon için ve kübik
splayn regresyonu için Bölüm 3’te verilen düzeltme matrisleri

edilebilir. Ayrıca 5, ×
ile yer değiştirilerek tahmin edilen modellerin varyansları tahmin

Rµ = ÜA 5 −
boyutlu birim matris olmak üzere
serbestlik derecesidir ve hem aktif parametre sayı-
sından hem de örneklem büyüklüğünden kaynaklanan yanlılığı
varyans hesabına dâhil ederek minimize etmeye yardımcı olur.
Eşitlik (5.20) hakkında bazı detaylar üzerinde durulması gere-
kir. Bilindiği gibi varyans formülünde paydada yer alan ifade

derecesidir. Literatürde Rµ = ÜA 5 −
“normalleştirme faktörü” olarak da adlandırılabilecek serbestlik
belirlenmesinde bazı al-
ternatif yaklaşımlar vardır. Bunlardan biri Eagleson ve Silverman
(1992) tarafından tanıtılmıştır ve aşağıdaki gibi gösterilebilir;
‖ 5− ‖D 3 !5
− #D
h$^D˜ = = 5.21
ÜA! 5 − D# ÜA! 5 − D #

bant genişliği ℎ) değerlerinden kaynaklanan yanlılığı gidermektir


Burada (5.21) eşitliğinin amacı düzleştirme parametresi (×) (veya

ve Carter vd. (1992) bu yansız tahminciyi ispat etmiştir. (5.21)


benzer şekilde bir diğer alternatif tahminci, (5.21) eşitliğinin genel-
leştirilmiş hâli olarak aşağıdaki gibi sunulabilir;
3 !5
− #
h$^D¯ = 5.22
ÜA! 5 − #

130
Performans Ölçüleri ve Düzleştirme Parametresinin Seçimi

Eşitlik (5.22)’de D > 0 herhangi bir tamsayıdır ve D değerinin fark-


lı değerleri için varyans tahmincisinin davranışları literatürde ince-
lenmiştir. (5.21) ifadesine benzer şekilde, varyans tahminini tutarlı
ve stabil tutmak için önerilmiş alternatif tahminlerden biri olarak
söylenebilir.

5.2.2. Farklara dayalı varyans tahmin edicisi


Farka dayalı varyans tahmini yaklaşımını, artıklara dayalı

siyonunun ! | # = 0
varyans tahmininden en önemli farkı ve avantajı, ortalama fonk-
tahmin edilmesine ihtiyaç duymama-
sıdır. Temel fikir, bağımsız ve aynı dağılıma sahip ve D de-
ğişkenlerine dayalı olarak aşağıdaki gibi varyans tahmini elde

1
etmektir;

Z − D[
= hD 5.23
2 D

Buna göre eğer regresyon fonksiyonu söz konusu olduğunda,

\ − D]
Q h D. Bu yakla-
yeterince küçük komşuluğa sahip iki ardışık gözlem için ( ve
f ) varyans yaklaşık olarak
D f
şıma dayalı olarak parametrik olmayan regresyon fonksiyonu,
(5.23) genellenerek aşağıdaki gibi elde edilebilir;

1
h$vD = Ã − D
5.24
2 −1 f
D

Burada (5.24), birinci dereceden farka dayalı varyans tahmini ola-


rak adlandırılır. Literatürde eşitlik (5.24) ikinci derece farklara
genişletilmiş ve genel bir ifade olarak sunulmuştur;
f
1
h$e(f
D
= Ã ™̂
D D
5.25
−2
D

Burada ™̂ D = f − f D ve O D ™̂ D P = h^D . GSJ kısaltması


tahminciyi öneren Gasser, Sroka ve Jennen-Steinmetz (1986) ça-

131
Nonparametrik Regresyon Analizi

lışmasından gelir. Belirtildiği gibi (5.25) ikinci dereceye genişle-


tilmiş farka dayalı bir yaklaşımdır. Bu yaklaşımın “ℓ”inci dereceye

≤ D≤⋯≤ kullanılarak A‹ ℓ‹ dizisi aşağıdaki


genellemek mümkündür. Hata varyansını tahmin etmek için sıralı
gözlemler
gibi elde edilebilir;
ℓ ℓ

à A‹ = 0, à A‹D = 1 5.26
‹ ‹

Buna göre Eşitlik (5.26) dayalı olarak hataların varyansı ℓ”inci


dereceden aşağıdaki gibi tahmin edilebilir;
D
fℓ ℓ
1
h$ℓD = à hà A‹ ‹Ÿ~ i 5.27
−ℓ
~ ‹

Eşitlik (5.27) için detaylı çalışmalar Alharbi (2013) tarafından


yapılmıştır.

5.3. Düzeltme Parametresi Seçim Kriterleri


Bilindiği gibi parametrik olmayan regresyon modellerinde
kullanılan düzleştirme yöntemlerinin (kNN regresyon, Splayn reg-
resyon, Kernel düzleştirme, Cezalı splayn, Lokal yaklaştırma vb.)
doğru sonuçlar vermesinde ceza terimini kontrol eden düzeltme
parametresi kritik bir öneme sahiptir. Bu bağlamda kestiricilerin ve
modelin kalitesinin, düzeltme parametresine bağlı olduğu söylene-
bilir. Bu bölümde düzeltme parametresinin seçimi için kullanılan
yöntemler detaylı olarak incelenmiş, geniş literatür bilgisi ile klasik
ve yeni geliştirilen yöntemler incelenmiştir.

için düzeltme parametrelerinin (×, ℎ) seçimi ele alınmıştır. Bu bağ-


Bu bölümde, parametrik olmayan tahmin edicileri elde etmek

lamda literatürde yaygın olarak tercih edilen seçim kriterleri tanı-


tılmıştır. Tanıtılan kriterler, klasik ve risk kriterleri olarak iki gruba
ayırabiliriz. Bu ayırım, risk kriterlerinin pilot (önsel) düzeltme

132
Performans Ölçüleri ve Düzleştirme Parametresinin Seçimi

parametresi (ו , ℎ•) seçimine dayalı olarak iki aşamalı olarak ger-
çekleştirilmesidir. Bu bağlamda algoritma hızı klasik kriterlerde •
hariç, K iken risk kriterlerinde bu hız K D olarak ölçülür ve
bu da risk kriterlerinin çalışma hızı bakımından verimliliğinin kla-
sik kriterlere göre düşük olduğu anlamına gelir. • kriteri için ise

gibi K D olarak ölçülür.


benzer şekilde pilot tahminler kullanıldığından hızı risk kriterleri

Ayrıca Bölüm 5.5’te, kriterlerin, düzeltme parametresi seçim-


leri kitap boyunca anlatılan parametrik olmayan tahmin yöntemle-
rine göre ayrı ayrı hem simülasyon hem de gerçek veri örnekleriyle
gösterilmiş, davranışları incelenmiş, performansları ölçülmüştür.

5.3.1. Klasik seçim kriterleri

kareler toplamı olarak ifade edilen [«Y = 3 !5 − #D dayalı


Bu bölümde varyans tahmini bölümünde anlatıldığı gibi hata

dolayısıyla düzletme matrisi göz önüne alınarak hem klasik hem


de risk kriterlerinin hesaplanması gösterilmiştir. Bu matris Bölüm
3’te her bir düzeltme yöntemi için belirtilmiştir. Kriterin matema-
tiksel formüllerinde, ilgili yöntemin düzeltme matrisi ile yer değiş-

rametresi, genel notasyon olarak anlatımı basitleştirmek adına ×


tirilerek her bir yöntem için değerler elde edilebilir. Düzeltme pa-

olarak belirlenmiştir.
Akaike bilgi kriteri (jkl): Bu kriter Akaike (1974) tarafın-
dan önerilmiş ve belirli bir ceza terimine sahip tahmin hatası gibi
davranan yapıya sahiptir. AIC kriterinde eşitliğin sol tarafını oluş-

linde ÜA
turan parametre sayısı yerine parametrik olmayan regresyon mode-
değeri kullanılır. Buna göre AIC aşağıdaki gibi yazıla-
bilir:
3 !5
− #D
o– × = 2ÜA − 2 log Ð Ñ 5.28
ÜA 5 −

133
Nonparametrik Regresyon Analizi

Tutarlı AIC (ljkl): CAIC kriteri Bozdogan, (1987) tarafın-


dan önerilmiş ve AIC kriterinin genel kural ve varsayımlarını boz-
madan, AIC ceza miktarında değişiklik yaparak (Eşitlik (5.28) sol
tarafında yer alan “2” değerini değiştirerek) daha sade (parsimony)
bir model ve tutarlı bir AIC elde etmek amaçlanmıştır. Bu bağlam-
da önerilen kriteri başarı ile uygulamak için “2” çarpanı örneklem
büyüklüğüne ( ) göre artan bir fonksiyon kullanılması gerekir.

‖ 5−
Böylece, CAIC aşağıdaki gibi hesaplanır:
‖D
o– × = ÜA !log + 1# − 2 log Ð Ñ 5.29
ÜA 5 −
Geliştirilmiş AIC (jkln): Geliştirilmiş AIC (o– o ) Hurvich vd.
(1998) tarafından önerilmiş ve aktif parametre sayısına daha fazla
ceza vererek göreli olarak fazla değişken içeren modeller için daha
düşük riskle parametre veya model seçimi yapabilen bir kriterdir.

‖ 5−
Aşağıdaki gibi gösterilebilir;
‖D 2ÜA +1
o– × = log Ð Ñ +1 + 5.30
o
ÜA 5 − − ÜA −2
Bayes (Schwarz) Bilgi Kriteri (pkl): Bu kriter Schwarz (1978)

mından o– kriteri oldukça yakın özelliklere sahiptir. Ayrıca BIC


tarafından önerilmiş ve aynı olabilirlik bileşenini kullanması bakı-

modelde çok fazla aktif değişken sayısından kötü etkilenir ve uyum


iyiliği yok yüksek elde edileceğinden “aşırı uyum (overfitting)”

‖ 5−
problemi ortaya çıkar. BIC hesaplanışı aşağıdaki gibidir;
‖D
V– × = ÜA !log # − 2 log Ð Ñ 5.31
ÜA 5 −
Çapraz geçerlilik (Cross-Validation, CV): W kriteri literatürde
en yaygın kullanılan kriterlerden biridir. Bu kriterde temel fikir,

bütün gözlemler q ,
her bir gözlemi örneklemden atıp kriteri tekrar hesaplamak ve bunu

− 1 adet W~ × ¡~ W skorunu
f
için yapmaktır. Böylece her bir adım
için hesaplanmış olur ve

134
Performans Ölçüleri ve Düzleştirme Parametresinin Seçimi

minimum yapan “en uygun” × değerine ulaşılmaya çalışılır. W


kriterinin hesaplanışı aşağıdaki gibidir;
f ‖ 5− ‖D
W × = 5.32
!ÜA 5 − #D
Genelleştirilmiş CV (GCV): GCV isminden anlaşılabileceği gibi
CV kriterinin genelleştirilmiş ve iyileştirilmiş versiyonudur. Ayrı-
ca, GCV de parametre seçiminde en yaygın kullanılan kriterlerden

paydada verilen ifade ! f ÜA 5 − #D ile yer değiştirir (detaylar


biridir. CV ve GCV arasındaki temel farklılık (5.31) eşitliğinde

için Craven ve Wahba, 1979 incelenebilir). GCV kriteri aşağıdaki


gibi gösterilebilir;
f‖ 5− ‖D
W × = 5.33
! f ÜA 5 − #D
Sağlamlaştırılmış CV (Robustified-CV): RCV kriteri GCV’nin

yüklüğü ve aktif parametre sayısını ÜA


değiştirilmiş versiyonudur ve amacı GCV kriterini örneklem bü-
dikkate alarak sağlam
hale getirmek bu faktörlerden kaynaklanan riski azaltmaktır. Bu
kriter hakkında detaylı bilgi için Robinson ve Moyeed, (1989)
incelenebilir. Ek olarak belirtmek gerekirse RCV kriteri diğer
kriterlerden herhangi bir dağılım varsayımı içermeme yönüyle de
ayrışmaktadır. Bu özelliği onu, AIC ve BIC gibi kriterlerden daha
sağlam kılar ve küçük örneklemler söz konusu olduğunda, RCV
kriterini öne çıkartır. RCV skoru aşağıdaki gibi hesaplanabilir;
!1 + f
+ ÜA D# f ‖ 5− ‖D
S W × = 5.34
!1 + f + ÜA #D
Mallows’ lr Kriteri: • kriteri Mallows (1973) tarafından öne-

lir. Bu kriterin hesaplanışı, varyans tahmininin pilot seçimine hÔD


rilmiş ve aynı zamanda yansız risk tahmini olarak da adlandırılabi-

dolayısıyla önsel olarak seçilen bir düzeltme parametresi olarak ו

135
Nonparametrik Regresyon Analizi

değerine bağlıdır. Burada önemli nokta, bu prosedürün riski azalt-


masıdır. • kriterinin matematiksel formülü aşağıdaki gibidir;

• × = f \‖ 5 − ‖D + 2h$ÔD ÜA − h$ÔD ] 5.35


D
burada h$ÔD = sT5 − Ô U s ÜA T5 − Ô U ve ו pilot seçilen
düzeltme parametresidir. Bu pilot seçim için yukarıda tanıtılmış

lanılabilir. Bu bağlamda denilebilir ki • × kriteri iki aşamalı bir


olan AIC, BIC, CV veya GCV gibi kriterlerden herhangi biri kul-

seçim sürecinden oluşur ve hesaplama hızı bakımından yavaşlığı


buradan kaynaklanır. Diğer taraftan, riski düşürmesi en önemli
avantajı olarak söylenebilir. Ayrıca ilgili ver setinin normal dağı-

olduğunda • × kriterinin o– × ile oldukça benzer davrandığı


lıma sahip olduğu ve doğrusal regresyon model tahmini söz konusu

gözlenebilir. Fakat parametrik olmayan regresyon söz konusu ol-


duğunda sonuçlar bu bölümün sonunda verilen simülasyon ve ger-
çek veri çalışmalarında ortaya konmuştur.

verilen kriterlerde olduğu gibi ?Ü=Ü “aşırı uyum (overfitting)” ve


Goodman istatistiği (tuvwv): Eşitlikler (5.29-5.35) arasında

“yetersiz uyum (underfitting)” arasında yer alan sade, az değişkenli


(parsimony) bir modeli amaçlayan bir kriterdir. Dolayısıyla uyum
iyiliğini aktif parametre sayısına ve örneklem büyüklüğüne göre

meye çalışır. ?Ü=Ü ile ilgili daha fazla detay için Moses ve Hol-
cezalandırarak en uygun düzeltme parametresini veya modeli seç-

land (2009) incelenebilir. ?Ü=Ü, aşağıdaki gibi hesaplanır;


‖ 5− ‖D
RÜ=Ü = x − 1x 5.36
y − ÜA
Burada y toplam benzersiz (unique) nokta sayısından bir eksik
değerdir. Genelleme yapılırsa y − ÜA
alınabilir; Rµ = ÜA 5 − .
serbest derecesi olarak

136
Performans Ölçüleri ve Düzleştirme Parametresinin Seçimi

5.3.2. Riske dayalı seçim kriterleri


Sınırlandırılmış en çok olabilirlik (REML): Ruppert vd.

varyans tahminine h^D dayalı olarak hesaplanır ve en uygun ×


(2003) tarafından gösterildiği gibi REML kriteri modelin teorik

değerini bulmayı amaçlar. Buna göre REML skoru aşağıdaki gibi


ifade edilebilir;
‖ 5− ‖D
S QN × = 5.37
ÜA 5 −
Burada REML ve GCV kriterlerinin örneklem büyüklüğü büyü-
dükçe normal dağılıma uymayan ver setleri hariç benzer değerleri
verdiği görülebilir. Detayları için Reis ve Ogden (2009) incelenebi-
lir.

tahmin edilen modeller için uyum değerleri O þP ve gerçek değerler


Klasik pilotlara dayalı risk tahmini (RECP): Risk ölçümü,

uygun × için risk fonksiyonu klasik pilotlara dayalı olarak aşağıda-


arasındaki mesafe ölçülerek yapılır. Buna göre model için en

ki hesaplanabilir;

S b × = f \‖ 5 − ‖D + h$ÔD ÜA 3 ] 5.38

Burada h$ÔD , • × kriterinde olduğu gibi hesaplanır.

önerilmiş ve düzeltme parametresi ×’ya bağlı olarak hesaplanabilen


Lokal Risk Tahmini (LRE): Bu kriter Lee (2003) tarafından

− 0Ô ¡ lokal riski minimum yapabilen × pa-


D
SÔ =

h$ D dayalı olarak aşağıdaki gibi hesaplanır:


rametresini seçmeye çalışır. LRE kriteri model varyans tahmini

SÔ = Ó − D
+ h$ D 3
5.39
Burada Ó ifadesi parantez içinde verilen çarpımdan elde edilen
3

için SÔ
vektörün i’inci değerini ifade eder. Benzer şekilde, matris

tahmini hesaplanır ve SÔ minimum yapan 0Ô


çarpımının i’inci değeri anlamına gelir. Burada her
hesaplanır.

137
Nonparametrik Regresyon Analizi

Sonunda bileşik bir Ó0Ô elde edilir. Hesaplanması ile ilgili detaylar
için Aydın vd. (2013) ve Lee (2003) incelenebilir.

5.3.3. Simülasyon Uygulamaları


Bu bölümde, düzeltme parametresi seçimi için tanıtılan her
bir kriterin kitap boyunca tanıtılan tahmin yöntemleri için kullanıl-
dığında nasıl davrandıkları incelenmiştir. Bunu başarabilmek için
bir simülasyon çalışması yapılmış ve iki adet gerçek veri seti kul-
lanılarak sonuçlar sunulmuştur. Bu bölümde hem tahmin yöntemle-
rinin performansları ki bu yöntemler (i) kNN regresyon, (ii) Kernel
düzeltme yöntemi, (iii) Lokal ağırlıklı regresyon, (iv) B-splayn
regresyon, (v) Cezalı splayn regresyon ve (vi) Splayn düzeltme
yöntemi olarak sıralanabilir.
Simülasyon verisinin üretilmesi ve incelenmesi planlanan se-

örneklem büyüklüğü ( ) ve hataların varyansı h^D dikkate alın-


naryolar sunulmuştur. Burada senaryo için dikkate alınan faktörler,

mıştır. Buna göre simülasyon tasarımı aşağıdaki gibidir;


= + , = 1, … , 9, = 100, D = 200, q =
500

= 1.25 • − 0.5 ⁄ , 1 ≤ • ≤ , = 7z \ ]−
8¹f .q´
. ´

1.5z \ ]
8¹f .´
. ¨
 = åO]^ = 0, h^D¹ P, h^Dª = 0.25, h^D˜ = 0.5,
Bu bağlamda düzeltme parametresi seçimi için sonuçlar, ilgili
tablo ve grafiklerde sunulmuştur. Bu sonuçlar mümkün her simü-
lasyon konfigürasyonu için incelenmiştir. İlk olarak Şekil 5.3’te
üretilen regresyon fonksiyonu farklı konfigürasyonlar için veril-
miştir.

138
Performans Ölçüleri ve Düzleştirme Parametresinin Seçimi

Şekil 5.3: Simülasyonda üretilen bazı konfigürasyonlar ve üretilen veriler

Bu bölümde, Şekil 5.3’te üretilen farklı senaryolar içeren pa-


rametrik olmayan regresyon fonksiyonu yukarıda bahsedil-
diği gibi altı farklı tahmin yöntemi ve 11 farklı parametre seçim
kriteri kullanılarak en uygun (optimal) tahminler elde edilmiştir.
Buna göre her bir tahmin yöntemi için ilgili en optimal düzeltme
parametre seçim sonuçları Tablo 5.1’de verilmiştir.

139
Nonparametrik Regresyon Analizi

#KOD parçası sadece Şekil 5.4 ‘teki kNN regresyon


panelini verir. Diğerleri için kod parçası diğer
fonksiyonlar için de çalıştırılmalıdır.
#--------------------------------------------------
----------------------
n <- 50
data <- npdata(n,0.5)
x <- (data$x); y <- (data$y)
lam <- seq(0.001,2,length.out=20; k <- seq(2,20,
length.out=20)
h <- seq(0.1,2,length.out=20)
plot(x,y,ylim=c(min(y),max(y)),pch=19)
par(new=TRUE)
for (i in 1:20){
knn.est<- knnsmooth(x,y,k[i])
#kd.est <- kdsmooth(x,y,h[i])
#la.est <- localsmooth(x,y,h[i])
#bs.est <- bsmooth(x,y,35,lam[i])
#tps.est<- TPBsmooth(x,y,40,lam[i])
#ss.est <- splinesmooth(x,y,lam[i])
par(new=TRUE)
plot(x,knn.est$fhat,ylim=c(min(y),max(y)),type="l",
col="red")
}

Parametre seçiminden önce, her bir tahmin yönteminin, farklı


düzeltme parametre değerlerine karşın (örn: kNN regresyon için
“>”, Kernel regresyon için bant genişliği, “ℎ” vb.) eğri tahmin
sürecinin nasıl olduğu aşağıda verilen grafik ve kodlarda açıkça
görülebilir.
Şekil 5.4, altı tahmin yöntemi için de düzeltme parametre-
sindeki değişimin, tahmin eğrilerini nasıl etkilediğini göstermekte-
dir. Burada her yöntemin farklı tepkiler verdiği fakat son tahlilde
düzeltme parametresinin değeri arttıkça eğrilerin giderek bir doğ-
ruya dönüştüğü aksi durumda ise dalgalı bir yapıda olduğu açıkça
görülebilir. Panel (D) (E) ve (F) gösterilen splayn tahmin edicileri-

140
Performans Ölçüleri ve Düzleştirme Parametresinin Seçimi

nin benzer davrandığı gözlemlenir. Ayrıca Şekil 5.4, düzeltme


parametresinin seçiminin uygun model tahmini ve tahmin perfor-
mansı için kritik öneme sahip olduğunu ispatlar.

Şekil 5.4: Farklı düzeltme parametre değerlerine karşın tahmin eğrileri:


(A) kNN regresyon, (B) Kernel regresyon, (C) Lokal ağırlıklı regresyon,
(D), B-splayn yöntemi, (E) Cezalı splayn, (F) Splayn düzeltme yöntemi.

141
Nonparametrik Regresyon Analizi

set.seed(12223)
# kNN regresyonu için k seçimi
select.k <- param.select(x,y,method="kNN",range=20,
criterion="AIC")
select.k$opt
select.k$value

# Kernel regresyonu için bant genişliği “h” seçimi


opt.h <- param.select(x,y,method="Kernel",range=20,
criterion="GCV")
select.h$opt
select.h$value

# B-splayn regresyonu için Düzeltme parametresi “λ”


seçimi
opt.lam <- param.select(x,y,method="BS",range=20,
criterion="REML")
select.lam$opt
select.lam$value

# Splayn düzeltme regresyonu için Düzeltme parametresi


“λ” seçimi
opt.lam <- param.select(x,y,method="SS",range=20,
criterion="BIC")
select.lam$opt
select.lam$value

Tablo 5.1, AIC, BIC, GCV ve REML kriterleriyle dört farklı


tahmin edici için optimal düzeltme parametre seçim sonuçlarını
göstermektedir. Genel çerçeve incelendiğinde AIC, BIC ve GCV
kriterlerinin ilgili simülasyon verisi için Kernel, B-splayn ve
Splayn düzeltme yöntemleri için oldukça benzer davranışları sergi-

düşük “> = 36 ve > = 39” değerleri seçilmişken BIC ve GCV


lediği görülmektedir. k-NN regresyon için AIC ve REML daha

> = 45 olarak belirlenmiştir. Burada “>” kNN yöntemi için en


yakın komşu sayısı ve aynı zamanda düzeltme parametresi görevini
üstlenen parametredir. Ayrıca, diğer üç yöntem için de REML

142
Performans Ölçüleri ve Düzleştirme Parametresinin Seçimi

kriteri diğerlerinden daha düşük düzeltme parametresi belirlemiştir.


Bu farklılığın REML kriterinin modele verdiği ceza miktarıyla
ilgili olduğu söylenir.

= 100,
h^D = 0.25
Tablo 5.1: Tahmin yöntemleri için seçim kriterleri sonuçları

> ℎ × ×
kNN Reg. Kernel D. B-Splayn Splayn D.
Değer Değer Değer Değer
AIC 1.395 36 1.726 2 18.336 2 3.655 1.794
BIC 3.308 45 3.701 2 36.146 2 7.479 1.794
GCV 1.381 45 1.210 2 1.423 2 1.237 1.794
REML 67.675 39 57.60 0.1 56.671 0.05 2.807 0.05

Tablo 5.1’e benzer şekilde diğer simülasyon kombinasyonla-


rı için de tablolar kolaylıkla elde edilebilir. Kodlarda sunulan
seçimler ve tahminler de benzer şekilde elde edilebilir. Kodlarda
gösterilen seçimlerle ilgili kriterlerin davranışları aşağıdaki şekil-
de verilmiştir. Şekil 5.5’te kriterler değerlerinin düzeltme para-
metresine karşı grafikleri görülmektedir. Bu bağlamda kriter de-
ğerlerinin minimum noktası, optimal düzeltme parametre değerini
işaret eder. Buna göre Tablo 5.1’de verilen değerler, Şekil 5.5 ile
doğrulanır.

143
Nonparametrik Regresyon Analizi

(a) kNN Regresyon (b) Kernel Regresyon

(c) B-splayn Regresyon (d) Splayn Düzeltme Yöntemi

Şekil 5.5: Dört tahmin yönteminin 4 farklı kritere göre düzeltme para-
metrelerinin seçilmesi

Tablo 5.2: Simülasyon verileri için tahmin sonuçları, KHKO değerleri.

= 100, h^D = 0.25


Kriter kNN Reg. Kernel D. B-Splayn Splayn D.

= 200, h^D = 0.5


0.918 0.930 0.311 0.827
AIC

= 100, h^D = 0.25 0.918


1.042 1.042 0.489 0.945

= 200, h^D = 0.5


0.930 0.311 0.827
BIC

= 100, h^D = 0.25 0.918


1.042 1.042 0.489 0.945

= 200, h^D = 0.5


0.930 0.311 0.827
GCV

= 100, h^D = 0.25 0.651


1.042 1.042 0.489 0.945

= 200, h^D = 0.5


0.277 0.262 0.209
REML
0.799 0.463 0.447 0.360

144
Performans Ölçüleri ve Düzleştirme Parametresinin Seçimi

Tablo 5.2 ve Şekil 5.6 farklı simülasyon kombinasyonları için


model tahminlerinden elde edilen KHKO değerleri sunulmuştur.
Tablo 5.2 incelendiğine REML haricindeki üç kriterin aynı dü-
zeltme parametrelerini seçtiği için aynı KHKO değerlerini verdiği
görülebilir. Burada REML kriterinin diğer kriterlere göre daha iyi
performans göstermiştir. Bunun temel nedeni Şekil 5.6’da görül-
düğü gibi daha küçük düzeltme parametresi seçmesidir. Tahmin
edicilerin performansları incelendiğinde ise her iki simülasyon
kombinasyonu için de B-splayn ve Splayn düzeltme yöntemlerinin
kNN ve Kernel regresyon yöntemlerinden daha iyi performans

varyans değeri h^D = 0.25 ve h^D = 0.5 için de beklendiği şekilde


gösterdiği görülebilir. Elbette veri üretiminde belirlenen farklı iki

varyans değeri arttığında KHKO değerlerinde belirgin bir artış


olmuştur. Şekil 5.6’da REML’ye dayalı elde edilen eğrilerin verile-
ri daha iyi temsil ettiği de açıkça görülebilir. kNN regresyonda
belirgin bir farklılığın görülmeme sebebi ise “>” değerinin tüm
kriterlerde benzer seçilmesidir. Performans olarak da en düşük
performansı yine kNN regresyon modelinin gösterdiği söylenebilir.

(A) o– (B) S QN

yöntemi ile elde edilen eğri tahminleri, = 100, h^D = 0.25


Şekil 5.6: Yaygın kullanılan üç kriter AIC ve REML için dört farklı tahmin

Aşağıdaki kodlarda, Tablo 5.2 ve Şekil 5.6’da yer alan ve


REML kriteri için hesaplanmış değerler R programında elde edile-
bilir. Diğer kombinasyonlar için kriter ve yöntemler değiştirilebilir.

145
Nonparametrik Regresyon Analizi

select.k <- param.select(x,y,method="kNN",range=20,


criterion="REML")
select.h <- param.select(x,y,method="Kernel",range=20,
criterion="REML")
select.lam1 <- param.select(x,y,method="BS",range=20,
criterion="REML")
select.lam2 <- param.select(x,y,method="SS",range=20,
criterion="REML")

rmse.k <- sqrt(mean((select.k$fitted-y)^2))


rmse.h <- sqrt(mean((select.h$fitted-y)^2))
rmse.lambs <- sqrt(mean((select.lam1$fitted-y)^2))
rmse.lamss <- sqrt(mean((select.lam2$fitted-y)^2))

data.frame(rmse.k,rmse.h,rmse.lambs,rmse.lamss)

plot(x,y,pch=19,ylab="f(x) & y",cex=0.5)


par(new=TRUE)
plot(x,select.k$fitted,type="l",col=2,ylim=c(min(y),
max(y)),ylab="f(x)& y",lwd=2)
par(new=TRUE)
plot(x,select.h$fitted,type="l",col=3,ylim=c(min(y),
max(y)),ylab="f(x)& y",lwd=2)
par(new=TRUE)
plot(x,select.lam1$fitted,type="l",col=6,ylim=c(min(y)
,max(y)),ylab="f(x) & y",lwd=2)
par(new=TRUE)
plot(x,select.lam2$fitted,type="l",col=7,ylim=c(min(y)
,max(y)),ylab="f(x) & y",main="REML kriterine göre
seçimler",lwd=2)
grid()
le-
gend("bottomleft",legend=c("kNN","Kernel","BS","SS"),
lty=c(1,1,1,1),col=c(2,3,6,7))

5.3.4. Gerçek Veri Uygulamaları


a) Motosiklet kazası verileri
Aşağıda verilen kodlar kullanılarak Tablo 5.6’da elde edilen
parametre ve kriter değerlerinden bazıları elde edilebilir. Tüm so-
nuçlar, verilen kodlarda ilgili yerlerde kriter argümanı değiştirile-
rek elde edilebilir.

146
Performans Ölçüleri ve Düzleştirme Parametresinin Seçimi

data <- mcycle


x <- (data$times)
y <- (data$accel)
n <- length(x)

#kNN regresyonu için k seçimi


select.k <- param.select(x,y,method="kNN",range=20,
criterion="REML")
select.k$opt
select.k$value

# Kernel regresyonu için bant genişliği “h” seçimi


select.h <- param.select(x,y,method="Kernel",range=20,
criterion="BIC")
select.h$opt
select.h$value

# B-splayn regresyonu için Düzeltme parametresi “λ”


seçimi
select.lam <- param.select(x,y,method="BS",range=20,
criterion="GCV")
select.lam$opt
select.lam$value

# Splayn düzeltme regresyonu için Düzeltme paramet-


resi “λ” seçimi
select.lam <- param.select(x,y,method="SS",range=20,
criterion="AIC")
select.lam$opt
select.lam$value

Tablo 5.3, dört parametre seçim kriteri için hesap değerleri ve

lendiğinde, “>” değeri tüm kriterler için "> = 103" olarak seçil-
seçilen düzeltme parametreleri verilmiştir. kNN regresyonu ince-

miştir ki bu değer, kNN regresyonu için yüksek bir değerdir ve


tahmin edilen eğriyi fazla pürüzsüzleştirir ve giderek lineer bir
doğruya dönüştürür. Bunun temel nedenlerinden bir tanesi, moto-
siklet veri setindeki gözlemlerin simülasyona göre daha yüksek
varyansla saçılmasıdır. Bu durum, Şekil 5.7’de görülebilir. Benzer
şekilde dört seçim kriteri, Kernel düzeltme yöntemi için farklı kri-

147
Nonparametrik Regresyon Analizi

ter skorları için “ℎ = 3” olarak belirlemiştir ve Şekil 5.7’de eğrile-


rin veriyi iyi temsil ettiği dolayısıyla kriterlerin en uygun paramet-

geçerlidir ve × = 1 olarak belirlenmiştir. Yalnızca splayn düzeltme


reyi seçtiği söylenebilir. Aynı durum B-splayn yöntemi için de

GCV’den daha küçük bir değer S QN: × = 0.121 ile veri nokta-
yöntemi için REML kriteri diğer üç kriter olan AIC, BIC ve

larına daha hassas bir eğri tahmini sağlar. Bu durum yine Şekil 5.7
dikkatle incelenirse görülebilir.

Tablo 5.3: Motosiklet kazası verisi için düzeltme parametrelerinin


seçilmesi

> ℎ Değer × Değer ×


kNN Reg. Kernel D. B-Splayn Splayn D.
Değer Değer
AIC -13.851 103 -8.892 3 7.287 1 27.968 0.5
BIC -10.775 103 1.434 3 40.952 1 91.447 0.5
GCV 2977.407 103 3308.253 3 3279 1 3494.47 0.5
REML 392.71 103 428.13 3 397.94 1 364.89 0.121

Tablo 5.4’te verilen değerler için aşağıdaki tabloda verilen


kodlar kullanılabilir. Benzer şekilde kriter argümanı değiştirilerek
sonuçların hepsi elde edilebilir.

select.k <- param.select(x,y,method="kNN",range=5,


criterion="AIC")
select.h <- pa-
ram.select(x,y,method="Kernel",range=20,criterion="
BIC")
select.lam1 <- param.select(x,y,method="BS",range=20,
criterion="GCV")
select.lam2 <- param.select(x,y,method="SS",range=20,
criterion="REML")

rmse.k <- sqrt(mean((select.k$fitted-y)^2))


rmse.h <- sqrt(mean((select.h$fitted-y)^2))
rmse.lambs <- sqrt(mean((select.lam1$fitted-y)^2))
rmse.lamss <- sqrt(mean((select.lam2$fitted-y)^2))

data.frame(rmse.k,rmse.h,rmse.lambs,rmse.lamss)

148
Performans Ölçüleri ve Düzleştirme Parametresinin Seçimi

Tablo 5.4’te ise tahmin edilen parametrik olmayan regresyon


modellerine ait KHKO değerleri sunulmuştur. Seçilen düzeltme
parametrelerine bağlı olarak kNN regresyonunda kriterlere bağlı
KHKO değerleri aynı elde edilmiştir. Burada elde edilen KHKO
değerleri ile ilgili şu belirtilmelidir; veri seti standartlaştırılmadı-
ğından KHKO değerleri yüksek görünse de verinin saçılımına
göre elde edilen değerlerin normal olduğu Şekil 5.7’de y-ekseni
incelendiğinde ve eğriler incelendiğinde görülebilir. Bu bağlamda
en iyi tahmin performansını B-splayn göstermiş ve onu kNN reg-
resyonunun takip ettiği görülebilir. Kernel ve Splayn Düzeltme
yöntemleri ise birbirlerine yakın performanslar göstermiştir. kNN
regresyonunun düşük KHKO vermesinin temel nedeni, veri yapı-
sının sıfır etrafında şekillenmesi ve kNN regresyon eğrisinin di-
ğer yöntemlerden daha lineer ve sıfıra yakın kalmasından kaynak-
landığı belirtilebilir. Dolayısıyla burada şu belirtilmelidir, KHKO
değerlerini tek başına incelemek yeterli olmayabilir, tahmin eğri-
lerin grafiği de performansların incelenmesi için görülmelidir.

Tablo 5.4: Motosiklet verisi için yaygın kullanılan üç kritere dayalı tah-
min edilen regresyon modelleri için KHKO değerleri
Kriter kNN Reg. Kernel D. B-Splayn Splayn D.
AIC 37.467 51.682 21.615 67.329
BIC 37.467 51.682 21.615 67.329
GCV 37.467 51.682 21.615 67.329
REML 37.467 51.682 21.616 67.661

149
Nonparametrik Regresyon Analizi

(A) V– (B) S QN

Şekil 5.7: Motosiklet verisi için tahmin edilen eğriler

b) Böbrek hastalığı verileri


Bu bölümde böbrek hastalığı verileri ile parametrik olmayan
regresyon modelleri tahmin edilmiştir. Veri setinin R programında
çağrılması ve Tablo 5.5’teki sonuçların kısmen elde edilmesi için
aşağıdaki kodlar kullanılabilir.
Tablo 5.5’te kriter değerleri ve seçilen düzeltme parametrele-

BIC ve GCV kriterleri > = 66, REML ise > = 18 olarak belirlen-
rinin değerleri görülebilir. kNN regresyon için REML hariç AIC,

miştir. Bu durumda REML tahmin eğrisinin veri noktalarına daha


hassas olduğu söylenebilir. Bu çıkarım Şekil 5.8’in sağ panelinde

ne benzer şekilde tüm kriterler aynı bant genişliği değerini ℎ = 3


açıkça görülebilir. Kernel düzeltme yöntemi için motosiklet verisi-

seçmiştir. B-splayn regresyonunda ise REML × = 0.05 ve diğer üç


kriter için × = 1 olarak belirlenmiştir. Splayn düzeltme yöntemi
için ise AIC ile BIC aynı, GCV ve REML daha küçük × değerleri
vermiştir. Buna göre, REML için tahmin edilen eğrilerin, her bir
kestirici için, daha dalgalı yapıda olduğu söylenebilir ve bu durum
Şekil 5.8’de açıkça gösterilmiştir. GCV panelindeki eğriler veriyi
daha stabil temsil ederken yani veri noktalarının arasından pürüz-
süz şekilde geçerken REML panelinde eğriler, pek çok veri nokta-
sının içinden geçerek veriyi temsil etmeye çalışmıştır. Bu sonuçlar
göz önüne alındığında, REML benzer sonuçlar üreten kriterlerin,
örneklem içi (in sample) tahminlerde iyi performans göstermesi

150
Performans Ölçüleri ve Düzleştirme Parametresinin Seçimi

beklenirken örneklem dışı, modelin hiç karşılaşmadığı veri nokta-


ların için tahmin performansının düşük olacağı söylenebilir. GCV
paneli özelinde ise tam tersine, tahmin edilen modelin hem örnek-
lem içi hem de örneklem dışı tahminlerde daha dengeli bir perfor-
mans göstermesi beklenir. Burada araştırmacı, belirlenen hedef
doğrultusunda uygun olan kriteri seçip kullanabilir.

library(condSURV)
library(psych)
library(pracma)
library(MASS)
library(frailtyHL)

data <- kidney


x <- scale(data$frail); y <- scale(data$time); n <-
length(x)

#kNN regresyonu için k seçimi


select.k <- param.select(x,y,method="kNN",range=20,
criterion="GCV")
select.k$opt
select.k$value

# Kernel regresyonu için bant genişliği “h” seçimi


select.h <- param.select(x,y,method="Kernel",
range=20,criterion="REML")
select.h$opt
select.h$value

# B-splayn regresyonu için Düzeltme parametresi “×”


seçimi
select.lam <- param.select(x,y,method="BS",range=20,
criterion="BIC")
select.lam$opt
select.lam$value

# Splayn düzeltme regresyonu için Düzeltme paramet-


resi “×” seçimi
select.lam <- param.select(x,y,method="SS",range=20,
criterion="AIC")
select.lam$opt
select.lam$value

151
Nonparametrik Regresyon Analizi

Tablo 5.5: Böbrek hastalığı verileri için düzeltme parametrelerinin


seçimi

> ℎ Değer × ×
kNN Reg. Kernel D. B-Splayn Splayn D.
Değer Değer Değer
AIC 2.056 66 2.087 3 18.986 1 13.210 0.5
BIC 4.389 66 4.459 3 40.751 1 28.341 0.5
GCV 0.986 66 0.987 3 0.976 1 0.976 0.476
REML 73.990 18 74.057 3 63.919 0.05 62.902 0.144

Tablo 5.6’da verilen KHKO değerleri beklendiği üzere,


REML için daha düşük elde edilmiştir. Bunun nedeni yukarıda
açıklandığı üzere, REML kriterinin daha küçük düzeltme paramet-
resi seçmesi ve dolayısıyla veri noktalarına daha yakın seyreden bir
eğri tahmini yapmasıdır. Bunun avantaj ve dezavantajı da yukarı-
daki çıkarımlarda belirtilmiştir. AIC, BIC ve GCV tüm örneklerde,
simülasyon da dâhil olmak üzere benzer sonuçları üretmiş ve böb-
rek verisinde de aynı değerleri vermiştir. Motosiklet veri örneğin-
den olduğu gibi, Tablo 5.6 incelendiğinde B-splayn yönteminin
diğer yöntemlerden daha düşük KHKO değerleri sunduğu açıkça
görülmektedir. Kernel regresyon ve splayn düzeltme yöntemleri
incelendiğinde ise bu iki yöntemin de en az B-splayn kadar pürüz-
süz eğriler sunduğu açıkça görülebilir.

Tablo 5.6: Böbrek hastalığı verisi için yaygın kullanılan üç kritere dayalı
tahmin edilen regresyon modelleri için KHKO değerleri
Kriter kNN Reg. Kernel D. B-Splayn Splayn D.
AIC 0.993 1.001 0.827 1.130
BIC 0.993 1.001 0.827 1.130
GCV 0.993 1.001 0.828 1.133
REML 0.617 1.001 0.805 1.234

152
Performans Ölçüleri ve Düzleştirme Parametresinin Seçimi

(A) (B)

Şekil 5.8: Böbrek hastalığı verisi için tahmin edilen eğriler

5.4. Splayn kestiricileri için düğüm seçim


yöntemleri
Splaynlara dayalı parametrik olmayan regresyon fonksiyonu
tahmincileri söz konusu olduğunda, düzeltme parametresine ek
olarak düğüm seçimi de tahmin performansını önemli ölçüde etki-
lidir. Cezalı splaynlara dayalı tahmin yöntemleri ilgili bölümlerde
anlatıldığından bu bölümde yalnızca düğüm seçim yöntemleri anla-
tılmıştır. Genellikle, düğüm noktaları bilinmediğinden seçilmesi
gerekir. Düğüm seçimi için literatürde üç temel yöntem gösterilebi-
lir. Bu yöntemler sırasıyla (i) Varsayılan seçim yöntemi, (ii) Miyop
algoritma (iii) Kapsayıcı algoritma olarak söylenebilir. Her ne
kadar yapılan çalışmalar incelendiğinde farklı yöntemlerle karşı-
laşmak mümkün olsa da pek çok yöntem sıralanan üç yöntemden
herhangi birinin geliştirilmesi veya uzantılarından oluşmaktadır.
Düğüm sayısı splayn modelin yaklaştırma yeteneği için çok
daha önemli bir rol oynar. Kullanılan düğüm sayısı ve bunların
nereye yerleştirmesi gerektiği konusu önemlidir. Bu anlamda Lite-
ratürde farklı düğüm seçim kriterleri vardır. Bu durumda yaygın
olarak aşağıdaki yöntemlerden biri yapabilir:

153
Nonparametrik Regresyon Analizi

i) Varsayılan seçim yöntemi (DSM)


Buradaki esas düşünce, regresyon fonksiyonundaki temel ya-
pıyı çözmek için yeterli sayıda düğüm seçmektir. Ancak sonraki
bölümlerde görüleceği gibi daha ayrıntılı cezalandırılmış spline
modelleri için düğüm sayısını nispeten düşük tutmanın hesaplama
avantajları vardır. Makul olan, her bir düğüm arasında sabit sayıda
farklı ve sıralı gözlem (örneğin 4-5 gib) olmasını sağlayacak dü-
ğümleri için seçmektir. Büyük veri kümeleri için bu, aşırı düğüm
sayısına yol açabilir, bu nedenle izin verilen maksimum düğüm
sayısı (örneğin, toplam 20-40) önerilir.
Açıklayıcı değişkeni, küçükten büyüğe doğru farklı ve sıralı
halede (yani, değişkenin aynı değeri alan birden çok değeri varsa

yeri, > = 1,2, … , « ç sıralı ve farklı ′lerin


sadece bir tanesi dikkate alınır) düzenlenir. Daha sonra düğümlerin

>+1
=X Y . ¿Î öA ™>¶™B >=AÜ ¶ 5™

«+2
yer alırlar. Genellikle iyi çalışan basit bir varsayılan « sayısının
seçimi şu şekilde verilir:
=A>¶Î ‘™ ?ÎA=¶Î k ¶™A ?= Î?Î
«=B Ð , 35 Ñ 5.40
4

ii) Miyop algoritma


Miyop algoritma, düğüm seçimi için kullanılan iteratif bir sü-
reçtir. Bu süreçte algoritma, düğüm seçiminde kullanılacak olası
dizileri dener ve belirlenen bir tolerans değerine göre tahminde bir

biri «e = « , … , «´ = 5,10,20,40,80 olsun ve örneklem bü-


iyileşme olmazsa iterasyonu sonlandırır. Örneğin; olası dizilerden

yüklüğü ≤ 80 olsun. Ek olarak düzeltme parametresi için de


olası bir dizi olarak ×e = × , … , ×´ verilmiş olsun. Burada, GCV
kriteri ile düğüm sayısı ve düğüm noktalarını belirlemek aşağıda
verilen adımlarla mümkün olabilir;

154
Performans Ölçüleri ve Düzleştirme Parametresinin Seçimi

W × için ve « = 5 için elde edilir.


Adım 1. Cezalı splayn tahmini olası dizilere bağlı olarak

Adım 2. Cezalı splayn tahmini W ×D için ve « = 10 için


elde edilir.
W × > 0.98 W ×D ise iterasyon durdu-
rulur ve min! W × , W ×D # kriterini sağlayan ilgili düğüm
Adım 3. Eğer

sayısı kullanılır.
W × < 0.98 W ×D ise adım, 1-3 arası
yeniden fakat • = 2, … ,5’e kadar devam eder.
Aksi durumda,

iii) Kapsayıcı algoritma


Bu algoritma, Miyop algoritmaya benzerdir fakat tüm müm-
kün düğüm noktalarını tarar ve en uygunu bulmaya çalışır. Bu

Buna göre algoritmanın adımları «~ , • = 2, … , aşağıdaki gibidir;


bağlamda miyop algoritmasına göre yavaştır fakat riski düşüktür.

Adım 1. Cezalı splayn tahmini WO×~ P ile seçilen ×~ ve «~


için elde edilir.
WO×~ P minimum yapan «~ değeri düğüm sayısı
olarak ve «~ adet ’nin sıralı ve tekil değerleri ise düğüm noktaları
Adım 2.

olarak seçilirler.

iv) Eşit-aralıklı düğüm seçim yöntemi


Öncelikle açıklayıcı değişkeninden ℎ‹ (aralık) değeri, he-
saplanır:
max − min
ℎ‹ =
«−1
Daha sonra, düğün noktaları,

‹ = min + > − 1 ℎ‹ , > = 1,2, … , «


olarak alınır.

155
Nonparametrik Regresyon Analizi

v) Görsel İncelemeyle düğüm seçimi


Alternatif olarak kullanıcı, verilerdeki gürültüye göre ′nin

sine dayalı olarak düğüm sayısı «'yi seçebilir. Örneğin, regresyon


karmaşıklığını belirlemek için dağılım grafiğinin görsel inceleme-

fonksiyonu çok fazla ince ayrıntıya sahip gibi görünüyorsa « artı-


rılmalıdır. Bu nedenle, «'yi belirlemek için otomatik düğüm seçme
algoritmaları geliştirilmiştir.

vi) AIC ve BIC Kriterleri ile Düğüm seçimi

bir ağ araması (grid search) olacaktır, yani belirli bir maksimum «


Eşit uzaklıklı aralıkların sayısını seçmenin birinci yolu, basit

tion Criterion-AIC) minimum yapan optimum > ∈ 2, … , « dü-


düğüm sayısı için, örneğin Akaike bigi kriterini (Akaike informa-

ğüm sayısı seçilir.


Düğüm seçimi yöntemlerinin uygulamada nasıl davrandıkla-
rını, motosiklet kazası verileri üzerinde incelenmiştir. Bu bağlamda
Tablo 5.7’de cezalı splayn ve B-splayn için düğüm seçimi sonuçla-
rı farklı algoritmalara göre sunulmuştur.
Örnek: Motosiklet verisi için düğüm seçimi için kullanılan
yöntemler ve düğüm seçimi gerektiren B-splayn ve cezalı splayn
tahmin edicileri incelenmiştir. Buna göre aşağıdaki Tablo 5.7 ve
Şekil 5.9’da iki yönteme ait sonuçlar sunulmuştur. Aşağıdaki tablo
ve grafiklerin elde edilmesi için bölüm sonunda verilen R kodları
kullanılabilir.
Tablo 5.9’da düğüm seçim algoritmalarının belirlediği düğüm
sayıları hem B-splayn hem de cezalı splayn için gösterilmiştir.
Burada algoritmaların her iki kestirici için de aynı düğüm sayılarını
seçtiği görülmektedir. Fakat burada belirtmek gerekir ki B-splayn
ve Cezalı splaynlar farklı teorilere sahip olduğundan, düğüm sayısı
ve düzeltme parametreleri aynı bile seçilse tahmin performansları
farklı elde edilir. Bu da Şekil 5.9’da açıkça görülebilir. Ayrıca

156
Performans Ölçüleri ve Düzleştirme Parametresinin Seçimi

görüldüğü üzere, DSM beklendiği gibi MA ve FSM arasında bir


düğüm sayısı belirlemiş, MA en fazla düğüm sayısını belirlemiş,
FSM ise en düşük düğüm sayını vermiştir.

Tablo 5.7: Splayn kestiricilerinin düğüm seçimi yöntemlerine göre dü-


ğüm sayıları
DSM MA FSM
B-splayn 24 40 5
Cezalı Splayn 24 40 5

Şekil 5.8: Belirlenen düğüm sayısı ve düğüm lokasyonlarına göre


tahmin eğrilerinin değişimi

Şekil 5.9’da görüldüğü gibi FSM B-splayn için iyi çalışma-


mış, tam tersine DSM ve MA ile daha optimal düğümler belirlen-
miş görünmektedir. Cezalı splayn ise her üç kestirici için de tatmin
edici sonuçlar üretmiş, düğüm sayısından fazla etkilenmediği gö-
rülmüştür. Bu bağlamda cezalı splayn için düzeltme parametresinin
tahmin performansında daha kritik öneme sahip olduğu söylenebi-
lir. Diğer yandan ise B-splayn için düğüm sayısı ve düğüm nokta-
larının lokasyonlarının büyük öneme sahip olduğu sonucu çıkartı-
labilir.

157
KAYNAKÇA

1. Akaike, H. (1974). A new look at the statistical model identification. IEEE


transactions on automatic control, 19(6), 716-723.
2. Aydin, D. (2007). A comparison of the nonparametric regression models
using smoothing spline and kernel regression. World Academy of Science,
Engineering and Technology, 36, 253-257.
3. Aydın, D. (2015). Semiparametrik regresyon modellemede splayn düzeltme
yaklaşımı ile tahmin ve çıkarsamalar, Doktora Tezi, Anadolu Üniversitesi,
Türkiye.
4. Bozdogan, H. (1987). Model selection and Akaike's information criterion
(AIC): The general theory and its analytical extensions. Psychometrika, 52(3),
345-370.
5. Bowman, A. W., & Azzalini, A. (2014). R package sm: nonparametric smoot-
hing methods (version 2.2-5.4). University of Glasgow, UK and Universita di
padova, Italia.
6. Carter, C. K., Eagleson, G. K., & Silverman, B. W. (1992). A comparison of
the Reinsch and Speckman splines. Biometrika, 79(1), 81-91.
7. Craven, P., & Wahba, G. (1978). Smoothing noisy data with spline functions:
estimating the correct degree of smoothing by the method of generalized
cross-validation. Numerische mathematik, 31(4), 377-403.
8. Crowley, J., & Hu, M. (1977). Covariance analysis of heart transplant survival
data. Journal of the American Statistical Association, 72(357), 27-36.
9. Copas, J. B., & Fryer, M. J. (1980). Density estimation and suicide risks in
psychiatric treatment. Journal of the Royal Statistical Society: Series A (Gene-
ral), 143(2), 167-176.
10. Gasser, T., Sroka, L., & Jennen-Steinmetz, C. (1986). Residual variance and
residual pattern in nonlinear regression. Biometrika, 73(3), 625-633.
11. De Boor, C., & De Boor, C. (1978). A practical guide to splines (Vol. 27, p.
325). New York: springer-verlag.
12. Duong, T., Wand, M., Duong, M.T., & Suggests, M. A. S. S. (2015). Package
‘feature’.
13. Duong, T., Duong, M. T., & Suggests, M. A. S. S. (2022). Package ‘ks’. R
package version, 1(5).
14. Efromovich, S. (1999). Quasi-linear wavelet estimation. Journal of the Ameri-
can Statistical Association, 94(445), 189-204.
15. Eubank, R. L. (1999). Nonparametric regression and spline smoothing. CRC
press.
16. Fan, J., Gijbels, I., Hu, T. C., & Huang, L. S. (1996). A study of variable
bandwidth selection for local polynomial regression. Statistica Sinica, 113-127.

159
Nonparametrik Regresyon Analizi

17. Guidoum, A. C. (2015). Kernel estimator and bandwidth selection for density
and its derivatives. Department of Probabilities and Statistics, University of
Science and Technology, Houari Boumediene, Algeria.
18. Green, P. J., & Silverman, B. W. (1994). Nonparametric regression and gene-
ralized linear models: a roughness penalty approach. Crc Press.
19. Hayfield, T., & Racine, J. S. (2008). Nonparametric econometrics: The np
package. Journal of statistical software, 27, 1-32.
20. Härdle, W. K. (1991). Smoothing techniques: with implementation in S.
Springer Science & Business Media.
21. Härdle, W., Müller, M., Sperlich, S., & Werwatz, A. (2004). Nonparametric
and semiparametric models (Vol. 1). Berlin: Springer.
22. Härdle, W. (1990). Applied nonparametric regression (No. 19). Cambridge
university press.
23. Härdle, W., & Linton, O. (1994). Applied nonparametric methods. Handbook
of econometrics, 4, 2295-2339.
24. Hurvich, C. M., Simonoff, J. S., & Tsai, C. L. (1998). Smoothing parameter
selection in nonparametric regression using an improved Akaike information
criterion. Journal of the Royal Statistical Society: Series B (Statistical Metho-
dology), 60(2), 271-293.
25. Mallows, C. L. (1973). Bounds on distribution functions in terms of expecta-
tions of order-statistics. The Annals of Probability, 297-303.
26. Moses, T., & Holland, P. W. (2009). Selection strategies for univariate logli-
near smoothing models and their effect on equating function accuracy. Journal
of Educational Measurement, 46(2), 159-176.
27. Nadaraya, E. A. (1964). On estimating regression. Theory of Probability & Its
Applications, 9(1), 141-142.
28. Parzen, E. (1962). On estimation of a probability density function and mode.
The annals of mathematical statistics, 33(3), 1065-1076.
29. Reiss, P. T., & Todd Ogden, R. (2009). Smoothing parameter selection for a
class of semiparametric linear models. Journal of the Royal Statistical Society:
Series B (Statistical Methodology), 71(2), 505-523.
30. Robinson, T., & Moyeed, R. (1989). Making robust the cross-validatory choi-
ce of smoothing parameter in spline smoothing regression. Communications
in Statistics-Theory and Methods, 18(2), 523-539.
31. Rosenblatt, M. (1956). Remarks on some nonparametric estimates of a density
function. The annals of mathematical statistics, 832-837.
32. Ruppert, D., Wand, M. P., & Carroll, R. J. (2003). Semiparametric regression
(No. 12). Cambridge university press.
33. Schwarz, G. (1978). Estimating the dimension of a model. The annals of
statistics, 461-464.
34. Schmidt, G., Kallieris, D., Barz, J., Mattern, R., Schulz, F., & Schüler, F.
(1981). Belastbarkeitsgrenzen des angegurteten Fahrzeuginsassen bei der
Frontalkollision. FAT, Schriftenreihe, (15).

160
Kaynakça

35. Sheather, S. J., & Jones, M. C. (1991). A reliable data‐based bandwidth selec-
tion method for kernel density estimation. Journal of the Royal Statistical So-
ciety: Series B (Methodological), 53(3), 683-690.
36. Simonoff, J. S. (1986). Jackknifing and bootstrapping goodness-of-fit statis-
tics in sparse multinomials. Journal of the American Statistical Association,
81(396), 1005-1011.
37. Tarter, M. E., & Lock, M. D. (1993). Model-free curve estimation (Vol. 56).
CRC Press.
38. Terrell, G. R., & Scott, D. W. (1992). Variable kernel density estimation. The
Annals of Statistics, 1236-1265.
39. Wand, M., Ripley, B., & Ripley, M. B. (2015). Package ‘KernSmooth’.
40. Wahba, G. (1990). Spline models for observational data. Society for industrial
and applied mathematics.
41. Wand, M. P., & Jones, M. C. (1995). Kernel smoothing. CRC press.
42. Wasserman, L. (2004). All of statistics: a concise course in statistical inferen-
ce (Vol. 26). New York: Springer.
43. Watson, G. S. (1964). Smooth regression analysis. Sankhyā: The Indian Jour-
nal of Statistics, Series A, 359-372.

161
DİZİNLER

açıklayıcı değişken, iii, 13, 45, 51, düğüm noktaları, 74, 80, 86, 90, 91,
54, 55, 81, 94, 108, 118, 128 93, 94, 95, 96, 153, 154, 155,
Akaike, 133, 156, 159, 160 157
algoritma, 15, 133, 153, 154, 155 düğüm sayısı, 79, 87, 97, 153, 154,
ampirik dağılım, 21, 23, 44 155, 156, 157
artıklar, 112 düzeltme parametresi, 4, 45, 53, 54,
asimptotik, 14, 28, 38, 123, 125 65, 66, 67, 77, 78, 79, 85, 89,
bağımlı değişken, 31, 45, 81, 100 93, 94, 101, 113, 117, 124, 132,
bağımsız değişken, 1, 100 133, 135, 136, 137, 138, 140,
bant genişliği, 26, 27, 32, 33, 34, 142, 143, 145, 152, 153, 154,
36, 38, 39, 42, 43, 44, 47, 50, 157
53, 54, 59, 61, 68, 121, 123, düzleştirme parametresi, 5, 7, 9, 10,
130, 140, 142, 147, 150, 151 11, 13, 14, 28, 31, 33, 36, 47,
beklenen değer, 7, 23, 24, 28, 37, 48, 120, 121, 130
122, 125 düzleştirme yöntemleri, iii, iv, 2, 5,
belirlilik katsayısı, 100 15, 119, 132
böbrek hastalığı verileri, 150 en küçük kareler, 1, 59, 60, 61, 62,
Böbrek hastalığı verileri, 150, 152 64, 65, 66, 73, 76, 81, 83, 86,
B-splayn, 3, 4, 45, 73, 74, 75, 76, 95, 102, 106, 112
77, 78, 79, 130, 138, 141, 142, frekans, 21, 22, 25, 29, 30, 31, 32
143, 144, 145, 147, 148, 149, gayzer veri seti, 25, 30
150, 151, 152, 156, 157, 195 göreli risk, 126, 127
budanmış polinom, 78 güven aralığı, 100, 101, 108, 109,
budanmış üstel tabanlı, 80, 84, 86 128
ceza matrisi, 76, 84, 85, 91, 95 hata kareler, 16, 18, 28, 48, 57, 87,
ceza parametresi, 73 88, 89, 106, 118, 122, 133
cezalı en küçük kareler, 62, 81, 83, hataların varyansı, 127, 128, 129,
84, 85, 86, 89, 95, 102 130, 132, 138
cezalı kareler, 75, 81, 82, 95 histogram, 3, 7, 8, 9, 23, 24, 25, 26,
cezalı splayn, 2, 3, 4, 45, 80, 87, 27, 28, 29, 30, 31, 32, 33, 169,
120, 132, 138, 141, 153, 171, 177, 178
155,156, 157,195 interpolasyon, 89, 122
çapraz geçerlilik, 9, 61, 134, 197 kareli hata, 8, 9, 16, 28
dağılım fonksiyonu, 6, 19, 20, 23, kernel ağırlıkları, 15, 64, 66
44 kernel düzeltme, 3, 56, 56, 57, 58,
değişen varyans, 129 65, 138, 147, 150
diagonal matris, 62 kernel eğrileri, 39, 40
doğrusal fonksiyon, 83, 104 kernel fonksiyonları, 32, 34, 37,
doğrusal regresyon, 10, 59, 88, 89, 41, 43, 53, 55
95, 101, 136 kernel regresyonu, 15, 58, 59, 65,
130, 142, 147, 151

163
Nonparametrik Regresyon Analizi

k-NN regresyon, 46, 52, 142 120, 122, 123, 126, 127, 128,
k-NN tahmini, 47, 48, 49, 50, 174 129, 131, 138, 154, 156
kuadratik, 59, 83, 84, 86, 114, 115, regresyon kestiricileri, 69, 105
190 ridge regresyon, 76
kuadratik splayn, 84, 86 sabit tasarım modeli, 13
kübik splayn, 74, 88, 89, 90, 91, 94, seçim kriteri, 70, 78, 79, 139, 147
95, 98, 103, 104, 130 semiparametrik, 96
Kübik splayn, 104 serbestlik derecesi, 4, 70, 78, 107,
kümülatif, 5, 19, 20, 22, 25 112, 113, 128, 130
lokal doğrusal, 65, 66, 67, 68, 114, simülasyon, iii, 1, 2, 4, 13, 51, 52,
115 97, 98, 109, 123, 126, 133, 136,
lokal polinomial, 3, 58, 62, 63, 64, 138, 142, 143, 144, 145,
68, 69, 70, 71, 180 152,174
lokal regresyon, 58, 70, 71, 72, 109, span, 59, 68, 69, 70, 71, 72, 109,
112, 130 114, 115, 180, 182, 197
lokal sabit, 64, 65, 68 splayn düzeltme, 3,45, 80,87, 89,
merkezi limit teoremi, 125 93, 94,95,97, 101, 103, 104,
normal dağılım, 19, 23, 33, 51, 56, 138, 141, 142, 145,
98, 136, 137 147,148,150, 151, 152, 203, 205
normal denklemler, 62, 83 standart sapma, 33, 98, 125
öklid uzaklığı, 47, 49, 124 taban fonksiyonları, 74, 75, 84
örneklem büyüklüğü, 1, 14, 125, tahmin vektörü, 60, 77
126, 130, 134, 135, 136, 137, Taylor serisi, 38, 59, 63, 65, 66
138, 154 toplam hata, 120, 121, 122, 125,
parametrik olmayan regresyon, 3, 4, 126
7, 9, 10, 20, 37, 47, 53, 55, 59, uyum değerleri, 4, 70, 83, 85, 96,
80, 81, 88, 89, 95, 122, 124, 100, 105, 107, 108, 109, 110,
125, 127, 128, 131, 132, 133, 114, 115, 137
136, 139, 149, 150, 153 uyum iyiliği, 118, 128, 134, 136
pürüzlülük, 2, 68, 80,87, 89, varyans tahmini, 4, 124, 127, 128,
91,95,120 129, 131, 133, 135, 137
R paketleri, 43 yanıt değişkeni, iii, 1, 7,11, 46, 52,
R programlama, 31 59, 61, 98, 118, 129
rassal değişken, 6, 12, 15, 20, 37, yanlılık, 120,122,123
50 yansız tahmin, 130
rastgele tasarım modeli, 12, 13 yoğunluk fonksiyonu, 6, 7, 12, 19,
regresyon analizi, 1 23, 28, 29, 32, 36, 38, 39, 126
regresyon eğrisi, 11, 12, 121, 149 yoğunluk kestiricisi, 23, 24, 32, 33,
regresyon fonksiyonu, 1, 6, 7, 9, 14, 36, 38, 39, 41, 44
15, 48, 50, 51, 55, 59, 63, 67, yoğunluk tahmini, iii, 3, 17, 20, 23,
77, 80, 86, 87, 105, 108, 119, 26, 27, 30, 32, 33, 34, 36, 44, 53

164
EKLER

EK-A: R Kodları
Ek-A1. Örnek 1.2’nin R-kodları
library(MASS)
data(mcycle)
attach(mcycle)
x=times
y=accel
par(mfrow=c(2,2))
n=length(y)
#sp_seq = seq(from=0.05,to=1.0, by=0.5)
#CV_err_sp = rep(NA,length(sp_seq))
#for(j in 1:length(sp_seq)){
#spar_using = sp_seq[j]
#CV_err = rep(NA, n)
#for(i in 1:n){
#x_val = x[i]
#y_val = y[i]
#x_tr = x[-i]
#y_tr = y[-i]
#SS_fit = smooth.spline(x=x_tr,y=x_tr,spar=spar_using)
#y_val_predict = predict(SS_fit,x=x_val)
#CV_err[i] = (y_val - y_val_predict$y)^2
#}
#CV_err_sp[j] = mean(CV_err)
#}
#CV_err_sp
#sp_seq[which(CV_err_sp == min(CV_err_sp))]

n = length(y)
N_cv = 100
k = 5
cv_lab = sample(n,n,replace=F) %% k
## randomly split all the indices into k numbers
h_seq = seq(from=0.2,to=5.0, by=0.1)
CV_err_h = rep(0,length(h_seq))
for(i_tmp in 1:N_cv){
CV_err_h_tmp = rep(0, length(h_seq))
cv_lab = sample(n,n,replace=F) %% k
for(i in 1:length(h_seq)){
h0 = h_seq[i]

165
Nonparametrik Regresyon Analizi

CV_err =0
for(i_cv in 1:k){
w_val = which(cv_lab==(i_cv-1))
x_tr = x[-w_val]
y_tr = y[-w_val]
x_val = x[w_val]
y_val = y[w_val]
kernel_reg = ksmooth(x = x_tr,y=y_tr,kernel = "nor-
mal",bandwidth=h0,
x.points=x_val)
# WARNING! The ksmooth() function will order the x.points
from
# the smallest to the largest!
CV_err = CV_err+mean((y_val[order(x_val)]-
kernel_reg$y)^2,na.rm=T)
# na.rm = T: remove the case of 'NA'
}
CV_err_h_tmp[i] = CV_err/k
}
CV_err_h = CV_err_h+CV_err_h_tmp
}
CV_err_h = CV_err_h/N_cv
plot(h_seq,CV_err_h,pch=18, type="b", lwd=4, col="blue",
xlab="Düzgünleştirme Parametresi",
ylab="5-CV Hata")
h_opt = h_seq[which(CV_err_h==min(CV_err_h))]
h_opt

plot(x,y,pch=20,xlab="Zaman",ylab="Hızlanma")
Kreg1 = ksmooth(x,y,kernel = "normal",bandwidth = 2.5)
lines(Kreg1, lwd=2, col="orange")
legend("topright", c("h=2.5"), lwd=2, col=c("orange"))

plot(x,y,pch=20, xlab="Zaman",ylab="Hızlanma")
Kreg2 = ksmooth(x,y,kernel = "normal",bandwidth=0.9)
lines(Kreg2, lwd=2, col="blue")
legend("topright", c("h=0.9"), lwd=2, col=c("blue"))

plot(x,y,pch=20,xlab="Zaman",ylab="Hızlanma")
Kreg3 = ksmooth(x,y,kernel = "normal",bandwidth = 4)
lines(Kreg3, lwd=2, col="limegreen")
legend("topright", c("h=4"), lwd=2, col=c("limegreen"))

#plot(x,y,pch=20,xlab="Zaman",ylab="Hızlanma")
#Kreg4 = ksmooth(x,y,kernel = "normal",bandwidth = 5)
#lines(Kreg4, lwd=2, col="purple")
#legend("topright", c("h=5"), lwd=2, col=c("purple"))

166
Ekler

Ek A2. Şekil 2.2: R-Kodları


x=faithful$eruptions
#Drawing from the histogram of X
par(mfrow=c(1,2))
hist(x,xlab="Püskürtme Uzunluğu",main="Gayzer Verisi")
h <- hist(x,probability=FALSE, breaks=8)
#lines(h$density)
hist(x,xlab="Püskürtme Uzunluğu",main="Gayzer Veri-
si",ylim=c(1,80))
h <- hist(x, probability=TRUE, bre-
aks=8,xlab="Püskürtme Uzunluğu",
main="Gayzer Verisi")
old = options(digits=3)
scale <- sum(h$density)
sum(h$density/scale) # check if 1
#F-inverse function (cdf) for the histogram, scaled
to total 1
cumprob <- cumsum(h$density/scale)

167
Nonparametrik Regresyon Analizi

Ek A3. Şekil 2.3: R-Kodları


par(mfrow=c(2,2))
dat=faithful$eruptions
#hist(dat,main="(a)",xlab="Püskürme uzunluğu",xlim=
c(1,6),
col="darkmagenta",freq=FALSE)

h <-hist(dat,main="X'in Histogramı",xlab="Püskürtme
Uzunluğu", ylim=c(0,90))
text(h$mids,h$counts,labels=h$counts,adj=c(0.5,-0.5))

hist(dat, breaks=4, xlab="Püskürtme Uzunluğu",


main="Sınıfları Ayıran Nokta Sayısı (breaks)=4",
freq=FALSE)

hist(dat,breaks=seq(1.5,5.5,by=0.10),xlim=c(1,5),
xlab="Püskürtme Uzunluğu",main="Band genişliği
h=0.10",freq=FALSE)

hist(dat,main="Farklı Sınıf Aralıklı",xlab=


"Püskürtme Uzunluğu",xlim=c(1,6),col="white",
border="brown",breaks=c(1,2.5,3.5,4,5,5.5))

168
Ekler

Ek A4: Örnek 2.4: R-Kodları


require(agricolae)
dat=faithful$eruptions
par(mfrow=c(2,2))
par(mar=c(4.1,4.1,3.7,2.1))
a1<-hist(dat, # histogram
col="peachpuff", # column color
border="black",
prob = TRUE, # show densities instead of frequ-
encies
xlab = "Püskürme uzunluğu",ylab="Yoğunluk",
main = "Gayzer verise-
ti",xlim=c(1,6),ylim=c(0,0.55),breaks=3)
polygon.freq(a1,frequency=3,col="black",lwd=2)
grid()
a2<-hist(dat, # histogram
col="peachpuff", # column color
border="black",
prob = TRUE, # show densities instead of frequ-
encies
xlab = "Püskürme uzunluğu",ylab="Yoğunluk",
main = "Gayzer veriseti",xlim=c(1,6),breaks=5)
polygon.freq(a2,frequency=3,col="black",lwd=2)
grid()
a3<-hist(dat, # histogram
col="peachpuff", # column color
border="black",
prob = TRUE, # show densities instead of frequ-
encies
xlab = "Püskürme uzunluğu",ylab="Yoğunluk",
main = "Gayzer veriseti",xlim=c(1,6),breaks=15)
polygon.freq(a3,frequency=3,col="black",lwd=2)
grid()
a4<-hist(dat, # histogram
col="peachpuff", # column color
border="black",
prob = TRUE, # show densities instead of frequ-
encies
xlab = "Püskürme uzunluğu",ylab="Yoğunluk",
main = "Gayzer veriseti",xlim=c(1,6),breaks=25)
polygon.freq(a4,frequency=3,col="black",lwd=2)
grid()

169
Nonparametrik Regresyon Analizi

Ek A5. Şekil 2.5: R-Kodları


Create some input data
x<-c(-1.3,-1,-0.3, -0.5, 0,1, 1.9)
# Calculate the KDE
kde<-density(x,kernel="gaussian",bw=0.5)
# Calcualte the singel kernels/pdf's making up the
KDE of all observations
A.kernel<-sapply(x, function(i) {den-
sity(i,kernel="gaussian",bw=0.5)},simplify=F)
sapply(1:length(A.kernel), func-
tion(i){A.kernel[[i]][['y']]<<-
(A.kernel[[i]][['y']])/length(x)},simplify=F)
# Plot everything together ensuring the right scale
(the area of the single kernels is corrected)
plot(kde,main=list("Gaussian Ker-
nel",cex=1.3,font=1,col= "black"))
rug(x,col=2,lwd=2.5)
sapply(A.kernel, function(i){
lines(i,col="red")}
)

170
Ekler

Ek A6. Şekil 2.8: R-Kodları


x=c(1,1,1,5,7,8,8,13,14,14,17,18,21,21,22,25,27,27,
30,30,31,31,32,34,35,36,37,38,39,39,40,49,49,54,56,
56,62,63,65,65,67,75,76,79,82,83,84,84,84,90,91,92,
93,93,103,103,111,112,119,122,123,126,129,134,144,
147,153,163,167,175,228,231,235,242,256,256,257,311,
314,322,369,415,573,609,640,737)
par(mfrow=c(2,2))
kde1<-density(x,kernel="gaussian",bw = "sj")
plot(kde1,main=list("Gaussian Kernel (bw = sj)",
cex=1.3,font=1,col= "black"))

kde2<-density(x,kernel="gaussian",bw = "bcv")
plot(kde2,main=list("Gaussian Kernel (bw = bvc)",
cex=1.3,font=1,col= "black"))

kde3<-density(x,kernel="gaussian",bw = "ucv")
plot(kde3,main=list("Gaussian Kernel (bw = ucv)",
cex=1.3,font=1,col= "black"))

kde4<-density(x,kernel="gaussian",bw = "nrd")
plot(kde4,main=list("Gaussian Kernel (bw = nrd)",
cex=1.3,font=1,col= "black"))

171
Nonparametrik Regresyon Analizi

Ek A7. Şekil 3.1: R-Kodları (Örnek 4.1)


w<-0
f<-0
#Veri üretilmesi (Simülasyon)
x<-c(1,3,4,5,7)
y<- c(0.54,-0.65,-0.91,-0.95,0.99,0.30)#cos(x^2)
#------------------
k=3
#x=2
Jx=c(1,3,4)
for (i in 1:length(x)){
if (is.element(x[i],Jx)){
w[i]<-length(x)/k
}
else{
w[i]<-0
}
f[i]<-w[i]*y[i]
}
fhat<-sum(f)/length(x)
x1<-c(1,2,3,4,5,7)
y1<- c(0.54,-0.65,-0.91,-0.95,0.99,0.30)
y2<-c(y1[1],fhat,y1[3],y1[4],y1[5],y1[6])
plot(x1,y1,ylim=c(min(y1)-0.2,max(y1)),pch=19,xlab =
'x',ylab='y')
par(new=T)
plot(2,fhat,col="red",xlim=c(min(x1),max(x1)),ylim=c
(min(y1)-0.2,max(y1)),pch=19,xlab =
'x',ylab='y',main=list("f(x=2)ve k=3 için k-NN tah-
mini", cex=1.5,font=11))
grid()
text(1.6,0.6,'(1, 0.54)',cex=1)
text(1,0.45,'k1',cex=1,col="blue")
text(2.6,-0.35,'Tahmin değeri:(2, -
0.44)',col="red",cex=1)
text(2.6,-0.55,'Gerçek değer:(2, -0.65)',cex=1)
text(3,-0.82,'(3, -0.91)',cex=1)
text(3,-1,'k2',cex=1,col="blue")
text(4.3,-0.86,'(4, -0.95)',cex=1)
text(4,-1.05,'k3',cex=1,col="blue")
text(5,0.92,'(5, 0.99)',cex=1)
text(6.6,0.4,'(7, 0.30)',cex=1)

172
Ekler

Ek A8. Şekil 3.2: R-Kodları


library(MASS)
library(pracma)
par(mfrow=c(2,2))
par(mar=c(4.1,4.1,3.1,3.1))
x<-mcycle$times
y<-mcycle$accel
k=1
w<-0; f<-0; n=length(y)
dist <- 0; index <- 0
f <- 0; fhat <- 0; w <- 0
Jx<-0
kernf<-function(u){
#res<-(3/4)*(1-u^2)*I(abs(u)<=1)
res<-(35/32)*(1-u^2)^3*I(abs(u)<=1)
#res<-(1/sqrt(2*pi))*exp(-(u^2)/2)
return(res)
}
say<-0
for (i2 in 1:n) {
u<-x[i2]-x
for (j in 1:n){
dist[j]<-(y[i2]-y[j])^2
index[j]<-j
say<-say+1
dist<- dist[!is.na(dist)]
index<- index[!is.na(index)]
disted<-matrix(c(index,dist),length(index),2)
sdist<-sortrows(disted,2)
}
Jx1=sdist[1:k,1]
for (l2 in 1:k){
Jx[l2]<-x[Jx1[l2]]
}
for (i in 1:length(x)){
if (is.element(x[i],Jx)){
#w[i]<-length(x)/k
w<-
((1/k)*kernf(u/(k/sqrt(n/5))))/((1/n)*sum((1/k)*
(kernf(u/(k/sqrt(n/5))))))

173
Nonparametrik Regresyon Analizi

#w<-
((1/k)*kernf(u/(k)))/((1/n)*sum((1/k)*(kernf(u/(k)))))
}
else{
w[i]<-0
}
#f[i]<-w[i]*y[i]
f<-w%*%y
}
fhat[i2]<-sum(f)/(length(x))
}
Zaman=mcycle$times
Hızdaki_Değişim=mcycle$accel
plot(Zaman,fhat,col="red",type="l",ylim=c(min(y),
max(y)),ylab="Hızdaki_Değişim")
par(new=T)
plot(Zaman,Hızdaki_Değişim,ylim=c(min(y),max(y)),
pch=19,main=list("k=1",cex=1.5,font=11))
grid()

174
Ekler

Ek A9. Örnek 3.1: R-Kodları


x=c(4.37, 3.87, 4.00, 4.03, 3.50, 4.08, 2.25, 4.70,
1.73, 4.93, 1.73, 4.62, 3.43, 4.25, 1.68, 3.92, 3.68,
3.10, 4.03, 1.77, 4.08, 1.75, 3.20, 1.85, 4.62, 1.97,
4.50, 3.92, 4.35, 2.33, 3.83, 1.88, 4.60, 1.80, 4.73,
1.77, 4.57, 1.85, 3.52, 4.00, 3.70, 3.72, 4.25, 3.58,
3.80, 3.77, 3.75, 2.50, 4.50, 4.10, 3.70, 3.80, 3.43,
4.00, 2.27, 4.40, 4.05, 4.25, 3.33, 2.00, 4.33, 2.93,
4.58, 1.90, 3.58, 3.73, 3.73, 1.82, 4.63, 3.50, 4.00,
3.67, 1.67, 4.60, 1.67, 4.00, 1.80, 4.42, 1.90, 4.63,
2.93, 3.50, 1.97, 4.28, 1.83, 4.13, 1.83, 4.65, 4.20,
3.93, 4.33, 1.83, 4.53, 2.03, 4.18, 4.43, 4.07, 4.13,
3.95, 4.10, 2.72, 4.58, 1.90, 4.50, 1.95,4.83, 4.12)
require(UsingR)
par(mfrow=c(1,2))
hist(x, # histogram
col="white", # column color
border="black",
#prob = TRUE, # show densities instead of frequen-
cies
xlab = "Püskürtme Süreleri",main=list("Şohpen Arı-
zası",cex=1.3,font=1,col= "black"))
#lines(density(x), # density plot
lwd = 2,# thickness of line
col = "black")

hist(x, prob = TRUE, # show densities instead of


frequencies
xlab = "Püskürtme Süreleri",
main=list("Şohpen Arızası",cex=1.3,font=1,col=
"black"))
simple.freqpoly((x,breaks=0.5)
lwd = 2,# thickness of line
col = "black")

bins=seq(1.50,5,by=0.5)
bins
Aralık= cut(x, bins, right=FALSE)
Aralık
freq = table(Aralık)
freq
relfreq = freq / sum(freq)
old = options(digits=1)
cbind(freq,relfreq)

175
Nonparametrik Regresyon Analizi

Ek A10. Şekil 3.3: R kodları


dat=c(4.37, 3.87, 4.00, 4.03, 3.50, 4.08, 2.25, 4.70,
1.73, 4.93, 1.73, 4.62, 3.43, 4.25, 1.68,3.92, 3.68,
3.10, 4.03, 1.77, 4.08, 1.75, 3.20, 1.85, 4.62, 1.97,
4.50, 3.92, 4.35, 2.33, 3.83, 1.88, 4.60, 1.80, 4.73,
1.77, 4.57, 1.85, 3.52, 4.00, 3.70, 3.72, 4.25, 3.58,
3.80, 3.77, 3.75, 2.50, 4.50, 4.10, 3.70, 3.80, 3.43,
4.00, 2.27, 4.40, 4.05, 4.25, 3.33, 2.00, 4.33, 2.93,
4.58, 1.90, 3.58, 3.73, 3.73, 1.82, 4.63, 3.50, 4.00,
3.67, 1.67, 4.60, 1.67, 4.00, 1.80, 4.42, 1.90, 4.63,
2.93, 3.50, 1.97, 4.28, 1.83, 4.13, 1.83, 4.65, 4.20,
3.93, 4.33, 1.83, 4.53, 2.03, 4.18, 4.43, 4.07, 4.13,
3.95, 4.10, 2.72, 4.58, 1.90, 4.50, 1.95,4.83, 4.12)
par(mfrow=c(2,2))
par(mar=c(4.1,4.1,3.7,2.1))
hist(dat, # histogram
col="peachpuff", # column color
border="black",
prob = T, # show densities instead of frequen-
cies
xlab = "Püskürme uzunluğu",ylab="Yoğunluk",
main = "( a
)",xlim=c(1,6),ylim=c(0,0.55),breaks=3)
lines(density(dat), # density plot
lwd = 2, # thickness of line
col = "black")

hist(dat, # histogram
col="peachpuff", # column color
border="black",
prob = TRUE, # show densities instead of frequ-
encies
xlab = "Püskürme uzunluğu",ylab="Yoğunluk",
main = "( b )",xlim=c(1,6),breaks=5)
lines(density(dat), # density plot
lwd = 2, # thickness of line
col = "black")

hist(dat, # histogram
col="peachpuff", # column color

176
Ekler

border="black",
prob = TRUE, # show densities instead of frequ-
encies
xlab = "Püskürme uzunluğu",ylab="Yoğunluk",
main = "( c )",xlim=c(1,6),breaks=15)
lines(density(dat), # density plot
lwd = 2, # thickness of line
col = "black")

hist(dat, # histogram
col="peachpuff", # column color
border="black",
prob = TRUE, # show densities instead of frequ-
encies
xlab = "Püskürme uzunluğu",ylab="Yoğunluk",
main = "( d )",xlim=c(1,6),breaks=25)
lines(density(dat), # density plot
lwd = 2, # thickness of line
col = "black")

177
Nonparametrik Regresyon Analizi

Ek A11. Şekil 3.6: R-Kodları


data("mcycle", package = "MASS")
par(mfrow=c(2,2))
par(mar = c(6.5, 6.5, 2.5, 2.5))
x=mcycle$times
y=mcycle$accel
loess25 <- loess(y ~ x,degree=0,span=0.25)
smooth25 <- predict(loess25)
MSE25=mean((y-smooth25)^2)
df25 = loess25$trace.hat
#yhat<-loess25$y:Yaklaşık smooth25 ile aynı
loess50 <- loess(y ~ x, degree=0,span=0.50)
smooth50 <- predict(loess50)
MSE50=mean((y-smooth50)^2)
df50 = loess50$trace.hat
loess75 <- loess(y ~ x, degree=0,span=0.75)
smooth75 <- predict(loess75)
MSE75=mean((y-smooth75)^2)
df75 = loess75$trace.hat
#create scatterplot with each regression line over-
laid
plot(x, y, pch=19, xlab="Time (ms)",ylab="Acceleration
(g)", main='Dağılma Diyağramı')
plot(x, y, pch=19, xlab="Time (ms)",ylab="Acceleration
(g)", main='Lokal Sabit Regresyon Tahminleri')
# add fit lines
lines(x,smooth25, lwd = 2,lty=1,col='red')
lines(x,smooth50,lwd = 2, lty = 2, col='purple')
lines(x,smooth75, lwd = 2, lty = 3, col='blue')
# add legend
legend("bottomright", c("loess(0.25)", "loess(0.50)",
"loess(0.75)"),lty = 1:3, lwd = 2, col = c("red",
"purple", "blue"), bty = "n")
loess25 <- loess(y ~ x,degree=1,span=0.25)
smooth25 <- predict(loess25)
loess50 <- loess(y ~ x, degree=1,span=0.50)
smooth50 <- predict(loess50)
loess75 <- loess(y ~ x, degree=1,span=0.75)
smooth75 <- predict(loess75)

178
Ekler

plot(x, y, pch=19, xlab="Time (ms)",ylab="Acceleration


(g)", main='Lokal Doğrusal Regresyon Tahminleri')
lines(x,smooth25, lwd = 2,lty=1,col='red')
lines(x,smooth50,lwd = 2, lty = 2, col='purple')
lines(x,smooth75, lwd = 2, lty = 3, col='blue')
legend("bottomright", c("loess(0.25)", "loess(0.50)",
"loess(0.75)"),lty = 1:3, lwd = 2, col = c("red",
"purple", "blue"), bty = "n")
loess25 <- loess(y ~ x,degree=2,span=0.25)
smooth25 <- predict(loess25)
loess50 <- loess(y ~ x, degree=2,span=0.50)
smooth50 <- predict(loess50)
loess75 <- loess(y ~ x, degree=2,span=0.75)
smooth75 <- predict(loess75)
plot(x, y, pch=19, xlab="Time (ms)",ylab="Acceleration
(g)", main='Lokal Polinomial Regresyon Tahminleri')
lines(x,smooth25, lwd = 2,lty=1,col='red')
lines(x,smooth50,lwd = 2, lty = 2, col='purple')
lines(x,smooth75, lwd = 2, lty = 3, col='blue')
legend("bottomright", c("loess(0.25)", "loess(0.50)",
"loess(0.75)"),lty = 1:3, lwd = 2, col = c("red",
"purple", "blue"), bty = "n")

179
Nonparametrik Regresyon Analizi

Ek A12. Şekil 3.8: R-Kodları


#load data
library(car)
data(Prestige)
head(Prestige)
par(mar = c(6.5, 6.5, 2.5, 2.5))
x=Prestige$income
y=Prestige$prestige
loess.gcv <- function(x, y){
nobs <- length(y)
xs <- sort(x, index.return = TRUE)
x <- xs$x
y <- y[xs$ix]
tune.loess <- function(s){
lo <- loess(y ~ x, span = s)
mean((lo$fitted - y)^2) / (1 - lo$trace.hat/
nobs)^2
}
os <- optimize(tune.loess, interval = c(.01, 99))
$minimum
lo <- loess(y ~ x, span = os)
list(x = x, y = lo$fitted, df = lo$trace.hat, span
= os)
}

locreg.gcv <- loess.gcv(x, y)


locreg.gcv$df
locreg.gcv$span

MSE.gcv<-mean((y-locreg.gcv$y)^2)
MSE.gcv
sqrt(MSE.gcv)
#fit.gcv<-loess(y~x,span=locreg.gcv$span)

loess.cv <- function(x, y){


nobs <- length(y)
xs <- sort(x, index.return = TRUE)
x <- xs$x
y <- y[xs$ix]
tune.loess <- function(s){

180
Ekler

lo <- loess(y ~ x, span = s)


mean(((lo$fitted - y)^2) / (1 - lo$trace.hat)^2)
}
os1 <- optimize(tune.loess, interval = c(0.80,
100))$minimum
lo <- loess(y ~ x, span = os1)
list(x = x, y = lo$fitted, df = lo$trace.hat, span
= os1)
}
locreg.cv <- loess.cv(x, y)
locreg.cv$df
locreg.cv$span

MSE.cv<-mean((y-locreg.cv$y)^2)
MSE.cv
sqrt(MSE.cv)

loess.aic <- function(x, y){


nobs <- length(y)
xs <- sort(x, index.return = TRUE)
x <- xs$x
y <- y[xs$ix]
tune.loess <- function(s){
lo <- loess(y ~ x, span = s)
log10(sqrt(mean((lo$fitted - y)^2)))+1+(2*(1 +
lo$trace.hat))/(nobs-lo$trace.hat-2)
}
os2 <- optimize(tune.loess, interval = c(0.45,
0.99))$minimum
lo <- loess(y ~ x, span = os2)
list(x = x, y = lo$fitted, df = lo$trace.hat, span
= os2)
}
locreg.aic <- loess.aic(x, y)
locreg.aic$df
locreg.aic$span
MSE.aic<-mean((y-locreg.aic$y)^2)
MSE.aic
sqrt(MSE.aic)
loess.cp <- function(x, y){
nobs <- length(y)

181
Nonparametrik Regresyon Analizi

xs <- sort(x, index.return = TRUE)


x <- xs$x
y <- y[xs$ix]
tune.loess <- function(s){
lo <- loess(y ~ x, span = s)
mean((lo$fitted - y)^2)+2*(sqrt(mean((lo$fitted -
y)^2)))*(lo$trace.hat)+(sqrt(mean((lo$fitted - y)^2)))
}
os3 <- optimize(tune.loess, interval = c(1,150))
$minimum
lo <- loess(y ~ x, span = os3)
list(x = x, y = lo$fitted, df = lo$trace.hat, span
= os3)
}
locreg.cp <- loess.cp(x, y)
locreg.cp$df
locreg.cp$span
MSE.cp<-mean((y-locreg.cp$y)^2)
MSE.cp
sqrt(MSE.cp)

#create scatterplot with each regression line over-


laid
plot(x, y, pch=19, xlab="Gelir",ylab="Prestij",
main='Farlkı Secim Kriterlerine Dayalı Lokal Regres-
yon Tahminleri')
# add fit lines
lines(locreg.gcv, lwd=2,lty=1,col='red')
lines(locreg.cv, lwd= 2,lty=2,col='blue')
lines(locreg.aic, lwd=2,lty=3,col='black')
lines(locreg.cp, lwd=2,lty=4,col='purple')
# add legend
legend("bottomright", c("locreg.gcv", "locreg.cv",
"locreg.aic","locreg.cp"),lty = 1:4, lwd = 2, col =
c("red", "blue", "black","purple"), bty = "n")

182
Ekler

Ek A13. Şekil 3.10: R-Kodları


data("mcycle", package = "MASS")
par(mar = c(4.1, 4.1, 0.1, 0.1))
plot(mcycle)
bsbasis <- function(z, knots, j, degree) {
if(degree == 0)
B <- 1 * (knots[j] <= z & z < knots[j + 1])
if(degree > 0) {
b1 <- (z - knots[j]) / (knots[j + degree] -
knots[j])
b2 <- (knots[j + degree + 1] - z) /
(knots[j + degree + 1] - knots[j + 1])
B <- b1 * bsbasis(z, knots, j, degree - 1) +
b2 * bsbasis(z, knots, j + 1, degree - 1)
}
B[is.na(B)] <- 0
return(B)
}
n=length(mcycle)
bs <- function(z, degree = 3, knots = NULL) {
## Compute knots.
if(is.null(knots))
knots <- 40
if(length(knots) < 2) {
step <- (max(z) - min(z)) / (knots - 1)
knots <- seq(min(z) - degree * step,
max(z) + degree * step, by = step)
}
B <- NULL
for(j in 1:(length(knots) - degree - 1))
B <- cbind(B, bsbasis(z, knots, j, degree))
return(B)
}
P <- function(order = 2, k = 7) {
D <- diag(k)
for(i in 1:order)
D <- diff(D)
K <- crossprod(D, D)
return(K)
}

183
Nonparametrik Regresyon Analizi

## Order 1 penalty.
P(1)
find.lambda <- function(y, Z, K) {
ZZ <- crossprod(Z); tZ <- t(Z); gcv <- func-
tion(lambda) {
S <- Z %*% solve(ZZ + lambda * K) %*% tZ
yhat <- S %*% y; trS <- sum(diag(S)); rss <-
sum((y - yhat)^2)
drop(rss * n / (n - trS)^2)
}
lambda <- optimize(gcv, lower = 40, upper = 1e+5)
$minimum
return(lambda)
}
Z <- bs(mcycle$times, degree = 3, knots = 80)
K <- P(2, ncol(Z))
## Search optimum lambda.
lambda <- find.lambda(mcycle$accel, Z, K)
y<-mcycle$accel
## Estimate the function and plot.
S <- Z %*% solve(crossprod(Z) + lambda * K,tol=1e-
100) %*% t(Z)
yhat <- S%*%y
par(mar = c(4.1, 4.1, 0.5, 0.5))
plot(mcycle, col = rgb(0.1, 0.1, 0.1, alpha = 0.3))
lines(yhat ~ sort(mcycle$times), lwd = 2)
legend("bottomright", paste("df =", round(sum(diag(S)),
2)), bty = "n")

184
Ekler

Ek A14. Şekil 3.11: R kodları


#load data
library(car)
## Loading required package: carData
data(Prestige)
head(Prestige)
x=Prestige$income
y=Prestige$prestige
## Single basis functions.
bsbasis <- function(z, knots, j, degree) {
if(degree == 0)
B <- 1 * (knots[j] <= z & z < knots[j + 1])
if(degree > 0) {
b1 <- (z - knots[j]) / (knots[j + degree] -
knots[j])
b2 <- (knots[j + degree + 1] - z) /
(knots[j + degree + 1] - knots[j + 1])
B <- b1 * bsbasis(z, knots, j, degree - 1) +
b2 * bsbasis(z, knots, j + 1, degree - 1)
}
B[is.na(B)] <- 0
return(B)
}
n=length(Prestige)
## And the complete design matrix.
bs <- function(z, degree = 3, knots = NULL) {
## Compute knots.
if(is.null(knots))
knots <- 40
if(length(knots) < 2) {
step <- (max(z) - min(z)) / (knots - 1)
knots <- seq(min(z) - degree * step,
max(z) + degree * step, by = step)
}
## Evaluate each basis function
## and return the full design matrix B.
B <- NULL
for(j in 1:(length(knots) - degree - 1))
B <- cbind(B, bsbasis(z, knots, j, degree))
return(B)
}

185
Nonparametrik Regresyon Analizi

find.lambda1 <- function(y, Z, K) {


ZZ <- crossprod(Z)
tZ <- t(Z)
gcv <- function(lambda) {
S <- Z %*% solve(ZZ+lambda*K)%*%t(Z)
yhat <- S %*% y
trS <- sum(diag(S))
rss <- sum((y - yhat)^2)
drop(rss*n/(n - trS)^2)
}
lambda <- optimize(gcv, lower = 400, upper = 1e+5)
$minimum
return(lambda)
}
find.lambda2 <- function(y, Z, K) {
ZZ <- crossprod(Z)
tZ <- t(Z)
cv <- function(lambda) {
S <- Z %*% solve(ZZ+lambda*K)%*%t(Z)
yhat <- S %*% y
trS <- sum(diag(S))
rss <- sum((y - yhat)^2)
1/n*sum((rss/(1 - trS)^2))
}
lambda <- optimize(cv, lower = 4000, upper = 1e+5)
$minimum
return(lambda)
}

xs <- sort(x, index.return = TRUE)


x <- xs$x
y <- y[xs$ix]
## Set up design and penatly matrix.
Z <- bs(x, degree = 3, knots = 120)
K <- P(2, ncol(Z))
## Search optimum lambda.
lambda.gcv <- find.lambda1(y, Z, K)
lambda.cv <- find.lambda2(y, Z, K)
## Estimate the function and plot.
S <- Z %*% solve(crossprod(Z) + lambda.gcv*K,tol=1e-
100) %*% t(Z)

186
Ekler

S1 <- Z %*% solve(crossprod(Z) + lambda.cv*K,tol=1e-


100) %*% t(Z)
yhat <- S%*%y
yhat1 <- S1%*%y
#MSE.gcv<-mean((y-yhat)^2)
#MSE.cv<-mean((y-yhat1)^2)
par(mar = c(4.1, 4.1, 2.5, 2.5))
plot(x,y,
pch=19,cex=0.5,ylim=c(min(y),max(y)*1.2),ylab=
"Prestij",xlab="Gelir")
lines(x,yhat, lwd = 2,lty=1,col="blue")
lines(x,yhat1, lwd = 2,lty=2,col="red")
legend("bottomright",c("B-spline.gcv", "B-spline.cv"),
lty = 1:2, lwd = 2, col = c("blue", "red"),bty = "n")
legend("topright", paste("df.gcv =",round(sum(diag(S)),
2),"df.cv =",round(sum(diag(S1)),2)))
legend("topleft", paste("MSE.gcv =",round(mean((y-
yhat)^2), 2), "MSE.cv =",round(mean((y-yhat1)^2),2)))

187
Nonparametrik Regresyon Analizi

Ek A15. Şekil 3.12: R kodları


library(SemiPar)
data("mcycle", package = "MASS")
par(mfrow = c(2, 2))
x<-mcycle$times
y<-mcycle$accel
tp <- function(z, degree = 1, knots = seq(min(z),
max(z), length = 10)) {
## If knots is integer.
if(length(knots) < 2)
knots <- seq(min(z), max(z), length = knots)
## Setup the columns for the global polinomials.
Z <- outer(z, 0:degree, "^"); cn <- paste("z^",
0:degree, sep = "")
## Compute local polinomials.
if(length(knots) > 2) {
knots <- sort(unique(knots))
for(j in 2:(length(knots) - 1)) {
zk <- z - knots[j]
check <- zk < 0
zk <- zk^degree
zk[check] <- 0
Z <- cbind(Z, zk)
cn <- c(cn, paste("(z-", round(knots[j], 2),
")^", degree, sep = ""))
}
}
## Assign column names.
colnames(Z) <- cn
return(Z)
}
## Setup the design and penalty matrix.
degree <- 1
Z <- tp(sort(mcycle$times), degree = degree, knots =
40)
K <- diag(c(rep(0, degree + 1), rep(1, ncol(Z) -
degree - 1)))
## Perform a simple grid search.
lambda <- seq(1e-03, 1e+03, length = 500)
gcv <- NULL

188
Ekler

n <- nrow(mcycle)
ZZ <- crossprod(Z)
tZ <- t(Z)
## Run the search.
for(i in lambda) {
S <- Z %*% solve(ZZ + i*K,tol=1e-100) %*% tZ
yhat <- S %*% mcycle$accel
trS <- sum(diag(S))
rss <- sum((mcycle$accel - yhat)^2)
gcv <- c(gcv, drop(rss * n / (n - trS)^2))
}
## Plot GCV curve and fitted smooth effect.
plot(gcv ~ lambda, type = "l", lwd = 2)
i <- which.min(gcv)
abline(v = lambda[i], lty = 2, col = "lightgray")
legend("bottomright", paste("Lamda=",round(lambda[i],
3)), bty = "n")
plot(mcycle, col = rgb(0.1, 0.1, 0.1, alpha =
0.5),main="Budanmış Üstel Tabalı Doğrusal Splayn")
S <- Z %*% solve(ZZ + lambda[i]*K,tol=1e-100) %*% tZ
yhat <- S %*%y
lines(yhat ~ sort(x), lwd = 2)
legend("bottomright", paste("df =", round(sum(diag(S)),
2)), bty = "n")
# Kuadratik
tp <- function(z, degree = 3, knots = seq(min(z),
max(z), length = 10)) {
## If knots is integer.
if(length(knots) < 2)
knots <- seq(min(z), max(z), length = knots)
## Setup the columns for the global polinomials.
Z <- outer(z, 0:degree, "^"); cn <- paste("z^",
0:degree, sep = "")
## Compute local polinomials.
if(length(knots) > 2) {
knots <- sort(unique(knots))
for(j in 2:(length(knots) - 1)) {
zk <- z - knots[j]
check <- zk < 0
zk <- zk^degree
zk[check] <- 0

189
Nonparametrik Regresyon Analizi

Z <- cbind(Z, zk)


cn <- c(cn, paste("(z-", round(knots[j], 2),
")^", degree, sep = ""))
}
}
## Assign column names.
colnames(Z) <- cn
return(Z)
}
## Setup the design and penalty matrix.
degree <- 3
Z <- tp(sort(mcycle$times), degree = degree, knots =
40)
K <- diag(c(rep(0, degree + 1), rep(1, ncol(Z) -
degree - 1)))
## Perform a simple grid search.
lambda <- seq(1e-03, 1e+03, length = 500)
gcv <- NULL
n <- nrow(mcycle)
ZZ <- crossprod(Z)
tZ <- t(Z)
## Run the search.
for(i in lambda) {
S <- Z %*% solve(ZZ + i*K,tol=1e-100) %*% tZ
yhat <- S %*% mcycle$accel
trS <- sum(diag(S))
rss <- sum((mcycle$accel - yhat)^2)
gcv <- c(gcv, drop(rss * n / (n - trS)^2))
}
## Plot GCV curve and fitted smooth effect.
plot(gcv ~ lambda, type = "l", lwd = 2)
i <- which.min(gcv)
abline(v = lambda[i], lty = 2, col = "lightgray")
legend("topright", paste("Lamda=",lambda[i]), bty =
"n")
plot(mcycle, col = rgb(0.1, 0.1, 0.1, alpha =
0.5),main="Budanmış Üstel Tabanlı Kuadratik Splayn")
S <- Z %*% solve(ZZ + lambda[i]*K,tol=1e-100) %*% tZ
yhat <- S %*%y
lines(yhat ~ sort(x), lwd = 2)
legend("bottomright", paste("df =", round(sum(diag(S)),
2)), bty = "n")

190
Ekler

Ek A16. Şekil 3.14: R kodları


set.seed(1)
n <- 100
x <- seq(0, 1, length.out= n)
fx <- sin(2*pi*x)
# generate noisy data
y <- fx + rnorm(n, 0,sd = 0.5)
d = diff(x) #h aralığı
R = matrix(0, n-2, n-2)
for (j in 2:(n-2)){
R[j-1,j-1] = (d[j-1]+d[j])/3
R[j-1,j] = d[j]/6
R[j,j-1] = d[j]/6
}
R[n-2, n-2] = (d[n-2]+d[n-1])/3
Q = matrix(0, n, n-2)
for (j in 2:(n-1)){
Q[j-1,j-1] = 1/d[j-1]
Q[j,j-1] = -(1/d[j-1]+1/d[j])
Q[j+1,j-1] = 1/d[j]
}
lambda <- seq(1e-03, 1e+03, length = 100)
cv <- NULL # Lambda cv ile seçiliyor
## Run the search.
for(i in length(lambda)) {
K = Q%*%solve(R)%*%t(Q)
H = solve(diag(n)+lambda[i]*K,tol=1e-100)
yhat <- H%*%y
trH <- sum(diag(H))
rss <- sum((y- yhat)^2)
cv <- c(cv, drop((1/n)*(rss*n /(n - trH)^2)))
}
i <- which.min(cv)
K = Q%*%solve(R)%*%t(Q) #K matrix
H = solve(diag(n)+lambda[i]*K) #H matrix
yh1 = H%*%y;
plot(x, y, pch=19, col="gray")
lines(x, yh1, col="blue", lwd=2)
legend(0.6, 1.5, c("Estimated Regression Curve"),
lty=c(1,1,2), cex=0.7, col="blue")

191
Nonparametrik Regresyon Analizi

Ek A17. Şekil 3.15: R kodları


library(npreg)
library(stats)
# define function
n <- 101
x <- seq(0, 1, length.out= n)
fx <- sin(2*pi*x)

# generate noisy data


set.seed(1)
y <- fx + rnorm(n, sd = 0.3)
# fit using ss
mod.ss <- ss(x, y, nknots = 10)
mod.ss
# fit using smooth.spline
mod.smsp <- smooth.spline(x, y, nknots = 10)
mod.smsp
# rmse between solutions and f(x)
sqrt(mean((fx - mod.ss$y )^2))
sqrt(mean((fx - mod.smsp$y )^2))
# plot data and f(x)
plot(x, y)
lines(x, fx, lwd = 2)
lines(x, mod.ss$y, lty = 2, col = 2, lwd = 2)
lines(x, mod.smsp$y, lty = 3, col = 3, lwd = 2)
legend("topright",legend = c("f(x)", "ss", "smooth.
spline"),
lty = 1:3, col = 1:3, lwd = 2, bty = "n")

192
Ekler

Ek A18. Bölüm 5.4 Örnek: R kodları


#Düğüm seçimi için hazırlanan DSM(), MA() ve FSM()
fonksiyonları yularıda verilen #github linkinden elde
edilebilir.

data <- MASS::mcycle


x <- (data$times)
y <- (data$accel)

lambda<-0.01

dsm_knots <- DSM(x)


ma_knots <- MA(x,y,lambda)
fsm_knots <- FSM(x,y,lambda)

data.frame(dsm_knots, ma_knots, fsm_knots)

BS_dsm <- bsmooth(x,y,24,0.05); BS_ma <- bsmooth


(x,y,40,0.05)
BS_fsm <- bsmooth(x,y,5,0.05)

CS_dsm <- TPBsmooth(x,y,24,0.05); CS_ma <- TPBsmooth


(x,y,40,0.05)
CS_fsm <- TPBsmooth(x,y,5,0.05)

a <- min(y)
b <- max(y)
plot(x,y,pch=19,cex=0.7,xlab="times",ylab="accel")
par(new=TRUE)
plot(x,BS_dsm$fhat,type="l",ylim=c(a,b),ylab="accel",
xlab="times",col=2,lty=1,lwd=3)
par(new=TRUE)
plot(x,BS_ma$fhat,type="l",ylim=c(a,b),ylab="accel",
xlab="times",col=3,lty=2,lwd=3)
par(new=TRUE)
plot(x,BS_fsm$fhat,type="l",ylim=c(a,b),ylab="accel",
xlab="times",col=4,lty=3,lwd=3,main="B-Splayn Tahmin-
leri")
par(new=TRUE)

193
Nonparametrik Regresyon Analizi

legend("bottomright",legend=c("DSM, K=24","MA, K=40",


"FSM, K=5"),col=c(2:4),lty=c(1,2,3),cex=0.75)
grid()
#-----------------------------------------------------
------------------
plot(x,y,pch=19,cex=0.7,xlab="times",ylab="accel")
par(new=TRUE)
plot(x,CS_dsm$fhat+4,type="l",ylim=c(a,b),ylab="accel"
,xlab="times",col=2,lty=1,lwd=3)
par(new=TRUE)
plot(x,CS_ma$fhat-
4,type="l",ylim=c(a,b),ylab="accel",xlab="times",
col=3,lty=2,lwd=3)
par(new=TRUE)
plot(x,CS_fsm$fhat,type="l",ylim=c(a,b),ylab="accel",
xlab="times",col=4,lty=3,lwd=3,main="Cezalı Splayn
Tahminleri")
par(new=TRUE)
legend("bottomright",legend=c("DSM, K=24","MA, K=40",
"FSM, K=5"),col=c(2:4),lty=c(1,2,3),cex=0.75)
grid()

194
Ekler

Ek A19. Bölüm 5’te kullanılan R fonksiyonları


#SMOOTHING Functions----------------------------------
------------------
knnsmooth <- function(x,y,k){
library(MASS)
library(pracma)
w <-0; f <-0; n <- length(y); dist <- 0;
index<- 0
f <- 0; fhat <- 0; w <- 0; Jx <-0; W
<- matrix(0,n,n)
kernf<-function(u){
#res<-(3/4)*(1-u^2)*I(abs(u)<=1)
res<-(35/32)*(1-u^2)^3*I(abs(u)<=1)
#res<-(1/sqrt(2*pi))*exp(-(u^2)/2)
return(res)
}
say<-0
for (i2 in 1:n) {
u<-x[i2]-x
for (j in 1:n){
dist[j]<-(y[i2]-y[j])^2
index[j]<-j
say<-say+1
dist<- dist[!is.na(dist)]
index<- index[!is.na(index)]
disted<-matrix(c(index,dist),length(index),2)
sdist<-sortrows(disted,2)
}
Jx1=sdist[1:k,1]
for (l2 in 1:k){
Jx[l2]<-x[Jx1[l2]]
}
for (i in 1:length(x)){
if (is.element(x[i],Jx)){
#w[i]<-length(x)/k
#w<-
((1/k)*kernf(u/(k/sqrt(n/5))))/((1/n)*sum((1/k)*(kernf
(u/(k/sqrt(n/5))))))
w<-
((1/k)*kernf(u/(k)))/((1/n)*sum((1/k)*(kernf(u/(k)))))

195
Nonparametrik Regresyon Analizi

}
else{
w[i]<-0
}
#f[i]<-w[i]*y[i]
f[i]<-(w[i]*y[i])/(k)
}
W[,i2] <- w
fhat[i2]<-sum(f)
}
#plot(fhat,type="l")
a <- new.env()
a$fhat <- fhat
a$W <- (1/n)*t(W)#(1/n)*t(W) #Smoothing mat-
rix of kNN regression
return(a)
}
######################################################
##################
kdsmooth <- function(x,y,bws){
#bws range between mean(y)+-2sigma
library(condSURV)
n <- length(y); sx <-
seq(min(x),max(x),length.out = n)
fhat <- ksmooth(x,y,kernel="normal",bandwidth =
bws,n.points=n)
W <- matrix(0,n,n)
for (i in 1:n){
W[,i] <- NWW(x,sx[i],kernel="gaussian",bws)
}
fhat2 <- W%*%y
a <- new.env()
a$fhat <- fhat$y
a$sx <- fhat$x
a$W <- W
return(a)
}
######################################################
##################
localsmooth <- function(x,y,span){ #second degree
local with tricube kernel function

196
Ekler

library(KernSmooth)
library(locfit)
library(evmix)
#--------------------------------------------------
-----------------
n <- length(y)
sx <-seq(min(x)-0.1,max(x)+0.1,length.out=n)
span <- 0.1
yhat <- 0
H <- matrix(0,n,n)
#--------------------------------------------------
-----------------
for (j in 1:n){
u <- x[j]-sx; K <-
diag(kdgaussian(u,bw=span))
e <- matrix(c(1,rep(0,1)),2,1); ones
<- matrix(1,n,1)
xd <- x-sx[j]; xm <- mat-
rix(c(ones,xd),n,2)
yhat[j] <-t(e)%*%solve(t(xm)%*%K%*%xm,tol=1e-
500)%*%t(xm)%*%K%*%y
H[j,] <-t(e)%*%solve(t(xm)%*%K%*%xm,tol=1e-
500)%*%t(xm)%*%K
}
a <- new.env()
a$fhat <- yhat
a$Hatmatrix <- H
return(a)
}
######################################################
##################
bsmooth <- function(x,y,nknots,sp){
library(splines)
myknots <- seq(min(x)*1.5,max(x),length.out =
nknots)
ones <- matrix(1,n,1)
Bmat <- bs(x,degree = 3,knots = myknots)
B <- matrix(c(ones,Bmat),n,(ncol(Bmat)+1))
D <-matrix(0,n,(ncol(Bmat)+1))
for (i in 1:n){
for (j in 1:(ncol(Bmat)+1)){

197
Nonparametrik Regresyon Analizi

if (i==j){
D[i,j]<-1
}
if (j==(i+1)){
D[i,j]<--3
}
if (j==(i+2)){
D[i,j]<-3
}
if (j==(i+3)){
D[i,j]<--1
}
}
}
bhat <-solve(t(B)%*%B+sp*t(D)%*%D,tol=10e-
200)%*%t(B)%*%y
fhat <- B%*%bhat
H <- B%*%solve(t(B)%*%B+sp*t(D)%*%D,tol=10e-
200)%*%t(B)
a <- new.env()
a$fhat <- fhat
a$H <- H
return(a)
}
######################################################
##################
TPBsmooth <- function(x,y,nknotsi,sp){
library(psre)
ones <- matrix(1,n,1);
Bmat <- tpb(x,degree = 3,nknots = nknotsi)
B <- matrix(c(ones,Bmat),n,(ncol(Bmat)+1))
D <-matrix(0,n,(ncol(Bmat)+1))
for (i in 1:n){
for (j in 1:(ncol(Bmat)+1)){
if (i==j){
D[i,j]<-1
}
if (j==(i+1)){
D[i,j]<--3
}
if (j==(i+2)){

198
Ekler

D[i,j]<-3
}
if (j==(i+3)){
D[i,j]<--1
}
}
}
bhat <-solve(t(B)%*%B+sp*t(D)%*%D,tol=10e-
200)%*%t(B)%*%y
fhat <- B%*%bhat
H <- B%*%solve(t(B)%*%B+sp*t(D)%*%D,tol=10e-
200)%*%t(B)
a <- new.env()
a$fhat <- fhat
a$H <- H
return(a)
}
######################################################
##################
splinesmooth <- function(x,y,sp){
smoother.matrix <- function(a.spline, x) {
n <- length(x); w <- matrix(0, nrow=n, ncol=n)
for (i in 1:n) {
y <- rep_len(0, n) # Equivalent to rep(0,
length.out=n)
y[i] <- 1
w[,i] <- fitted(smooth.spline(x, y, lamb-
da=a.spline$lambda))
}
return(w)
}
fit <- smooth.spline(x,y,spar=sp)
fhat <- fit$y
H <-smoother.matrix(fit,x)
a <- new.env()
a$fhat <- fhat
a$H <- H
a$x <- fit$x
return(a)
}
######################################################

199
Nonparametrik Regresyon Analizi

#################
#FUNCTIONS OF CRITERIA------------------------------
-------------
myAIC <- function(y,H){ #H düzeltme matrisi
S_\lambda olarak da geçer
library(psych)
library(pracma)
n <- length(y)
score <- 2*tr(H)-2*log((t(y)%*%((diag(n)-
H)^2)%*%y)/(tr(diag(n)-H)))
return(score)
}
#---------------------------------------------------
------------------
myBIC <- function(y,H){ #Bayes bilgi kriteri
n <- length(y)
score <- tr(H)*(log(n))-2*log((t(y)%*%((diag(n)-
H)^2)%*%y)/(tr(diag(n)-H)))
return(score)
}

#-----------------------------------------------------
------------------
myGCV <- function(y,H){ #Genelleştirilmiş Çapraz
geçerlilik (Generalized CV)
n <- length(y)
score <- ((1/n)*(t(y)%*%((diag(n)-
H)^2)%*%y))/(((1/n)*tr(diag(n)-H))^2)
return(score)
}
#---------------------------------------------------
------------------
myREML <- function(y,H){
n <- length(y)
score <- (n*(t(y)%*%((diag(n)-
H)^2)%*%y))/(tr(diag(n)-H))
return(score)
}

200
Ekler

Ek A20. Splayn düzeltme yönteminin matris


hesaplamaları
sspline<-function(z,lambda){
n<-length(z); q <- length(unique(z)); t <-
unique(z); h<-0
for (b in 1:q-1) {
h[b]<-t[b+1]-t[b]
}
Q<-matrix(0,q,(q-2))
for (i in 1:(q-2)) {
for (j in 2:q) {
if (i==j-1) {
Q[j-1,i]<-(1/h[j-1])
}
if (i==j) {
Q[j-1,i]<- (-(1/h[j-1])+(1/h[j]))
}
if (i==j+1) {
Q[j-1,i]<-(1/h[j])
}
if (abs(i-j)>=2) {
Q[j-1,i]<-0
}}}
R<-matrix(0,q-2,q-2)
for (i in 2:q-1){
for (j in 2:q-1) {
if (i==j) {
R[j-1,i-1]<-1/3*(h[i-1]+h[i])
}
if (i==j-1) {
R[j-1,i-1]<-1/6*h[i]
}
if (i==j+1){
R[j-1,i-1]<-1/6*h[i]
}
if (abs(i-j)>=2) {
R[j-1,i-1]<-0
}}}
N <- matrix(0,n,q)
for (i in 1:n){
for (j in 1:q){

201
Nonparametrik Regresyon Analizi

if (z[i]==t[j]){
N[i,j] <- 1
}
else{
N[i,j] <- 0
}}}
K<-((Q)%*%solve(R)%*%t(Q))
S <- N%*%solve(t(N)%*%N+lambda*K)%*%t(N)
a <- new.env()
a$S <- S; a$N <- N; a$K <- K; a$Q <- Q;
a$R <- R
return(a)
}
#ÖRNEK-----------------------------------------
------------------------
n <- 45
z <- 10*sort(runif(n))
z[5] <- z[7]
y <- z*sin(z)+rnorm(n,sd=0.5)
obj <- sspline(z,0.0001)
plot(obj$S%*%y,type="l",ylim=c(min(y),max(y)),
ylab="y & f",xlab="z")
par(new=TRUE)
plot(y,pch=19,ylab="y & f",xlab="z")

202
ÖZ GEÇMİŞ

Prof. Dr. Dursun Aydın


Anadolu Üniversitesi Fen Edebiyat Fakültesi İstatistik Bölü-
münden 1993 yılında mezun oldu. Marmara Üniversitesi İktisat
Fakültesi Ekonometri/İstatistik Anabilim Dalında “Diskriminant
Analizi ve Bir uygulama” adlı teziyle 1999 yılında yüksek lisansını
bitirdi. 2005 yılında Anadolu üniversitesi Fen Bilimleri Enstitüsü
İstatistik/Teorik İstatistik Anabilim Dalında “Semiparametrik reg-
resyon modellemede splayn düzeltme yöntemi ile tahmin ve çıkar-
samalar” adlı doktorasını tamamladı. Muğla Sıtkı Koçman Üniver-
sitesi Fen Fakültesi İstatistik Bölümünde hâlen aktif olarak bölüm
başkanlığı görevini yürütmektedir. Daha önce Nobel Akademik
Yayıncılık tarafından Uygulamalı Regresyon Analizi, Kavramlar
ve R Hesaplamaları ve Olasılık ve İstatistik II: İstatistiğe Giriş adlı
kitapları yayımlanmıştır.

Arş. Gör. Ersin Yılmaz


2013 yılında Ege Üniversitesi Fen Fakültesi İstatistik Bölü-
münde mezun oldu. Muğla Sıtkı Koçman Üniversitesi Fen Bilimle-
ri Enstitüsü, İstatistik Anabilim Dalında sansürlü veri ve yarı pa-
rametrik regresyon üzerine çalıştı ve yüksek lisansını 2018 yılında
tamamladı. 2023 yılı itibariyle hâlen aktif olarak yüksek boyutlu
veri analizi ve yarı-parametrik regresyon modelleri üzerine doktora
öğrenimine devam etmektedir. Muğla Sıtkı Koçman Üniversitesi
Fen Fakültesi İstatistik Bölümünde araştırma görevlisi olarak ça-
lışmaktadır.

203

You might also like