BASKINonparametrik Regresyon Analizi 1

NONPARAMETRİK REGRESYON ANALİZİ:
Farklı Yaklaşımlar ve R Hesaplamaları
Dursun Aydın
Ersin Yılmaz
NONPARAMETRİK REGRESYON ANALİZİ:
Farklı Yaklaşımlar ve R Hesaplamaları
Dursun Aydın, Ersin Yılmaz
Yayın No.: 1716

ISBN: 978-625-398-737-4
E-ISBN: 978-625-398-738-1
Basım Sayısı: 1. Basım, Eylül 2023
© Copyright 2023, NOBEL BİLİMSEL ESERLER SERTİFİKA NO.: 20779

Bu baskının bütün hakları Nobel Akademik Yayıncılık Eğitim Danışmanlık Tic. Ltd. Şti.ne aittir.
Yayınevinin yazılı izni olmaksızın, kitabın tümünün veya bir kısmının elektronik, mekanik
ya da fotokopi yoluyla basımı, yayımı, çoğaltımı ve dağıtımı yapılamaz.
Nobel Yayın Grubu, 1984 yılından itibaren ulusal ve 2011 yılından itibaren ise uluslararası düzeyde düzenli olarak faaliyet
yürütmekte ve yayınladığı kitaplar, ulusal ve uluslararası düzeydeki yükseköğretim kurumları kataloglarında yer almaktadır.
“NOBEL BİLİMSEL ESERLER” bir Nobel Akademik Yayıncılık markasıdır.
Genel Yayın Yönetmeni: Nevzat Argun -nargun@nobelyayin.com-

Genel Yayın Koordinatörü: Gülfem Dursun -gulfem@nobelyayin.com-
Sayfa Tasarım: Furkan Mülayim -furkan@nobelyayin.com-

Redaksiyon: Seda Polat -sedapolat@nobelyayin.com-
Kapak Tasarım: Mehmet Çakır -mehmet@nobelyayin.com-
Görsel Tasarım Uzmanı: Mehtap Asiltürk -mehtap@nobelyayin.com-
Kütüphane Bilgi Kartı

Aydın, Dursun., Yılmaz, Ersin.
Nonparametrik Regresyon Analizi: Farklı Yaklaşımlar ve R Hesaplamaları / Dursun Aydın, Ersin Yılmaz
1. Basım, VIII + 206 s., 13,5x21,5 cm. Kaynakça var, dizin yok.
ISBN: 978-625-398-737-4
E-ISBN: 978-625-398-738-1
1. Nonparametrik Regresyon 2. Yoğunluk Tahmini 3. Düzleştirme Teknikleri 4. Kernel Tahmini 5. Splayn Düzleştirme
Genel Dağıtım
ATLAS AKADEMİK BASIM YAYIN DAĞITIM TİC. LTD. ŞTİ.
Adres: Bahçekapı Mh. 2465 Sk. Oto Sanayi Sitesi No:7 Bodrum Kat, Şaşmaz/ANKARA
Telefon: +90 312 278 50 77 - Faks: 0 312 278 21 65
Sipariş: siparis@nobelyayin.com- E-Satış: www.nobelkitap.com - esatis@nobelkitap.com
www.atlaskitap.com - info@atlaskitap.com
Dağıtım ve Satış Noktaları: Alfa, Kırmızı Kedi, Arkadaş, D&R, Dost, Kika, Kitapsan, Nezih, Odak, Pandora, Prefix, Remzi
Baskı ve Cilt: Meteksan Matbaacılık ve Teknik Sanayi Tic. Anonim Şirketi / Sertifika No.: 46519
Beytepe Köy Yolu No.: 3 06800 Bilkent-Çankaya/ANKARA
ÖN SÖZ
Nonparametrik regresyonun genel tanımı, yanıt (bağımlı) de-

ğişken ile bir veya daha fazla açıklayıcı (bağımsız) değişken ara-
sındaki ilişkinin açıklanması için kullanılan yöntemler bütünü de-
nilebilir. Doğrusal regresyon yöntemlerden en önemli farkı ise
değişkenler arasındaki ilişkinin şekline dair güçlü varsayımlar
içermemesidir. Tahmin modelinin elde edilmesinde veriye daha
serbest davranarak değişkenler arası ilişkiyi modellemeye yarayan
bir nonparametrik bir fonksiyon tahmini kullanılır.
Bu kitapta, Nonparametrik Regresyon modellerinin tahmin
edilmesi için literatürde kullanılan en yaygın yöntem ve yaklaşım-
lara odaklanılmış ki bunlar Kernel düzleştirme, lokal polinom reg-
resyonu ve splaynlara dayalı düzleştirme yöntemleridir, istatistiksel
özellikleri detaylı incelenerek çıkarsamalar yapılmış ve R progra-
mında hem simülasyon hem de gerçek veri örnekleri kullanılarak
sonuçlar sunulmuştur. Ayrıca, kitabın başında nonparametrik
yaklaşımlarla yoğunluk tahmini ele alınarak regresyon model
için kullanılan tahmin süreci temellendirilmiştir. Bu kitabın amaç-
ları aşağıdaki gibi sıralanabilir:
 Doğrusal ve doğrusal olmayan parametrik regresyon mo-
dellerinin yanıt değişkeni ve açıklayıcı değişkenler arası
ilişkiyi açıklamakta yetersiz kaldığı, söz konusu ilişkinin
parametrelere dayalı açıklanamadığı durumlar için gelişti-
rilen nonparametrik tahmin (düzleştirme) yöntemlerinin
hem teorik hem de pratik yönlerini detaylı olarak açıkla-
mak,
 R programında hazırlanan kodlarla birlikte okuyucuların,
yöntemlerin uygulanışını da eş zamanlı izlemesini sağla-
mak ve araştırmacıların bu yöntemlere dair bilgi birikimini
arttırmak ve teşvik etmektir.
iii
 Nonparametrik yaklaşımlara dair temel kavramların derin-
lemesine anlaşılmasını sağlayabilmek.
 Düzleştirme yöntemlerinin teknik yönlerinin, teorik çıkar-
samalarla birlikte kavranmasına yardımcı olmak.
 Nonparametrik regresyon modellerinin pratikte tahmin
edilmesine ve yorumlanabilmesine katkı sağlamak.
 Kitap boyunca anlatılan düzleştirme yöntemleri ve bu yön-
temler için kritik öneme sahip düzeltme parametrelerinin
seçimi konusunda R programında kullanılabilecek araçları
tanıtmak ve nasıl çalıştıklarını göstermek.
 Simülasyonlar ve gerçek veri örnekleriyle nonparametrik
regresyon modellerinin veri setleri üzerinde nasıl çalıştığını
göstermek.
Prof. Dr. Dursun Aydın
Arş. Gör. Ersin Yılmaz
iv
İÇİNDEKİLER
ÖN SÖZ ................................................................................................. iii
GİRİŞ...................................................................................................... 1
Bölüm I
DÜZLEŞTİRME VE BAZI KAVRAMLAR...................................................... 5
1.1. Düzleştirme Kavramı .................................................................. 5
1.2. Verilerin Stokastik Doğası ......................................................... 11
1.3. Düzleştirme Sürecinde Karşılaşılan Zorluklar ............................. 13
1.4. Yan-Varyans Dengesi ................................................................ 15
Bölüm II
YOĞUNLUK TAHMİNİ........................................................................... 19
2.1. Giriş ......................................................................................... 19
2.2. Ampirik Kümülatif Dağılım Fonksiyonu...................................... 20
2.3. Histogram ................................................................................ 23
2.3.1. Histogram Özellikleri ....................................................... 27
2.3.2. Frekans Poligonu ............................................................. 29
2.3.3. R’de Hesaplama .............................................................. 31
2.4. Kernel Yoğunluk Tahmini .......................................................... 32
2.4.1. Kernel Yoğunluk Kestiricilerinin Özellikleri ....................... 36
2.4.2. R’de Hesaplama .............................................................. 42
Bölüm III
DÜZLEŞTİRME TEKNİKLERİ ................................................................... 45
3.1. Giriş ......................................................................................... 45
3.2. k- En Yakın Komşu Düzleştirme ................................................. 46
3.3. Kernel Düzeltme (Regresyonu) ................................................. 53
v
3.4. Lokal Polinomial Ağırlıklı Regresyon .......................................... 58
3.4.1. Lokal Sabit (Local Constant) Kestirici ................................ 64
3.4.2. Lokal Doğrusal (Local Linear) Kestirici .............................. 65
3.5. B-Splayn Düzeltme ................................................................... 73
3.6. Cezalı Splayn Regresyonu ......................................................... 80
3.6.1. Budanmış üstel tabanlı basit doğrusal splayn ................... 80
3.6.2. Budanmış üstel tabanlı p. dereceden splayn .................... 84
3.7. Splayn Düzeltme (smoothing Spline) ......................................... 87
3.7.1. Cezalı En Küçük Kareler Yaklaşımı .................................... 89
3.7.2. Splayn Düzeltmeye Dayalı Tahmin ................................... 90
3.7.3. Tahmin süreci için özel bir durum .................................... 94
Bölüm IV
ÇIKARSAMA....................................................................................... 105
4.1. Çıkarsama .............................................................................. 105
4.2. Yan-Varyans ve Serbestlik Derecesi ......................................... 106
4.3. Uyum Değerleri için Güven Aralıkları....................................... 108
4.4. Hipotez testi ........................................................................... 112
Bölüm V
PERFORMANS ÖLÇÜLERİ VE DÜZLEŞTİRME PARAMETRESİNİN SEÇİMİ .. 117
5.1. Performans Kriterleri .............................................................. 117
5.1.1. Hata Kareler Ortalaması (HKO) ...................................... 120
5.1.2. Diğer performans kriterleri ............................................ 124
5.2. Varyans Tahmini ..................................................................... 127
5.2.1. Artıklara dayalı varyans tahmin edicisi ........................... 128
5.2.2. Farklara dayalı varyans tahmin edicisi ............................ 131
5.3. Düzeltme Parametresi Seçim Kriterleri.................................... 132
5.3.1. Klasik seçim kriterleri..................................................... 133
5.3.2. Riske dayalı seçim kriterleri ........................................... 137
vi
5.3.3. Simülasyon Uygulamaları............................................... 138
5.3.4. Gerçek Veri Uygulamaları .............................................. 146
5.4. Splayn kestiricileri için düğüm seçim yöntemleri .................... 153
KAYNAKÇA ........................................................................................ 159
DİZİNLER............................................................................................ 163
EKLER ................................................................................................ 165

EK-A: R Kodları .............................................................................. 165
ÖZGEÇMİŞ ......................................................................................... 203
vii
GİRİŞ
Regresyon analizi, yanıt (bağımlı) değişken ile bir veya daha

fazla açıklayıcı (bağımsız) değişken arasındaki ilişki, matematiksel
bir model oluşturmak için kullanılan yöntemler bütünü olarak ta-
nımlanabilir. Elde edilen regresyon modeli yardımıyla hem ilgi-
lenilen örneklemin içinde, gözlenmemiş yanıt değişkenleri için
hem de örneklem dışı (gelecek) değerler için bağımsız değiş-
kenlerin ilgili değerleri kullanılarak tahminler elde edilebilir.
Basit düzeyde ele alınacak olursa yanıt değişkeni ve bağım-
,
sız değişken değerleri ile elde edilen n örneklem büyüklü-
ğüne sahip ikili gözlemlere göre regresyon modeli
aşağıdaki gibi yazılabilir;
= + , = 1, … ,
Burada . regresyon fonksiyonu ve ’ler sıfır ortalama ve
temel amacı, . fonksiyonu için bir model kurmak ve fonksiyo-

sabit varyansa sahip rassal hata terimleridir. Regresyon analizinin
nunu ′lere dayalı olarak tahmin etmektir. Burada şu belirtilmeli-

= +
şeklinde yazılabiliyorsa burada . fonksiyonu değişlenler
dir ki eğer ile arasındaki ilişki doğrusal ise yani
,
arası ilişkiyi bir doğru şekli ile ifade eder ve en küçük kareler yön-
temi ile regresyon katsayıları tahmin edilebilir.
Fakat gerçek veri örneklerinde sıkça karşılaşıldığı üzere ile
arasındaki ilişki genellikle bir doğru ile ifade edilemeyecek şe-
kilde belirsiz olabilmektedir. Şekil 1, bu duruma bir örnek olması
açısından simülasyon verisi ile elde edilmiştir. Açıkça ilişkinin bir
doğru ile temsil edilemeyeceği görülebilir.
1
Nonparametrik Regresyon Analizi
Şekil 1: Nonparametrik ilişki için simülasyon örneği
Genellikle parametrik regresyon modelleri . fonksiyonu-

nun şeklinin bilindiğini ve sonlu sayıda model bilinmeyen paramet-
re değerine (regresyon katsayıları) bağlı olduğunu varsayar. Bu
varsayımlar altında elde edilen ve teorik olarak “uygun” olduğu
düşünülen modellerin sistematik yanlılığının artacağı ve yanlış
çıkarımlara neden olacağı Şekil 1’de gösterilen veri yapısına uygun
. Fonksiyonu için önceden belirlenmiş bir şekil varsaymaz.

olarak açıkça söylenebilir. Nonparametrik regresyon modelleri ise
Bunun yerine fonksiyonunu “pürüzsüzlük” ve “süreklilik” özellik-

leri üzerinde varsayımlar yapar ki bu varsayımların model paramet-
relerine bir etkisi yoktur. Nonparametrik regresyon modelinin
amacı, verinin kendini ifade etmesine olanak tanımaktır. Dolayısıy-
la bu modeller veri yapısına çok daha esnek bir yapıdadırlar ve
doğrusal modellerin yakalamayacağı veri yapılarını yakalayabile-
cek yetenekleri vardır.
Bağımlı ve bağımsız değişkenler arasındaki ilişkile-
rin nonparametrik olarak modellenmesi için kullanılan en yaygın
düzleştirme yöntemlerinden bazıları: değerlerinin küçük aralık-
lara bölünmesi ile elde edilen cezalı splaynlar (penalized splines),
2
Giriş
toplamsal splaynlar (additive splines), kısmi splaynlar (partial spli-

nes), B-splayn (B-spline) ve splayn düzeltme (smoothing spline)
gibi splayn tabanlı yöntemler; Kernel (çekirdek) düzeltme, dalga-
cık düzelticiler (wavelet smoothers), ortogonal seri ve lokal poli-
nomial yaklaşımları gibi düzeltme yöntemleri olarak söylenebilir.
Literatür parametrik olmayan regresyon konusunda, örneğin,
splayn düzeltme (Wahba, 1990; Eubank,1999), kernel düzeltme
(Nadaraya 1964 ve Watson 1964) ve yerel polinom düzeltme (Fan
vd. 1996) gibi kaynaklara bakılabilir.
Bu kitap beş ana bölümden oluşmaktadır. Birinci bölümde
düzleştirme (smoothing) yöntemlerinin temel esasları ve kavram-
ları ele alınmıştır. Verilerin stokastik doğasına değinilmiş ve veri
yapısına bağlı olarak düzleştirme tekniklerinin uygulanmasından
karşılaşılan bazı zorluklardan bahsedilmiştir. Tahmin modeli için
teorik olarak sağlanması beklenenyan-varyans dengesi açıklan-
mıştır.
İkinci bölümde, nonparametrik regresyon modelinin tahmi-
ninden önce, düzleştirme kavramının özünün anlaşılabilmesi için
nonparametrik yoğuluk tahmini ve histogram açıklanmış, teorik
detaylarla birlikte R programında örnekler sunulmuştur. Ayırca
yoğunluk tahmininde en yaygın kullanılan yoğunluk tahmin edicisi
olan Kernel yoğunluk tahmini anlatılmış, regresyon modeline uyar-
lanmasından bahsedilmiştir.
Üçüncü bölünmde, nonparametrik regresyon modelinin tah-
mini için geliştirilen düzleştirme teknikleri detaylı olarak anlatıl-
mıştır. Bu teknikler, k-en yakın komşu regresyonu, kernel düzelt-
me yöntemi, lokal polinom regresyonu, B-splayn yöntemi, cezalı
splayn yöntemi ve splayn yöntemleridir. Burada bahsedilen altı
düzeltme yöntemi literatürde en yaygın kullanılan tekniklerdir ve
bu bölümde her bir yöntemin tahmin prosedürü detaylı olarak açık-
lanmış, teorik özellikleri sunulmuş ve R programında örnekler,
kodlarıyla birlikte sunulmuştur.
3
Dördüncü bölümde tanıtılan nonparametrik regresyon modeli

tahmin edicileri için genel bir form kullanılarak yan-varyans den-
gesi, serbestlik derecesi, uyum değerlerinin elde edilmesi ve güven
aralıklarının hesaplanması anlatılmış ve çıkarsamalar sunulmuştur.
Model anlamlılıığının test edilmesi için hipotez testleri anlatılmış-
tır. Bu bölümüm, üçüncü bölümde verilen düzeltme tenkniklerin-
den elde edilen tahmincilerin istatistiksel çıkarsamalarını içermesi
nedeniyle göreli önem taşıdığı söylenebilir.
Beşinci bölüm, parametrik olmayan regresyon modeli tahmi-
ninde, tanıtılan altı düzeltme yöntemi için de tahminin doğruluğu
açısından kritik öneme sahip düzeltme parametresinin seçimini,
seçim yöntemlerini ayrıca model tahmin performansını ölçmek için
kullanılan performans ölçütlerini içerir. Bu bölümde düzeltme pa-
rametresinin seçimi için literatürde birçok farklı kaynakta bulu-
nan seçim kriterleri bu kitapta derlenmiş ve nasıl kullanıldığı,
hesaplandığı sunulmuştur. Bu kriterlerin hespalanması için model
tahmin varyansı için varyans tahmini açıklanmıştır. Ayrıca B-
splayn ve cezalı splayn kesitricileri için düzeltme parametresinin
yanında düğüm seçim yöntemleri de incelenmiş bölüm sonunda
hem simülasyon hem de gerçek veri örnkerli R kodları ile birlikte
sunulmuştur.
4
Bölüm I
DÜZLEŞTİRME VE BAZI KAVRAMLAR
En genel alamda düzleştirme, bir veri setinde ortaya çıkan pü-

rüzlü (dalgalı veya engebeli) kenarları yok etmektir. Daha doğrusu,
düzleştirmenin amacı atfedilebilir bir nedene sahip olmayan veri
değişkenliğini ortadan kaldırmak ve böylece verinin sistematik
özelliklerini daha açık hâle getirmektir. Son zamanlarda düzleştir-
me terimi, istatistik literatüründe biraz daha özel bir anlam ka-
zanmıştır. Öyle ki fonksiyonların tahmininde kullanılan çeşitli
parametrik olmayan yöntemlerle düzleştirme eşdeğer anlama
gelmiştir. Bu açıdan bakıldığında, ilginç veri özelliklerini ortaya
çıkarmak için düzleştirme, veri analizinde yararlı bir araç ve veri
bazlı düzleştirme parametresinin seçim alanının, etkili yöntemle-
rin yazılım paketlerinde varsayılan olarak kullanıma hazır olması
noktasında olgunlaşmasıdır. Değişik kaynaklarda düzleştirme
yöntemlerinin önemli hesaplamaları ile karşılaşmak mümkündür.
Bu konu ayrıntılı bilgi şu kaynaklarda bulunabilir: Hardle (1990),
Wahba (1990), Terrel ve Scott (1992), Tarter ve Lock (1993),
Green ve Silverman (1994), Wand ve Jones (1995), Fan vd. (1996)
ve Wasserman, (2004).
1.1. Düzleştirme Kavramı

Bu bölümde bir eğri tahmini veya düzleştirme olarak adlan-
dırdığımız olasılık yoğunluk fonksiyonlarının ve regresyon fonksi-
yonlarının parametrik olmayan kestirimini ile ilgili bazı kavramları
tartışıyoruz. Önceki deneyimler gösteriyor ki F hakkında herhangi
bir varsayımda bulunulmadan bir F kümülatif dağılım fonksiyo-
5
nunu tahmin etmek mümkündür. Ancak, bir g

= | =
yoğunluk fonksi-
yonu veya regresyon fonksiyonunu tah-
min etmek istiyorsak burada durum bir öncekinden farklıdır. Bazı
düzgünlük varsayımları yapmadan bu fonksiyonu tutarlı bir şekilde
tahmin edemeyiz. Buna bağlı olarak veriler üzerinde bir çeşit düz-
leştirme (smoothing) işlemi yapmamız gerekiyor.
Yukarıda belirtilen ifadelerden anlaşıldığı gibi, bir olasılık
yoğunluk fonksiyonu veya regresyon fonksiyonu gibi bir eğriyi
tahmin etmek için verileri bir şekilde düzleştirmek gerekir. Bu
bölümde, düzleştirme kavramıyla ilgili bazı tartışmalara yer verile-
cektir. Esas itibariyle tartışılacak iki temel problem vardır. Bunlar-
dan birincisi, “yoğunluk fonksiyonu tahmin” diğeri ise “regresyon
fonksiyonu tahmin” problemidir.
Birinci problemde yani olasılık yoğunluk fonksiyonun tahmi-
ninde aşağıdaki gibi
,…, ~g (1.1)
ifade edilen "g" yoğunluklu bir G dağılımından alınan bir , … ,
örneklem değerlerine dayanarak "g" olasılık yoğunluk fonksiyonu
(probability density function -pdf) tahmin edilmek istenir. Bu bağ-
lamda, sürekli bir rassal değişken ve onun pdf’sini dikkate aldığı-
mızı varsayalım. Kısaca pdf “rassal değişkenin nasıl dağıldığını”
ifade eder. Pdf’den yalnızca ortalama ve varyans gibi istatistiksel
özellikler hesaplanmaz, aynı zamanda bu değişkenin belirli bir
aralıktaki değerleri almasının olasılığı da hesaplanabilir. Bu neden-
le pdf, rassal bir değişkenin “davranışını” tamamen karakterize
ettiği için çok kullanışlıdır.
,
İkinci durumda ifade edilen regresyon fonksiyonun tahmin
probleminde gözlem çiflerinden oluşan örneklem verile-
rine göre yanıt gözlemlerinin bir ortalaması açıklayıcı değiş-
keninin aldığı değerler ile aşağıdaki biçimde modellenir:
= | = = + , = 1,2, … , (1.2)
6
Düzleştirme ve Bazı Kavramlar
| =
yandan, . bilinmeyen regresyon fonksiyonu ve
Burada koşullu beklenen değeri belirtir. Diğer
! = 0# ve sabit bir varyansa sahip rassal gözlem hataları gös-

sıfır ortama
termektedir. Burada temel amaç, aşağıda belirtilen regresyon fonk-

siyonu tahmin etmektir:
| = =
Ayrıca, bu tahmin, . ’in pürüzsüz (smooth) bir fonksiyon
olması varsayımı altında yapılmaktadır. Parametrik olmayan reg-
= noktada . ’in tahminini üretirler. Diğer bir

resyon kestiricileri genellikle yerel ağırlıklandırma yaklaşımları ile
keyfi bir
deyişle, parametrik olmayan regresyonda yanıt değişkeni ’nin
gözlemleri üzerinden ortalma alınarak ’i tahmin edilir.
Eşitlik (1.1)’de ifade edilen bir g yoğunluk fonksiyonun kesti-
ricinin en basit örneği bir histogramdır. Bir g yoğunluğunun histog-
ram kestiricisini oluşturmak için, gerçek çizgi kutu denilen ayrık
kümelere bölünür. Histogram kestiricisi, fonksiyon yüksekliğinin
her bölmedeki gözlem sayısı ile orantılı olduğu parçalı sabit bir
fonksiyondur (bkz. Şekil 1.1). Kutu sayısı, düzleştirme parametresi
olarak dikkate alınır. Çok fazla düzleştirme (taban uzunluğu büyük
olan kutular ya da bölmeler) çok yanlı bir tahminci elde ederken
çok az düzleştirme sonucu (taban uzunluğu küçük olan kutular)
çok değişken bir tahminci elde edilir. Eğri tahmininin çoğu, bölüm
1.4’te verilen varyans ve yanlılığı en iyi şekilde dengelemeye ça-
lışmakla ilgilidir.
Örnek 1.1 (Yoğunluk Tahmini): Yukarda ifade edilen "g"
yoğunluğunu tahmin etmek için kullanılan en basit yöntemlerden
bir histogramdır. Bu çalışmanın asıl konusunu ouşturmadığı için
fazla ayrıntıya girmeden yoğunluk, özet olarak bir örnek üzerinde
tanımlanacaktır. Bu bağlamda Şekil 1.1, rüzgâr verilerinden elde
edilen üç farklı histogramı ve bir eğri grafiğini göstermektedir.
Şekilde görüldüğü gibi, gerçek doğru aralıklara bölünerek her bir
7
aralık ya da kutudaki gözlem sayıları dikkate alınmıştır. Histog-

ramdaki çubukların (bar) yükseklikleri her bir kutudaki sayıyla
orantılıdır. Bu grafikte görülen üç histogram farklı kutu sayılarını
esas almaktadır. Sol üst histogram çok sayıda kutuya (dikdörtgene)
sahiptir. Buna karşın, sağ üstteki histogram bir öncekine göre daha
az sayıda kutuya ve sol alt histogram da öncekilerine göre daha az
sayıda kutuya sahiptir. Dikdörtgen kutuların genişliği (h), bir “düz-
leştirme (ya da düzeltme) parametresini” olarak adlandırılır. Bura-
dan anlaşıldığı gibi, büyük h değeri (taban uzunluğu geniş olan az
sayıda kutu), büyük yan fakat küçük varyans içeren bir kestiriciye
(optimumun üzerinde yani aşırı düzleştirme-oversmoothing) yol
açmaktadır. Küçük h değeri (taban uzunluğu küçük olan çok sayıda
kutu), küçük yan fakat büyük varyans içeren bir kestiriciye (opti-
mumun altında yani az düzleştirme-undersmooothing) yol açmak-
tadır. Sağ alt grafik, kestiricinin yanlışlığının bir ölçüsü olan his-
togram kestiricisinin ortalama kareli hatasının (mean squared er-
ror-MSE) bir tahminini gösteriyor. Tahmin edilen MSE, kutuların
sayısının bir fonksiyonu olarak görülmektedir.
Özet olarak, bir "g" yoğunluğunun histogram kestiricisini
oluşturmak için gerçek doğruyu, kutu olarak adlandırılan ayrık
kümelere böleriz. Böylece, histogram kestiricisi parçalı bir sabit
fonksiyondur. Burada fonksiyon yüksekliği her kutudaki gözlem-
lerin sayı ile orantılıdır (bkz. Şekil 1.1). Kutu sayısı düzgünleş-
tirme sayının ifade eden bir örnektir. Çok fazla düzgünleştirirsek
(büyük bölmeler) çok yanlı bir kestirici elde ederken çok az düz-
leştirirsek (küçük bölmeler) çok fazla değişken bir kestirici elde
ederiz.
8
Şekil 1.1: Rüzgâr verilerine dayalı elde edilen histogramlar.
Sol üst histogramda çok fazla sayıda kutu varken sol alt his-
togramda çok daha az sayıda kutu vardır. Sağ üst histogram ise
çapraz geçerlilik yöntemi ile seçilen optimum sayıda kutu kulla-
nılmıştır. Sağ alt grafik, kutuların sayısına karşılık tahmin edilen
ortalama kareli hatayı (yanlışlık) gösterir. Bu grafiklerde görülen
eğriler, rüzgâr verisi için tahmin edilen MSE ve kernel yoğunluk
kestiricilerini göstermektedir. Sol üst grafik, optimumun üzerinde
düzleştirmeyi; sağ üst grafik, optimum düzleştirmeyi (çaprak
geçerlilik ile seçilen düzleştirme parametresi); sol alt grafik, op-
timum altında düzleştirilmiş ve sağ alt grafik, düzleştirme para-
metresinin bir fonksiyonu olarak tahmin edilen MSE değerlerini
göstermektedir.
Örnek 1.2 (Parametrik olmayan regresyon): Bir önceki pa-
ragrafta da belirtildiği gibi, ikinci problem regresyon fonksiyo-
nunun tahminidir. Bu durumu açıklayabilmek için simüle motosik-
9
let kazası verileri (simulated motorcycle accident data) dikkate

alınmıştır (bkz. Şekil 1.2). Schmidt vd. (1981) tarafından yapılan
, , = 1, … ,
çalışmadan elde edilen motosiklet verileri 133 gözlem içermekte-
dir. Bu noktada analiz, n çift veriye dayalı
olarak ölçülen zaman ve ’lerde "g" cinsinden çarpma anındaki

olarak yapılmaktadır. Burada belirtmek gerekirse, ’ler milisaniye
hızlardaki değişimi (ivmeleri) göstermektedir. Parametrik olmayan

regresyonda, amaç hakkında sadece minimal varsayımlar yapa-
rak bu fonksiyonunu tahmin etmektir.
Şekil 1.2’de görüldüğü gibi, hız ve zaman arasındaki ilişkiyi
doğrusal regresyon denklemi açıklayamaz. Çünkü verilerin yayıl-
ma diyagramları arasında bu verileri temsil eden bir doğru geçir-
mek mümkün değildir. Bu durumda, böyle bir ilişkiyi açıklamak
için parametrik olmayan regresyon yöntemlerine başvurmak daha
doğru olur. Bu bağlamda, bu ilişkiyi açıklamak için Şekil 1.2’ye
yer verilmiştir. Şekil 1.2’de ilk grafik, Bölüm 5’te ifade edilen
çapraz geçerlik (Cross validation-CV) hatalarına karşın düzgünleş-
tirme parametrelerinin aldığı değerleri gösteriyor. Aşağıdaki gra-
fiklerde gösterildiği gibi, düzgünleştirme parametresinin değerin-
deki büyük değişmeler elde edilen tahminlerin düzgünlüğü (smo-
othness-pürüzsüzlüğü) üzerinde büyük etkilere sahiptir. Bunu gö-
$ hızdaki değişim = 0 zaman tahminleri elde edilmiştir. Bu

rebilmek amacıyla üç faklı düzleştirme parametresi (h) için,
anlamda, sağ üst grafik, zamana karşın hız verileri ve CV ile seçi-
len optimum bir h için fonksiyonun kernel regresyon tahminini
gösterirken sol alt grafik, optimum altında bir düzgünleştirmeyi ya
da uyumu ve sağ alt grafik ise optimum üstünde bir düzleştirmeyi
göstermektedir.
10
Şekil 1.2: Motosiklet kaza veri seti için farklı bant genişliği değerlerine
göre tahmin eğrileri
Şekil 1.2. Bu şekil üzerinde üst sol grafik düzleştirme para-

metresinin faklı değerlerine karşın CV’nin grafiğini gösterir. Üst
sağ ve alt grafikler ise kazalarda kasklarının etkinliği üzerine yapı-
lan simülasyonda bir motosiklet kazası deneyinden elde edilen
açıklayıcı (x = zaman) değişkene karşın yanıt (y = hızdaki değişim
ya da ivme) değişkenin dağılıma diyagramları göstermektedir.
Motosikletler üzerinde simülasyonda geçen süre (milisaniye cin-
sinden) ya da zaman, x değişkeni olarak dikkate alınmıştır. Yanıt
değişkeni y bir test objesinin g cinsinden ivmesidir.
1.2. Verilerin Stokastik Doğası

Bu bölümde , , = 1,2, … , verilerinin nasıl oluştu-
tır. İlk senaryo bağımsız, aynı dağılımlı rassal , değişkenleriy-

rulduğu veya olduğu konusunda bazı senaryolar dikkate alınacak-
le (independent, idenatically distributed random variables-iid)

ilgili olacaktır. Regresyon eğrisi,
11
= | = (1.3)
olarak tanımlanır. Eğer | | < ∞ ise, regresyon eğrisi çok iyi ta-
nımlanır. Değişkenlerden ziyade g , bileşik yoğunluk fonsiyo-
nu mevcut ise regresyon eğrisi aşağıdaki gibi ifade edilir:
= 4 g | 5 =4 = | =
67 8,6 96
7 8
(1.4)
Burada g = 4 g , 5 ifadesi ’in marjinal yoğunluk

fonksiyonunu gösterir ve g | fonksiyonu = verildiğinde
’nin koşullu olasılık yoğunluk fonksiyonunu gösterir. Eşitlik (1.4)
denklemine ilişkin teknik tartışmalar için şu kaynaklara bakılabilir
(Hardle and Linton, 1994). Bu versiyona “rastgele tasarım modeli”
(random design model) olarak atıfta bulunmak yaygın bir terimdir.
+ , 0 ≤ ≤ 1 ve 0 ≤ ≤ 1
Örnek 1.3: Aşağıda verilen bileşik yoğunluk fonksiyonu
g , =:
0, =>? 5@A@B5=
ve X ’in marjinal yoğunluk fonksiyonu,
4 g , 5 = + , 0≤ ≤1
g =C D
0, =>? 5@A@B5=
olarak verildiğini varsayalım. Böylece, yukardaki verilenlere göre
1 1
regresyon eğrisi,
g , 5 + 2 +
=E =E 5 = 3= | =
g 1 1
+ +
2 2
| =
Belirtmek gerekirse ’den ’e bu görüntüleme, koşullu
beklenen fonksiyon adını alır ve çoğunlukla olarak
gösterilir. Bu ifade bize ve ’nin ortalama olarak nasıl ilişkilen-
dirildiğini ifade eder. Buyüzden, temel düşünce fonksiyonunu
(yani, regresyon eğrisini) tahmin etmektir.
Yukarıda belirtildiği gibi, , değişkenlerinin bağımsız,
aynı dağılımlı rassal değişkenler olduğu belirtilmiştir. Ancak, araş-
12
tırmacının açıklayıcı değişkeninin değerlerini kontrol edebildiği

uygulamalar vardır ve bu durumda , tek rastgele değişkendir.
Örneğin, bir kişinin yıllık geliri ( ) ile yıllık harcama miktarı ( )
arasındaki ilişkiyi araştırmak için yapılan bir araştırmayı hayal
edin. Bu durumda , artık bir rastgele değişken olmayacak. Di-
ğer bir ifadeyle , stokastik olmayan bir değişkendir. Buna karşı-
lık ise bir rassal değişkendir. Bu senaryo genellikle “sabit tasa-
rım modeli” (fixed design model) olarak adlandırılır. Dolayısıyla,
stokastik olmayan bir değişkeni ve bir rassal değişkeni ara-
sındai ilişki, Model (1.2)’de belirtildiği gibi aşağıdaki modelle
açıklanabilir:
= = = + , 1≤ ≤ (1.5)
değerleri bir !=, G# aralığında eşit olarak dağıtılır. Bunun yanı sıra,
Birçok doğa bilimleri deneylerinde, açıklayıcı değişkenin
bilgi kaybı olmaması için !=, G# = !0,1# ve = − 0.5 / ya da

simülasyon çalışmalarımda veri yaratılması durumunda, genellikle
= / , = 1,2, … , dizilerinin dikkate alındığı varsayılır. Eşit

aralıklı bu diziler, sabit tasarım modelinin özel bir durumudur.
Sabit tasarım ve rastgele tasarım modellerinde stokastik me-
kanizma farklı olmasına rağmen, düzleştirmenin temel düşüncesi
hem sabit hem de rastgele tasarım modellerinde aynıdır. Her iki
durumda da araştırmacı eldeki gözlemlere göre ortalama almayı ve
her iki durumda da bir düzleştirme parametresi seçerek analiz
yapmayı arzu eder. Bu kitapta elde edilen sonuçların çoğu özellikle
sabit tasarım modeli için sunulmuştur. Ancak, bu fikirler rastgele
tasarım modeline uyarlanabilir.
1.3. Düzleştirme Sürecinde Karşılaşılan Zorluklar

Her istatistiksel yöntemlerde olduğu gibi, düzleştirme işle-
minde de özel düşünce ve koordinasyon gerektiren bazı engeller
vardır. Düzleştirme prosedüründe, doğru bir analiz için bu engelle-
rin kaldırılması gerekir. Parametrik bir yaklaşımla karşılaştırıldı-
13
ğında, asimptotik bir anlamda, değişkenlikte bir artış olduğu bili-

nen bir gerçektir. Sade nicel bir bakış açısından bakıldığında, ista-
tistiksel doğruluktaki kaybın “sadece asimptotik anlamda” olduğu
ve bu nedenle eldeki veriler için büyük zorlukların beklenmeyeceği
şeklinde bir düşünce ortaya çıkar. Aslında, orta örneklem büyüklü-
ğü için düzleştirme sürecinde güven aralıkları parametrik bir mo-
delden çok daha büyük olmayacaktır. Bununla birlikte, eldeki veri-
lere nitel anlamda, düzleştirme işleminin ne yaptığını da doğal
olarak sormak gerekir. Diğer bir deyişle, nitel engeller (örneğin,
şekil bozulmaları) nelerdir? Ayrıca, ne zaman sınırlı bir veri setine
düzleştirme yapılması beklenir? Bu gibi soruları cevaplamanın en
basit yolu, verilerde hiçbir gürültünün olmadığını varsaymak ve
buna göre bir pürüzsüzleştirme stratejisi izlemektir. Başka bir de-
yişle, verilerin dağılma diyagramlarında izlendiği gibi bunları en
iyi temsil eden bir düzleştirme yöntemi bulmaya çalışmaktır.
Bu stratejilerden biri, bilinmeyen regresyon fonksiyonu ’in
veri kümesi içerisinde yer alan gözlemler konusunda maksimum ya
da tepe noktalardaki davranışı ile ilgilidir. Açıkçası, zirve (tepe)
noktasındaki ’in tahmini, bu maksimum noktayı bir dereceye
kadar düzleştirecektir. Bu davranış, 'nin yerel eğriliğine bağlı olan
sınırlı bir örnek yanlılığı beklememiz gerektiğinin bir göstergesidir.
Bu durum için asimptotik alamda bir çare, o nokta etrafında yer
alan gözlemlerin küçültülmesine (shrink) ya da ayarlanmasına
olanak sağlayan yöntemleri dikkate almak gerekir. Ancak uygula-
mada yukarda ifade edilen verileri ayarlama işlemi sınırlı bir veri
seti altında yapılır. Bu ayarlama Bölüm 5’te, bölümde yer verilen
yöntemlerden herhangi biri ile seçilen düzleştirme parametresi
yardımı ile yapılır. Bu düzleştirme parametresi aynı zamanda tah-
minler ve gerçek değerler arasındaki farka dayanan hata kriterini
optimize eder. Düzleştirme işlemlerinde karşılaşılan en önemli
zorlukların başında böyle bir düzleştirme parametresinin seçimi
gelir. Bu konu ayrıntılı olarak Bölüm 5’te ele alınmıştır.
Herhangi bir düzleştirme yönteminin tahmin değerleri, göz-
lem aralığının sınırına yakın yerlerde iç kısımlara kalan gözlemle-
14
rin tahminlerine göre daha az doğru olacaktır. Sınırdaki birkaç

gözlemin ortalaması alınabilir ve bu nedenle kestiricilerin varyans
veya yanı etkilenebilir. Örneğin, kernel ağırlıklarını dikkate alalım.
Gözlem değerlerinin sınır noktalarına yaklaştıkça kernel ağırlıkları
asimetrik olurlar. Bu "sınır etkisi" gözlem aralığının iç kısmında
mevcut değildir, ancak küçük ila orta büyüklükteki bir örneklem
için, gözlem aralığının önemli bir kısmı sınır davranışından etkile-
nebilir.
Bir başka durum ise sıfıra çok yakın değer alan veri (sparse
data) bölgelerinin olduğu durumdur. Örneğin, düzleştirme yöntemi
olarak kernel regresyonu dikkate aldığımızı varsayalım. Kernel
ağırlıkları bu duruma uyum sağlamazsa ortalamalar için gözlem
bulunmadığından ağırlıklar tanımsız olabilir. Bu tanımsızlığı orta-
dan kaldırmanın güvenli bir yolu ağırlıkları değişken aralıklarla
tasarlamaktır. Bu ve benzeri tür sorunlar Bölüm 3'te tartışılmakta-
dır. Bir başka karşılaşılan zorluk durumu düzleştirme yönteminin
olarak burada dikkate alınan yöntemler için harcanan süre, K D

hesaplanma ya da elde edilmesi için harcanan zamandır. Genel
işlemleriyle sonuçlanmaktadır. Bu tür bir algoritma bazı etkileşimli

cihazlara uygulanırsa hesaplamalar işlemin gerçekten etkileşimli
olmadığı kadar uzun sürebilir. Bu nedenle, düzleştirme yöntemle-
rinin sayısal verimliliğine çok dikkat etmek gereklidir. Farklı yön-
temler için hesaplama yönleri, Bölüm 3'te tartışılmaktadır.
1.4. Yan-Varyans Dengesi
bilinmeyen bir fonksiyonu göstersin. Ayrıca, 0 ’de ’in bir kestiri-

Varsayalım g bir yoğunluk ve bir regresyon fonksiyonu gibi
cisini göstersin. Burada belirtmek gerekirse 0 kestiricisi, bir
kestirici veriye bağlı olduğu için rasgeledir. Bu anlamda 0 , bir

noktasında değerlendirilen bir rassal değişkendir. Aynı zamanda bu
fonksiyonunun tahminidir. Burada belirtilen fonksiyon ve
15
tahmini arasındaki farka dayanan “kareli hata ve LM -kayıp fonksi-

yonu”,
ND O , 0 P=O − 0 P
D
(1.6)
şeklinde ifade edilir. Kayıp fonksiyonun ortalaması “risk (loss)”
veya hata kareler ortalaması (mean squared error-MSE) olarak
adlandırılır ve aşağıdaki gibi gösterilir:
QR = SO , 0 P= TOND O , 0 P PU (1.7)
gözlenen verilere bağlı olan 0 fonksiyonudur. Bu anlamda risk ve

Eşitlik (1.12) denklemindeki rastgele değişken dolaylı olarak
MSE terimlerini birbirlerinin yerine kullanacağız.

Lemma 1.1: Risk aşağıdaki gibi yazılabilir:
SO , 0 P = 4 V =? D 5 + 4 W=A 5 (1.8)
Bu denklemde
V =? = T0 U− , (1.9)
sabit bir noktasındaki 0 ’in yanını gösterirken,

D
W=A = W=A T 0 U=X0 − T0 U Y, (1.10)
sabit bir noktasındaki 0 ’in varyansını gösterir.

Regresyon ya da düzleştirme problemlerinde esas zorluk, ne
kadar düzleştirme yapılacağını belirlemektir. Veriler çok fazla
düzleştirildiğinde, yan terimi büyük ve varyans küçüktür. Veriler
az düzleştirildiğinde, bunun tersi geçerlidir (bkz. Şekil 1.3). Buna
yan-varyansı dengesi denir. Bu bağlamda riski en aza indirme, yan
ve varyansı dengelemeye karşı gelir. Aşağıdaki Şekil 1.3’te görül-
düğü gibi, eğri tahminlerinin çoğu en uygun şekilde (optimal ola-
rak) yan ve varyansı dengelemeye çalışmayla ilgilidir.
16
ZT 0 Z0 T0 U [+\ T 0
D D D
− U [= − U− ]
= W=A T 0 U + V =? D T 0 U
Şekil 1.3: Tahmin ediciler için Yan-Varyans dengesi
Şekil 1.3'teki grafik yan-varyans dengesini göstermektedir.

Düzleştirme miktarı artarken yan artar ve varyans azalır. Dikey
çizgi ile gösterilen optimal düzleştirme miktarı riski miktarını mi-
nimum yapan değerdir.
Lemma 1.1’den risk,
S ?> = QR = = D
= V =? D + W=A = ? = W=A (1.11)
şeklinde yazılabilir. Ayrıca, Lemma 1.1 ve Eşitlik (1.11)’de ifade
edilen tanımlar, bir noktasındaki riski ifade eder. Şimdi, x'in fark-
lı değerleri üzerindeki riski özetlemek istiyoruz. Genelde yoğunluk
tahmini problemlerinde risk,
S g, ^g = 4 S g , ^g 5 (1.12)
17
şeklinde ifade edilen “integarli alınan riski (integrated risk)” veya

“integrali alınan hata kareler ortalaması (integrated mean squa-
red error)” ile hesaplanır. Regresyon problemleri için risk,
SO , 0 P = ∑ S` ,0 a= ∑ ` − 0 a = QR
D
(1.13)
biçimde hesaplanan “integrali alınan MSE (integrated MSE)”

veya “ortalaması alınan hata kareler ortalaması (averaged mean
squared error)” ile hesaplanır.
18
Bölüm II
YOĞUNLUK TAHMİNİ
2.1. Giriş
istatistik ve olasılıkta temel bir kavramadır. x'in g

Olasılık yoğunluk fonksiyonu, tek değişkenli veri analizi için
olasılık yo-
lım. Sözü edilen bu g

ğunluk fonksiyonuna sahip rastgele bir değişken olduğunu varsaya-
yoğunluk fonksiyonu, x değişkenin dağı-
lımının doğal bir tanımını verir ve aşağıda verilen denklem yardı-
mıyla ile ilişkili olasılıkların hesaplanmasını sağlar:
b =≤ ≤ G = 4e g 5 =c G −c =
d
(2.1)
Burada c = 4fg g @ 5@ kümülatif dağılım fonkisyonunu

8
gösterir. Belirtmek gerekirse c =b ≤ ve 0 ≤ c ≤ 1.

Burada esas amaç, , … ,
dayanarak g yoğunluk fonksiyonu veya c
örnekleminden alınan veri noktalarına
birikimli dağılım
fonksiyonunu tahmin etmektir.
Yoğunluk tahmin etmek için parametrik ve parametrik olma-
ailesinden, örneğin µ ortalama ve h D varyanslı normal dağılımdan

yan yaklaşımlar vardır. Verilerin bilinen bir parametrik dağılım
alındığını varsayalım. Bu durumda, verilerden µ ve h D tahminleri
larak "g" yoğunluk fonksiyonu, tahmin edilebilir. Bu kitapta, bu tür

bulunur ve bu tahminler normal yoğunluk formülünde yerine yazı-
parametrik tahminler dikkate alınmamıştır. Burada sadece paramet-

rik olmayan yaklaşımlar dikkate alınmıştır. Bu tür yaklaşımlar
dayanır. Parametrik olmayan yaklaşımda, dağılımın "g" olasılık

gözlemlenen verilerin dağılımı hakkında daha az katı varsayımlara
yoğunluğuna sahip olduğu kabul edilmekle birlikte, g'nin belirli bir
19
parametrik aileye düşmesi zorunluluğu olsa bile, g’nin tahmininin

belirlenmesinde verilerin kendilerinin daha belirleyici olmasına
olanak sağlanır.
Yoğunluk tahmini, parametrik olmayan regresyon ile yakın-
dan ilgili bir tekniktir. Bu tahmin bir veri kümesinin genel seyrini
ya da izlediği kalıbı incelemek için kullanılır. Yoğunluk tahmini,
yoğunluğun simetrisinin yanı sıra tepe (peaks) ya da maksimum ve
vadiler (walleys) ya da minimumların sayısını ve yerlerini de içerir.
Bu konunun ve uygulamalarının kapsamlı bir açıklaması Terrel ve
Scott (1992), Simonoff (1996) ve Efromovich (1999) da detaylı
olarak verilmiştir. Bu anlamda, tekniğin önemli yönleri izleyen
kısımlarda tartışılmıştır.
2.2. Ampirik Kümülatif Dağılım Fonksiyonu

Ampirik kümülatif dağılım fonksiyonu (empirical cumulative
distribution function-ECDF) kısaca, kümülatif dağılım fonksiyo-
nunun tahminidir. Bu durumu açıklayabilmek için varsayalım tek
ğerleri j = ,…, k
olsun. Ayrıca j bağımsız ve aynı dağılan
değişkenli bir rassal değişkenin gerçekleşmeleri olan gözlem de-
rassal değişken ve bu rassal değişkenin c =b ≤

sahip olduğu varsayılır [j~c ]. Bu bilgilere göre, c l
dağılıma
ile gös-
terilen bir ampirik kümülatif dağılım fonksiyonu (ECDF) aşağıdaki
gibi tanımlanır:
cl = bl ≤ = ∑ I ≤ (2.2)
burada I ≤ = 1 eğer ≤ , aksi durumda 0 değerini alan

bir gösterge fonksiyonudur.
değerine 1/ olasılığı
Eşitlik (2.2)’den anlaşıldığı gibi, ’in örnekle uzayındaki her-
hangi bir A kümesi için ECDF her bir
atar:
bl o = ∑ I ∈o (2.3)
20
Yoğunluk Tahmini
Örnek 2.1: Bir zarın 100 kez atılması deneyinde elde edilen
lımı şeklinde düzenlenmiştir. Bu bağlamda cl , ampirik dağılımı son

sonuçlar (x) aşağıdaki Tablo 2.1’de verildiği gibi bir frekans dağı-
sütündaki gibi elde edilir.
Table 2.1: Frekans dağılımı
cl
Sonuç Frekans Ampirik Dağılım
( ) ( )
1 13 0.13
2 19 0.19
3 10 0.10
4 17 0.17
5 14 0.14
6 27 0.27
Toplam N =100
Tablo 2.1 Bir zarın 100 kez atılmasın deneyinden alınan bir
örneklemi gösteriyor: Eşitlik (2.3)’e göre, ampirik dağılım 100
değerin meydana gelme oranı ile j = ,…,

sonucun her birine 1/100 olasılığı atıyor. Ampirik dağılım, her
örneklerinden
elde edilen değerlerin bir listesidir. Genellikle, örnekte meydana
ler, Tablo 2.1'deki gibi bir kısaltma sağlar. Örneğin = 1 gelme

gelen her değer, yalnızca bir kez görünür. Ancak tekrar eden değer-
sonucu dikkate alındığında,
cl = 1 = bl ≤1 =∑ 1 = = 0.13. Diğerle-
q q
ri de benzer olarak hesaplanır.
sini şu şekide tanımladığımızı varsayalım: o = , r : 0 < < 2,

Tablo 2.1’deki 100 gözlemi dikkate aldığımızı ve bir A küme-
2 < r < 4 . A kümesi incelendiğinde 100 gözlemin 30’u burada

yer almaktadır. Çünkü 30 gözlemlerden biri = 1 olup bu gözlem
13 kez ve diğeri r = 3 olup bu ise 17 kez tekrar etmiştir. Dolayı-
sıyla, bl o = = 0.30. Belirtmek gerekirse, ampirik dağılım bu
q
21
30 gözlemin her birine yine 1/100 olasılığı atmasına rağmen, A

kümesi için farklı ampirik olasılıklar elde ediliyor.
Örnek 2.2:
= 57, 61, 57, 57, 58, 57, 61, 54, 68, 51, 49, 64, 50, 48, 65,
52, 56, 46, 54, 49, 51, 47, 55, 55, 54, 42, 51, 56, 55, 51, 54, 51, 60,
61, 43, 55, 56, 61, 52, 69, 64, 46, 54, 47 .
Bu değişkenin histogramı ve iki farklı şekilde görülen ampirik
kümülatif dağılım fonksiyonlarının grafikleri aşağıdaki şekilde
verilmiştir.
Şekil 2.1: X değişkenin histogramı ve ECDF grafikleri
Bu grafikler R’de aşağıdaki komutlar yardımıyla elde edilmiştir:

par(mfrow=c(1,3))
hist(x,ylab=c("Frekans"), main=("x’in Histogramı"))
Fhat = ecdf(x)
plot(Fhat, ylab=c("Kümülatif Oran"),
main=("Ampirik Kümülatif Dağılım Fonksiyonu"))
lines(xseq,punif(xseq))
plot(sort(x),1:length(x)/length(x),type="s",ylim=c(0,1),
xlab="x",ylab=c("Kümülatif Oran"),
main=("Ampirik Kümülatif Dağılım Fonksiyonu"))
22
Yoğunluk Tahmini
Açıkçası ECDF, bir adım (step) fonksiyonu olmasıyla birlikte

temel bir dağılım fonksiyonu için makul bir tahminci gibi görünü-
yor. Bu tahmin edicinin özelliklerini daha iyi anlayabilmek için
aşağıda verilen ifadeler yol gösterici olacaktır.
Önerme (preposition) 2.1: Sabit bir ∈ ℝ noktası için
cl ifadesi ve başarı olasılığı c olan iki parametreli bir
ECDF’in yani, cl ’in beklenen değeri ve varyansı

binom dağılımına sahiptir. Bu yüzden, herhangi bir değeri için
Tcl U= c ve W=A Tcl U=

v 8 fv 8
→ ∞ iken cl
sılıkta c ’e yakınsar.
olarak yazılabilir. Bu durum gösteriyor ki, ola-
uniform (düzgün) olarak c ’e yakınsar. Yani, → ∞ iken,

Teorem 2.1 (Glivenko-Cantelli teoremi): Ampirik dağılım
?@x8∈ℝ ycl
e.z
−c y {| 0.
Burada üst simge =. ?, neredeyse mutlak yakınsamayı gösterir.
Bu bölümde esas amaç, , … , örneklem verilerinden c
veya g
mevcut olduğu varsayılan c k = g yoğunluğu, tahmin edilmek is-
fonksiyonlarını tahmin etmektir. Özellikle türevinin
tenmektedir. Dağılım için parametrik bir model varsaymak yerine

(örneğin, bilinmeyen ortalama ve varyanslı normal dağılım), sade-
ce yoğunluğu mevcut ve uygun şekilde pürüzsüz (örneğin türevi
te alınır. Bu durumda, bilinmeyen g . yoğunluk fonksiyonunu

alınabilen) olduğu varsayılan parametrik olmayan bir model dikka-
tahmin etmek mümkündür.
2.3. Histogram
,…, değerleri !=, G# aralığında bağımsız ve aynı dağılan göz-

Histogram en popüler ve basit olan bir yoğunluk kestiricisidir.
lemler olduğunu varsayalım. Histogramın amacı [a, b] kümesini

birkaç kutuya bölmek ve kutu sayısını bir yoğunluk tahmini olarak
23
kullanmaktır. Basitlik olması açısından [0,1] aralığını dikkate aldı-

ğımızı varsayalım. Eğer m sayıda kutu varsa, verisi için şu şekil-
de bir bölünme (ya da sınıf aralıkları) elde edilir:
V = T0, ] , VD = T , ] , … , V} = T , 1]
D }f
} } } }
(2.4)
Bu durumda verilen bir ∈ V~ , • = 1,2, … , B noktası için his-

togramdan elde edilen yoğunluk kestiricisi,
g$ =T U×T U(2.5)
ˆ‰ ç 9…‹ „ö•†…}†…Ž ze6•z•
€ •‚ƒ‚ ‚ „… ş† ğ
Kutu genişliği, ℎ = , V~ ’deki gözlemlerin sayısı ‘~ ve

}
x̂ ~ = ‘~ / olarak tanımlanacak olursa (2.5) eşitliğinde verilen
x̂ /ℎ ∈V
histogram kestiricisi,
x̂ D /ℎ ∈ VD
g$ =“
⋮ ⋮
x̂ } /ℎ ∈ V}
(2.6)
olarak ifade edilir. Böylece, (2.6)’da verilen histogram kestiricisi

daha kompakt bir şekilde aşağıdaki gibi yazılabilir:
g$ = ∑~ – ∈ V~ = ∑~ –O ∈ V~ P = ∑~ –O ∈ V~ P (2.7)
•$‰ }
€ €
Bu tahmin edicinin beklenen değeri ve varyansı aşağıdaki teo-

remde verilmiştir.
Eşitlikler (2.4) ve (2.5)’ten anlaşıldığı gibi, gerçek doğru (veri
aralığı) eşit büyüklükteki aralıklara (bölmeler (bins) olarak adlan-
dırılan) bölünerek histogram oluşturulur. Histogram, orijinde baş-
layan ve yükseklikleri her bir bölmede bulunan örnek noktalarının
sayısıyla orantılı olan bir adım fonksiyonudur. Kutu genişliği ve
orijin verinin özelliklerini gösterecek şekilde seçilmesi gerekir.
Teorem 2.2 (Wasserman, 2004): Sabit bir ve B
dikkate alınsın ve V~ açıklayıcı değişkeninin içeren kutu olsun. O
zaman, g yoğunluğunun beklenen değer ve varyansı,
24
Yoğunluk Tahmini
!g$ #= = ve W=A!g$ #=
— •$‰ •‰ •‰ f•‰
€ € €˜
(2.8)
olarak tanımlanır.
x̂ ~ = ‘~ / ve x̂ ~ = g @ 5@ olsun. Burada ‘~ , !=, G# ‘™ @ ∈ V~ .

4e
d
Histogram kestiricisinin motivasyonunun anlamak için
Ayrıca ℎ yeteri kadar küçük bir sayı olsun. Bu durumda,
x̂ ~ x~ 4 g @ 5@ g
d
ℎ
!g$ #= = = e ≅ =g
ℎ ℎ ℎ g
Örnek 2.3 (Gayzer veri seti): Bu veriler ABD’nin Wyoming
şehrinde Yellowstone Ulusal Parkı'ndaki eski sadık Gayzerin pat-
lamaları ve patlamaları arasındaki sürelerinden (dakika olarak) elde
edilmiştir. Bu verisi seti iki değişken üzerinden toplanan 272 göz-
lemden oluşmaktadır (Hardle,1991). Bu değişkenlerden püskürtme
sürelerine ilişkin histogramı ve bundan elde edilen yoğunluk değer-
leri aşağıdaki Şekil 2.2’de gösterilmiştir.
Aralıklar Frekans c g$
[1.5, 2) 55 0.202 0.4044
[2, 2.5) 37 0.338 0.2721
[2.5, 3) 5 0.357 0.0 68
[3, 3.5) 9 0.390 0.0662
[3.5, 4) 34 0.515 0.2500
[4, 4.5) 75 0.790 0.55 5
[4.5, 5) 54 0.989 0.3971
[5, 5.5) 3 1.000 0.0221
Şekil 2.2: Eski bir gayzerin patlaması sonucunda oluşan püskürtme

sürelerinin histogramları ve bu verilerin frekans, kümülatif frekans
(CDF) ve yoğunluk dağılımları.
genlerin yani sınıfların aralıkları ve yoğunlukları (g$ ), sırasıyla

Yukardaki Şekil 2.2’de görülen histogramı oluşturan dikdört-
(2.4) ve (2.6) eşitlikleri kullanılarak oluşturulmuştur. Bu histog-

ramda görülen dikdörtgen kutuların genişliği yani h=0.5 alınmış ve
25
V = 1.5, 2#, VD = 2, 2.5#, … , V› = 5, 5.5# olmak üzere 8 kutu

buna göre 8 sınıf ya da kutu oluşturulmuştur. Gayzer verisi için
ve bu kutuların her birine düşen gözlem sayıları sırasıyla 55, 37, …

,3 olarak bulunmuştur. Şekil 2.2’ye göre püskürtme sürelerin en
yoğun olduğu aralık (4-4.5] olduğu görülmektedir. Verinin yakla-
şık %40’ı bu aralıkta gerçekleşmektedir. Ancak, sınıf genişliği
değiştikçe farklı sonuçlar elde edilebilir. Bu nedenle, histogram ve
yoğunluk tahmininde sınıf genişliği önemli bir etkiye sahiptir.
Bu durumu gösterebilmek için Şekil 2.3’te farklı histogramlar
verilmeye çalışılmıştır. İlk olarak x’in histogramda, kutuların ge-
nişlikleri eşit ve her sınıfa düşen gözlem sayıları sınıf kutlarının
üzerlerinde gösterilmiştir. Sınıfları ayıran nokta sayısı (kutu sayısı)
4 alındığında, yine eşit aralıklı farklı bir histogram elde edilmiştir.
Daha önceden belirtildiği gibi, burada az sayıda kutu, aşırı düzleş-
tirmeye yol açmaktadır. Örneğin, bant genişliği 0.10 alındığında
fazla sayıda kutu elde edilmekte ve bu durumda az düzleştirmeye
yol açmaktadır. Son olarak faklı sınıf aralıklarına sahip olan bir
histograma da Şekil 2.3’ün sağ alt köşesinde yer verilmiştir.
Şekil 2.3: Eski bir Gayzerin patlaması sonucu püskürtme sürelerine

ilişkin ferkans ve yoğunluk grafikleri
26
Yoğunluk Tahmini
Verilerin sunumu ve araştırılması için özellikle tek değişkenli

durumda, histogramlar son derece yararlı bir yoğunluk tahmini
sağlarlar. Ancak, histogramda bir boyutta bile orijin seçimi oldukça
etkili olabilir. Örneğin, Şekil 2.3’ün sol altındaki grafikte, orijin ve
iki modun ayrılması konusunda diğerlerinden farklı izlenimler
vermektedir. Bu grafikler, düzleştirmedeki zorlukları gösteriyor.
Kutu yükseklikleri genellikle gerçek yoğunlukları izlemesine rağ-
men, onlar grafikten grafiğe değiştikleri görülüyor. Özellikle 0.10
bant genişlikli grafikteki kestirici, düşük yan fakat büyük varyansa
sahiptir. Diğer yandan farklı sınıf aralıklı ve “breaks=4” olan gra-
fikler ise öncekinin aksine aşırı bir düzleştirmeyi gösteriyorlar. Bu
grafiklerde kutu yükseklikleri oldukça durağan, fakat gerçek yo-
ğunluğu çok iyi takip etmiyorlar. Yani, kestirici küçük varyans ve
büyük yana sahiptir.
2.3.1. Histogram Özellikleri

Histogramın şekli iki parametre tarafından yönetilir: bant ge-
nişliği (h) ve kutunun orijin seçimi ( ). Orijin seçimine bağımlı-
lıktan histogramı kurtarmanın en uygun yolu histogramın ortala-
masını değiştirmektir. Uygun bir h’ın seçiminde ikna edici ve uy-
gulanabilir bir kuralın ortaya konması Bölüm 5’te tartışılmıştır.
meyen özellikleri korur: Bunlardan birincisi, histogram V~ aralığı

Histogram orijin seçimine bağımlılıktan kurtulsa bile, bazı isten-
içindeki her 'e g için aynı tahmini atar. Bu aşırı derecede kısıtla-
yıcı görünüyor. İkincisi, histogram sürekli bir fonksiyon değildir,
ancak kutuların sınırlarında atlamalara sahiptir. Histogram sıçrama
noktalarında türevlenebilir değildir ve bunun dışında sıfır türev
vardır. Bu durumda pürüzsüz, sürekli bir pdf tahmin edilmek isten-
diğinde, özellikle istenmeyen bir histogramın pürüzlü görüntüsüne
yol açar.
Yukarda ifade edildiği gibi, histogram kestiricisinin en önemli
özelliği, h ile gösterilen dikdörtgen kutuların genişliğine (veya
eşdeğer olarak dikdörtgen kutuların sayısı) bağlıdır. Optimum bir
27
düzleştirme parametresi kullanılarak elde edilen g ’in bir kestiri-

cisi olan g$ ’i matematiksel olarak değerlendirmenin en basit
yolu, aşağıda ifade edilen kareli hata (squared error-SE) ölçüsünü,
SE = !g − g$ #D
ve bu eşitliğin beklenen değeri olan hata kareler ortalamasını
(mean squared error-MSE),
MSE = !g − g$ #D
dikkate almaktır. Ayrıca, bütün destek aralığı üzerinde doğruluk
genellikle önemli olduğu için bazı durumlarda integrali alınan hata
kareli hata (integrated squared error-ISE),
Ÿg
–R =E Og − g$ P 5
fg
ve bunun beklenen değeri de (mean integrated squared error-MISE)

ilgi çekmektedir. Herhangi bir kutudaki histogram kestiricisinin
değeri bir binom dağılımı izler:
~€
–O ∈ V~ P = b –O ∈ V~ P = 1¡ = E g 5
~f €
aksi durumda yani,

~€
–O ∉ V~ P = b –O ∉ V~ P = 0¡ = 1 − E g 5
~f €
Bu nedenle g$ ’in gerçek MSE değerini hesaplamak müm-

kündür. Ancak, asimptotik (yani, örneklem hacmi ⟶ ∞) MSE
kutu başına düşen gözlem sayısı arttıkça ⟶ ∞ , kutuların da-

değerini incelemek daha basittir. Kestiricinin tutarlı olması için
ralması gerekir. Diğer bir deyişle, ℎ ⟶ ∞ iken, ℎ ⟶ 0. Temel

yoğunluk fonksiyonu yeteri kadar pürüzsüz ( g′ fonksiyonu
mutlak sürekli ve kare integrali alınan) ise o zaman yoğunluk kesti-
ricinin yan ve varyansları sırasıyla aşağıdaki gibi ifade edilir:
28
Yoğunluk Tahmini
x~
= Og$ P = E!g$ #−g = −g
ℎ
= gk `ℎ − 2O − G~ Pa + ¤ ℎ D , ∈ G~ , G~Ÿ #
D
(2.9)
W=AOg$ P= +¤
7 8 f
€
(2.10)
Böylece, kareli yan ve varyansın birleştirilmesi sonucu histog-

ramın MSE değeri elde edilir:
QR Og$ P= ¥Og$ −g P ¦= = D Og
$ P + W=AOg$ P
D
= + `ℎ − 2O − G~ Pa + ¤ + ¤ ℎq
7 8 7§ 8 ˜ D f
€ ¨
(2.11)
Böylece, MSE değerini minimum yapan ℎ genişliği, ne aşırı

düzleştirme ne de az düzleştirmeye neden olan bir histogram üretir.
Bu konuda ayrıntılı bilgi Jeffrey S. Simonoff (1996), Wasserman
(2004) ve Hardle vd. (2004) kitaplarında bulunabilir.
2.3.2. Frekans Poligonu

Verilerin sunumunda histogramların faydası ne olursa olsun,
özlerinde parçalı sabit olmasında dolayı onlar, pürüzsüz bir yoğun-
luk fonksiyonunun yeterli bir tanımını sağlamadığı açıktır. Daha
doğru tahmin edicinin mutlaka daha pürüzsüz olması gerekir. Bir
histogramı daha pürüzsüz göstermenin en basit yolu, histogramı
oluşturan dikdörtgen kutuların üst orta noktalarını birleştirerek
doğru parçalarından oluşan bir eğri çizmektir. Ortaya çıkan bu
eğriye frekans poligonu (frequency polygon) denir. Frekans poli-
gonu sürekli, ancak kutuların orta noktalarında türevleri tanımlı
değildir.
Varsayalım ™ , … ™•Ÿ kümesinin elamanları ℎ uzunluklarına
, … • ve bu kutu aralıklarının orta

sahip kutuların kenarlarını göstersin. Bu kutların içerisine düşen
noktaları 5 , … , 5•Ÿ olarak tanımlansın. Örneğin, burada belirt-

gözlem sayıları sırasıyla,
mek gerekirse kutuların orta noktaları aşağıdaki gibi ifade edilir:
29
O…‰ Ÿ…‰©ªP
5~ = , • = 1,2, … , «, 5 = ve 5•Ÿ =
…ª f€ …¬©ª Ÿ€
D D D
Bu bilgilere göre histogram poligonu,
g$ = ` ~ 5~Ÿ − ~Ÿ 5~ + O ~Ÿ + ~P a, ∈ ` ~, ~Ÿ a
€˜
(2.12)
olarak tanımlanır. Burada = •Ÿ ≡ 0. Ayrıca, frekans poligo-
nu altında kalan bölgenin alanının bire eşit olduğunu belirtmekte
fayda vardır.
Örnek 2.4 (Gayzer veri seti): Frekans poligonunun oluşumu
göstermek için önceki bölümde verilen Gayzer veri seti dikkate
alınmıştır. Bu veri seti için histogramlara dayalı frekans poligonu-
nun oluşumlarını gösteren örnekler Şekil 2.4’te gösterilmiştir. Şekil
2.4’te görüldüğü gibi, sonuçta elde edilen her bir yoğunluk tahmi-
ni, basitliğini ve yorumlama kolaylığını koruyarak yoğunluğun
histogramdan daha estetik olarak hoş bir gösterimini sağlar.
Şekil 2.4: Gayzer verisi için püskürtme sürelerinin histogramına dayalı

frekans poligonlarının oluşumlarının gösterimi
30
Yoğunluk Tahmini
2.3.3. R’de Hesaplama

Regresyonda histogramlar, bağımsız ve bağımlı değiş-
kenlerinizin dağılımını göstermek için kullanılabilir. R program-
lama dilinde histogram için temel fonksiyon “hist(.)” olmasına
karşın, daha karmaşık histogramlar için “ggplot2” paketi kullanıla-
bilir. Bununla birlikte, R programında, “hist(data,breaks=k)”
komutta yer alan “(breaks=k)” kısmındaki k yerine sayısal bir
değer verilerek “eşit uzunluklu” düzleştirme parametresi (veya h
değeri) içeren kutular elde edilir. R verileri ayırmak için algoritma-
sını çalıştırdığı için bu kutuların sayısı, tam olarak verdiğiniz sayı-
ya karşılık gelmez. Ancak genellikle girdiğiniz k değeri, karşı ge-
len kutu sayısını verir. Ayrıca, “breaks=c(k1,k2,…,kr)” komutu
yardımıyla sınıfları ayıran noktalar, bir vektör olarak tanımlanabi-
lir. Bu durumda “farklı genişliğe sahip” sınıf ya da kutular elde
edilir. Optimum bir h değerinin seçimi ile ilgili detaylar için Bölüm
5 incelenebilir.
Frekanslar örnek büyüklüğüne bağlı olduğu için genelde, de-
ğişkenlerin dağılımı söz konusu olduğunda, frekanstan ziyade yo-
ğunluğa daha çok ilgi duyulur. Diğer bir deyişle, kutu başına düşen
veri noktaları saymak yerine, bunların olasılık yoğunluklarını dik-
kate almak daha çok ilgi uyandırmaktadır. Hist fonksiyonunda
“freq=FALSE” veya prob=TRUE, seçeneğini kullanarak frekans
yerine olasılık yoğunluklarını elde edilebilir. Yoğunluk tahminle-
rinin çok doğal bir kullanımı, belirli bir veri kümesinin özellikle-
rinin gayriresmî araştırmasındadır. Yoğunluk tahminleri, veriler-
deki çarpıklık ve çok modlu olma gibi özelliklerin önemli göster-
gelerini verebilir. Bazı durumlarda onlar, açık bir şekilde doğru
kabul edilebilecek sonuçlar verirken bazen de daha fazla veri
toplama veya analiz yapma gibi yolları işaret ederler (Ekte R-
kodları sunulmuştur).
31
2.4. Kernel Yoğunluk Tahmini

Önceki bölümde, ampirik bir frekans dağılımının grafiksel
gösteriminde histogramın uygun bir araç olduğu ifade edilmiştir.
Ayrıca, histogram bilinmeyen bir olasılık yoğunluk fonksiyonunu
tahmin etmek için de yaygın olarak kullanılan bir yöntemdir. An-
cak, histogramın bazı eksiklikleri vardır ve bu anlamda kernel yo-
ğunluk tahmin yöntemi, birçok açıdan histograma göre tercih edi-
lebilir. Kernel yoğunluğunu kestiriminde orijin seçme problemi
yoktur, ancak burada bant genişliği seçim problemi söz konusudur.
Aşağıda bahsedildiği gibi uygulamada farklı kernel fonksi-
yonları olmasına rağmen, aşağıda iki kernel fonksiyonu örneği
verilmiştir. Bunlardan biri “Epanechnikov kernel ”,
±˜
X f Y
« =®
°̄ ²
| | < √5
√´
0 µ ğ™A µ@A@B¶=A5=
olarak ifade tanımlanırken bir diğeri “normal (guassian) ker-
1
nel ”,
« = ™ x T− U
· 2¸ 2
olarak tanımlanır. Bu bilgilerden sonra kernel yoğunluk kestirici-

sinin ilişkin bir tanım verilebilir.
Tanım 2.1: Verilen bir K kernel ve bant genişliği (bandwidth)
olarak adlandırılan pozitif bir h için kernel yoğunluk kestiricisi
(kernel density estimator),
g$ , ℎ = ∑ «T U= ∑ «T U= ∑ «€ −
8f8¹ 8f8¹
€ € € €
(2.13)
olarak tanımlanır.
, = 1,2, … , veri noktası, h ile gösterilen bir bant genişlikli (ör-

Kernel yoğunluk tahmininin altında yatan temel düşünce, her
neğin, bu veri noktaların bir standart sapması olarak düşünülebilir)
32
Yoğunluk Tahmini
ve nokta üzerinde merkezli belirli bir dağılımla (tipik olarak normal)

yer değiştirilir. Normal dağılımlar bir araya getirilir ve bir birim
alana sahip olacak şekilde ölçeklendirilen sonuç dağılımı, eşitlik
(2.13) ile verilen kernel yoğunluk tahmini olan düzgün bir eğridir.
(1962), g
Klasik bir yaklaşım olarak Rosenblatt (1956) ve Parzen
fonksiyonunu tahmin etmek için (2.13) denklemini
histogram kutuların toplamı olarak düşünülebilir. Burada « ile

önermişlerdir. Rosenblatt ve Parzen tahmini, gözlemlerde ortalanan
gösterilen kernel fonksiyonu tümseklerin (aşağı yönlü tek tepeli

eğri)” şeklini belirlerken onların genişliklerini h sembolü ile göste-
rilen pencere genişliği (bant genişliği) ya da düzleştirme paramet-
«T U
8f8¹
resi belirler. Bu konuyu açıklamak için bir grafiksel gösterim Şekil
€ €
2.5’te verilmiştir. Burada 7 veri noktasına karşı gelen
oluşturulan yoğunluk tahmini (g$) de gösterilmiştir. Böyle küçük bir

bireysel tümseklerin gösterilmesinin yanı sıra bunları toplayarak
numuneden bir yoğunluk tahmini yapmanın genellikle uygun ol-

madığı, ancak netlik amacıyla 7 büyüklüğünde bir numunenin kul-
lanıldığı vurgulanmak gerekir.
= −1.3, … . , º = 1.9
Belirtmek gerekirse Şekil 2.5, Eşitlik (2.11)’de verilen kernel
durumu ve ℎ=0.5 bant genişlikli standart bir normal kernel (yani,

yoğunluk kestiricisinin belirli 7 gözlem,
« = O1/√2¸P™ f8 /D standart normal yoğunluk) için nasıl ça-

˜
lıştığını göstermektedir. Kernel yoğunluk kestiricisi, her bir göz-

lemde ölçeklendirilmiş bir çekirdeğin merkezlenmesiyle oluşturu-
lur. Bu durumda, bir noktasındaki kernel tahmininin değeri, o
şıldığı gibi, kernel tahmini 1/ ağırlıklı her bir “tümseği (aşağı

noktadaki 7 çekirdeğin ordinatlarının ortalamasıdır. Buradan anla-
yönlü tek tepeli eğri)” pürüzsüz bir şeklide çoğaltır. Dolayısıyla,

her bir veri noktasındaki birleşik katkı, çok gözlemin olduğu bölge-
lerde daha büyük olacaktır. Açıkçası, bu bölgelerde yoğunluğun
nispeten büyük bir değere sahip olması beklenmektedir. Tersi bir
durum göreceli olarak az gözlem bulunan bölgelerde ortaya çıkar.
33
Şekil 2.5: Kernel yoğunluk tahmincisinin genel gösterimi
Şekil 2.5: Kernel yoğunluk tahmincisinin nasıl çalıştığını gös-

termektedir: Diyagramda 7 tane belirli veri noktaları çizgilerle
gösterilmiştir. Standart normal kernel fonksiyonları her veri nokta-
sında ortalanır (centered) ve daha sonra kernel yoğunluk tahmini,
ℎ = 0.5 bant genişliği ve !−3, +3# aralığında belirlenen kernel

söz konusu bu kernel fonksiyonlarının normlu toplamından oluşur.
fonksiyonları = −1.3, −1, −0.3, −0.5, 0, 1, 1.9 olarak alı-

nan 7 veri noktası tarafından kontrol edilmektedir. Kısaca yoğun-
luk tahmini 7 veri noktasından türetilmiştir.
Uygulamada kullanılan farklı tipte kernel fonksiyonları var-
dır. Ancak kernel fonksiyonunun seçimi bant genişliğinin seçimin-
den daha az önemsizdir. Kernel fonksiyonları aşağıda verilmiştir:
i. Normal (gaussian) kernel: « @ = ™ , @ ∈ !−∞, +∞#

ª̃
Tf ‚˜U
√D¼
ii. Düzgün kernel (uniform): « @ = D , @ ∈ !−1, +1# veya I |@| ≤ 1

iii. Üçgensel (triangular) kernel: « @ = 1 − |@| , @ ∈ !−1, +1#
iv. Tricube kernel: « @ = › 1 − |@|q q , @ ∈ !−1, +1#,
º
34
Yoğunluk Tahmini
v. Epanechnikov kernel: « @ = 1 − @D , @ ∈ !−1, +1#,

q̈
vi. Dördüncü dereceden kernel (biweight): « @ = 1 − @D D ,

´
¾
@ ∈ !−1, +1#
vii. Altıncı dereceden kernel (triweight): « @ = qD 1 − @D q ,
q´
@ ∈ !−1, +1#
viii. Cos kernel: « @ = ¨ ¿À? T D @U , @ ∈ !−1, +1#
¼ ¼
|Á|
ix. Silverman kernel: « @ = D ™ sin T + U
f |‚| ¼
√˜
√D ¨
Bu maddelerde @ = − /ℎ olarak ifade edilebilir. Bu

fonksiyonların bazıları ile elde edilen kernel yoğunlukları aşağıda
verilen Şekil 2.6’da görülmektedir.
Şekil 2.6: Sıfır etrafında üretilen kernel yoğunlukları
35
Belirtmek gerekirse bir ağırlıklandırma fonksiyonu olarak ör-

neğin Epanechnikov kernel kullanılacak olursa eşitlik (2.13)’te
ifade edilen kernel yoğunluk kestiricisi aşağıdaki gibi yeniden ya-
zılabilir:
1 3 − D −
g$ = Ã« @ = Ã :1 − T U Ä I TÅ Å ≤ 1U 2.14
ℎ 4 ℎ ℎ ℎ
Burada daha önce belirtildiği gibi, @ = − /ℎ. Yukarıda

da grüldüğü gibi, bir kernel yoğunluk kestiricisini oluşturmak için
bir kernel K fonksiyonu ve pürüzsüzleştirme miktarını kontrol eden
riyor ki « seçiminin çok önemli değil, ancak, bant genişliği h’ın

h>0 değerini seçmemiz gerekir. Teorik ve ampirik bulgular göste-
seçimi çok önemlidir. Bu konu S’de hesaplanmanın yanı sıra, düz-

leştirme parametresinin seçimi konusunda ele alınmıştır.
2.4.1. Kernel Yoğunluk Kestiricilerinin Özellikleri

Kernel yoğunluk tahmini, rastgele bir değişkenin olasılık yo-
ğunluk fonksiyonunu tahmin etmenin parametrik olmayan bir yo-
ludur. Kernel yoğunluk tahmini, sonlu bir veri örneğine dayalı
olarak kitle hakkında çıkarımların yapıldığı temel bir veri düzleş-
tirme problemidir. Kernel yoğunluk tahmin edicileri daha pürüz-
süzdür ve histogramlardan ziyade gerçek yoğunluğa daha hızlı
yaklaşırlar. Ayrıca, histogramlar süreksizdir.
Varsayalım , … ,
veriler olsun. Bu bağlamda, « herhangi bir kernel fonksiyonu ol-
bir g dağılımından alınan gözlemlenen
mak üzere, şu özelliklere sahiptir:

Ÿg
« ≥ 0, « =« − , E « 5 =1
fg
Ÿg
4fg « 5 = 0 ve h•D ≡ E « 5 >0
Ÿg D
fg
36
Yoğunluk Tahmini
Kernel fonksiyonları, rastgele değişkenlerin yoğunluğunu

tahmin etmek için ve parametrik olmayan regresyonda ağırlık
« . kernel, şu dört koşulu sağlayan basit bir fonksiyondur.

fonksiyonu olarak kullanılır. Bu özelliklerden anlaşıldığı gibi
(i.) « ≥ 0 gösteriyor ki yoğunluk olan kernel fonksiyonunun
(ii.) Kernel fonksiyonunun değerleri hem − hem de

değeri negatif olamaz.
için
aynıdır yani simetriktir (genellikle sıfır etrafında simetriktir).
simum değerinin (B= « @ ) eğrinin ortasında olmasını sağ-

Kernel fonksiyonunun simetrik özelliği, fonksiyonun mak-
lar.
(iii.) Fonksiyonun eğrisinin altındaki alan bire eşit olmalıdır.
(iv.) Beklenen değeri sıfır ve sabit varyanslı gerçek bir fonksi-
yondur.
Bu bölümde, kernel yoğunluk kestiricinin güvenilir ve pratik
"g" yoğunluğundan alınan ,…,

kullanım sağlayan teorik özelliklerinden bazıları verilmiştir. Bir
olduğumuzu varsayalım ve « . ’da bir kernel ağırlık fonksiyonu

rassal değişkenlerine sahip
olsun. Bu durunda, verilen bir ℎ değeri için g$ ’in beklenen de-

ğeri şu şekilde ifade edilir:
1 − 1 −
!g$ #= Ã \« T U] = Ã \« T U]
ℎ ℎ ℎ ℎ
1
= Ã O«€ − P = !«€ −x #
1 −@
= E«T U g @ 5@
ℎ ℎ
= E« r g − rℎ 5r 2.15
Burada r = dönüşümü yapıldığında, @ = − rℎ olur.

8f‚
€
37
Eşitlik (2.15)’ten anlaşılan o ki bant genişliği ℎ → 0 olduğun-

da, !g$ # ⟶ g 4 « r 5r = g olduğundan g$
g ) yoğunluk fonksiyonun asimptotik yansız bir kestiricisidir.
tahmini,
Buradan görünen o ki bant genişliği büyük ölçüde örneklem boyu-

tuna bağlıdır. Bu nedenle, örnek boyutu büyüdüğünde bant genişli-
ği küçülme eğilimi gösterir.
Kernel yoğunluk kestiricisi için yan (bias) değeri,
V =?!g$ # = !g$ #−g = 4« r g − rℎ − g 5r (2.16)
olarak yazılabilir. Şimdi, temel yoğunluk g
türevi g kk
fonksiyonun ikinci
nu varsayalım. Sonra, etrafında bir Taylor serisinde g − rℎ 'yi

’in kesinlikle sürekli ve kare integrallenebilir olduğu-
genişletirsek şu ifade elde edilir:

ℎ D r D kk
g − rℎ = g − rℎg k + g + À ℎD
2
ℎ → 0 iken yoğunluk tahmin edicisinin yanlılığı şu şekilde ifade

Böylece, kernel fonksiyonuna yüklenen koşullar kullanılarak
edilebilir:
ℎ D kk
V =?!g$ #= g h•D + À ℎ D 2.17
2
Burada h•D = 4 r D « r 5r.
Bu bilgilerden sonra tahmin edilen kernel yoğunluk fonksiyo-
nun varyansı, (2.15)'te verilen benzer adımlar kullanılarak hesapla-
nabilir:
38
Yoğunluk Tahmini
1
W=A!g$ # = W=A Ê Ã «€ − Ë
1 1
= D
Ã W=AO«€ − P= W=AO«€ − P
1
= O `«€D − a− !«€ − # DP
1 1 1 −@
Burada
O `«€D − aP = E «D T U g @ 5@
ℎ D ℎ
!«€ #=g
ve
− +À ℎ
açılımı ve benzer değişken ikamesi gösteriyor ki, ℎ → ∞ iken

kullanarak (2.17)’de verilen yanın elde edilmesindeki gibi Taylor
1 1
kernel yoğunluk fonksiyonun varyansı, şu şekilde elde edilebilir:
W=A!g$ #= S « g +ÀX Y 2.18

ℎ ℎ
Burada S « = 4 « D r 5r = ‖«‖DD (« k Î >=A™¶ ÀAB@).
Örnek (Kernel eğrilerinin oluşturulması): Elimizde 71 tane
kargo kolisinin ağırlıklarını gösteren ~ = 10,11,12, … . , 69,70
= 35, 40, 55 için Gauss

gözlem değerleri olsun. Bunlar arasından alınan, üç kargo kolisinin
ağırlıklarını gösteren veri noktaları
kernel fonksiyonunu kullanarak her bir veri noktasında kernel eğri-
sini ve bu eğrileri gösteren yoğunlukların ortalamasından oluşan
kernel yoğunluk kestiricisini oluşturmaya çalışalım.
Çözüm:
veri noktaları etrafındaki ~ noktaları dizisinden kernel
eğrilerini oluşturmak için ℎ düzeltme (ya da bant genişliği) para-
Bu
metresinin değeri gereklidir. Bu değerin yani, ℎ = 5 olduğunu

varsayalım. Bu örnek veri setlerini kullanarak verilen optimum
39
bant genişliğini için (2.13)’teki denklem yardımıyla kernel yoğun-

luğunu tahmin etmek için Gauss kernel fonksiyon denklemi dikka-
te alınır:
1 1 1 1 − D
« @ = ™ x X− @D Y = ™ x Ð− T U Ñ
~
ℎ√2¸ 2 ℎ√2¸ 2 ℎ
=o×V
8¹f8‰ D
Burada o = ´√D¼ ve V = ™ x X− D T ´
U Y. Bu değerlerinin
hesaplanması sonucu elde edilen bilgiler aşağıda verilen tabloda
gösterilmiştir.
~ o V « @ ~ ve « @ , kernel eğrisini
=o×V görselleştirmek için aşağıdaki
şekilde verilmiştir.
10 35 0.079809 3.72665e-06 2.97419e-07
11 35 0.079809 9.9295e-06 7.92461e-07
12 35 0.079809 2.54193e-05 2.02868e-06
⋮ ⋮ ⋮ ⋮ ⋮
70 35 0.079809 2.74879e-43 2.19377e-44
Toplam 1
Benzer şekilde, gözlemlenen üç veri noktası içinde kernel

fonksiyonun değerleri, aşağıda verilen tablo ve şekildeki gibi tah-
min edilir.
g$ =
~ « = 35 « = 40 « = 55 ∑q «
D q q
10 2.97419e-07 1.21548e-09 2.05648e-19 9.95449E-08

11 7.92461e-07 3.95564e-09 1.21946e-18 2.65472E-07
12 2.02868e-06 1,23684e-08 6.94769E-18 6.80351E-07 Üç farklı noktaları
⋮ ⋮ ⋮ ⋮ ⋮
için kernel eğrileri
70 2.19377e-44 1.21548e-09 0.000886594 0.000295532

Top 1 1 1 1
40
Yoğunluk Tahmini
Şimdi, tüm veri seti için bileşik yoğunluk değerleri hesapla-

nır. Basitçe tüm 'deki kernel değerleri toplanarak tahmin edilir.
Yukarıdaki tabloya referansla, tüm veri seti için kernel yoğunluk
kestiricisi, tüm satır değerleri toplanarak elde edilir. Toplam daha
sonra, bu örnekte üç olan veri noktalarının sayısına bölünerek
normalleştirilir. Kernel yoğunluk kestiricisi, eğrisi altındaki alanı
bire getirmek için normalizasyon yapılır. Bu nedenle, her için
kernel yoğunluk kestiricisini hesaplama denklemi şu şekilde ifade
edilir:
1 1 8¹f8‰ ˜
« = Ã ™ D €
f T U
~
ℎ√2¸
Burada = 3 veri noktalarının sayısıdır. Üç normalleştirilmiş
luk kestiricisi [g$ = q ∑q « − kırmızı çizgi], Şekil 2.7’de

kernel yoğunluklarının tümü toplanarak elde edilen kernel yoğun-
gösterilmiştir. Aşağıda verilen R-kodları kullanılarak bu şekil elde

edilmiştir.
Şekil 2.7: Her bir veri nokarsı etrafındaki kernel fonksiyonlarının

grafikleri (koyu siyah çizgilerler gösterilen eğriler) ve onların toplamların-
dan oluşan kernel yoğunluk kestiricinin garfiği (kımızı çizgi ile verilen eğri).
41
R-Kodları:
data <- c(35,50,55,70)
plot(NA,NA,xlim = c(10,100),ylim = c(0,0.035),xlab =
'X',ylab = 'K = [density]')
h = 5
kernelpoints <- seq(10,90,1)
kde <- NULL
for(i in 1:length(data)){
z <- (kernelpoints-data[i])/h
multi <- 1/(sqrt(2*pi))
kerneld <- ((multi)*exp(-0.5 *
z^2))/(length(data)*h)
lines(kernelpoints,kerneld, lwd = 3)
kde <- cbind(kde,kerneld)
}
kde_sum<- rowSums(kde)
lines(kernelpoints,kde_sum, lwd = 3, col = 'red')
grid(20,20)
Bir kernel fonksiyonun bant genişliği (ℎ), verileri uygun şe-
yoğunluğu çok fazla varyansla tahmin ederken ℎ’ın yüksek değeri

kilde tahmini için önemli bir rol oynar. Düşük bir bant genişliği,
büyük sapma üretir. Bu nedenle, ℎ'ın optimal değerinin tahmini, en

anlamlı ve doğru yoğunluğu oluşturmak için çok önemlidir. Bu
durum bir sonraki kısımda açıklanmıştır.
2.4.2. R’de Hesaplama

Kernel tahmini, uygun bir h değeriyle hesaplandığında, her-
hangi bir varsayım yapmadan, örneğin normal bir dağılım olduğu
varsayımı olmadan popülasyon yoğunluğu fonksiyonunun iyi bir
tahminini verir. Bu, normallikten sapmanın yaygın olduğu analitik
bilimden örneklerde faydalıdır. Hesaplamalar kolayca programla-
nabilir ve grafik olarak üretilebilir. Tek komplikasyon h için uygun
bir değerin belirlenmesidir. Bu seçim bağlama özgüdür ve deneyim
ve yargı gerektirir.
42
Yoğunluk Tahmini
Tek değişkenli (veya çok değişkenli) kernel yoğunluğu tah-

mini sağlayan çeşitli R paketlerinde çok sayıda fonksiyon vardır.
Kapsamlı olmayan bir örnek listesi (örneğin, www.RSeek.org site-
sinde arama "kernel density estimation" terimi ile bulunur) şunları
içerir: density fonksiyonu, KernSmooth R-paketleri (Wand
vd., 2015), sm (Bowman ve Azzalini, 2014)), C (Hayfield ve Raci-
ne, 2008), feature (Duong ve Wand, 2015), ks (Duong vd.,
2022) ve kedd fonksiyonları (Guidoum, 2015).
Örneğin, R’de en sık kullanılan density fonksiyonu, kernel
yoğunluk tahminlerini hesaplar. Kullanımı şu şekilde belirtilmiştir:
density(x, bw = "ucv", kernel = c("gaussian",

"epanechnikov", "rectangular","triangular",
"biweight","cosine", optcosine"))
Burada x, bir sayısal vektör olup aynı zamanda tahmini hesap-

lanacak olan verileri gösteriyor; bw, kullanılacak bant genişliğini
ifade ediyor. Bunun karşılığına sayısal bir değerin yanı sıra bant
genişliğini belirmek için farklı seçim kriterleri yazılabilir. Bu bağ-
lamda, kernel yoğunluk kestiricinin bant genişliğini seçmek için,
MASS paketi içerisinde yer alan bandwidth.nrd, ucv, bcv ve
width.SJ gibi seçim kriterleri kullanılabilir: bandwidth.nrd,
iyi desteklenmiş bir temel kuralı olup normal referans dağılımı ile
yoğunluk için bant genişliğini kullanır. ucv (unbiased cross valida-
tion), bant genişliği seçimi için yansız çapraz doğrulama seçim
yöntemini kullanırken bcv (biased cross validation) yanlı çapraz
doğrulma seçim yöntemini kullanır. width.sj, bir normal kernel
yoğunluk kestiricinin bant genişliğini seçmek için Sheather ve
Jones’in (1991) yöntemini kullanır. Kernel, kullanılacak kernel
fonksiyonlarını göstermektedir.
Örnek 2.5: Copas ve Fryer (1980) tarafından intihar riskleri
çalışmasında kontrol olarak kullanılan 86 hastaya uygulanan psiki-
yatrik tedavi büyüsünün gün olarak süreleri incelenmiştir. Bu süre-
43
lerin farklı bant genişliği (R’de default olarak yer alan) seçim kri-
terlerince belirlenen düzleştirme parametreleri için normal (Gaus-
sian) kernel yoğunlukları aşağıdaki Şekil 2.8’de verilmiştir.
Şekil 2.8: Bant genişliği farklı kriterlerce belirlenen kernel yoğunlukla-

rının grafikleri
Amaç, mutlak sürekli bir F dağılım fonksiyonu ile ∼ c’in

bağımsız tekrarlarının rastgele bir , … , örneğinden bilinmeyen
bir g = c′ yoğunluğunu elde etmektir. Kernel yoğunluk tahmi-
ninde, öncelikle , … , veri kümesinin cl
(birikimli) fonksiyonu, her bir veri noktasına 1/ kütlesi konarak
ampirik dağılım
elde edilir. Ancak veri yapısı cl fonksiyonun grafiği ile zor in-
düşünce, her bir veri noktasındaki 1/ kütlesini onun çevresine

celenebilir. Ampirik dağılım fonksiyonu üzerine daha gelişmiş bir
pürsüz bir şekilde yeniden dağıtmaktır. Diğer bir deyişle, temel

olarak kernel yoğunluk kestiricisi, küçük yoğunluklu bir tümsekte-
ki her bir veri noktasını pürüzsüzleştirir ve daha sonra nihai
yoğunluk tahminini elde etmek için tüm bu küçük tümsekleri bir-
leştirir ya da toplar (bkz. Şekil 2.5).
44
Bölüm III
DÜZLEŞTİRME TEKNİKLERİ
3.1. Giriş
Düzleştirme teknikleri (smoothing techniques), farklı ölçüm-
ler arasında fonksiyonel bir ilişki bulmaya çalışır. Standart (para-
metrik) regresyon ifadesinde olduğu gibi, bu ortamdaki verilerin
bir ya da daha fazla açıklayıcı değişken ve bir bağımlı değişken
ölçümlerinden oluştuğu varsayılır. Standart regresyon teknikleri,
bağımsız ve bağımlı değişkenler arasındaki ilişkiyi tanımlamak
için bir doğru denklemi şeklinde fonksiyonel bir eğriyi kullanırlar.
Düzleştirme teknikleri ise uyum eğrisinin şeklini belirtmek için
kendileri de veri noktaları sağlayan daha esnek yaklaşımlardır.
Uygulamada yaygın kullanılan bazı düzeltme teknikleri aşağıda
verilmiştir:
i.) k. En Yakın Komşu Düzleştirme ya da Regresyonu (K-
Nearest Neighbors Smoothing)
ii.) Kernel (Kernel) Düzleştirme (Kernel Smoothing)
iii.) Lokal Polinom Düzleştirme (Local Polinomial Smoothing)
iv.) B-Splayn Düzleştirme (B-Spline Smoothing)
v.) Cezalı Splayn Düzleştirme (Penalized Spline Smoothing)
vi.) Splayn Düzleştirme (Smoothing Spline)
Tüm bu tekniklerde, düzeltme parametresi olarak bilinen bir
miktarın belirtilmesi gerekir. Bu miktar yardımıyla yukarıda sırala-
nan tekniklerden herhangi birisiyle elde edilen uyum eğrisi, aşağı-
da tanımlanan vektörle belirlenir:
45
k
Ó0Ô =T0 ,…, 0 U = ÕÔ Ö = Ö$Ô (3.1)
Burada ÕÔ , × > 0 pozitif bir düzeltme miktarı ve bağımsız

değişkenine bağlı olan, fakat Ö yanıt değişkenine bağlı olmayan
× bouyutlu bir düzeltme (ya da düzleştirme) matrisi olarak
bilinir. Tüm bu düzeltme teknikleri (3.1)’deki gibi yazılıştan dolayı
doğrusal düzelticiler olarak adlandırılırlar. Doğrusal modellerin
birçok özelliği bu kestiricilerle elde edilmiştir.
Bu tekniklerin temel amacı, tahmin edilmesi gereken ortalama
fonksiyonu, parametrik olarak ifade etmek yerine verileri sağlaya-
cak bir fonksiyonel şekil yardımıyla ifade etmektir. İzleyen bölüm-
de adı geçen düzeltme teknikleri ana hatlarıyla ele alınmıştır.
3.2. k- En Yakın Komşu Düzleştirme

Bu bölümde, en basit ve en yaygın bilinen parametrik olma-
yan yöntemlerden biri olan k-en yakın komşu düzleştirmesi ya da
regresyonunu (k-nearest neighbors (k-NN) smoothing veya regres-
sion) ele alıyoruz. Verilen bir k değeri ve bir tahmin noktası için,
k-NN regresyonu öncelikle, gözlem ile temsil edilen ’e en yakın
k-eğitim gözlemlerini tanımlar. Daha sonra k-NN regresyonu
n’deki tüm eğitim yanıtlarının ortalamasını kullanarak değe-
> ≥ 1 sakaleri için bir noktasındaki

rini tahmin eder. Diğer bir deyişle, araştırmacı tarafından ayarlanan
’in tahmi,
0 = ∑∈ 8
‹ Ø
(3.2)
biçiminde ifade edilir. Burada ‹ , , … , noktaları arasında

’e k-enyakın komşu noktaların indislerini içermektedir.
Belirtmek gerekirse eşitlik (3.2) ifadesi hiç de kötü bir tah-
minci değil ve birçok durumda muhtemelen basitliği nedeniyle
. fonksiyonunda geniş bir esneklik yelpazesi

uygulamalarda kullanılmaktadır. Komşu k sayısını değiştirerek
tahmin edilen
46
Düzleştirme Teknikleri
sağlanabilir. Küçük k değeri, daha esnek bir tahmine neden olurken

büyük k daha az esnek bir uyuma karşılık gelir. Ancak, (3.2) eşitli-
veya orta büyüklükteki k değerleri için, tahmin edilen . fonksi-

ği konusunda bazı sınırlamaları vardır. Örneğin, özellikle küçük
yonu temelde her zaman tırtıklı ya da pürüzlü görünmektedir. Bu
. fonksiyonunun elde edilmesine yardımcı olur.

nedenle gözlemlere ağırlık vermek daha pürüzsüz tahmin edilen bir
, ,…, ,
ki ilişkiyi açıklamak için, = + , = 1,2, … , parametrik
Varsayalım ki gözlem değerleri arasında-
olmayan regresyon modeli dikkate alınsın. Yukarıda belirtildiği

gibi k-NN tahmini, değişen komşuluklarda ağırlıklı bir ortalamadır.
Bu komşuluk, Öklid uzaklığındaki ’nin k-en yakın komşular ara-
sında bulunan değişkenleri aracılığı ile tanımlanır. Sembolik
olarak “k-NN kestiricisi”,
0‹ = ∑ Ù‹ (3.3)
şeklinde tanımlanır. Bu eşitlikte yer alan Ù‹ , = 1,2, … ,

ağırlıkları,
, ∈ Ú8 ?™,
Ù‹ = C‹ Û
0 =>? 5@A@B@¶=A5=
(3.4)
ile tanımlanır. Burada, Ú8 = : , k ™ ™ =>Î > Ü= ™ Ýör¶™B5™ G A

şeklinde belirtilen indeks dizisidir.
Yukarıda ifade edilen (3.4) eşitliğinde yer alan, > düzleştirme
parametresi olarak adlandırılır. Bu parametre, (3.2)’de olduğu gibi
tahmin edilen eğrinin pürüzsüzlüğünün derecesini düzenler ve bir
sonraki bölümde yer verilen kernel düzelticilerinin bant genişliğine
fonksiyonu daha yavaş değişir. > = ise fonksiyonu, yanıt (ya-

(düzleştirme parametresi) benzer bir rol oynar. Eğer k büyükse
ni, y) değerlerini ortalamasına eşit ve sabittir. k küçükse daha

hızlı değişir.
47
Burada bir düzleştirme parametresi seçim problemi söz konu-

sudur: Bu bağlamda, k değerinin örneklem hacmimin (yani, n de-
ğerinin) veya verilerin bir fonksiyonu olarak seçilmesi gerekir.
Belirtmek gerekirse varyansı mümkün olduğu kadar küçük tuta-
bilmek için, mümkün olduğu kadar büyük k seçilmelidir. Bu yüz-
den yine, gözlemlenen gürültünün bir indirgemesi ve "regresyon
fonksiyonuna iyi bir yaklaştırma" arasındaki bir denge problemi ile
karşı karşıyayız. Bu denge problemi k-NN tahmininin hata kareler
ortalamasının genişlemesiyle ifade edilebilir (Hardle,1994).
Örnek 3.1: Ağırlıkların oluşturmasında bilgi vermek için
, ´ = 1, 0.54 , 3, −0.91 , 4, −0.95 , 5, 0.99 , 7, 0.30

aşağıdaki örneği dikkate alalım.
Olduğunu varsayalım. = 2 ve > = 3 için 0‹ ’in k-NN tahmi-
bu yüzden, Ú8 = Ú¨ = 1, 3 ,4 ve böylece
nini hesaplayalım. ’e en yakın k gözlemleri son üç veri noktasıdır,
1 1
Þ‹ = 2 = , Þ‹D = 2 = , Þ‹q = 2
3 3
1
= , Þ‹¨ = 4 = 0 ve Þ‹´ =4 =0
3
olur. Buna göre x=2 noktasındaki 3 en yakın gözleme dayalı

fonksiyonun 3-NN tahmini,
$ = 0‹ q = 2
! 0.54 × 1.667 # + ! −0.91 × 1.667 # + ! −0.95 × 1.667 #
=
5
= −0.44
olarak hesaplanır. Bu örnekteki gözlemleri kullanarak = 2 ve

> = 3 için tahmin ve gerçek değerler aşağıda verilen Şekil 3.1’de
gösterilmiştir.
48
Şekil 3.1: q = 2 ’in k-NN tahminin gösterimi
, … , gözlemlerine sahip olduğumuzu

Eşitlik (3.3)’te verilen k-NN kestiricisi alternatif olarak şu şe-
varsayalım. Sabit herhangi bir ∈ S noktası için, ‖ ‖ = √ ′

kilde hesaplanabilir:
Öklid uzaklığı kullanılarak her bir noktasının ’e ne kadar ya-

kın olduğu hesaplanabilir. Bu Öklid uzaklığı
µ =‖ − ‖=· − ′ − (3.5)
Şeklinde ifade edilir. µ uzaklıkları 0 ≤ µ ≤ µ D ≤ ⋯ ≤
µ olarak sıralanır ve bu sıralı istatistiklere karşı gelen gözlemler
,
’e en yakın gözlemler olarak belrlenir. Diğer bir ifadeyle, bu
, … ,
uzaklıklar ile sıralanan ’e en yakın gözlemler gözlemler,
D olarak ifade edilir. Belirtmek gerekirse ’in k’ıncı en
yakın komşusu ‹ sembolü ile gösterilir. Böylece, verilen bir k
için, ve ‹ arsındaki Öklid uzaklığı,
µ‹ =à ‹ − à = KS 8 (3.6)
49
kullanılarak = + , modelindeki fonksiyonunun

(3.3) tanımlanan klasik k-NN tahmini, aşağıdaki şekle dönü-
şür:
0 = ∑ IO‖ − ‖ ≤ KS 8 P
‹
(3.7)
olarak hesaplanır. Burada, I . bir gösterge fonksiyonudur. Eğer

‖ − ‖ ≤ KS 8 ise – = 1 ve aksi durumda – = 0 olur.
Eşitlikler (3.2), (3.3) ve (3.76) verilen en yakın komşu reg-

resyonu tek düze (uniform) ağırlıkları kullanır. Diğer bir deyişle,
yerel komşudaki her nokta bir sorgu noktasının tahmin edilmesine
eşit olarak katkı sağlarlar. Açıkçası ağırlıklar “uniform” dağılım-
dan alındığında, tüm noktalara eşit ağırlık verilmiş olur. Oysa bazı
koşullar altında, yakın noktalar regresyona uzak noktalardan daha
fazla katkı sağlayabilme avantajına sahip olabilirler. Bu durumu
dikkate almak için alternatif olarak ağırlıkları hesaplamada kullanı-
lacak mesafenin araştırmacı tarafından tanımlanmış bir fonksiyon
ile sağlanması mümkündür.
Eşitlik (3.4)’te verilen tekdüze (uniform) ağırlıklarına ilave-
ten, bir sonraki bölümde verilen bir rassal değişken ve bir bant
genişliğine sahip olan bir kernel düzleştirme (kernel smoothing)
yöntemindekine benzer ağırlıklar ile klasik olanlara alternatif bir k-
NN yöntemi tanımlanabilir. Buradaki temel düşünce, kestirimi
istenen noktaya en yakın sabit k-sayıda gözlemi dikkate almaktır.
Böylece, regresyon fonksiyonunun daha pürüzsüz (smooth)
bir k-NN kestiricisi,
0 =∑ Ù X áâ
‖8f8¹‖
Y ã∑ Ù X áâ
‖8f8¹‖
Y
± ±
(3.8)
şeklinde hesaplanabilir. Burada Ù . ağırlıkları göstermektedir.

Eşitlik (3.8)’den görüldüğü gibi, 0 kestiricisi k en yakın komşu
gözlemlerin ağırlıklı bir ortalamasıdır.
Örnek 3.2 (Motosiklet verisi): Örnek 1.2’de ele alınan simü-
le edilmiş motosiklet kazası verilerini kullanarak farklı komşu nok-
50
talarına göre zaman ve hız değişimleri arasındaki ilişkiyi gösteren

k-NN tahminleri, (3.8) eşitliği kullanılarak elde edilmiş ve bu tah-
min eğrileri Şekil 3.2’de gösterilmiştir. Şekil 3.2’den görüldüğü
gibi, hız ve zaman arasındaki ilişkiyi açıklamak için en iyi uyum,
k=20 en yakın komşu gözlem değerleri kullanılarak elde edilmiştir.
Diğer komşuluklarda elde edilen uyumların bu ilişkiyi açıklamada
yetersiz kaldıkları görülmektedir. Başka bir ifadeyle, milisaniye
olarak ölçülen zaman ve g cinsinden çarpma sonucu hızlardaki
değişimi açıklayan regresyon fonksiyonu için iyi bir tahmin, k=20
en yakın komşu gözlem değerleri kullanılarak elde edilmiştir. Buna
göre, söz konusu zaman ve hızlardaki değişim arasındaki ilişkinin
doğrusal bir regresyon fonksiyonu ile değil, parametrik olmayan
bir regresyon fonksiyonu ile açıklanabildiği söylenebilir.
Şekil 3.2: Gerçek gözlemler ve onların farklı komşuluklar için pürüzsüz

k-NN yönteminden elde edilen tahminleri
görsel olarak daha iyi açıklayabilmek için ~ä!0,5# uniform dağı-

Örnek 3.3 (Simülasyon verisi): Komşu sayısının önemini
lımından açıklayıcı değişken ve ~å!0,1# normal dağılımdan hata
51
terimleri yaratılmak suretiyle, = = D + , denklemin-
,
den 100 birimlik yanıt değişkeninin değerleri elde edilmiştir. Böy-
lece, değişken çiftine ilişkin benzetim verisi oluşturuldu.
Farklı komşu sayıları için bu değişken çifti arasındaki ilişkiyi gös-
teren k-NN tahminleri, Şekil 3.3’te gösterilmiştir.
rinde k-NN regresyonunu kullanarak ede edilen 0 ’in grafikleri: Sol

Şekil 3.3: 100 gözlemli (siyah noktalar) ve simülasyon verisi üze-
grafik k = 1 için pürüzlü bir uyum olarak sonuçlanırken sol grafik k = 25

için çok daha smooth bir uyum üretir.
Şekil 3.3, , veri kümesi üzerinde iki k-NN uyumları-

nı göstermektedir. Sol panelde k=1 için uyum görülürken, sağ pa-
nelde k = 25’e karşı gelen uyum görülmektedir Bu şekilden görül-
düğü gibi, k = 1 olduğunda, k-NN eğitim gözlemlerini fit ettiği
ancak, 25 gözlemin ortalaması, daha pürüzsüz bir uyuma neden
olmaktadır. Genel olarak k için en optimal değer, Bölüm 5'te ortaya
koyduğumuz yan varyans dengesine bağlı olacaktır. k için küçük
bir değer, düşük yan fakat büyük varyansa sahip olacak çok daha
esnek bir tahmin sağlar. Bu varyans, belirli bir bölgedeki tahminin
tamamen tek bir gözleme bağlı olmasından kaynaklanır. Buna kar-
şılık, daha büyük k-değerleri pürüzsüz ve daha az değişken bir
uyum sağlar; Bir bölgedeki tahmin birkaç noktanın ortalamasıdır
ve dolayısıyla bir gözlemi değiştirmenin daha küçük bir etkisi olur.
Ancak, düzleştirme f(x)'teki yapının bir kısmını maskeleyerek yan-
lılığa neden olabilir. Bu yöntemler k-NN regresyonunda optimal k
değerini tanımlamak için kullanılabilir.
52
3.3. Kernel Düzeltme (Regresyonu)

Bu bölümde, (1.2) parametrik olmayan regresyon modeli kes-
tiricisinin daha genel bir şekli dikkate alınmaktadır. Böyle bir pa-
rametrik olmayan regresyon kestiricisi, ilk kez Nadaraya (1964) ve
Watson (1964) tarafından önerilmiştir. Verilerin ağırlıklı ortalama-
sını kullanan kernel kestiricisi,
$= 0 = ÃÙ 3.9
biçiminde tanımlanır. Burada Ù , kernel düzelticisi için ağırlık
−
değerleri göstermek üzere, şu biçimde hesaplanır:
«T U « @
Ù€ = ℎ
− = 3.10
∑ «T U ∑« @
ℎ
Burada, : Gözlemlerin sayısı (örneklem hacmi),
«: Seçilen kernel fonksiyonu (bkz., Bölüm 3.4),
ℎ: Bir bant genişliği ya da düzeltme parametresi ve
Ù€ =Ù , : − uzaklığına bağlı ve .gözlem
’ye atanan ağırlık olarak tanımlanır.
« @ kernel fonksiyonunu kullandığından dolayı kernel düzelticisi

Eşitlik (3.9)’da verilen bu yaklaşım ağırlıkları belirlemek için
(kernel smoother) olarak adlandırılır. Bu « @ fonksiyonu, ℎ bant

genişliği ile tahmin edilen parametrik olmayan eğrinin şeklini be-
lirler. Bölüm 2.4’te belirtildiği gibi bu kernel fonksiyonu, sürekli,
sınırlı ve integrali 1’e eşit olan simetrik reel bir fonksiyonudur.
Bunlar aynı zamanda, parametrik olmayan yoğunluk tahmini ile
ilişkiyi vurgulayan simetrik bir olasılık fonksiyonunun özellikleri-
dir. Uygulamada kullanılan farklı tipte kernel fonksiyonları vardır.
Ancak kernel fonksiyonunun seçimi bant genişliğinin seçiminden
daha az önemsizdir. Belirtmek gerekirse bazı kernel fonksiyonları
yine Bölüm 2.4’te verilmiştir.
53
Eşitlik (3.10)’da verilen ağırlıklar toplamı yani, ∑ Ù€ = 1

değerini alır. Bu ağırlıklar, ilgilenilen belirli bir bölgenin tanımla-
için ÙÔ ≅ 0 olacak şekilde seçilirler. İlgilenilen bu komşuluğu

nan komşuluğu (neighborhood) dışındaki tüm yanıt değerleri
tanımlamak için bu kernel düzelticileri ℎ ile gösterilen bir bant

genişliği (ya da düzeltme parametresi) kullanırlar. “Büyük bir ℎ
değeri spesifik bölgedeki yanıtı tahmin etmek için kullanılan çok
değerlerin ortaya çıkan grafiği, ℎ arttıkça çok daha pürüzsüz

daha fazla gözlem olarak sonuçlanır. Dolayısıyla, tahmin edilen
oluken ℎ azaldıkça tahmin yapmak için az veri kullanılır ve ortaya

çıkan grafik çok daha oynak ve tümsekli olur”. « @ fonksiyonu-
nu kullanmaktaki temel düşünce, bir açıklayıcı değişkeninden
uzak gözlemlere daha az ağırlık (yani, uzaklık büyükse daha düşük
se daha yüksek ağırlık) vermektir. Bu ağırlıklar « @ tarafından

ağırlık) ve ’e yakın gözlemlere daha fazla ağırlık (uzaklık küçük-
belirtilir ve bant genişliği olarak bilinen, ℎ tarafından kontrol edi-

lir. Diğer bir deyişle, ağırlıkların hacmi ℎ tarafından parametreleş-
tirilir. Buna göre, Ù€ ağırlık dizisi (3.9)’da yerine yazıldığında,
−
kernel tahmini (düzelticisi) aşağıdaki şekli alır:
∑ «T U ∑ « @
0€ = ℎ
− = 3.11
∑ «T U ∑ « @
ℎ
(3.11) tahmin genellikle, “Nadarya-Watson kestiricisi” ola-
rak adlandırılır.
Özel olarak Gaussian (normal) Kernel fonksiyonu kullanıla-
cak olursa fonksiyon şu biçimde ifade edilir:
1 1 − D
« @ = exp −@D = exp ç− T U è
~
√2¸ √2¸ ℎ
Böylece, (3.11) eşitliğine göre kernel tahmini,
54
− ~
∑~ «T U ~ ∑« @
ℎ
$ = 0 = − ~ = ∑« @
∑~ « T U
ℎ
1 − ~ D
∑~ exp Z− T U [ ~
√2¸ ℎ
= = ÙkÖ
1 − ~ D
∑~ exp Z− T U [
√2¸ ℎ
biçimde ifade edilir. Benzer olarak diğer kernel fonksiyonları için

de tanımlanabilir. Eşitlik (3.11)’de tanımlanan kernel düzelticisi,
matris ve vektör formunda,
k
Ó0€ =T0 … 0 U = é€ Ö = Ö$ (3.12)
olarak yazılabilir. Burada,

ík Ù … Ù
⎡ ⎤ ⎡ ⎤ − ~
⋮ ⋮ … ⋮ «T ℎ U
⎢ ⎥
é€ = ⎢ í k ⎥ = ⎢ Ù … Ù ⎥ ve Ù ~ =
− ~
⎢ ⋮ ⎥ ⎢ ⋮ …
… Ù
⋮ ⎥ ∑~ « T
ℎ
U
⎣í k ⎦ ⎣Ù ⎦
Böylece (2.1), parametrik olmayan regresyon modelindeki
$ = 0
regresyon fonksiyonunun noktasındaki kernel tahmini,
= ∑~ Ù~ ~ = í~k Ö, = 1,2, … , 3.13
Örneğin burada noktasındaki yanıt gözleminin kernel tah-
mini,
0 = í~k Ö = Ù …Ù Ê ⋮ Ë= $
olarak ifade edilebilir.

Sonuç olarak verilen bir ℎ > 0 parametresi için açıklayıcı
değişkenin her bir değerine karşı gelen yanıt gözlemleri için kernel
tahmini aşağıdaki biçimde elde edilir (Aydın, 2007):
55
Ù … Ù
0
⎛ Ù⋮ … ⋮
… Ù ⎞
Ó0€ = ñ ⋮ ò =⎜ ⎟ Ê⋮Ë = é€ Ö = Ö$
⋮ … ⋮
×
0
(3.14)
Ù … Ù ×
⎝ ⎠
×
×
Örnek 3.4: Bu örnekte, Crowley ve Hu’nun (1977) çalışma-

sındaki kalp nakli verileri dikkate alınmıştır. Bu veriler Stanford
kalp nakli programı için bekleme listesindeki hastaların hayatta
kalma süreleri (survival time-gün olarak) ve hastaların yaşlarını
(yıl olarak) içermektedir.
Bu örnekte verilen yaşam süreleri ve yaşlar arasındaki ilişki
kernel düzeltme ile tahmin edilmiştir. Aşağıdaki Şekil 3.4’te veri-
len grafikte görüldüğü gibi, normal dağılımlı kernel fonksiyonunu
kullanan kernel (kernel) düzeltmeye dayalı tahmin, bu değişkenler
arasında eğrisel bir ilişki olduğunu ifade edilmektedir. Konun ko-
lay anlaşılır olması sağlaması bakımından bu tahmini veren R kod-
ları da aşağıda verilmiştir.
Şekil 3.4: Kernel düzeltme (regresyonu) yönteminden elde edilen yaş

ve yaşam süreleri arasındaki ilişkiyi gösteren uyum eğrisi
56
library(rdd)
age<-jasa$age
stime<-jasa$futime
stime[15]<-1
x<-age
y<-stime
GCV<-0
n<-length(x) #Sample size
#--------------------------------------------
for (i in 1:20){
b<-seq(3,4,length=20)
kernelp<-
ksmooth(x,y,kernel="normal",bandwidth=b[i]) #kernel
estimation
ksyhatp<-kernelp$y
W<-kernelwts(x,0,b[i],kernel="gaussian")
GCV[i]<-((1/n)*((y-
ksyhatp)^2))/(((1/n)*sum(diag(W)))^2)
}
for (j in 1:20){
if (GCV[j]==min(GCV)){
band<-b[i]
}
}
fit<-ksmooth(x,y,kernel="normal",bandwidth = band)
#kernel estimation
ksyhat<-fit$y
plot(x,y,xlab ="Yaş",ylab ="Yaşam Süreleri")
lines(fit, lwd = 2, col = 2)
m <-sum(diag(W))
m=1
mse<-(1/(n-m))*sum(y-ksyhat)^2
mse:21449.54
Örnek 3.5: Benzetim verisi kullanılarak değişkenler arasın-

daki ilişki veren kernel tahmini elde edilmiş olup buna ilişki R
kodları ve bu ilişkiyi açıklayan kernel tahmini ile edilen grafiksel
görüntü (bkz. Şekil 3.5) aşağıda verilmiştir. Çok küçük bir MSE
(hata kareler ortalaması-HKO) değeri gösteriyor ki kernel düzeltme
yöntemi bu ilişkiyi oldukça iyi tahmin etmektedir.
57
Şekil 3.5: Kernel düzeltme yöntemine göre, 1000 birimlik gözleme

sahip ve değişkenleri arasındaki serpilme diayagramı ve bu ilişkiyi
gösteren uyum eğrisi
set.seed(4)
n <-1000
x <-runif(n,min=0,max=10)
e <-rnorm(n,mean=0,sd=1)
y <-sin(x)+e
m <-sum(diag(W))
m:1
Mse <-(1/(n-m))*sum(y-ksyhat)^2
Mse:0.137306
3.4. Lokal Polinomial Ağırlıklı Regresyon

Önceki bölümde verilen, Nadaraya-Watson kestiricisi, lokal
polinom tahmin edicileri olarak adlandırılan daha geniş bir para-
metrik olmayan tahmin edici sınıfının özel bir durumu olarak görü-
lebilir. Lokal regresyon (LOESS) ya da lokal ağırlıklı regresyon
(LOWESS), kernel regresyonu gibi, spesifik bölge etrafında bir
58
komşuluktan alınan veriyi kullanır. Tipik olarak komşuluk “span”

olarak bilinir. Burada span, komşulukları oluşturmak için kullanı-
lan toplam nokta sayısından elde edilen oranını ifade etmektedir.
Örneğin, 0.5 span gösteriyor ki toplam veri noktalarının yarısı en
yakın komşuluk olarak kullanılır. O zaman LOESS işlemi, yanıt
değişkeninin ağırlıklı en küçük kareler tahmini elde etmek için
komşuluktaki noktaları (yani spanı) kullanır. Ağırlıklı en küçük
kareler işlemi genellikle, basit doğrusal regresyon veya kuadratik
regresyon modeli gibi düşük derecenden bir polinom kullanır.
Ağırlıklı en küçük karelere göre tahminde kullanılan ağırlıklar,
ilgilenilen spesifik bölgeden alınan ve tahmininde kullanılan nokta-
ların uzaklığına dayanır.
Yukarda belirtildiği gibi LOESS, değişken bant genişliği ro-
lünü oynayan bir "span" argümanı kullanır "span", civarında
yerel uyumu gerçekleştirmek için dikkate alınan örneklem noktala-
rının oranını verir ve ardından katkıları ağırlıklandırmak için genel-
likle üç ağırlıklı bir kernel (triweight kernel) kullanır. Bu nedenle,
nihai tahmin yerel polinom tahmin edicinin tanımından farklıdır,
ancak temel alınan prensipler aynıdır.
Lokal ağırlıklı regresyonda tahmin süreci:
Parametrik olmayan regresyonun esnekliği ile klasik en küçük
kareler yönteminin matematiksel basitliği ve yorumlanabilirliğini
arkasındaki temel düşünce, ′in küçük bir komşuluğunda x dere-

birleştiren yerel ağırlıklı en küçük kareler kernel regresyonunun
celi bir polinom ile bilinmeyen . regresyon fonksiyonun tahmi-

=
+ modelindeki fonksiyonunu,
nine noktasal bir yaklaşımıdır. Bu noktasal yaklaştırmada
da) yerel bir Taylor serisi açılımı kullanarak x. dereceden bir poli-
civarında (komşuluğun-
nom,
59
′′
= + k
− + − D
+⋯
2!
•
+ − •
3.15
x!
ile yaklaştırmak mümkündür. Bu durumda sıradan en küçük kare-

ler (least squares-LS) kriteri,
• D
~
NR = min ÃO − P = Ãñ − Ã − ~ò
3.16
D
•!
~
mediği ve aynı zamanda ~ , • = 0,1, … , x’ye bağlı olduğu

biçiminde ifade edilebilir. Eşitlik (3.16)’daki fonksiyonu bilin-
∑•~
için (3.16) denklemi uygulanabilir değildir. Temel düşünce,
= −
ú ‰ 8û ú ‰ 8û
~! ~ ~!
≅ ∑•~
olarak ayarlamak yani,
~
~ − ~
bilinmeyen ~ = , , … , • = ü parametreler vektörü açısın-

şeklinde yazmak ve (3.16) ifadesini,
dan doğrusal bir regresyon problemine dönüştürmektir. Bu fikri

kullanarak (3.16) yeniden yazacak olursa en küçük kareler kriteri
şu biçime dönüşür:
• D
~
NR ý = min Ã ñ − Ã − ~
ò
•!
~
• D
≅ Ãñ − Ã ~ − ~
ò 3.17
~
Bu durumda, ü vektörünün elde edilen tahminleri otomatik

~
/•! için tahminler üretir. Burada esas amaç,
(3.17)'yi minimum yapan bir ü þ tahmin vektörünü bulmak ve 'in
olarak
'a yakınlığına göre her , verisinin 'nin tahminine olan

katkılarını ağırlıklandırmaktır. Bunu tam olarak lokal (ya da ker-
60
verilen ağırlıklı en küçük karelerini minimum yapan x dereceli

nel) ağırlıklı regresyon ile sağlanabilir. Diğer bir deyişle, aşağıda
poliom, ağırlıklı en küçük kareler (weighted least squares-WLS) ile

ilgilenilen her bir noktada lokal olarak fit edilir:
D
⎧ ⎫
⎪ ⎪
•
−
ÞNR ý = min©ª Ã −Ã − ~
«T U 3.18
∈ℝ ⎨
~
⎬ ℎ
⎪ ~ ⎪
⎩ ⎭
‹e†
† }
Burada « . , ölçülebilir bir fonksiyon (kernel fonksiyonu) ve

ℎ > 0, yerel komşuluğun büyüklüğünü kontrol eden bir bant geniş-
parametresi ℎ'nin kernel tahmininde en uygun şekilde seçilmesi

liği veya düzeltme (düzgünleştirme) parametresidir. Düzeltme
gerektiğine dikkat edilmelidir. Büyük bir ℎ değeri, son derece düz-

gün bir tahmin sağlarken küçük bir ℎ değeri dalgalı bir fonksiyon
eğrisi üretir. Bu bağlamda, gerekli miktarda pürüzsüzlüğü veren ℎ
parametresini belirlemek için Bölüm 5’te verilen yöntemlerden
örneğin, genelleştirilmiş çapraz geçerlilik (GCV) gibi bir parametre
seçim yöntemleri kullanılabilir.
− ~
, • = 0, … , x¡
Uygun bir gösterim sunulursa eşitlik (3.18)’i çözmek kolay
olur. Bu denklemden görüldüğü gibi,
kullanılarak bir matrisi aşağıdaki gibi ifade edilebilir:
1 − … − •
= Ê⋮ ⋮ ⋱ ⋮ Ë
1 − … − •
× •Ÿ
Ayrıca, lokal kısma dayalı ağırlıklar ve yanıt değişkenine kar-
−
şı gelen vektör aşağıdaki gibi elde edilebilir:
T U ⋯ 0
⎛ ℎ ⎞
é=⎜ ⋮ ⋱ ⋮ ⎟, =Ê⋮Ë
−
0 ⋯ T U ×
⎝ ℎ ⎠
61
Burada é, bir × boyutlu diagonal matris ve , bir × 1

boyutlu yanıt vektördür. O zaman (3.18) denkleminin kesin çözü-
münü için, ağırlıklı en küçük karelere dayalı bu denklemi matris ve
vektör formunda yeniden ifade etmektir:
ÞNR ý = arg min©ª ( − ý)′ é ( − ý)
∈ℝ
(3.19)
Eşitlik (3.19)’da verilen denklemin açılımı sonucunda bu ifade,

ÞNR ý = Ö − ý ′é Ö − ý
= Ö k éÖ − Ö k é ý − ýk k
éÖ + ýk k
é ý
= Ö k éÖ − 2ý k éÖ + ýk k
é ý
olarak bulunur. Burada Ö k é ý ve ýk k éÖ (ayrıca, Ö k éÖ ve
ýk k é ý) terimlerinin skaler olduğu için, ýk k éÖ k = Ö k é ý
eşit olur. ÞNR ý fonksiyonunun ýk ya göre birinci türevlerini
sıfıra eşitleyerek (3.19) denklemini minimize ederiz:
ÞNR ý
= −2 k éÖ + 2ý k é
ý
Bu ifade sıfıra eşitlenecek olursa
−2 k éÖ + 2ý k é = 0
elde edilir. Gerekli cebirsel işlemlerden sonra cezalı en küçük kare-
lerin normal denklemleri,
ý k
é = k
éÖ
elde edilir. Burada ý yerine ýþ € alınarak (3.19) denkleminin çö-
þ€ = éÖ = 0 , 0 , … , 0•
zümü aşağıdaki şekilde bulunur:
ý k
é f k k
(3.20)
Bu ýþ € vektörü, “lokal polinomial ağırlıklı en küçük kareler

kestiricisi” olarak bilinir.
62
þ € vektörünün girişleri aşağıda

len Taylor serisi kullanıldığı için ý
Bilinmeyen foknsiyonunu tahmin etmek için (3.15)’te veri-
0′′ 0
verilen ifadeye eşdeğerdir:
•
O 0 , 0 , … , 0• P = Ð 0 , 0k , ,…, Ñ
2! x!
Böylece, (3.20) denkleminde ilk giriş, 0 = 0 bilinmeyen
0k = 0 regresyon fonksiyonun birinci türevini tahmin etmek-

regresyon fonksiyonunun kendisini tahmin ederken, ikinci giriş
tedir. Benzer biçimde x′ ¿ giriş 0 • = 0• regresyon fonkis-

yonun x′ ¿ türevini tahmin ediyor. Verilen bir ℎ düüzeltme pa-
rametresi ve x dereceli polinom için amaç sadece fonksiyo-
nunu tahmin etmek olduğu için onun tahmini şu şekilde ifae edile-
bilir:
0€,• þ €,• =
=ü k k
é f k
éÖ = Ã Þ 3.21
Burada Þ = k k é f k éÖ ve ayrıca k = 1, 0, … ,0 ,
ilk konumda 1 ve aksi durumda 0 olan × x + 1 boyutlu mat-
ris olarak dikkate alınabilir. Tıpkı Nadaraya-Watson gibi, yerel
polinom tahmincisi, yanıtların ağırlıklı doğrusal bir kombinasyo-
nudur.
Eşitlik (3.21)’de verilen lokal polinomial kestirici, doğrusal
bir kestirici olması sebebiyle şu biçimde de yazılabilir:
k
Ó0€,• = €,• Ö = T 0€,• , … , 0€,• U (3.21a)
Burada
1, 0, … ,0 O 8ª é8ª 8ª P 8ª é8ª
k f k
€,• = ⋮
1, 0, … ,0 O 8ª P
f
é8 é8
,
k k
8 8
63
yanıt değerlerini tahmin değerlerine dönüştüren × boyutlu

lokal polinomial ağırlıklı bir düzeltme matrisini gösterir. Belirt-
mek gerekirse (3.18) denkleminin çözümü için farklı iki özel du-
rum vardır.
3.4.1. Lokal Sabit (Local Constant) Kestirici

Lokal sabit kestirici lokal polinom kestiricinin özel bir du-
karelerini minimum yapan x dereceli poliomda, x = 0 için lokal

rumudur. Eşitlik (3.18) denkleminde verilen ağırlıklı en küçük
sabit veya Nadaraya-Watson kestiricisi veren şu ağrlıklı kriter elde

edilir:
−
ÞNR = min Ã − D
«T U
û ℎ
= min Ã Þ − D
3.22
û
Burada, Þ = «T U ∑ «T U kernel
8ûf8¹ 8ûf8¹
€ €
ağırlıklarını
∑Þ =∑ «T U ∑ «T U = 1. Ayrıca burada
8ûf8¹ 8ûf8¹
gösterir. Daha önceden bilindiği gibi, ağırlıkların toplamı yani,
€ €
= şeklinde bir sabite ayarlanması nedeniye (3.22)’den
elde edilen kestiriciye lokal sabit denir.
Eşitlik (3.22)’deki ÞNR fonksiyonun k
ya göre birinci
türevi sıfıra eşitlenecek olursa
ÞNR
= 2ÃÞ − =0
ifadesi elde edilir. Gerekli cebirsel işlemlerden sonra şu denklem

bulunur:
64
ÃÞ = ÃÞ 3.22a
Burada ∑ Þ = 1 ve yerine 0€, alınarak verilen bir ℎ dü-

zeltme parametresi ve x = 0 dereceli bir polinom için noktasın-
daki (3.22a) denkleminin çözümü aşağıda verilen regresyon uyu-
munu sağlar:
0€, = Ã Þ = 0€, 3.22b
Bu kestirici, Lokal sabit kerticisi olarak adlandırılır ve (3.11) ve

(3.14)’te verilen kernel kestiricisine eşdeğerdir. Bu bağlamda,
“kernel regresyonu, (lokal olarak) ağırlıklı en küçük karelerden
elde edilen lokal sabit kestiriciye karşılık gelir”.
Eşitlik (3.22b)’de verilen lokal sabit kestiricisi, matris ve vek-
tör formunda aşağıdaki biçimde yazılabilir:
0
Ó0€, = ñ ⋮ ò = é€ × Ê⋮Ë = é€, Ö = Ö$ ×
0
(3.22c)
× ×
Burada é€ , eşitlik (3.11) ve (3.14)’te tanımlandığı gibi gözlem

uzaklıklarına bağlı olarak yanıt gözlemlerine atanan ağırlıklardan
oluşan kernel düzeltme matrisini gösterir.
3.4.2. Lokal Doğrusal (Local Linear) Kestirici

Bir önceki bölümde olduğu gibi, Lokal doğrusal kestirici lo-
Burada = + modelindeki fonksiyonunu,

kal polinom regresyon kestiricisinin bir diğer özel durumudur.
ğunda yerel bir Taylor serisi açılımı kullanarak x = 1 dereceli bir

komşulu-
polinom yardımıyla tahmin edilebilir:
65
= + k
− =Ã ~ − ~
~
= + −
Bu durumda, x = 1 için (3.18) denklemi lokal doğrusal kestiriciyi

sağlayan şu ağırlıklı kritere dönüşür:
−
ÞNR , = min Ã! − + − #D « T U
û, ª ℎ
= min Ã Þ ! − + − #D 3.23
û, ª
Bu ifade matris ve vektör formunda, şu biçimde gösterilebilir:

ÞNR ý = min ( − ý)′ é ( − ý
û, ª
(3.23a)
Burada,
1 −
= Ê⋮ ⋮ Ë ,ý = X Y ve
1 −
− −
é = 5 =Ý Ð« T U,…,«T UÑ
ℎ ℎ
sırasıyla tasarım matrisi, tahmin edilecek regresyon katsayıları ve
verilen bir ℎ düzeltme parametresi için (3.23a) denkleminin çözü-

kernel ağırlıklarını gösterir. Gerekli cebirsel işlemlerden sonra,
þ€ = éÖ = 0 , 0
mü,
ý k
é f k k
þ € vektörü, “lokal doğrusal ağırlıklı en kü-

(3.23b)
olarak elde edilir. Bu ý
þ€
tahmin etmek için yukarda verilen Taylor serisi kullanıldığı için ý
çük kareler kestiricisi” olarak bilinir. Bilinmeyen foknsiyonunu
vektörünün girişleri şu biçimde verilir:
66
O0 , 0 P=T0 , 0k U
Böylece, (3.23) denkleminde ilk giriş, 0 = 0 bilinmeyen
0k = 0 regresyon fonksiyonun birinci türevini verir. Burada

regresyon fonksiyonunun kendisini tahmin ederken ikinci giriş
etmektir. Bu bağlamda, verilen bir ℎ düzeltme parametresi ve

amaç önceden olduğu gibi, sadece fonksiyonunu tahmin
x = 1 dereceli bir polinom için noktasındaki bu fonksiyonun

tahmini aşağıda verilen lokal lineer regresyon uyumu sağlar:
0€, = k k
é f k
éÖ = Ã Þ 3.23¿
Burada Þ = k k é f k éÖ ve ayrıca k = 1, 0 , ilk

konumda 1 ve aksi durumda 0 olan × 2 boyutlu matris olarak
dikkate alınabilir. Tıpkı Nadaraya-Watson gibi, yerel polinom
tahmincisi, yanıtların ağırlıklı doğrusal bir kombinasyonudur.
Eşitlik (3.23c) kestiricisi bir doğrusal kestirici olduğundan
şu biçimde de yazılabilir:
k
Ó0€, = €, Ö = T 0€, , … , 0€, U (3.23d)
Burada
1 0 O 8ª é8ª 8ª P 8ª é8ª
k f k
€, = ⋮
1 0 O 8ª P
f
é8 é8
,
k k
8 8
yanıt değerlerini tahmin değerlerine dönüştüren × boyutlu

lokal doğrusal ağırlıklı bir düzeltme matrisini gösterir.
Örnek 3.6 (Motosiklet verisi): Simülasyonda bir motosiklet
kazası deneyinden elde edilen açıklayıcı (x = time (zaman-
milisaniye (ms) cinsinden)) değişkeni ile yanıt (y = hızdaki değişim
ya da g cinsinden ivmesi (accelaration)) değişkeni arasındaki iliş-
67
kiyi açıklamak için lokal ağırlıklı regresyon yöntemlerini kullandı-

ğımızı varsayalım.
Daha önceden belirtildiği gibi, LOESS değişken bant geniş-
liği rolünü oynayan bir "span" argümanı kullanır. Span paramet-
resi için çeşitli değerler kullanarak bu veri kümesine birkaç
LOESS regresyon modelinin tahmini için loess() fonksiyonunu
kullanabiliriz:
loess(y~ x,span=”sayı”, degree=”sayı”,family=”

gaussian”)
Burada loess() için derece belirtilmez ise, degree=”2” değe-

rini kullanır. Aksi belirtilmedikçe LOESS “lokal polinomial ağır-
lıklı regresyon” anlamına gelmektedir. Bu bağlamda, x’e karşın
y’nin dağılma diyagramı ve farklı span değerine dayalı lokal poli-
nomial, lokal sabit ve lokal doğrusal yöntemlerinden elde edilen
tahminlere ilişkin sonuçlar, Şekil 3.6’daki grafik ve Tablo 3.1’de
verilmiştir. Bu grafikten görüldüğü gibi, span değeri 0.25 ayarlı
tüm tahminlerinin en iyi performansı gösterdiği (yani, en iyi uyum
ve pürüzsüzlük kombinasyonunu sağladığı) görülüyor. Span değeri
0.50 ayarlı yerel tahminler çok pürüzsüz olup bu tahmin eğrileri 10
ms civarında gerçek gözlemlerden çok miktarda sapma ve 30 ms
civarındaki zirveyi kaçırıyorlar. Son olarak span değeri 0.75 ayarlı
Lokal ağırlıklı regresyon tahminleri, ilk ikisine göre oldukça kötü
bir tahminler üretiyor.
68
Şekil 3.6: Motosiklet kazası verilerinin serpilme diyagramı (gerçek

gözlemler) ve bu değişkenler arası ilişkiyi gösteren farklı span ayarlı
Lokal ağırlıklı regresyon tahminleri.
Tablo 3.1: Farklı spanlara dayalı lokal ağırlıklı regresyon kestiricilerinin

performansları
Yöntemler MSE RMSE DF Span
Lokal Polinomial 454.2291 21.3127 14.56083 0.25
Regresyon 535.2092 23.1346 7.554022 0.50
979.736 31.3007 5.273478 0.75
Lokal Sabit (Kernel) 570.0192 23.8751 7.329561 0.25
Regresyon 1065.606 32.6436 3.446173 0.50
1629.086 40.3619 2.226609 0.75
Lokal Doğrusal 491.0984 22.1607 9.27694 0.25
Regresyon 784.8051 28.0144 4.933413 0.50
1300.983 36.0691 3.549419 0.75
69
Yukarda verilen Tablo 3.1’de görüldüğü gibi, span için kul-

landığımız değer ne kadar düşük olursa regresyon modelinin o
kadar az "pürüzsüz" olacağına ve modelin veri noktalarını o kadar
çok kapsamaya çalışacağına dikkat edin. Bu sonuçlar karşılaştırıl-
dığında, her üç yöntemde 0.25 ayarlı yöntemler için iyi sonuç ver-
mektedirler. Ayrıca, bu veri için lokal polinomial ağırlıklı regres-
yon yönteminin diğerlerinden daha iyi performans gösterdiği söy-
lenebilir.
Kullanılacak en uygun span değerini bulmak için, Bölüm 5’te
verilen seçim kriterlerinden herhangi biri kullanılabilir. Bu bağ-
lamda, yukarda verilen örnek verileri için dört farklı seçim krite-
rine göre belirlenen span ayarlı lokal regresyon tahmin eğrileri
Şekil 3.7’de ve bunlardan elde edilen performans değerleri Tablo
gibi örneğin W kriteri etkin olarak şu şekilde hesaplanabilir:

3.2’de verilmiştir Burada belirtmek gerekirse, Bölüm 5’te verildiği
∑ − 0€ ¡
D
1/
W ℎ =
1− ÜA ¡
D
f
€,•
Burada ÜAO €,• P = µc, (3.21a)’da tanımlanan €,• şapka (ya da

düzeltme) matrisinin izini yani, köşegen değerleri toplamını (fonk-
W ℎ tahminini minimum
siyon tahmininin serbestlik derecesinin bir tahmini) veren serbest-
yapan ℎ değeri span olarak belirlenir. Bu ℎ ve x = 2 değerlerine

lik derecesine eşdeğerdir. Ayrıca,
karşı gelen lokal polinomial ağırlıklı uyum değerleri vektörü (ya da

lokal polinomial ağırlıklı regresyon tahmini),
0€,• = ÃÞ = €,• Ö = k k
é f k
éÖ
olarak belirlenir.
70
Tablo 3.2: Farklı Düzeltme parametrelerine dayalı LOESS kestiricilerinin

performansları
LOESS.CV 1082.686 32.90419 5.034264 0.8099507
LOESS.GCV 464.5118 21.55254 10.49846 0.3419471
LOESS.AICc 535.2092 23.13459 7.554022 0.4989211
LOESS.Cp 1505.736 38.80381 3.683536 1.000068
Şekil 3.7: Şekil 3.6’ya benzer fakat farklı seçim kriterleri ile seçilen
span ayarlı lokal regresyon tahminleri
Şekil 3.7 ve Tablo 3.2’de görüldüğü gibi, GCV kriteri ile seçi-
len span ayarlı lokal polinomial regresyon tahmini, diğerlerine göre
daha küçük MSE ve RMSE değerlerine sahip olması nedeniyle en
iyi performansı gösterdiği söylenebilir.
ketinden alınan), 1971 yılında = 102 Kanadalı bireylerin mesle-

Örnek 3.7 (Prestij veri seti): Prestij veri seti (R’deki car pa-
ğinin prestijini ( ) ve ayrıca mesleğin ortalama gelirini ( ) içermek-

tedir. Prestij ve gelir arasındaki ilişkiyi açıklamak için lokal polino-
mial ağırlıklı regresyon yöntemini kullandığımızı varsayalım.
71
Aşağıda verilen Grafik 3.8 ve Tablo 3.3’ten anlaşıldığı gibi,

AICc kriteri ile seçilen span ayarlı LOESS tahmininin küçük MSE
ve RMSE değerlerine sahip olması nedeniyle en iyi performansı
gösterdiği, CV ile seçilen span ayarlı yerel ortalamanın en iyi ikin-
ci performansı gösterdiği ve GCV ile belirlenen span ayarlı lokal
regresyon tahmini ile Cp ayarlı tahminin diğerlerine göre kötü
oldukları söylenebilir.
Tablo 3.3: Farklı düzeltme parametrelerine dayalı LOESS kestiricilerinin

performansları
LOESS.CV 733.6723 27.08639 5.256084 0.8727827
LOESS.GCV 738.5741 27.17672 3.000201 98.99994
LOESS.AICc 733.1091 27.07599 5.373314 0.863594
LOESS.Cp 738.575 27.17674 3.000108 149.9999
Şekil 3.8: ve değişkenleri arasındaki serpilme diayagramı ve farklı

seçim kriterlerine göre LOESS düzeltme yönteminden elde edilen
uyum eğrileri.
72
3.5. B-Splayn Düzeltme

Budanmış üstel tabanlar, splayn tabanlı regresyonun mekani-
ğini anlamak için kullanışlı ve düğümler dikkatlice seçilir veya
cezalı bir uyum kullanılırsa pratikte kullanılabilirler. Bununla bir-
likte, budanmış üstel tabanlarının, ortogonal olmaktan uzak olma-
olduğunda ve ceza parametresi × küçük olduğunda (veya sıradan

ları gibi pratik dezavantajları vardır. Bu, bazen çok sayıda düğüm
en küçük kareler durumunda sıfır olduğunda) sayısal kararsızlığa

yol açabilir. Bu nedenle, pratikte, özellikle OLS tahmini için, daha
kararlı sayısal özelliklere sahip eşdeğer tabanlarla çalışılması tav-
siye edilir. En yaygın kullanılan seçeneklerden bazıları Şekil 3.9’da
gösterilen B-splayn tabanlardır. Şekil 3.9, yedi düzensiz aralıklı
düğüm durumunda, 1, 2 ve 3 derecelerinin B-spline tabanlarını
göstermektedir. Bunların her biri, aynı dereceden budanmış üstel
tabana eşdeğerdir.
Şekil 3.9: Panellerden (a) bir, (b) iki ve (c) üçüncü derece B-spline ta-
banlarını göstermektedir. Düğümlerin konumları, koyu küçük kare sim-
geleri ile belirtilmiştir.
73
Regresyon bağlamında B-splayn tabanı, kübik splaynı (ve ay-

rıca daha yüksek veya daha düşük dereceli) temsil edebilir. Bu
olarak adlandırılan x. dereceden V~

•
yöntemde, bilinmeyen smooth fonksiyon aşağıdaki gibi B-splayn
ile gösterilen B-splayn
taban fonksiyonlarının doğrusal bir kombinasyonu ile yaklaştırılır:
9 •Ÿ•Ÿ
= Ã ~ V~
•
, = 1,2, … , 3.24
~
Burada «, !min = < D < ⋯ < • = max # koşulunu

sağlayan iç düğüm noktalarının sayısı, 5 = x + « + 1, toplam
~ =
, … , 9 , B-splayn’nın tahmin edilecek katsayıları ya da kont-
k
kullanılan B-splayn taban fonksiyonlarını sayısı ve
= ), yinelemeli olarak en uy-

•
rol noktalarıdır (bkz. de Boor, 1978). (3.24) denklemindeki B-
splayn taban fonksiyonları (V~
− ~ −
gun şekilde aşağıdaki gibi tanımlanır:
V~ = + V 3.25
• •f ~Ÿ Ÿ •f
~Ÿ• − − ~Ÿ ~Ÿ
~
~ ~Ÿ•Ÿ
Burada V~ = 1, ~ ≤ ≤ ~Ÿ ; =>? 5@A@B5=, 0
, … , • değerleri, gerçek bir [= = min , G=

Yukarıda yer verilen ifadelerden anlaşıldığı gibi, bu bölüm
max ] aralığında yer alan sıralı düğüm noktalarıdır. x > 0 mer-

boyunca
tebesinden bir splayn, x. mertebeden parçalı bir polinom fonksiyon

ve öyle ki x − 1 mertebesine kadar olan türevleri , … , • gibi her
düğüm noktasında süreklidir. Bunun yanı sıra, « = ,…, •
düğümleri üzerindeki x. mertebeden splaynlar kümesi, x + « + 1
boyutunda bir vektör uzayıdır.
B-Splaynın özellikleri:
ban fonksiyon, x + 1 bitişik düğümler üzerinde sadece sıfırdan

B-splaynların avantajı o ki onlar kesinlikle yerel ve her bir ta-
farklıdır. 5 taban fonksiyonlu bir B-splaynı tanımlamak için

« + x + 1 düğümü ayarlamak gerekir.
74
< D <⋯< •Ÿ•Ÿ
Burada splaynın üzerinde değerlendirileceği aralık ! •Ÿ , • # yani

ilk ve son x düğüm yerleri esasen keyfidir. Her taban fonksiyon,
2x komşu taban fonksiyonla çakışır ve x + 2 komşu düğümlere
göre pozitiftir. B-splayn x − 1 kez sürekli türeve sahiptir.
B-Splayn tahmin süreci:
B-spline taban fonksiyonlarını, parametrik ve parametrik ol-
mayan gibi bir kısma ayıramadığımız için regresyon katsayılarına
uygulanan ceza açık değildir. Bu nedenle genel olarak pürüzsüz bir
fonksiyon istediğimiz için aşağıdaki cezayı kullanabiliriz:
× E ′′ 5
B-splaynlar için bu ceza terimi eşdeğer olarak,

9
× E ′′ 5 = × Ã OΔ• ~ P
D
~ •Ÿ
biçiminde oluşturulabilir. Böylece, B-splayn yaklaşımına göre

bilinmeyen smooth fonksiyonun tahmini, aşağıdaki cezalı kareler
toplamını (penalized sum of squares-bRR) minimum yaparak elde
edilir:
D
9 9
bRR = Ã ® −Ã ~ V~ # + × Ã OΔ• ~ P 3.26

• D
~ ~ •Ÿ
Burada Δ• yinelemeli olarak tanımlanan x’inci sıra farkıdır. B-

splayn katsayıları üzerindeki bu farklılıklar aşağıdaki gibi tanımla-
nır:
∆ ~ = ~ − ~f
75
∆D ~ = ∆ O∆ ~P= ∆ ~ − ∆ ~f = ~ − ~f − ~f − ~fD
= ~ − 2 ~f + ~fD
⋮
Δ• ~ = ∆•f ~ − Δ•f ~f (3.26a)
Belirtmek gerekirse (3.26) denkleminde x = 0 için B-Splayna
dayalı ridge regresyon elde edilir. Aynı denklemde × = 0 için sıra-
edilir ve × > 0 için ceza sadece B-Splaynın üst üste gelme kısıtı-
dan en küçük kareler regresyonunun minimizasyon denklemi elde
dan kaynaklanan bant yapılı sistemin alt-diagonalı ve ana köşegeni

etkiler. Eşitlik (3.26a)’da Ceza matrisi aşağıdaki kod yardımıyla
elde edilebilir:
P <- function(order = 2, k = 7) {
D <- diag(k)
for(i in 1:order)
D <- diff(D)
K <- crossprod(D, D)
return(K)
}
Daha sonra yedi düğümlü birinci dereceden fark matrisi şu şekilde
1 −1 0 0 0 0 0
verilir (## Order 1 penalty):
⎡−1 2 −1 0 0 0 0⎤
⎢ 0 −1 2 −1 0 0 0 ⎥⎥
⎢
%=⎢ 0 0 −1 2 −1 0 0⎥
⎢ 0 0 0 −1 2 −1 0⎥
⎢ 0 0 0 0 −1 2 −1⎥
⎣ 0 0 0 0 0 −1 1 ⎦
Eşitlik (3.26) denklemi matris ve vektör formunda aşağıdaki

gibi yeniden yazılabilir:
76
bRR = Ö − &ý k
Ö − &ý + ×‖%ý‖D 3.27
Burada ‖. ‖ Öklid normunu gösterir, Ö = ,…, ′ bir × 1
boyutlu yanıt vektörü, &, Eşitlik (3.25) ile tanımlanan ve B-
× 5 -boyutlu bir matris (yani, ) ve ayrıca,
ý= , … , 9 k B-splayn fonksiyonun parametre vektörü, × > 0
splaynları içeren
düzeltme parametresi ve %, eşitlik (3.26a) tanımlan ∆• fark ope-

ratörünün matris notasyonunu gösterir. Verilen bir λ > 0 düzeltme
parametresi için (3.27)’nin çözümü veren ý vektörünün B-saplayna
þ ˆ( = !&k & + λ%k %#f &k Ö = !

dayalı kestircisi,
ý k
+ λ%k %#f k
Ö (3.28)
olarak elde edilir. Böylece, bilinmeyen pürüzsüz (smooth) regres-
þ ˆ( = ` 0
þ ˆ( = ý
Ó0ˆ( = &ý ,…, 0
yon fonksiyonun tahmin vektörü aşağıdaki gibi tanımlanır:
a′ (3.29)
Eşitlikler (3.28-3.29) görünen o ki yanıt gözlemlerinin uyum vek-
þ ˆ( = !
Ö$ = Ó0ˆ( = ý
törü ağıdaki gibi elde edilir:
k
+ λ%k %#f k
Ö= ˆ( λ Ö (3.30)
Burada ˆ( λ = ! k
+ λ%k %#f k
, B-splayn için şapka ya da
düzeltme matrisidir.
Örnek 3.8 (Motosiklet verisi): Bu örnek için motosiklet ka-
zası verileri dikkate alınmıştır:
data("mcycle", package = "MASS")

par(mar = c(4.1, 4.1, 0.1, 0.1))
plot(mcycle)
Motosiklet verileri 133 gözlem yani , , = 1, … ,133

veriye dayalı olarak yapılmaktadır. Burada belirtmek gerekirse
’ler çarpışmadan sonra milisaniye cinsinden kaydedilen süreler
(x=times) ve ’lerde g cinsinden çarpma anındaki hızlardaki de-
ğişimi yani, ivmeleri (y=accel) göstermektedir.
77
Şekil 3.10: B-splayn regresyonu ile motosiklet kazası verilerinin tahmini
Tahmin edilen pürüzsüz fonksiyon doğrusal olmayan ilişki-

ye oldukça iyi yaklaştırıyor, ancak yine de budanmış polinom
eğrilerinde olduğu gibi, küçük zaman değerleri için biraz daha
iyileştirme yapılabilir, çünkü fonksiyon kıvrımı mükemmel bir
şekilde modelleyemiyor. Diğer yandan, pürüzsüz fonksiyonun
tahmini serbestlik derecesi 12.15, budanmış polinom tabanıyla
basit ağ aramasını çalışırken aslında hemen hemen aynıdır (bkz.
Şekil 3.10).
Örnek 3.9 (Prestij veri seti): Örnek 3.7’de verilen değişken-
leri dikkate aldığımızı varsayalım. Bu değişkenler arasındaki ilişki
B-Splayn regresyonu ile tahmin etmek için düzeltme parametre-
sinin farklı iki seçim kriteri ile elde edildi ve sonuçlar aşağıda veri-
len Şekil 3.11’de görüntülenmiştir.
78
Şekil 3.11: GCV ve CV ile seçilen düzeltme parametresine dayalı B-

splayn regresyonu ile motosiklet kazası verilerinin tahminleri ve bazı
performans göstergeleri
Şekil 3.11’de görüldüğü gibi, CV kriteri ile seçilen düzeltme

parametresi kullanıldığında, B-splayn tahmininin küçük MSE de-
ğerlerine sahip olması nedeniyle iyi performansı gösterdiği söyle-
nebilir. Burada belirtmek gerekirse bu kısımda sabit düğüm sayısı
ile GCV ve CV gibi iki seçim kriteri dikkate alınmıştır. Oysaki
farklı durumlar dikkate alınabilir. Bu bağlamda, Bölüm 5’te bu
konu ile ilgili hem düğüm sayılarının farklı seçimleri hem de farklı
düzeltme parametresi seçim kriterlerine göre B-Splayn tahminleri
dikkate alınmıştır. İlgili okuyucuların bu bölümü incelemesi öne-
rilmektedir.
79
3.6. Cezalı Splayn Regresyonu

Parametrik olmayan regresyonda alternatif yaklaşımlardan bi-
ri de cezalı splayn regresyonu ya da cezalı splayn düzeltme olarak
bilinen bir yaklaşımdır. Burada amaç polinom parça sayısını
azaltmanın yanı sıra, bir pürüzlülük cezası ekleyerek tahminin
varyansı kontrol altına almaktır. Örneğin, splayn düzeltme yönte-
< D < ⋯ < • gibi düğüm nokta-

minde olduğu gibi, her bir noktasında bir düğüm koymak yerine,
bu yöntemde daha az sayıda
görüldüğü gibi « sayıda düğüm noktası içeren x. dereceden bir

ları kullanılabilir. Özel olarak aşağıda verilen regresyon modelinde
budanmış splayn fonksiyonu (budanmış üstel taban fonksiyonu) ile

bilinmeyen fonksiyonu tahmin edilebilir:
•
=) = + + ⋯+ +Ã − • Ÿ* + 3.31
• •
• ‹
‹
Burada x, splayn regresyonu için kullanılan polinomum derecesi

(genellikle önceden seçilir), , , … , • , • , … . , •• regresyon
Ÿ ≡ max 0, , herhangi bir ∈ ℝ pozitif
sayısı ve ‹ , > = 1, … , « , genellikle ′lerin çeyrekliklerine (kan-
katsayıları dizisi,
ayarlanmış düğüm noktalarıdır. Eşitlik (3.31)’de x yerine kullanı-

tillerine) göre yaklaşık olarak eşit aralıklı olarak alınan önceden
lan sayılara göre farklı derceden cezalı splayn polinomları kullanı-

larak bilinmeyen regresyon fonksiyonu tahmin edilebilir.
3.6.1. Budanmış üstel tabanlı basit doğrusal splayn

Eşitlik (3.31)’de x = 1 alınırsa 1. dereceden > = 1, … , «
= + + ∑• − • Ÿ.
düğümlü budanmış üstel tabanlı bir polinom fonksiyon elde edilir:
‹ ‹
. fonksiyonu, (1.2) modelinde yerine yazılacak olursa paramet-
Elde edilen bu
rik olmayan regresyon modeli,
80
=+ = + +Ã ‹ − ‹ Ÿ, + 3.32
‹
olarak yeniden yazılabilir.

Eşitlik (3.32)’deki . fonksiyonunun , , , … , • bi-
linmeyen katsayıları, bu yöntemin doğası gereğince aşağıda verilen
cezalı kareler toplamını minimum yapan değerler olarak seçilir:
•
B )Ã − D
+×Ã D
‹ * 3.33
‹
Bu denklem, × ≥ 0 düzeltme parametreli cezalı en küçük kareler
3.32 denklemini matris formunda yazmak matematiksel işlem-

(penalized least squares) olarak bilinir. Belirtmek gerekirse
ler açısından oldukça kolaylık sağlayacaktır. Bu durumda para-

metrik olmayan regresyon modeli matris formunda aşağıdaki gibi
Ö= ý+-
yazılabilir.
(3.34)
Burada Ö = , D, … , ′, × 1 boyutlu yanıt vektörü (ba-
ý= , , , … , • ′, « + 2 boyutlu tahmin edilecek katsa-

ğımlı değişkenin aldığı gözlem değerler),
yılar vektörü, - = , D, … , ′, rasgele hataların × 1 boyut-

lu vektörü ve , aşağıda tanımlan × x G@A=5= x = « +
2 boyutlu açıklayıcı değişken tarafından tanımlan tasarım matri-
sidir:
1 − ⋯ − •
D− ⋯ D−
= .1 /
D •
⋮ ⋮ ⋮ ⋯ ⋮
1 − ⋯ − •
Temel amaç, ý katsayılar vektörünü tahmin etmektir. Bu katsayı-

ların tahminini sağlayan en küçük kareler denklemi,
‖Ö − ý‖D = Ö − ý ′ Ö − ý (3.35)
81
ifadesini mimimize eden ý þ= , , , … , • ′ vektörü olarak

tanımlanır. Ancak burada belirtmek gerekirse ‹ = ,…, • ′
katsayıları için böyle bir kısıtsız tahmin oynak bir uyuma yol açar.
‹ üzerine
∑ D‹ < şeklinde bir kısıt koymak gerekir. Burada > 0 her-
Bu durumla baş edebilmek için (3.33)’teki gibi,
hangi bir sayıdır. Bu sayının uygun seçimi daha pürüzsüz (smooth)

bir eğriye yol açar.
üzerine bir kısıt konmaktadır. Bu durumda, ý þ vektörü ile uyumlu

Eşitlik (3.33)’ten anlaşıldığı gibi sadece, budanmış katsayılar
aşağıdaki gibi bir « + 2 × « + 2 boyutlu D matrisi,
tanımlanırsa o zaman (3.33) minimizasyon problemi,

B ‖Ö − ý‖D , ý′%ý < >Î?ÎÜÎ¶Î
gösteriyor ki bu cezalı kareler toplamı verilen bir × ≥ 0 düzletme

olarak tanımlanır. Bir Lagrange çarpanı argümanının kullanılması
ý vektörünün seçimine eşdeğerdir:

parametresi için aşağıdaki cezalı kareler toplamını minimum yapan
B ‖Ö − ý‖D + × ý′%ý (3.36)

Yukardaki denkleminin açılımı,
RR ý = ‖Ö − ý‖D + × ýk %ý = Ö − ý ′ Ö − ý + × ýk %ý
= Ö k Ö − Ö k ý − ýk k
Ö + ýk k
ý + × ýk %ý
= Ö k Ö − 2ý k Ö + ýk k
ý + × ýk %ý
olarak bulunur. Burada Ö k ý ve ýk k Ö (ayrıca, Ö k Ö ve ýk k ý)
terimlerinin skaler olduğu gerçeğinden yararlanıyoruz. Böylece,
82
ýk k Ö k = Ö k ý eşit olur. RR ý 'nın, ýk ya göre birinci türevleri-

ni sıfıra eşitleyerek (3.36) denklemini minimize ederiz:
RR ý
= −2 k Ö + 2ý k
+ ×2ý% = 0
ý
elde edilir. Gerekli cebirsel işlemler yaptıktan sonra cezalı en kü-
çük karelerin normal denklemleri,
ý k
+ ×% = k
Ö 3.37
elde edilir. Burada ý yerine ýþ alınarak (3.37) denkleminin çözü-
þ =
mü aşağıdaki şekilde bulunur:
ý k
+ ×% f k
Ö
þ vektörü, cezalı en küçük kareler kestiricisi olarak bilinir.
(3.38)
Bu ý
Böylece, en küçük kareler uyumuna benzer olarak cezalı en küçük
þ=
kareler yöntemiyle elde edilen uyum değerleri vektörü,
Ö$ = ý k
+ ×% f k
Ö= Ö
Burada = k
+ ×% f k , × boyutlu düzeltme matrisi
olarak bilinir. Uyum değerleri vektörü aynı zamanda (3.33) denk-
leminin çözümü olan şu tahmin edilen fonksiyonu sağlar:
•
$ = 0Ô = 0 + 0 +Ã 0 = T 0Ô , … . , 0Ô
k
‹ − ‹ Ÿ U 3.39
‹
Bu bölümde tahmin edilen regresyon modellerinin her biri sürekli

ve parçalı doğrusal fonksiyonlardır. Daha esnek uyumlar elde ede-
üstesinden gelebilmek için en basit bir yol, tabana D eklemek ve

bilmek için parçalı doğrusallıktan ayrılmak gerekir. Bu durumun
− ‹ Ÿ budanmış kısmı bunun karesiyle yani,

− ‹ Ÿ ile değiştirmek gerekir. Bu durumda,
D
ayrıca her bir
1, , − ‹ Ÿ, … , − • Ÿ
> = 1, … , « düğümlü doğrusal splayn tabanları yerine aşağıda

verilen yine , … , • düğümlü fakat kuadratik (ikinci dereceden)
splayn tabanları dikkate alınır:
83
1, , D
, − Ÿ, … ,
D
− D
• Ÿ
Bu genellikle estetik açıdan daha çekici bir uyumla sonuçlanacak-

tır. Kuadratik splayn taban fonksiyonlarını kullanmanın bir başka
avantajı, dağılım grafiğinde tepe ve inişleri uydurmada daha iyi bir
splaynlar cezalı en küçük karelere tahmin edilirken 1, ‘™ D nin

iş yapma eğiliminde olmasıdır. Diğer yandan, ikinci dereceden
cezalandırılır. Aşağıda görüldüğü gibi 0′in i'inci satırı,

katsayıları cezalandırılmaz sadece budanmış kısmın katsayıları
01 = !1 D
− D
Ÿ ⋯ − • Ÿ#
D
2 = 5= Ý 0, 0, 0, 1, … ,1 biçiminde olur. Böylece, (1.2) modelin-

şeklinde ifade edilen taban fonksiyonları ise o zaman ceza matrisi
de bilinmeyen . fonksiyonu aşağıda verilen budanmış üstel

tabanlı kuadratik splayn fonksiyonu ile yaklaştırılabilir:
•
= + +⋯+ •
D
+Ã •‹ − D
• Ÿ = 0ý
‹
Buradan hareketle, daha genel dereceli bir splayn fonksiyonu ile
rın kullanımıyla, x.dereceden budanmış üstel taban olarak bilinen

yaklaştırma yapılabilir. Bu bağlamda, budanmış üstel fonksiyonla-
taban fonsiyonları kullanılabilir. Bu durum izleyen kısımda ele

alınmıştır.
3.6.2. Budanmış üstel tabanlı p. dereceden splayn

Eşitlik (3.31)’de verilen regresyon modelini dikkate aldığımı-
Ö= ý+-
zı varsayalım. Bu model, matris ve vektör formunda,
3.40
biçiminde ifade edilir. Burada matrisi ve ý vektörünün ele-
manları,
84
1 ⋯ − ⋯ −
• • •
⎡ • ⎤
⋯
= ⎢⎢1
•⎥
⋯ D− D−
• •
⎥ ve
D D •
⋮ ⋯ ⋮
⎢⋮ ⋯ ⋮ ⋮ ⎥
⎣1 ⋯ •
− • ⋯ − •
•
⎦
ý=O , ,…, •, • ,..., •• P
k
cezalı en küçük kareler yöntemine dayalı ý parametreler vektörünü

biçiminde tanımlanır. Böylece, (3.36) denklemini minimum yapan
tahmini aşağıdaki gibi elde edilir:

þ 3( =
ý k
+ ×% f k
Ö 3.41
Burada ×, pozitif değer alan bir düzeltme parametresi ve % ceza
matrisi, doğrusal splayndakine benzer olarak,
0 … 0 0 … 0
⎡⋮ ⋱ ⋮ ⋮ ⋱ ⋮⎤
⎢ ⎥
% = ⎢0 … 0 0 … 0 ⎥ = Z4 •Ÿ × •Ÿ 4 •Ÿ ×•
[ , B =«+x+1
⎢0 … 0 1 … 0⎥ 4•× •Ÿ 5•×•
⎢⋮ ⋱ ⋮ ⋮ ⋱ ⋮⎥
}×}
⎣0 … 0 0 ⋯ 1⎦
şeklinde elde edilir. Böylece, bu modelin cezalı en küçük kareler

yöntemiyle elde edilen uyum değerleri vektörü şu şekilde tahmin
edilir:
þ 3( =
Ö$ = ý k
+ ×% f k
Ö= 3( Ö (3.42)
Burada 3( = k
+ ×% f k , × boyutlu düzeltme mat-
risi olarak bilinir. Uyum değerleri vektörü aynı zamanda (3.31)
modelindeki bilinmeyen fonksiyona çözüm sağlar:
þ
•
$ = 0Ô = 0 + 0 + ⋯ + 0•$ + Ã 0•$‹ − ̂‹
•$ •$
Ÿ
‹
k
= T 0Ô , … . , 0Ô þ
U = 0ý
85
þ sabitleri sırasıyla x, «, ve ý
þ , ̂ ve ý
Böyle bir yaklaştırmada x̂ , «
bilinmeyen parametrelerin tahminleridir Ayrıca 0 matrisinin i’inci
satırı aşağıdaki biçimde tanımlanabilir:
01 = `1, , D
,…, •
, − •
Ÿ ,⋯, − • Ÿa
•
Burada görüldüğü gibi, ý parametrelerinin tahminin yanı sıra, poli-

nomun derecesi (x) düğümlerin yeri ( ) ve düğümlerin sayısını («)
seçmek gerekir. Bu işlemi gerçekleştirmek için iki genel strateji
rek sıradan en küçük kareler ile ý parametrelerinin tahmin etmek.

vardır. Birinci strateji, oldukça az sayıda düğüm noktalarını seçe-
ji ise oldukça çok sayıda düğüm noktası kullanmaktır. Ancak, ý

Bu stratejide düğümlerin seçimi son derece önemlidir. İkinci strate-
parametrelerinin tahmini için sıradan en küçük kareler kullanılmaz.

Bu durumda örneğin yukarda anlatılan cezalı en küçük kareler gibi
strateji için düğümlerin seçiminin önemi daha azdır. Önemli olan ý

bir yöntemi kullanarak gerekir. Birinci stratejinin tersine, ikici
parametrelerinin nasıl tahmin edileceğidir.

Örnek 3.10 (Motosiklet verisi): Bu örnekte yukarıda anlatı-
lan budanmış üstel tabanlı doğrusal ve kuadratik splayn fonksiyon-
ları ile yaklaştırılan regresyon fonksiyonundan elde edilen uyum
eğrileri, bu eğrilerin elde edilmesinde kullanılan ve GCV kriteri ile
seçilen düzeltme parametrelerinin değerleri ve düzeltme matrisleri-
nin izinden elde edilen serbestlik dereceleri aşağıdaki Şekil 3.12’de
verilmiştir. Her iki splayn ile oldukça iyi uyumlar elde edikleri
görülmektedir.
86
Şekil 3.12: (a) Budanmış üstel tabanlı doğrusal splayn fonksiyonlarına

ve (b) ikinci dereceden budamış üstel tabanlı splayn fonksiyonlarına
dayalı olarak motosiklet verilerine cezalı splayn regresyonu uyumları.
Her iki durumda da on bir eşit aralıklı düğüm kullanılır.
3.7. Splayn Düzeltme (Smoothing Spline)

Önceki bölümde düğümler ve bir dizi taban fonksiyon belirle-
yerek bilinmeyen regresyon fonksiyonunun nasıl tahmin edildiğini
inceledik. Burada, maksimum bir düğüm kümesi kullanarak düğüm
seçimi sorununu tamamen ortadan kaldıran eğri tabanlı bir yöntemi
tartışıyoruz. Çok sayıda düğüm kullanımı, eğrilerinin özelliklerini
gereğinden fazla kullanacağı için daha düşük bir hata kareler orta-
lamasına yol açan tahminler ortaya koyar. Splayn düzeltme, mate-
matiksel olarak daha zordur, ancak aynı zamanda daha pürüzsüz ve
esnektir. Ayrıca yukarda belirtildiği gibi, düğüm sayısının seçilme-
sini gerektirmez, sadece dalgalanmaları veya model fonksiyonunun
pürüzlülüğünü ve varyansını kontrol eden bir pürüzlülük cezasının
diğer önemli şey de 6 ′nin her tek değeri için ( 6 ′nin farklı ve sıralı
seçilmesini gerektirir. Splayn düzeltmede hatırlanması gereken bir
87
değerleri küçükden büyüğe doğru sıralanır) bir düğüme sahip ol-

malarıdır.
. fonksiyonunu tahmin etmektir. Bu bağlamda, en popüler yön-

Parametrik olmayan regresyonda amaç bilinmeyen gerçek
fonksiyonu, 0 = = + G şeklinde tahmin edilir. Sırasıyla,

temlerden biri doğrusal regresyonudur. Doğrusal regresyonda
= ve G sabit ve eğim kestiricileri, = + G şeklindeki tüm fonksi-

yonlar arasında aşağıda verilen hata kareler toplamını minimum
yaparak elde edilir:
RRS = Ã − D
=Ã − =+G D
Dikkate alınan gözlem verileri için . fonksiyonu yaklaşık ola-

rak doğrusalsa bu yaklaşım etkin olabilir. Doğrusal değilse sabit
eğim koşulu bozulur ve bu durumda doğrusal regresyon uygun
sonuçlar vermez. Bu nedenle, veri uydurmada başarılı olabilmek
. fonksiyonları
için, doğrusal regresyon modelinde öne sürülen tahmin koşulları
değiştirmeli ve tasarımlarda değişen eğimli
üzerinde hata kareler toplamının minimizasyonunu dikkate alın-
malıdır.
Değişen eğimli bir problem, parametrik regresyon problemi
ile kıyaslandığında daha zor ve karmaşıktır. Böyle bir problem,
laylaştırılabilir. Örneğin, birinci ve ikinci türevleri !=, G# aralığı

dikkate alınacak fonksiyonlar sınıfını belirtilerek biraz da olsa ko-
. fonksiyonlarının oluşturduğu
D
!=, G# kümesinde (uzayında) hata fonksiyonunun minimizasyo-
üzerinde sürekli olan bütün
nu dikkate alınabilir. Bununla birlikte, doğal kübik splaynların adı

geçen fonksiyonlar sınıfında minimumu gerçekleştirmesi, paramet-
rik olarak ifade edilemeyen problemi bir anlamda parametrik hâle
getirilmiş olur. Bu durumda sonsuz boyutlu problemin sonlu bo-
yutlu bir probleme indirgenmesiyle çözümün bulunması yeterince
kolaylaşır.
88
3.7.1. Cezalı En Küçük Kareler Yaklaşımı

Değişen eğimli problemlerin çözümünde kullanılan bu yakla-
şımı açıklayabilmek için (1.2)’de verilen parametrik olmayan reg-
resyon modelini dikkate aldığımızı varsayalım:
= + , =< <. . . < < G, ~å 0, h D (3.43)
Burada, ∈ D !=, G# ikinci dereceden sürekli !=, G# aralığında
nin esası, ∈ D !=, G# uzayındaki tüm fonksiyonları arasında,

bilinmeyen bir pürüzsüz fonksiyondur. Splayn düzeltme yöntemi-
R ,× = 7 − + × 4e 5
D d 8 D
(3.44)
eşitliği ile belirtilen R “cezalı en küçük kareler kriterini” mini-
0 tahmin eğrisi D !=, G# uzayının fonksiyonları arasında R

mum yapmaktır. Diğer bir ifadeyle, splayn düzeltme kestiricisi olan
ce-
zalı kriterini minimum yapan eğri olarak tanımlanır.
Eşitlik (3.44) ifadesindeki ilk terim, hata kareler toplamını
(RSS) gösterir ve bu ifade uyumdan yoksunluğu cezalandırır. Di-
ğer bir deyişle, uyumun verilere yakınlığını ölçer. İkinci terim pü-
rüzlülük (PS) cezasını gösterir ve bu pürüzlülüğe bir ceza yükler.
terde yer alan × ise birinci bölümde de açıklandığı gibi düzeltme

Başka bir deyişle, fonksiyondaki eğriliği cezalandırır. Cezalı kri-
parametresini belirtir ve bu parametre 4e 5 ile ölçüm-

d 8 D
lenen eğrinin pürüzlülüğü ve 7 − D
verilere uyumunu dengeler. Ayrıca, × parametresi 0’dan +’a de-

ile ölçümlenen
Eğer × = ∞ alınırsa o zaman (3.44) denklemi sabit eğimli doğru-

ğişirken çözüm interpolasyondan basit bir doğrusal modele değişir.
×=0
( üzerinde kısıt yok ) alınırsa tümüyle esnek eğimli bir interpo-
sal regresyon uyumu üretir, buna karşılık
lasyon uyumuna karşı gelir.
adlandırılır ve , . . . ,
Problem (3.44) için çözüm splayn düzeltme kestiricisi olarak
düğümleri ile bir “doğal kübik splayn”
89
olarak bilinir. İzleyen bölümde 0 ’in nasıl elde edildiği gösterile-

cektir.
y = f (x)
h1 hi hi+1 hn-1
a x1 x2 ... xi xi+1 xi+2 … xn-1 xn b x
kübik parçalar, ℎ = Ÿ − , i’inci aralığın uzunluğu

ve , = 1, … , düğüm noktaları olmak üzere bir doğal kübik splayn
Şekil 3.13:
fonksiyonun grafiği
3.7.2. Splayn Düzeltmeye Dayalı Tahmin

Varsayalım fonksiyonu <⋯< düğümlü doğal kü-
bik splayn olsun. Her bir düğüm noktasında fonksiyonun kendisi
ve ikinci türevini vererek tümüyle eğrisini belirten aşağıdaki gibi
doğal kübik splayn vektörleri elde edebilir:
= ,…, ′= ,…, ′=Ó
ve
kk
= O ′′ D , … , ′′ f P′ = <D , … , < f
k
==
90
Ancak belirtmek gerekirse, tüm olası Ó ve = vektörleri doğal kübik

splayn eğrilerini temsil etmezler. Bu anlamda, Green ve Silverman
(1994) tarafından tartışılan aşağıdaki teorem, vektörlerin verilen
düğüm noktalarında bir doğal kübik splayn olması için bir koşul
sağlar.
Teorem 3.1 (Green ve Silverman, 1994): Ó ve = vektörleri,
aşağıdaki koşulu sağlaması durumunda, fonksiyonu bir doğal
kübik splayn belirtir:
Qk Ó = R= (3.45)
Denklem (3.45) sağlanırsa (3.44)’teki pürüzlülük cezası terimi,
4e 5 = =k R= = Ó′@Ó
d kk D
(3.46)
ifadesine eşdeğer olacaktır.

Eşitlik (3.46)’da verilen @, aşağıdaki biçimde ayrıştırılabilen
× boyutlu simetrik pozitif tanımlı bir ceza matrisidir:
@ = ABf Ak 3.46=
Burada A, elemanları aşağıdaki gibi belirlenen üç-köşegenli
× − 2 boyutlu bir matristir:
A = 1/ℎ , A , Ÿ =T + UC, ŸD = 1/ℎ Ÿ

€ ¹ €¹©ª
Aynı biçimde, B elemanları şu biçimde belirlenen üç köşegenli

− 2 × − 2 boyutlu simetrik bir matristir:
B f , =B , f = ℎ /6, B = ℎ + ℎ Ÿ /3
ve ℎ = Ÿ − ardışık düğüm noktaları arasındaki uzaklığı gös-
terir. Burada belirtmek gerekirse B A ~ ve A D ~ bant matrisleri-
nin elemanları ise aşağıdaki gibi hesaplanır:
91
⎧¾ ℎ~f = • − 1,
⎪ Oℎ + ℎ~ P , = •,
A~ = q ~f
= 2,3, . . . , − 1 ve • = 2,3, . . . , − 1 (3.46a)
⎨ 0, | −•| ≥ 2
⎪
⎩ ¾ ℎ~ , =•+1
ve
⎧ €‰Eª , = • − 1,
⎪
⎪
− X€ + € Y , = • ,
D~ = = 1,2, . . . , ve • = 2,3, . . . , − 1 (3.46c)
⎨ 0,
‰Eª ‰
| −•| ≥ 2
⎪
⎪ , =•+1
⎩ €‰
Eşitlik (3.46a) denkleminde belirtilen B ve A matrislerinin

açık bir şekilde gösterilişi aşağıdaki şeklide yazılır:
1 1
⎡ ℎ + ℎD ℎ 0 . . . 0 ⎤
⎢3 6 D ⎥
1 1 1
⎢ ℎ ℎ + ℎq ℎ 0 . . . ⎥
⎢ 6 D 3 D 6 q ⎥
⎢ 1 1 1 ⎥
0 ℎ ℎ +ℎ ℎ 0 . .
F=⎢ . 6.q 3 q. ¨ 6.¨ . . .
⎥
⎢ ⎥
⎢ . . . . . . 0 ⎥
⎢ 1 1 1 ⎥
. . . 0 ℎ ℎ +ℎ ℎ
⎢ 6 fq
3 fq fD
6 fD
⎥
⎢ 1 1 ⎥
⎣ 0 . . . 0 ℎ ℎ +ℎ ⎦
6 fD
3 fD f
1 1 1 1
⎡ − + 0 . . . . 0 ⎤
⎢ℎ ℎ ℎD ℎD ⎥
⎢ 1 1 1 1 ⎥
⎢0 ℎD
− +
ℎD ℎq ℎq
0 . . . . ⎥
⎢ . . . . . . . . . ⎥
G3 = ⎢ . . . . . . . . . ⎥
⎢ . . . . . . . . . ⎥
⎢ 1 1 1 1 ⎥
⎢ . . . . 0 − + 0 ⎥
⎢ ℎ fq ℎ fq ℎ fD ℎ fD ⎥
⎢0 1 1 1 1 ⎥
. . . 0 0 − +
⎣ ℎ fD ℎ fD ℎ f ℎ f ⎦
Buradan anlaşıldığı gibi, B ve A matrisleri üç köşegen (tridi-

agonal) matrislerdir.
Teorem 3.1'in yararlı bir cebirsel sonucu, (3.44)'teki ceza te-
riminin karesel bir form olarak yazılabilmesidir. Bu durumunda
92
(3.44) kriteri, matris ve vektör formunda aşağıdaki gibi yeniden

yazılabilir:
R Ó, × = ‖Ö − Ó‖DD + ×Ó k @Ó (3.47)
Burada Ö = ,..., k
yanıt vektörüdür. Verilen × > 0 paramet-
resi için (3.47) denklemi aşağıdaki gibi yazılabilir:
R Ó, × = Ö − Ó k
Ö − Ó + ×Ó k @Ó
= Ö k Ö − Ö k Ó − Ó k Ö + Ó k Ó + ×Ó k @Ó
= Ö′Ö − 2ÖÓ + Ó k 5 + ×@ Ó
Bu ifadenin Ó′e göre alınıp sıfıra eşitlenecek olursa
R Ó, ×
= −2Ö + 2Ó 5 + ×@ = 0
Ó
eşiliği elde edilir. Ayrıca bu denklemde Ó ile Ó0Ô yer değiştrilerek
Ó0Ô 5 + ×@ = Ö
aşağıdaki denklem sistemi elde edilir:
Böylece, yukarıdaki denklemin her iki yanı 5 + ×@ f terimi ile

(3.48)
Ó0Ô = 5 + ×@
çarpılarak, saplayn düzeltmeye dayalı çözüm elde edilir:
f
Ö
Bu eşitlik ile belirlenen Ó0Ô splayn düzeltme kestiricisi, (3.44) veya
(3.49)
(3.47)’de verilen R , × cezalı kriterlerini minimum yapan bir

fonksiyondur. Eşitlik (3.49)’da görülen 5 + ×@ f matrisi, dü-
× > 0 düzeltme parametresi için j = ,...,

zeltme matrisi olarak adlandırılır ve bu matris, sadece verilen bir
düğüm noktaları
×
vektörü ile belirlenir. Böylece y değerlerini f vektörüne görüntü-
= 5 + ×@
leyen boyutlu düzeltme matrisi,
f
Ô
eşiliği ile tanımlanır. Ó0Ô = ! 0Ô , . . . , 0Ô

(3.50)
#′ splayn düzeltme
kestiricisi, (3.50)’de verilen düzeltme matrisinin yardımıyla
93
Ö= ,..., vektörünün bir doğrusal dönüşümü olarak da ta-

nımlanabilir:
0Ô
⎛ 0Ô D ⎞ ⎛ .⎞
D
Ó0 = ⎜ . ⎟ = ya da, Ó0Ô =
⎜ ⎜
⎜ .⎟ Ô Ö.
⎜ . ⎟
⎟ ⎟
Ô ×
.
(3.51)
.
⎝ 0Ô ⎠ ⎝ ⎠ ×
×
Burada Ó0Ô , × > 0 sabit düzeltme parametresi için , . . . ,

düğümlü doğal kübik splayn ve Ô , (3.50)’de verilen × değerine
bağlı bilinen pozitif tanımlı bir düzeltme matrisidir. Splayn dü-
zeltme fonksiyonu ’e ait gözlem değerlerine uygun olan bir doğal
kübik splayndır.
3.7.3. Tahmin süreci için özel bir durum

Onceki bölümde, , = 1, . . . , , düğüm noktalarının farklı
ve sıralı olduğunu varsayıldı. Bu bölümde ele alınan değişkenin
değerleri yani noktaları farklı ve sıralı olmayabilir. Bu durumu
H − tekrarlanma matrisi (incidence matrix):

izleyen kısımda detaylı olarak açıklanmıştır.
Parametrik olmayan açıklayıcı değişkenin , . . . ,

noktalarının (gözlem değereleri) farklı ve sıralı değerleri ? , . . . , ?
düğüm
ile gösterilsin. , . . . , ve ? , . . . , ? arasındaki bağlantı, = ?~

ise å ~ = 1, değilse 0 girişli olan bir × D boyutlu gözlem de-
ğerlerinin å tekrarlanma matrisi (incidence matrix) yardımıyla
gerçekleştirilir. å-matrisinin satırları
?~ düğümlerine uygun olarak belirlenir:
düğümlerine, sütunları ise
zª ⋯ zM
IJJJJKJJJJL
⋯
1, = ?~ ?™
⋮
å= Ê ⋮ ⋱ ⋮ Ë = å~ = X Y
… 0, 5 ğ™A 5@A@B¶=A5=
94
å-tekrarlanma matrisinin her satırında ancak bir elaman 1, kalanla-

rı ise 0’dır. Sütunlarda ise birkaç elaman 1 olabilir. Ayrıca, dü-
dan da D ≥ 2 olduğu sonucu çıkar.

ğüm noktalarının hepsinin aynı (yani, özdeş) olmadığı varsayımın-
Minimumun karakterizasyonu ve düzeltme matrisi:

Varsayalım =~ = ?~ değerlerin vektörü Ó olsun. Yani,
O= , . . . , = P = T ? , . . . , O? PU = Ó olsun. Bu durumda (4.5)
cezalı kareler toplamı, matris ve vektör formunda,
bNR Ó = Ö − åÓ k
Ö − åÓ + ×4 8 D
5 3.51=
olarak yazılabilir. Kavramsal olarak R Ó ifadesinin minimum
problemi iki adımda dikkate alınabilir: Önce =~ = O?~ P, • =
1,2, … , D ifadesine bağlı minimum ve daha sonra ardındanda sonu-
cu Ó’nın seçimi göre minimum yapılır.
<. . . <
= = , = 1, . . . , noktalarını veren
Belirtmek gerekirse koşulunu (sıralı) sağlayan
interpolasyonuna bağlı, 4 8 D
5 fonksiyonunun minimum
ve fonksiyonunun
eğrisi; B, A bant matrisleri ve

problemi splayn düzeltme bölümünde tartışılmıştır. Hatırlandığı
@ = ABf Ak ceza matirisi yardımıyla elde edilen

gibi, bu minimumu sağlayan
ğal kübik splayndır. Ancak burada @ ceza matrisi, ,...,

düğümlü do-
ğüm noktaları ile yer değiştiren ? , . . . , ? düğüm noktaları yardı-

dü-
olduğu gibi @ matrisi, × boyutunda değil D × D olur. Ayrı-

mıyla hesaplanıdığı için parametrik olmayan regresyon modelinde
ca, Teorem 3.1 gösteriyor ki 4 8 D 5 fonksiyonunun minimum

değeri Ó 3 @ Ó. Böylece, (3.51a) cezalı kriteri,
bNR Ó = Ö − åÓ k
Ö − åÓ + ×Ó k K f (3.52)
şeklinde yeniden yazılabilir. Pürüzlülük ceza yaklaşımını olarak
adlandırılan cezalı en küçük karelerin esası geleneksel doğrusal
lere benzer olarak (3.52) denklemini minimum yapan Ó fonksiyo-

regresyon modelinin çözümünde kullanılan sıradan en küçük kare-
95
denkleminin Ó’e göre türevleri alınıp sıfıra eşitlenirse

nunun kestirimidir. Bunun için basit hesaplamalar yapılarak (3.52)
bNR , Ó
= Ö k Ö − Ö k å Ó − Ó k å k Ö + Ó k å k å + ×f 'K f
NÓ
= Ö k Ö − 2Ö k å Ó + Ó k å k åÓ + ×f 'K f
= −2å′Ö Ó + Ó D å k å + ×Ó D K=0
bulunur. Gerekli cebirsel işlemlerden sonra,
Ó å k å + ×K = å′Ö (3.53)
olarak elde edilir. Eşitlik (3.53)’dan ? <. . . < ? koşulunu sağla-
yan (yani, farklı ve sıralı) düğüm noktalarına karşı gelen gelen
uyum vektörü,
Ó0 = å k å + ×K f
å k Ö = 0 O?~ P, • = 1,2, … , D
ve böylece , . . . , düğüm noktaları için semiparametrik modelin
0 = OåÓ0P = å å k å + ×K
parametrik olmayan bileşenine karşı gelen uyum değerleri vektörü,
f
å k Ö = OÔ Ö
etmek için Ö vektörüne uygulanması gereken düzeltici ya da dü-

olarak tanımlanır. Böylece, bu uyum değerleri vektörünün elde
OÔ = å å k å + ×K
zeltme matrisi (smoothing matrix),
f
åk (3.54)
sıralıysa, å = – (birim matris) olması nedeniyle, OÔ düzeltme mat-

biçiminde elde edilir. Ayrıca, düğüm noktaları farklı ve önceden
risi, şu biçimine indirgenir:

OÔ = – + ×K f
(3.54a)
Bu matris (3.50)’de verilen matris eşdeğer matristir.
Örnek 3.11. Aşağıda verilen Şekil 3.14, tekrarlanma matrisi
(P) ile tekil değerleri de içeren bir tahmin sonucu sunulmuştur. Bu
tahmin 1971’de Kanada’da orta eğitim seviyesindeki erkeklerden
toplanan maaş ve yaş değişkenlerini içeren veriseti ile oluşturul-
96
muştur. Örneklem büyüklüğü = 205 düğüm sayısı ( ’in tekil

değer sayısı) ise D = 45’tir. Bu bağlamlda tahmin 205 × 45 boyut-
lu P matrisi yardımıyla gerçekleştirilmiştir. Tahmin Şekil 3.14
altında verilen kod ile elde edilebilir.
Şekil 3.14: Simülasyon verisi ve tahni edilen uyum eğrisi
obj <- sspline(x,0.01) #Bkz. Ek A20

S <- obj$S
fhat <- S%*%y
plot(x,y,pch=19,col="gray",ylab="log(wage)",xlab="
Age",main="Splayn Düzeltme Tahmini")
par(new=TRUE)
lines(x,fhat,lwd=2)
grid()
legend("topleft",legend=c("Veri noktaları","Splayn
eğrisi"),lty=c(NA,1),col=c("gray",1),pch=c(19,NA))
Not: R’de alternatif hesaplama:

Splayn düzeltme, bir açıklayıcı ve bir yanıt değişkenleri
arasındaki fonksiyonel ilişkileri tahmin etmek için güçlü bir yakla-
97
şımdır. Splaynlar, smooth.spline fonksiyonu (stats paketinde)

veya ss fonksiyonu (npreg paketinde) kullanılarak fit edilebilir. Bu
doküman, splayn düzeltme konusunda teorik arka planın yanı sıra
smooth.spline ve ss fonksiyonlarının nasıl kullanılacağını gösteren
örnekler sağlar. Bu metinde gösterdiğimiz gibi, iki fonksiyon çok
benzerdir, ancak ss fonksiyonu bazı ek seçenekler sunar.
Örnek 3.12 (Simülasyon verisi): Bu örnekte, doğal kübik
gösteriyoruz. Spesifik olarak = 100 boyutundaki bir örnek için,

splayn eğrilerini nasıl tahmin edildiğini simüle edilmiş verilerle
= ? 2¸ şeklinde ta-
açıklayıcı değişkeni [0,1] aralığında farklı ve sıralı olarak elde
= + , modelinden üretil-
edilmiştir. Bilinmeyen fonksiyon
miştir. Burada ~å 0, 0.5 dağılımından üretilmiştir. Yani, 0

nımlanmış ve yanıt değişkeni
ortalama ve 0.5 standart sapmalı normal dağılımdan üretilmiştir.
set.seed(1)
n <- 100
x <- seq(0, 1, length.out= n)
fx <- sin(2*pi*x)
# generate noisy data
y <- fx + rnorm(n, 0,sd = 0.5)
# fit using ss
mod.ss <- ss(x, y, nknots = 10)
mod.ss
# fit using smooth.spline
mod.smsp <- smooth.spline(x, y, nknots = 10)
mod.smsp
R ortamındaki ss fonksiyonu ve smooth.spline fonksi-

yonu kullanılarak elde edilen uyum sonuçları aşağıdaki Tablo ve
Şekil 3.14’te verilmiştir.
98
Fonksiyon Lamda DF RSS GCV RMSE

ss 8.520961e-06 7.029959 6.881791 0.07871255 0.0545369
smoothspline 0.0009552411 6.946441 6.904474 0.07883182 0.0544994
Şekil 3.15: Gerçek gözlem değerleri ve gerçek ’in grafiği ile ss ve

smooth.spline fonksiyonları yardımıyla bu fonksiyonun
tahmin eğrileri
Bu sonuçlar gösteriyor ki her iki fonksiyonda oldukça iyi so-

nuçlar vermektedir. Ayrıca, ss fonksiyonunun bazı ekstra özellikle-
ri ("grafik" ve "özet") içerir:
99
Call:
Residuals:
Min 1Q Median 3Q Max
-0.71220 -0.16465 0.00119 0.17462 0.63203
Approx. Signif. of Parametric Effects:

Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.03133 0.02694 1.163 0.2478
x -0.20988 0.17850 -1.176 0.2426
---
Approx. Signif. of Nonparametric Effects:
Df Sum Sq Mean Sq F value Pr(>F)
s(x) 5.03 18.656 3.70898 50.65 0 ***
Residuals 93.97 6.882 0.07323
---
Residual standard error: 0.2706 on 93.97 degrees of
freedom
Multiple R-squared: 0.8785, Adjusted R-squared:
0.8705
F-statistic: 110.9 on 6.03 and 93.97 DF, p-value:
<2e-16
Bu tablodaki s(x) konu içeresinde yer verilen fonksiyo-

nuna karşı gelmektedir. F değeri gösteriyor ki tahmin edilen uyum
değerleri istatistiksel açıdan anlamlı yani nonparametrik etki anlam-
lıdır. Ayrıca, belirlilik katsayısına göre bağımlı değişkendeki değiş-
melerin %87.85’i bağımsız değişken tarafından açıklanmaktadır.
Şekil 3.16: Koyu çizgi gerçek ’in eğrisini gösterirken gri gölgeli alan
ise bu fonksiyonu için % 95 "güven aralığını" göstermektedir.
100
müle edilmiş veriler üzerinde × = 1™ − 15 çÀ> >üçü> ¿™r= , gcv

Örnek 3.13 (Düzletme parametresinin etkisi): Aşağıda si-
ile seçilen × parametresi (ideal ceza) ve × = 100 (büyük ceza) için

sırasıyla bilinmeyen fonksiyonun spalyn düzeltme tahminleri aşa-
ğıdaki şekilde gösterilmiştir.
Şekil 3.17: İlk grafik çok küçük düzeltme parametresine karşılık gelen
bir interpolasyonu, ortadaki grafik GCV kriteri ile seçilen düzeltme
ğı, son grafik büyük bir düzeltme parametresi yani, × = 100 için
parametresi için splayn düzeltme tahminini ve onun %95 güven aralı-
splayn düzeltmenin doğrusal regresyon uyumuna karşılık geldiğini

göstermektedir.
101
library(npreg)
n <- 101
fx <- sin(2*pi*x)
set.seed(1)
y <- fx + rnorm(n,0, sd = 0.3)
# subplots (1 x 3)
par(mfrow = c(1,3))
# lambda = 1e-15 (df = n)

mod.ss0 <- ss(x, y, all.knots = TRUE, lambda = 1e-15)
plot(mod.ss0, ylim = c(-1.75, 1.75))
points(x, y)
# GCV selection
mod.ss <- ss(x, y, all.knots = TRUE)
plot(mod.ss, ylim = c(-1.75, 1.75))
points(x, y)
# lambda = 100 (df = m)

mod.ss10 <- ss(x, y, all.knots = TRUE, lambda = 100)
plot(mod.ss10, ylim = c(-1.75, 1.75))
points(x, y)
Yukarda verilen örnekteki grafiklerden de anlaşılacağı

gibi,
 Düzeltme parametresi × → 0 iken R ,× = 7 −
+× 4e 5 kriter fonksiyonu için cezanın
D d 8 D
la, ×'nın çok küçük değerleri için, 0Ô

en küçük kareler üzerinde daha az etkisi vardır. Dolayısıy-
tahmini artık kare-
lerin toplamını asgariye indirger yani interpolasyona yol
×→∞ R ,× =
açar.
7 − +× 4e 5 kriter fonksiyonu
d
 Düzeltme parametresi iken
D 8 D
için ceza, cezalı en küçük kareleri daha fazla etkiliyor. Bu
102
nedenle, ×'nın çok büyük değerleri için, 0Ô

4e 5 Q 0 olacak şekilde
d
tahmini, esa-
8 D
sen sıfır ceza ile yani
 Düzeltme parametresi ×, 0'dan ∞'a yükseldikçe 0Ô

sınırlandırılmıştır. Yani, düz bir eğri ile sonuçlanır.
fonksiyon tahmini, × 4e 8 5 fonksiyonel cezaya

d D
tahmini için "doğru" düzgünlük derecesini üreten bir × pa-

göre daha pürüzsüz olmaya zorlanır. Amaç, fonksiyon
rametresini bulmaktır. Bu konu Bölüm 5’te ayrıntılı olarak

incelenmiştir.
miş veriler üzerinde B = 1 olarak ayarlanan doğrusal bir splayn

Örnek 3.14 (Ceza derecesinin etkisi): Aşağıda simüle edil-
düzeltme, B = 2 olarak ayarlanan bir splayn düzeltme ve B =

3 olarak ayarlanan bir splayn düzeltme tahminleri aşağıdaki şekilde
gösterilmiştir.
Şekil 3.18: İlk grafik doğrusal splayn düzeltme, ortadaki grafik kübik
splayn düzeltme tahminlerini ve son grafik bir splayn düzeltme uyu-
muna karşılık gelen tahmin eğrisini göstermektedir.
103
Şekil 3.12:R Kodları

library(npreg)
n <- 101
fx <- sin(2*pi*x)
set.seed(1)
y <- fx + rnorm(n,0, sd = 0.3)
mod.lin <- ss(x, y, nknots = 10, m = 1)
mod.cub <- ss(x, y, nknots = 10, m = 2)
mod.qui <- ss(x, y, nknots = 10, m = 3)
par(mfrow = c(1,3))
plot(mod.lin, ylim = c(-1.75, 1.75))
points(x, y)
plot(mod.cub, ylim = c(-1.75, 1.75))
points(x, y)
plot(mod.qui, ylim = c(-1.75, 1.75))
points(x, y)
Yukarda erilen örnekten anlaşıldığı gibi, 4e 5 =

d } D
4e kk 5 ifadesinde B = 2 olarak ayarlanması, fonksiyonun

d D
karesel ikinci türevini cezalandıran bir kübik splayn düzeltmeyi

üretir. Kübik düzleştirme eğrileri, birçok yazılımda varsayılandır.
Kübik splayn düzeltme "düğümler" (önceki bölümlerde anlatıldığı
parçalı kübik fonksiyonları kullanarak . tahmininde bulunur.

gibi, örneğin regresyon splayn) olarak bilinen noktalara bağlanan
Fonksiyon tahminlerinin düğümlerde sürekli iki türevi vardır ve
sağlar. Diğer yandan B = 1 olarak ayarlanması, doğrusal bir

fonksiyonun ve türevlerinin düzgün bir şekilde tahmin edilmesini
B = 3 olarak ayarlanması, beşli bir splayn düzeltmeyi (parçalı

splayn düzeltme (parçalı bir doğrusal fonksiyon) ve son olarak
beşli bir fonksiyon) üretir.
104
Bölüm IV
ÇIKARSAMA
4.1. Çıkarsama
Parametrik regresyonda tahminin merkez odağında regresyon
katsayıları yer alır. Doğal olarak istatistiksel çıkarsama bu katsayı-
lar üzerine yapılır. Bu anlamda, örneğin, katsayıların güven aralık-
ları ve hipozet testleri yapılabilir. Aksine, nonparametrik regres-
yonda, regresyon katsayıları yoktur. Onun yerine, tahminin merkez
odağında regresyon fonksiyonu yer alır ve çıkarsama doğrudan
regresyon fonksiyonu üzerine yapılır.
Örneğin, (3.1)’de belirtilen yerel (lokal) regresyon kestirici-
sinde olduğu gibi, burada adı geçen tüm nonparametrik regresyon
kestiricileri, şu şekilde yazılıştan dolayı doğrusal düzelticiler olarak
bilinirler:
0€ = ÃÞ 4.1
Burada Þ 1 ağırlıkları 1 noktasında eşdeğer kernel olarak bili-

nir. Böylece, bu kestiriciler gözlemler açısından doğrusal düzeltici-
lerdir. Bu düzeltici (ya da uyum değerleri), matris ve vektör for-
munda,
k
Ó0€ = T 0€ , … , 0€ U = €Ö 4.2
Burada € = !Þ 1 # her bir kestirici için × boyutlu düzelt-

me matrisine karşılık gelir:
105
ℎ ℎ D … ℎ … ℎ
… ℎD … ℎD
⎛ ℎD ℎDD ⎞
⋮ ⋮ ⋱ ⋮ … ⋮
=⎜ ⎟
€
⎜ ℎ ℎD … ℎ … ℎ ⎟
⋮ ⋮ ⋮ ⋮ ⋱ ⋮
⎝ℎ ℎ D … ℎ … ℎ ⎠
€ matrisinin sıraları, gözlemlenen ,…, değerlerinin herbi-
kestirici sabit bir fonksiyonu bulundurur. Dolayısıyla, € × R =

rindeki uyumların üretimi için eşdeğer kernellerdir. Her bir makul
R (burada 1, birler vektörüdür) olarak ifade edilir. Örneğin,

∑~ ℎ ~ = 1. Bu toplam diğer her bir sıra için de geçerlidir. Bu
€ matrisinin her bir sırasındaki ağırlıkların toplamının 1 olduğu-
nu ima etmektedir. Belirtmek gerekirse € matrisi sıradan en kü-
= S S éS S matrisine benzerdir.
k f k
çük kareler regresyonundaki şapka matrisi yani,
4.2. Yan-Varyans ve Serbestlik Derecesi

Bu kestiricilerin yan (bias- T) vektörü,
T = Ó − Ó0€ = Ó − €Ö =Ó− €Ó = 5− € Ó
olarak hesaplanabilir. O zaman hata kareler ortalaması (MSE) aşa-
ğıdaki biçimde yazılabilir:
1 1
QR = Ã W=A T 0€ U + Ã TD 4.3
ÜA k
TTk
= hD +
€ €
Burada ilk terim varyansı gösterirken ikinci terim yanların karesini

göstermektedir. Ancak bu MSE değeri varyans bilinmediğinden
pratik değildir. Bunun yerin örneklem değerlerine dayalı olarak
hesaplanan tahmini varyans değeri kullanılır. Bu varyans değeri şu
şekilde tahmin edilir:
106
Çıkarsama
∑ − 0€ ¡ ∑ − 0€ ¡
D D
h$ =
D
= 4.4
− µc − ÜA €
Burada µc = ÜA € , düzeltme matrisinin izine ya da köşegen
değerleri toplamına karşılık gelen serbestlik derecesini gösterir.
Burada temel düşünce doğrusal kestiriciler için serbestlik de-
lanır. Genel doğrusal kestiriciler için µc, şu yaklaştırmalardan her

recesini yaklaştırmaktır. Bu lineer modellere benzer şekilde hesap-
hangi biriyle ifade edilebilir:

µc = A= > € ≅ ÜA €
≅ ÜA € €
k
≅ ÜA 2 € − € €
k
Burada belirtmek gerekirse yüksek µc için çok hareketli ya da

oynak düzelticiler olurken düşük µc için çok pürüzsüz düzeltici-
ler görülür.
Bu bilgilerden hareketle, doğrusal düzelticiler için =
noktasındaki uyum değerleri $ = 0€ ’nin tahmin edilen var-
yansı aşağıdaki biçimde ifade edilebilir.
W=A $ = h$ D Ã ℎ D~ 4.5
~
Burada h$ D , (4.4)’te hesaplandığı gibi, hata terimlerinin tahmin

edilen varyansı ve ℎ ~ ′ler ise (4.2)’de görüldüğü gibi, değerleri-
nin fonksiyonları olan ağırlıkları gösteren € düzeltme matrisinin
elemanlarıdır. O zaman (4.2)’de verilen uyum değerlerinin sütun
vektörü,
k
Ö$ = €Ö = $ , … , $
k
= T 0€ , … , 0€ U = Ó0€
biçimde ifade edilecek olursa bu uyun değerlerinin varyans kovar-
= W=A Ó0€
yan matrisi, şu şekilde hesaplanabilir:
W=A Ö$ = € W=A Ö €
k
= h$ D € €
k
4.6
107
Bu matrisin köşegen değerleri karşı gelen uyum değerlerinin

varyanslarını gösterirken köşegen dışı elemanlar kovaryanslarını
göstermektedir.
4.3. Uyum Değerleri için Güven Aralıkları
0
Bir nonparametrik regresyon modelinde, regresyon
,…,
fonksiyonunun tahminini olduğunu varsayalım. Burada var-
sayılan temel nokta, regresyon fonkisyonu açıklayıcı
değişkenin gözlemlenen değerlerinde değerlendirilir. Bu bölümün
değişken ’in değerelerine göre ′nin nonparametrik regresyonun-

giriş kısmında belirtildiği gibi (bkz. 4.1 ve 4.2 eştlikleri), açıklayıcı
dan elde edilen uyum değerleri $ = 0 olarak sonuçlanır. Bu

uyum değeri,
$ = Ãℎ ~ ~ = 0
~
olarak yazılabilir. Bu durum gösteriyor ki uyum değeri gözlemlerin

ağırlıklı bir toplamıdır.
Nonparametrik regresyonda model hataların normal dağıldı-
O y = = P için yaklaşık %95 güven aralığı,

ğını varsayıldığında, ana kitle regresyon fonksiyonu
$ ± 2·W=A $
biçiminde veya eşdeğer olarak şu şekilde hesaplanabilir:
b! $ − 2 × R $ ≤ = | = ≤ $ −2×R $ # = 0.95
k
Burada $ = 0 = T 0€ , … , 0€ U regresyon fonksiyonu
R $ = ·W=A $ = ·5 =Ý h$ D
uyum değerlerini gösterirken
k
€ € , uyum değerlerinin
standart hatalarını gösterir. Buna göre, yukarıda verilen güven ara-
lığı şu biçimde de yazılabilir:
108
Çıkarsama
b Ê $ ∓ 2 × ÐW5 =Ý h$ D € €
k
ÑË = 0.95
Benzer olarak farklı güven düzeyleri içinde farklı güven aralıkları

tanımlanabilir.
Yukarıda tanımlanan güven aralıkları noktasal aralıkları belir-
tir yani her değeri için noktasal %95 güven aralığını gösterir.
Ortalama olarak ( ) fonksiyonunun gerçek değerlerinin %5’i bu
aralıkların dışında kalırken bu aralıkların %95’i ise ( )'nin gerçek
değerlerini kapsadığı söylenebilir.
Örnek 4.1: R ortamında Simülasyon ile yaratılan veriler için
lokal regresyon yönteminden elde edilen uyum değerleri ve onların
noktasal güven aralıkları aşağıdaki tablo ve grafikte verilmiştir.
R-Kodları:
n<-20
x<-seq(0,1, length=n)
fx<-sin(2*pi*x)
y<-fx+rnorm(n,0,sd=0.1)
plot(x, y)
fit<- loess(y ~ x, degree = 2, span = 0.5)
pred <- predict(fit,data.frame(x=x), se=TRUE)
lines(x, pred$fit, col=2, lwd=2)
lines(x, pred$fit + 1.96*pred$se, col=4,lwd=2)
lines(x, pred$fit - 1.96*pred$se, col=4,lwd=2)
109
Tablo 4.1: Gerçek gözlemler, uyum değerleri ile %95 alt ve üst güven
sınırları
$ = 0€
Gözlem
Alt sınır Üst sınır
No
1 -0.15318084 -0.2219934 -0.37652324 0.06746347
2 0.13021688 0.2336367 0.13687226 0.33040122
3 0.58452060 0.5880778 0.50088979 0.67526590
4 0.79147620 0.8438518 0.75054196 0.93716170
⋮ ⋮ ⋮ ⋮ ⋮
5 1.08836139 0.9932173 0.89579119 1.09064345
20 0.05866922 0.1348207 -0.01971881 1.09616936
Burada
o¶Ü ?Î ÎA = $ − 1.96 × ÐW5 =Ý h$ D € €

k
Ñ
ve
Ü?Ü ?Î ÎA = $ + 1.96 × ÐW5 =Ý h$ D € €

k
Ñ
Burada verilen € matrisinin bölüm girişinde anlatıldığı gibi,

her bir sırasının toplamı 1’e eşit olduğu görülmektedir. Koyu renkli
rakamlar matrisin köşegen elemanlarını vermektedir. Üst satır ve
birinci sırada yer alan rakamlar matrisin sıra ve sütun numaralarını
göstermektedir.
110
Çıkarsama
Sıra ve sütun
1 2 10 11 19 20
numaraları
8,26E+05 7,31E+05 ⋯ -6,63E+01 -3,24E+00 ⋯ -4,11E-17 -5,13E-20
3,90E+05 5,75E+05 ⋱ -4,00E+02 -2,78E+01 ⋯ -5,35E-15 -9,34E-18
1
2
⋮ ⋮ ⋮ ⋮ ⋮ ⋮
10 2,99E-02 8,78E-01 ⋯ 2,53E+05 1,99E+05 ⋯ 1,14E-02 2,10E-04
€ D ×D = 11 2,10E-04 ⋯ 1,99E+05 2,53E+05 ⋯ 8,78E-01
⋱
1,14E-02 2,99E-02
⋮ ⋮ ⋮ ⋮ ⋮ ⋮
19 -9,34E-18 -5,35E-15 ⋯ -2,78E+01 -4,00E+02 ⋯ 5,75E+05 3,90E+05
20 -5,13E-20 -4,11E-17 ⋯ -3,24E+00 -6,63E+01 ⋯ 7,31E+05 8,26E+05
Şekil 4.1: Uyum eğrisi ve onun %95 güven sınırları
Örnek 4.2: Aşağıda sırasıyla, Motosiklet ve prestige verileri

için lokal polinom regresyondan elde edilen uyu değerlerinin eğri-
leri ve onlara ilişkin %95 güven aralıkları verilmiştir.
111
Şekil 4.2: Lokal regresyondan elde edilen uyum eğrileri ve %95 güven
aralıkları
4.4. Hipotez testi

Sıradan en küçük kareler regresyonunda, alternarif modelleri
karşılaştırma konusunda hipotezleri test etmek için F- test istatistiği
1 ve − 2 serbestlik dereceli F istatistiği, ve arasındaki doğru-

kullanılır. Örneğin basit doğrusal en küçük kareler regresyonunda,
sal olmayan ilişkiyi test eder:

YRR − SRR / µc} 9…† − 1 YRR − SRR / 2 − 1
c= = 4.7
SRR/µceŽƒ•‹ SRR/ − 2
Burada YRR = ∑ − Z D genel kareler toplamı ifade eder ve
= + + full modeli için ′deki değişim gösterir;
SRR = ∑ − $ D artık kareler toplamı verir ve indirgenmiş
model = + için ′deki değişim gösterir. Ayrıca µc} 9…† ,
full model için serbestlik derecesini gösterirken; µceŽƒ•‹ , full mo-
delden elde edilen artıklar için serbestlik derecesini gösterir.
Yukıdakine benzer olarak nonparametrik regresyon ortamında
bir nonparametrik regresyon modeli lineer ile bir lineer regresyon
112
Çıkarsama
modelini karşılaştırarak için F-testi kulllanılabilir. Uygun hipotez-

ler şu şekilde ifade edilebilir:
[ : QÀ5™¶ 0 ¶ ™A BÀ5™¶™ 5= =¶Î @ @B 5™ >¶™B
[ : QÀ5™¶ 1 À x=A=B™ÜA > BÀ5™¶™ 5= =¶Î @ @B 5™ >¶™B
Yukarda öne sürülen hipotezleri test etmek için µc} 9…† −2
ve µceŽƒ•‹ serbestlik dereceli c − ?Ü=Ü ?Ü ğ kullanılır:
SRR − SRR / µc − µc SRR − SRR / µc} −2
c = = 4.8
9…†
SRR / − µc SRR /µceŽƒ•‹
Burada,
SRR = ∑ − $ D , lineer model = + r + ar-
tıkları için kareler toplamı; SRR = ∑ − $ , nonnparamet-
D
= + artıkları için kareler toplamı; µc = 2,

lineer model parametreleri için serbestlik derecesi, µc = µc} 9…†
rik model
µceŽƒ•‹ = − µc , nonparamerik model artıkları için hesaplanan

nonparametrik model parametreleri için serbestlik derecesini ve
serbestlik derecesini gösterir.

Bu değerler eşdeğer olarak aşağıdaki biçimde de hesaplanır:
SRR = Ã − 0€ ¡ = OÖ − Ó0 P OÖ − Ó0 P burada Ó0
D k
= €Ö ve µc = ÜA €
SRR = Ã −$ D
= Ö − Ö$ k
Ö − Ö$ burada Ö$ = Ö
= Ó0 ve µc = ÜA
Not: ÜA = r , matrisin köşegen değerleri toplamını

göstermektedir. Ayrıca, diğer bölümlerde tanımlandığı gibi, €
verilen bir ℎ düzeltme parametresi için herhangi bir parametrik
olmayan yönteminden elde edilen düzeltme matrisi ve , sıradan
113
bir lineer regresyon ortamında elde edilen şapka matrisi ifade et-
Burada temel düşünce, Ó0 uyum değerlerinin Ó0 uymlarından

mektedir.
etmek istiyoruz. Sıfır hipotezi altında Ó0 ve Ó0 uyumlarının yansız

daha pürüzlü olabileceği ve önemli bir sapma alıp almadığını test
olduğunu varsayıyoruz. Böylece, sıfır hipotezi, iki düzleştirici ara-

sında önemli bir fark olmadığını ima eder. Bu durumda yukarıda
verilen F testini kullanabiliriz.
Örnek 4.3 Motosiklet verisi: Bu örnekte motosiklet verisi
dikkate alınmıştır. Bu veride zamana karşın hızlanmanın regres-
yonu için iki farklı model kullanılmıştır. Bu modellerden bir lokal
doğrusal regresyon diğeri ise lokal kuadratik regresyon modelidir.
Temel amaç bu modellerden hangisi hızlanmadaki değişimi daha iyi
temsil eden bir eğri vereceğini ortaya koymaktır. Bu amaçla, aşağıda
verilen R-komutu yardımıyla iki model karşılaştırılmış ve sonuçlar
aşağıda verilmiştir.
xs <- sort(x)
plot(x, y, xlab="time",ylab="accelaration" )
fit.lineer<- loess(y ~ x, degree = 1, span = 100)
fit.kuadratik<- loess(y ~ x, degree = 2, span = 0.5)
lines(xs, predict(fit.kuadratik),col="blue",lty=2,
lwd=2)
lines(xs, predict(lineer), col="green",lty=1, lwd=2)
anova(fit.linear,fit.local)
[ : QÀ5™¶ 0 ¶ ™A BÀ5™¶™ 5= =¶Î @ @B 5™ >¶™B

[ : QÀ5™¶ 1 >@=5A=Ü > BÀ5™¶™ 5= =¶Î @ @B 5™ >¶™B
114
Çıkarsama
Model 1: loess(formula = y ~ x, span = 100, degree =

1): Lineer
Model 2: loess(formula = y ~ x, span = 0.5, degree =
2): Kuadratik
Analysis of Variance: denominator df 125.16
ENP RSS F-value Pr(>F)
[1,] 2.00 281136
[2,] 6.86 71183 58.867 < 2.2e-16 ***
[ : QÀ5™¶ 0 yani sıfır hipotezini reddediyoruz. Çünkü hesaplan F-

Yukarıda verilen varyans analizi sonucuna göre,
istatistiği çok küçük bir p-değerine sahiptir. Bu nedenle, doğrusal-

lıktan istatistiksel olarak anlamlı bir sapma olduğu sonucuna varı-
yoruz. Bu sonuçlar aşağıda verilen grafik ile desteklenmektedir.
Çünkü lokal kuadratik regresyondan elde edilen uyum eğrisi veriyi
çok iyi izlemektedir. Diğer kesikli doğrusal çizginin yani lokal
doğrusal regresyondan elde edilen uyum değerlerinin veriyi iyi
temsil etmediği görülmektedir.
Şekil 4.3: Zamana göre hızlanmanın iki farklı regresyon modeli ile
tahmininden elde edilen uyum eğrileri
115
Bölüm V
PERFORMANS ÖLÇÜLERİ VE DÜZLEŞTİRME

PARAMETRESİNİN SEÇİMİ
Bir kestiricinin performansı bağımsız bir veri seti üzerinde

onun tahmin yeteneği ile ilişkilidir. Uygulamada, performans de-
ğerlendirmesi son derece önemlidir. Çünkü performans göstergele-
ri kestirici seçimine rehberlik ettiği için bize nihai olarak seçilen
modelin kalitesinin bir ölçüsünü de verir. Bu bölümde “iyi kestirici
(good estimator) nasıl olmalıdır?” sorusuna yanıt aramaya çalışa-
cağız. Bu bağlamda, izleyen bölümlerde regresyonu fonksiyonu
için kestiricilerin birkaç ailesini çalışacağız. Her bir aile genellikle
düzeltme parametresi olarak adlandırılan bir parametre ile indeks-
lenir. Verilen bir aileden bir kestiricinin seçimi bu indeks paramet-
resi için bir değerin seçimini gerektirir. Böyle bir seçim subjektif
olarak yapılabiliyorken genellikle en azından izleyen kestirici için
ceza ayarı yapılması konusunda bir başlangıç noktası olarak objek-
tif bir seçim tercih edilecektir. Bunlar sadece nonparametrik reg-
resyon problemleri ile sınırlı değil, gerçekte onlar, değişik model
ya da değişken seçimi konusundaki problemleri çözmek içinde
kullanılabilir.
5.1. Performans Kriterleri

İstatistiksel modelleme perspektifinden bakıldığında tahmin
edilen çıktı değerleri ile gerçek değerler arasındaki mesafe, hem
nın ölçülmesinin temel argümanıdır. Buna göre . fonksiyonu-

tahmin edicinin (kestiricinin) hem de genel model performansları-
nun kestiricisi olan 0 . ile arasındaki mesafe O − 0 P modelin

uyum iyiliği ile ilişkilidir ve iyi bir kestirici için bu mesafenin ola-
117
bildiğince küçük olması beklenmektedir. Bu bölümün temel amacı,

tahmin edilen kestiricinin ve bu kestiriciye bağlı olarak modelin
performansının ölçülmesini ve bu doğrultuda kullanılan yöntemle-
rin hem teorik bağlamda hem de uygulama alanında özelliklerini
ve karakteristiklerini anlatmak ve göstermektir. Ayrıca her bir yön-
temin avantaj ve dezavantajlarının incelenip örneklerle açıklanma-
sının iyi bir kestiricinin elde edilmesinde araştırmacılara yol göste-
receği öngörülmektedir.
= ,…, ∈ ℝ ve
= ,…, 3
∈ ℝ rasgele değişkenleri ile ,
Nonparametrik regresyon modeli,
ikili değerle-
arasındaki ilişkiyi ölçülebilir fonksiyon : ℝ →

rinden oluşmaktadır. İlgilenilen durum, yanıt değişkeni ile açık-
ℝ ile modellemektir. Buna göre amaç

layıcı değişken
’in için belirli kriter-
geçen kriter ise temelde | − | ifadesinin mümkün olduğu

lere göre “iyi bir yaklaştırma” olarak elde edilmesi amaçlanır. Adı
, rasgele olduğu için | − |

kadar minimum elde edilmesi olarak açıklanabilir. Burada belirt-
ifadesi de rasgele olarak ifade edilir ve bu durum, | − |

mek gerekir ki değişkenler
değerinin minimum değerinin belirsiz hâle getirmektedir. Litera-

türde oldukça yaygın olarak kullanıldığı üzere, minimum kriteri
nı ölçmek için ND -risk olarak da adlandırılan

olarak dolayısıyla elde edilen tahmin edicisinin performansı-
değeri için hata
kareler ortalaması kullanılır;
ND = !Ó − #D = ! − #D = f
Ã! − #D 5.1
Burada Ó = ! ,…, #. Buna göre için iyi performan-
bilir. Ayrıca (5.1)’de verilen karesel risk ifadesini, "A"inci derece-

sın tanımı (5.1) eşitliğinin minimum elde edilmesi olarak söylene-
den genelleştirilmiş hâli aşağıdaki gibi ifade edilebilir:
N• = !Ó − #• = ! − #• = f
Ã! − #• 5.2
Burada x ≥ 1 olmalıdır. (5.1)’e dönülürse karesel riskin litera-

türde genel kabul görmesinin nedenleri aşağıdaki gibi sıralanabilir;
118
Performans Ölçüleri ve Düzleştirme Parametresinin Seçimi
 ND , önceki bölümlerde detaylı olarak verilmiş olan çe-

şitli düzleştirme yöntemlerine dayalı model tahmininde
matematiksel işlemleri basit hâle getirmesi ve çözümün ko-
 ND
lay ve etkin şekilde elde edilmesini sağlaması.
minimizasyonu doğal olarak tahminlerin çok daha
hızlı elde edilmesini sağlar ki bu en önemli avantaj olarak
söylenebilir.
mesi için dikkate alınacak amaç fonksiyonu, ND

Buna göre tahmin edilen modelin performansının ölçülebil-
bağlı olarak
aşağıdaki gibi ifade edilebilir;
! − #D = min ! − #D 5.3
ú:ℝ→ℝ
Önceki bölümlerden hatırlandığı gibi, aşağıdaki gibi

ifade edilebilir:
= | = 5.4
Eşitlik (5.4)’te verilen regresyon fonksiyonunun ND riskini
Burada, 5: ℝ → ℝ herhangi bir fonksiyon olsun;

minimum yaptığı aşağıdaki gibi matematiksel olarak gösterilebilir.
! − #D = ! −5 +5 − #D
= ! −5 #D + !5 − #D
= `O −5 PO5 − P| a¡
= O −5 P !5 − | #¡
= O −5 PO5 −5 P¡
= 0.
Böylece sonuç aşağıdaki gibi yazılabilir;
! − #D = E| −5 |D ] 5 + |5 − |D , 5.5
ℝ
Burada ],
eder. Eşitlik (5.5)’in ilk terimi 4ℝ| −5 |D ] 5 ,
değişkenine ait dağılımın ortalamasını ifade
fonksiyonunun ND hatasıdır ve hiçbir zaman negatif değer almaz.
119
Yalnızca =5 olduğunda “0” değerini alır ki bu durum

en uygun (optimum) yaklaşımın elde edildiği anlamına gelir.
Daha önceki bölümlerde de detaylı olarak anlatıldığı gibi,
nonparametrik regresyon fonksiyonu, (5.1) ve (5.5) eşitliklerinin
modelinin performansı da benzer şekilde ND

minimizasyonu ile tahmin edildiğinden tahmin edilen regresyon
riskine dayalı öl-
çütler yardımıyla ölçülür. Bu ölçütler, performans kriterleri olarak
adlandırılır ve başlıklar hâlinde aşağıdaki gibi sunulabilir.
yon fonksiyonu için genel bir notasyon olarak 0

Performans ölçütleri tanıtılmadan önce, tahmin edilen regres-
belirlenmiştir.
0
Buna göre kullanılan düzleştirme yöntemine göre ilgili tahmin
yer değiştirilerek (kernel, lokal yaklaştırma, cezalı splayn
vb.) ilgili yöntem için performans skoru hesaplanabilir.
5.1.1. Hata Kareler Ortalaması (HKO)
0
Herhangi bir tahmin yöntemi için, regresyon fonksiyonu
edilir (smoothing/bandwidth parameter). Eğer × → 0, ℎ → 0 olarak

için pürüzsüzlük miktarı düzleştirme parametresi ile kontrol
çok küçük bir değer olarak belirlenirse tahmin edilen regresyon

fonksiyonunun keskin geçişlerle her bir gözlem noktasından geç-
meye çalıştığı görülür. Buna göre eğer pürüzsüzlük azalırsa model
daha az “Yanlılık” içerir fakat tahmin edilen ortalama eğriden uzak
kalan veri noktaları nedeniyle tahmin edilen modelde gürültü (noi-
anlamına gelir. Aksi durumda, eğer × → ∞, ℎ → ∞, ise yanlılık ve

se) yüksek olur ki bu modelin “Varyans” değerinin yüksek olduğu
varyans için bahsedilenin tam tersi bir manzara ortaya çıkar. Buna
göre model için “Toplam Hata” aşağıdaki gibi ifade edilebilir;
YÀx¶=B [=Ü= = üAü¶Üü + = ¶Î¶Î> D
+ W=A = ? 5.6
Burada gürültü, rasgele hata yani regresyon modelin de yer
= ¶Î¶Î> D ve W=A = ? düzleştirme veya bant genişliği paramet-

alan ve araştırmacı tarafından kontrol edilemez. Fakat
relerine bağlı olarak optimum şekilde belirlenebilir. “Toplam Hata”
120
ve bileşenlerindeki değişimin düzleştirme parametresi (× veya ℎ)

ile ilişkisi Şekil 5.1’te gösterilmiştir.
Şekil 5.1’den de anlaşılabileceği gibi, düzleştirme (smoothing)
miktarının bir optimum seviyesi vardır ve dolayısıyla tahmin süre-
cinde bu miktarı kontrol eden üç önemli kriter aşağıdaki gibidir;
1. Bant genişliği (ℎ) veya düzleştirme (×) parametrelerinin
düzgün seçilmesi. Parametre seçimi ile ilgili detaylar Bö-
lüm 5.3’te verilmiştir.
2. Gerçek regresyon eğrisi (verinin yapısı).
3. Veri setinin büyüklüğü, çünkü veri sayısı arttıkça varyans
azalır ve toplam hatadaki payı düşer. Bu durumda, Şekil
5.1’de gösterilen varyans eğrisi sayı doğrusunun soluna
kayar ve bu bağlamda düzleştirme miktarının azaltılması
beklenir.
Şekil 5.1: Eşitlik (5.6)’da verilen “Toplam Hata” ve bileşenlerinin düzleş-
kullanılmıştır. Panel (A), = 100, panel (B), = 150, (C) = 250,

tirme parametrelerine göre değişimleri. Yöntem olarak kernel yöntemi
panel (D), = 500.
121
tematiksel olarak ∈ g olarak ifade edilebilir. Bu ifade, .

Bilindiği gibi parametrik olmayan regresyon fonksiyonu ma-
fonksiyonunun yalnızca sürekli değil, ayrıca tüm sıralı türevlerinin

de var ve sürekli olduğu anlamına gelir. Böylece, fonksiyonu için
Taylor açılımı yapılarak noktasındaki türevleri alınarak herhan-
≤⋯≤
gi bir yerdeki değerleri bulunabilir. Diğer yandan, sıralı ’ler olan
kullanılarak için “interpolasyon” yardımıyla
eğri üzerindeki eksik noktalar tamamlanır ve böylece tahmini
yapılabilir.
,
=
Eşitlik (5.4) gösterildiği gibi, gözlemleri varsa, reg-
| = olarak yazılabilir ve eğer her bir yanıt gözlemi için

resyon fonksiyonu, beklenen değer yardımıyla
~ =
≅
olarak yazılabilen çok fazla sayıda gözlem elde edilirse
“büyük sayılar kanunu” yardımıyla söylenebilir ki .
şılık, tek bir = elde edilir. Dolayısıyla Eşitlik (5.4) regresyon

Fakat bilindiği gibi, pratikte her bir yanıt gözlemi değerine kar-
fonksiyonu tahmininde verimli çalışmaz. Verimsizliği ise çok yük-

sek “Yanlılık” ve “Varyans” içermesinden kaynaklanır. Eşitlik
varyansı (gürültü-noise: h^D ) ile aynı elde edilir. Burada HKO ile
(5.4)’e bağlı olarak hata kareler ortalaması (HKO), rasgele hata
Eşitlik (5.6) ile ilişkili olarak ve kavramsal olarak [«K =

= ¶Î¶Î> D + W=A = ? olarak ifade edilebilir. Bu bağlamda, tah-
min edilen eğride ≠ için elde edilen eğri üzerindeki ortalama
değerler, yanlılığa işaret eder ve böylece, “iyi bir tahmin” için
amaç, yan-varyans dengesini bulmak olarak ifade edilir.
Yukarıdaki bilgiler ışığında HKO değerini hesaplamak için
Kernel tahmin edicisini ele alalım. Buna göre Kernel tahmin edici-
sinin varyansı aşağıdaki gibi yazılabilir;
h^D 4 «D @ 5@
W=A` 0 | = ,…, = a= + À! ℎ f
# 5.7
ℎ
122
= h^D , = 0 olduğunu hatırlatmak gerekir.

Ayrıca Eşitlik (5.7)’de verilen « . daha önceki bölümlerde anlatı-
Burada
lan Kernel fonksiyonudur. Burada, ilgilenilen tahminler "ℎ" bant

genişliği açıklığında « @ dayalı ağırlık matrisi ile ağırlıklandırı-
= 0 + h^D
olacaktır. Bu da yaklaşık olarak ℎ
lan ve değeri değerine yaklaşan değerlerler
kadar eğitim verisi ile
noktasındaki [«KO 0 P
tahmin yapıldığı anlamına gelir. Eğer “Yanlılık” ile Eşitlik (5.7)’de
ifade edilen varyans birleştirilirse
fonksiyonu aşağıdaki gibi yazılabilir;
Ak k D
[«K T 0
D
U= h^D + ℎ ç0.5A
¨ kk
+ è ThúD0 U 5.8
h^D 4 « D @ 5@
+ + À ℎ ¨ + À 1/ ℎ
ℎ
Burada À . asimptotik olarak (5.8)’de verilen toplamın ikinci
teriminin ℎ ¨ oranının sıfıra gittiğini ifade eder. Eşitlik (5.8), ger-
pratikte bilinmeyen A , A k , A kk
çek regresyon fonksiyonunun Taylor açılımından elde edilen ve
ve en uygun seçilmiş “ℎ”
diğinde, (5.8) ℎ’e göre kısmi türevi alınarak tek bir optimum bant
parametresinde bağlı olarak elde edilir. Daha derin olarak incelen-
genişliği parametresi elde edilebilir. Fakat bu optimal “ℎ” değeri

başta belirtildiği gibi pek çok bilinmeyene dayalı olarak teorik
Eşitlik (5.8)’de verilen [«KO 0 P değeri her ne kadar Çe-

olarak elde edilir.
kirdek (Kernel) yöntemi için elde edilmiş olsa da yerel fark alma
yandan, [«KO 0 P değeri, (5.8)’de verilen bilinmeyenlerden

ve splayna dayalı yöntemler için de kolaylıkla elde edilebilir. Diğer
arındırılmış olarak simülasyon ve gerçek ve uygulamalarında pra-

tik olarak aşağıda verildiği şekilde kullanılır;
[«KO 0 − 0 OÓ − Ó0P OÓ − Ó0P

3
P= Ã` a = 5.9
f D f
123
Verilen (5.9) eşitliği, yukarıda belirtilen [«K =

= ¶Î¶Î> D + W=A = ? tanımına uygundur ve teorik olarak
= ¶Î¶Î> D ve W=A = ? bileşenlerini içerir. Ek olarak Bölüm
5.3’te verilen düzeltme parametresi seçim kriterleri, (5.9) ve Bö-
lüm 5.2’de verilen varyans tahmini değerlerine göre yapılır.
5.1.2. Diğer performans kriterleri
olmayan regresyon fonksiyonu tahmini 0

HKO kriterine bağlı veya bağımsız, literatürde parametrik
için kullanılan bazı
önemli performans ölçütleri bu bölümde tanıtılmıştır. Buna göre en
yaygın kullanılan bazı kriterler alt başlıklar hâlinde sunulmuştur.
mış hâli olan Karekök-HKO= √[«K değeri özellikle parametrik

i) Karekök-HKO (KHKO): HKO değerinin standartlaştırıl-
olmayan yöntemler söz konusu olduğunda sıklıkla kullanılan ölçüt-

lerden biridir. Burada, KHKO skorunun, HKO ile ne fark olduğu,
neden bu kriterin kullanıldığı açıklanmıştır. Bu bağlamda, ilk ola-
rak KHKO nasıl hesaplandığı aşağıdaki gibi gösterilsin;
1 1
«[«K = √[«K = ` Ã` − 0 a = a OÓ − Ó0P OÓ − Ó0P 5.10
D 3
Eşitlik (5.10) az da olsa derinlemesine incelemek için, bu eşitliğin

“Öklid uzaklığı” ile olan benzerliği vurgulanabilir. Bilindiği gibi
“Öklid uzaklığı” aşağıdaki gibidir;
ä , D = `Ã − D
D
Buna göre ä , D göz önünde bulundurulduğunda, «[«K

skorunun gerçek değerler (y) ile tahmin değerleri (f(x)) arasındaki
Fakat dikkatle bakıldığında KHKO değeri 1/√ çarpanını içerir.

standartlaştırılmış bir mesafe olduğu sezgisel olarak söylenebilir.
124
Burada parametrik olmayan regresyon modelini = +
gerekir. Bilindiği gibi ~å ]^ = 0, h^D . Buna göre h^ değeri

ve model hata terimleri hakkında bazı detayların incelenmesi
matematiksel olarak ifade edilirse;
∑ −$ D
1 1
ç è= Ã ! D# = Ã ! D # = h^D + ]^D 5.11
Burada ]^ = 0 olduğu hataların dağılımından biliniyor. Eğer bu

değer (5.10)’da yerine yazılır ve eşitliğin karekökü alınırsa:
` ) ÃO − P * = Wh^D + 0D = h^ 5.12
D
f
kök ifadesi içinden beklenen değer fonksiyonu !. # Çıkartıldığında

Eşitlik (5.12)’den görülebileceği gibi eşitliğin sol tarafındaki kare-
eşitlik (5.12) kesin olarak (5.10)’da verilen KHKO ifadesinde dö-
→ ∞ ise h^D → 0 olması beklenir. Bu sonuç, Eşitlik (5.9)’da veri-

nüşmektedir. Merkezî limit teoremine göre örneklem büyüklüğü
len HKO değerinin model varyansı h^D için, KHKO değerinin ise
model standart sapması h^ için iyi bir tahmin edici olabileceğini
asimptotik bağlamda gösterir. Ayrıca 1/√ hakkında şu belirtilme-
standart hata h^ değeri elde edilmesini de sağlar. Bu bağlamda, veri

lidir ki bu çarpan, toplam hata yerine, her bir gözlem için tipik bir
noktasını içeren veri kümesinin (örneklemin) büyüklüğü tahmin

sürecine dâhil edildiğinden, örneklem değiştiğinde hesaplanan
KHKO değerinin belirli bir tutarlılıkta kalması sağlanmış olur. Bu
durum, farklı “ ” değerler için üretilmiş bir veri setinde KHKO
değerleri hesaplanarak Şekil 5.2’de gösterilmiştir.
125
Şekil 5.2: Farklı örneklem büyüklüklerine göre HKO ve KHKO değerleri-

nin değişimi
ii) Ortalama toplam hata kareler (OTHK): Genellikle
tahminlerinde uyumu ölçmek için kullanılsa da ND -riske dayalı

OTHK kriteri parametrik olmayan olasılık yoğunluk fonksiyonu
olduğundan, regresyon fonksiyonu tahminlerinde benzer şekilde

uyum ölçmek için de kullanılabilir. Burada belirtmek gerekir ki bu
kriter yalnızca simülasyon çalışmalarında kullanılabilir ve hesapla-
nışı aşağıdaki gibidir;
D
à0 àD = :E` 0 a5 Ä
D
− − 5.13
Burada 0 , “ ” örneklem büyüklüğü için elde edilen ve bu ki-

tapta açıklanan yöntemlerden biriyle tahmin edilen regresyon fonk-
siyonudur.
iii) Göreli risk (GR): Göreli risk regresyon fonksiyonu tah-
min edicileri arasında makul bir karşılaştırma yapmak için litera-
türde oldukça yaygın kullanılan bir ölçüttür. Temel olarak risk
kriterinin seçimine göre farklı karşılaştırmalar elde edilebilir. Bu-
126
yonu SO 0 P = [«KO 0 P olarak ifade edilebilir. Burada “ 0 ” birinci

rada risk fonksiyonu HKO olarak seçilsin. Buna göre risk fonksi-
SO 0D P = [«KO 0D P olarak ifade edilir ve bu durumda göreli risk

yöntemin notasyonudur. Benzer şekilde, ikinci yöntem için
SO 0 , 0D P = SO 0 P SO 0D P
aşağıdaki gibi tanımlanır;
5.14
Burada risk fonksiyonu olarak HKO yerine KHKO veya modelle-
S . fonksiyonuna dayalı olarak yazılmıştır. Eğer SO 0 , 0D P > 1

rin varyansı da kullanılabilir. Bu bağlamda Eşitlik (5.14) yalnızca
ise 0D tahmininin 0 ’ye göre daha az riskle tahmin edildiği söyle-

nebilir.
5.2. Varyans Tahmini

Bu bölümde, parametrik olmayan regresyon modelinin tahmi-
kestiricisinin 0
ninde kullanılan yöntemlerden elde edilen regresyon fonksiyon
varyans tahminleri ele alınmıştır. Bu bağlamda
her bir yöntem için ayrı ayrı varyans tahminleri yerine genelleşti-
rilmiş bir varyans tahmini sunulmuş ve ilgili yöntemler için nasıl
kullanılacağı açıklanmıştır. Buna göre parametrik olmayan regres-
yon fonksiyonu aşağıdaki gibi yeniden yazılsın;
= + h^ , 1 ≤ ≤ , 5.15
burada h^ , hata terimlerinin noktasındaki standart hata değerini
ifade eder ve bu varyansın model varsayımları gereği sabit olduğu
tilmelidir. Hataların varyansı veya model varyansı olan h^D değeri-

’i ye göre değişmediği yani ’nin bir fonksiyonu olmadığı belir-
nin tahmin edilmesi pek çok araştırmacının da vurguladığı gibi
gösterildiği üzere h^D değeri, verilen bir

regresyon modellerinde çok büyük öneme sahiptir. Çünkü (5.15)’te
için tahmin edilen
olarak temellendirilebilir. Küçük bir örnekle h^D tahmininin regres-

ortalamasının değişkenliğinin ölçülmesine yarar ve bu ölçüm teorik
yon modeli açısından önemini açıklamak gerekirse eğer araştırmacı
127
tahmin ettiği modeldeki 0 regresyon fonksiyonu için uyum

iyiliğini değerlendirmek istediğinde, bu fonksiyon için %95 güven
aralığı oluşturmak istediğinde veya örneklem dışı noktaları tahmin
tanesi hataların varyansı, h^D veya tahmin edicisi h$^D olacaktır. Lite-
(out-of-sample prediction) etmek istediğinde, kilit noktalardan bir
ratürde model (5.15) için varyans tahmini söz konusu olduğunda

bu tahminin yapılmasında temel olarak iki farklı yol izlendiği söy-
lenebilir;
(i) Farklara dayalı varyans tahmin edicisi
(ii) Artıklara dayalı varyans tahmin edicisi
5.2.1. Artıklara dayalı varyans tahmin edicisi
= b3ý +
Bilindiği üzere parametrik regresyon modelleri için varyans
¡ ele alınsın. Burada S = Ob , … , b• P × x boyutlu x adet

tahmini kısaca aşağıdaki gibi özetlenebilir. Model
3
parametrik açıklayıcı değişkenin matrisi ve ý = O , … , • P
x × 1 boyutlu regresyon katsayılarının vektörüdür. Buna göre
parametrik regresyon modeli için hataların varyansı h Dc aşağıdaki
gibi hesaplanır;
∑O þP
− b3ý
D
h Dc = 5.16
−x
− x modelin serbestlik derecesini ifade eder ve
3þ þ P = ™̂ artıkları (residuals) ifade
b ý = $ olmak üzere O − b 3 ý
Burada
eder. Böylece h c = $ 3 $⁄ − x olarak da yazılabilir. Buna göre

D
için de h$^D tahminini elde etmek benzer yaklaşımla mümkündür.

eşitlik (5.16)’dan hareketle parametrik olmayan regresyon modeli
ninden elde edilen artıkların vektörü ($ = ™̂ , … , ™̂ 3 ) ve serbest-

Bunun için öncelikle parametrik olmayan regresyon model tahmi-
lik derecesinin (Rµ) elde edilmesi gerekir. Öncelikle hatırlatmak

gerekir ki eşitlik (5.15)’te verilen parametrik olmayan regresyon
128
olduğu, (ii) ~å 0, h^D ve (iii) h^D sabit olduğu varsayılmaktadır.

fonksiyonunda (i) hata terimlerinin bağımsız ve aynı dağılımlı
Verilen varsayımlar, bu bölüm boyunca geçerli olacak varsayım-

lardır ve burada değişen varyanslı model (heteroscedastic) ele
alınmayacaktır.
model tahminini yapmak yani ! | # = $ = 0

Artıklara dayalı varyans tahmini için ilk yapılması gereken
elde etmektir.
sorusudur. 0
Burada ortaya çıkan soru ise tahminin hangi yöntemle yapılacağı
, fonksiyonu hangi parametrik olmayan tahmin
yöntemiyle elde edilecektir? Bu yöntemler kitabın ilgili bölümle-
rinde detaylı şekilde ele alındığından burada bahsedilmeyecektir.
Dolayısıyla burada kullanılan yönteme göre uyarlanabilecek genel
bir varyans tahmini formülü sunulmuş ve bunu yaparken (ii) var-
yans tahmini yaklaşımı dikkate alınmıştır. Ayrıca bölüm sonunda
varyans tahmini için kullanılan bir diğer yaklaşım olan farklara
0
dayalı varyans (i) tahmininden de bahsedilmiştir.
, herhangi bir parametrik olmayan yöntemle tahmin
edilmiş regresyon fonksiyonu olsun. Buna göre ’inci artık değeri
aşağıdaki gibidir;
™̂ = − Ã[~ ~ , = 1, … , 5.17
~
Ayrıca (5.17) eşitliğin vektör ve matris formu artık vektörü ( ),

yanıt değişkeni vektörü ve düzeltme matrisi ( ) dayalı olarak
− Ó0 =
aşağıdaki gibi yazılır;
= − 5.18
mincisi h$^D aşağıdaki gibi elde edilir;

Buna göre (5.17) ve (5.18) dayalı olarak hataların varyansının tah-
∑ O [ ~ ~P
− ∑~
D
h$^D = 5.19
− 2 ∑ [ + ∑ ∑~ [D~
129
Ve vektör ve matris formunda yeniden aşağıdaki gibi yazıla-

bilir;
‖ 5− ‖D
h$^D = 5.20
ÜA 5 −
Burada matrisi, kullanılan tahmin yöntemine bağlı olarak elde
lırsa, , Bölüm 3’te Kernel için tanımlanan düzeltme matrisi é ile

edilen düzeltme matrisidir. Örneğin eğer Kernel regresyon kullanı-
yer değiştirilerek Eşitlik (5.20) yardımıyla hataların varyansı Ker-

nel regresyonu için elde edilebilir. Benzer şekilde, kNN regresyon
için, B-splayn regresyonu için, lokal regresyon için ve kübik
splayn regresyonu için Bölüm 3’te verilen düzeltme matrisleri
edilebilir. Ayrıca 5, ×
ile yer değiştirilerek tahmin edilen modellerin varyansları tahmin
Rµ = ÜA 5 −
boyutlu birim matris olmak üzere
serbestlik derecesidir ve hem aktif parametre sayı-
sından hem de örneklem büyüklüğünden kaynaklanan yanlılığı
varyans hesabına dâhil ederek minimize etmeye yardımcı olur.
Eşitlik (5.20) hakkında bazı detaylar üzerinde durulması gere-
kir. Bilindiği gibi varyans formülünde paydada yer alan ifade
derecesidir. Literatürde Rµ = ÜA 5 −
“normalleştirme faktörü” olarak da adlandırılabilecek serbestlik
belirlenmesinde bazı al-
ternatif yaklaşımlar vardır. Bunlardan biri Eagleson ve Silverman
(1992) tarafından tanıtılmıştır ve aşağıdaki gibi gösterilebilir;
‖ 5− ‖D 3 !5
− #D
h$^D˜ = = 5.21
ÜA! 5 − D# ÜA! 5 − D #
bant genişliği ℎ) değerlerinden kaynaklanan yanlılığı gidermektir

Burada (5.21) eşitliğinin amacı düzleştirme parametresi (×) (veya
ve Carter vd. (1992) bu yansız tahminciyi ispat etmiştir. (5.21)

benzer şekilde bir diğer alternatif tahminci, (5.21) eşitliğinin genel-
leştirilmiş hâli olarak aşağıdaki gibi sunulabilir;
3 !5
− #
h$^D¯ = 5.22
ÜA! 5 − #
130
Eşitlik (5.22)’de D > 0 herhangi bir tamsayıdır ve D değerinin fark-

lı değerleri için varyans tahmincisinin davranışları literatürde ince-
lenmiştir. (5.21) ifadesine benzer şekilde, varyans tahminini tutarlı
ve stabil tutmak için önerilmiş alternatif tahminlerden biri olarak
söylenebilir.
5.2.2. Farklara dayalı varyans tahmin edicisi

Farka dayalı varyans tahmini yaklaşımını, artıklara dayalı
siyonunun ! | # = 0
varyans tahmininden en önemli farkı ve avantajı, ortalama fonk-
tahmin edilmesine ihtiyaç duymama-
sıdır. Temel fikir, bağımsız ve aynı dağılıma sahip ve D de-
ğişkenlerine dayalı olarak aşağıdaki gibi varyans tahmini elde
1
etmektir;
Z − D[
= hD 5.23
2 D
Buna göre eğer regresyon fonksiyonu söz konusu olduğunda,
\ − D]
Q h D. Bu yakla-
yeterince küçük komşuluğa sahip iki ardışık gözlem için ( ve
f ) varyans yaklaşık olarak
D f
şıma dayalı olarak parametrik olmayan regresyon fonksiyonu,
(5.23) genellenerek aşağıdaki gibi elde edilebilir;
1
h$vD = Ã − D
5.24
2 −1 f
D
Burada (5.24), birinci dereceden farka dayalı varyans tahmini ola-

rak adlandırılır. Literatürde eşitlik (5.24) ikinci derece farklara
genişletilmiş ve genel bir ifade olarak sunulmuştur;
f
1
h$e(f
D
= Ã ™̂
D D
5.25
−2
D
Burada ™̂ D = f − f D ve O D ™̂ D P = h^D . GSJ kısaltması

tahminciyi öneren Gasser, Sroka ve Jennen-Steinmetz (1986) ça-
131
lışmasından gelir. Belirtildiği gibi (5.25) ikinci dereceye genişle-

tilmiş farka dayalı bir yaklaşımdır. Bu yaklaşımın “ℓ”inci dereceye
≤ D≤⋯≤ kullanılarak A‹ ℓ‹ dizisi aşağıdaki

genellemek mümkündür. Hata varyansını tahmin etmek için sıralı
gözlemler
gibi elde edilebilir;
ℓ ℓ
Ã A‹ = 0, Ã A‹D = 1 5.26
‹ ‹
Buna göre Eşitlik (5.26) dayalı olarak hataların varyansı ℓ”inci

dereceden aşağıdaki gibi tahmin edilebilir;
D
fℓ ℓ
1
h$ℓD = Ã hÃ A‹ ‹Ÿ~ i 5.27
−ℓ
~ ‹
Eşitlik (5.27) için detaylı çalışmalar Alharbi (2013) tarafından

yapılmıştır.
5.3. Düzeltme Parametresi Seçim Kriterleri

Bilindiği gibi parametrik olmayan regresyon modellerinde
kullanılan düzleştirme yöntemlerinin (kNN regresyon, Splayn reg-
resyon, Kernel düzleştirme, Cezalı splayn, Lokal yaklaştırma vb.)
doğru sonuçlar vermesinde ceza terimini kontrol eden düzeltme
parametresi kritik bir öneme sahiptir. Bu bağlamda kestiricilerin ve
modelin kalitesinin, düzeltme parametresine bağlı olduğu söylene-
bilir. Bu bölümde düzeltme parametresinin seçimi için kullanılan
yöntemler detaylı olarak incelenmiş, geniş literatür bilgisi ile klasik
ve yeni geliştirilen yöntemler incelenmiştir.
için düzeltme parametrelerinin (×, ℎ) seçimi ele alınmıştır. Bu bağ-

Bu bölümde, parametrik olmayan tahmin edicileri elde etmek
lamda literatürde yaygın olarak tercih edilen seçim kriterleri tanı-

tılmıştır. Tanıtılan kriterler, klasik ve risk kriterleri olarak iki gruba
ayırabiliriz. Bu ayırım, risk kriterlerinin pilot (önsel) düzeltme
132
parametresi (×• , ℎ•) seçimine dayalı olarak iki aşamalı olarak ger-
çekleştirilmesidir. Bu bağlamda algoritma hızı klasik kriterlerde •
hariç, K iken risk kriterlerinde bu hız K D olarak ölçülür ve
bu da risk kriterlerinin çalışma hızı bakımından verimliliğinin kla-
sik kriterlere göre düşük olduğu anlamına gelir. • kriteri için ise
gibi K D olarak ölçülür.

benzer şekilde pilot tahminler kullanıldığından hızı risk kriterleri
Ayrıca Bölüm 5.5’te, kriterlerin, düzeltme parametresi seçim-

leri kitap boyunca anlatılan parametrik olmayan tahmin yöntemle-
rine göre ayrı ayrı hem simülasyon hem de gerçek veri örnekleriyle
gösterilmiş, davranışları incelenmiş, performansları ölçülmüştür.
5.3.1. Klasik seçim kriterleri
kareler toplamı olarak ifade edilen [«Y = 3 !5 − #D dayalı

Bu bölümde varyans tahmini bölümünde anlatıldığı gibi hata
dolayısıyla düzletme matrisi göz önüne alınarak hem klasik hem

de risk kriterlerinin hesaplanması gösterilmiştir. Bu matris Bölüm
3’te her bir düzeltme yöntemi için belirtilmiştir. Kriterin matema-
tiksel formüllerinde, ilgili yöntemin düzeltme matrisi ile yer değiş-
rametresi, genel notasyon olarak anlatımı basitleştirmek adına ×

tirilerek her bir yöntem için değerler elde edilebilir. Düzeltme pa-
olarak belirlenmiştir.
Akaike bilgi kriteri (jkl): Bu kriter Akaike (1974) tarafın-
dan önerilmiş ve belirli bir ceza terimine sahip tahmin hatası gibi
davranan yapıya sahiptir. AIC kriterinde eşitliğin sol tarafını oluş-
linde ÜA
turan parametre sayısı yerine parametrik olmayan regresyon mode-
değeri kullanılır. Buna göre AIC aşağıdaki gibi yazıla-
bilir:
3 !5
− #D
o– × = 2ÜA − 2 log Ð Ñ 5.28
ÜA 5 −
133
Tutarlı AIC (ljkl): CAIC kriteri Bozdogan, (1987) tarafın-

dan önerilmiş ve AIC kriterinin genel kural ve varsayımlarını boz-
madan, AIC ceza miktarında değişiklik yaparak (Eşitlik (5.28) sol
tarafında yer alan “2” değerini değiştirerek) daha sade (parsimony)
bir model ve tutarlı bir AIC elde etmek amaçlanmıştır. Bu bağlam-
da önerilen kriteri başarı ile uygulamak için “2” çarpanı örneklem
büyüklüğüne ( ) göre artan bir fonksiyon kullanılması gerekir.
‖ 5−
Böylece, CAIC aşağıdaki gibi hesaplanır:
‖D
o– × = ÜA !log + 1# − 2 log Ð Ñ 5.29
ÜA 5 −
Geliştirilmiş AIC (jkln): Geliştirilmiş AIC (o– o ) Hurvich vd.
(1998) tarafından önerilmiş ve aktif parametre sayısına daha fazla
ceza vererek göreli olarak fazla değişken içeren modeller için daha
düşük riskle parametre veya model seçimi yapabilen bir kriterdir.
‖ 5−
Aşağıdaki gibi gösterilebilir;
‖D 2ÜA +1
o– × = log Ð Ñ +1 + 5.30
o
ÜA 5 − − ÜA −2
Bayes (Schwarz) Bilgi Kriteri (pkl): Bu kriter Schwarz (1978)
mından o– kriteri oldukça yakın özelliklere sahiptir. Ayrıca BIC

tarafından önerilmiş ve aynı olabilirlik bileşenini kullanması bakı-
modelde çok fazla aktif değişken sayısından kötü etkilenir ve uyum

iyiliği yok yüksek elde edileceğinden “aşırı uyum (overfitting)”
‖ 5−
problemi ortaya çıkar. BIC hesaplanışı aşağıdaki gibidir;
‖D
V– × = ÜA !log # − 2 log Ð Ñ 5.31
ÜA 5 −
Çapraz geçerlilik (Cross-Validation, CV): W kriteri literatürde
en yaygın kullanılan kriterlerden biridir. Bu kriterde temel fikir,
bütün gözlemler q ,
her bir gözlemi örneklemden atıp kriteri tekrar hesaplamak ve bunu
− 1 adet W~ × ¡~ W skorunu
f
için yapmaktır. Böylece her bir adım
için hesaplanmış olur ve
134
minimum yapan “en uygun” × değerine ulaşılmaya çalışılır. W

kriterinin hesaplanışı aşağıdaki gibidir;
f ‖ 5− ‖D
W × = 5.32
!ÜA 5 − #D
Genelleştirilmiş CV (GCV): GCV isminden anlaşılabileceği gibi
CV kriterinin genelleştirilmiş ve iyileştirilmiş versiyonudur. Ayrı-
ca, GCV de parametre seçiminde en yaygın kullanılan kriterlerden
paydada verilen ifade ! f ÜA 5 − #D ile yer değiştirir (detaylar

biridir. CV ve GCV arasındaki temel farklılık (5.31) eşitliğinde
için Craven ve Wahba, 1979 incelenebilir). GCV kriteri aşağıdaki

gibi gösterilebilir;
f‖ 5− ‖D
W × = 5.33
! f ÜA 5 − #D
Sağlamlaştırılmış CV (Robustified-CV): RCV kriteri GCV’nin
yüklüğü ve aktif parametre sayısını ÜA

değiştirilmiş versiyonudur ve amacı GCV kriterini örneklem bü-
dikkate alarak sağlam
hale getirmek bu faktörlerden kaynaklanan riski azaltmaktır. Bu
kriter hakkında detaylı bilgi için Robinson ve Moyeed, (1989)
incelenebilir. Ek olarak belirtmek gerekirse RCV kriteri diğer
kriterlerden herhangi bir dağılım varsayımı içermeme yönüyle de
ayrışmaktadır. Bu özelliği onu, AIC ve BIC gibi kriterlerden daha
sağlam kılar ve küçük örneklemler söz konusu olduğunda, RCV
kriterini öne çıkartır. RCV skoru aşağıdaki gibi hesaplanabilir;
!1 + f
+ ÜA D# f ‖ 5− ‖D
S W × = 5.34
!1 + f + ÜA #D
Mallows’ lr Kriteri: • kriteri Mallows (1973) tarafından öne-
lir. Bu kriterin hesaplanışı, varyans tahmininin pilot seçimine hÔD

rilmiş ve aynı zamanda yansız risk tahmini olarak da adlandırılabi-
dolayısıyla önsel olarak seçilen bir düzeltme parametresi olarak ×•
135
değerine bağlıdır. Burada önemli nokta, bu prosedürün riski azalt-

masıdır. • kriterinin matematiksel formülü aşağıdaki gibidir;
• × = f \‖ 5 − ‖D + 2h$ÔD ÜA − h$ÔD ] 5.35

D
burada h$ÔD = sT5 − Ô U s ÜA T5 − Ô U ve ×• pilot seçilen
düzeltme parametresidir. Bu pilot seçim için yukarıda tanıtılmış
lanılabilir. Bu bağlamda denilebilir ki • × kriteri iki aşamalı bir

olan AIC, BIC, CV veya GCV gibi kriterlerden herhangi biri kul-
seçim sürecinden oluşur ve hesaplama hızı bakımından yavaşlığı

buradan kaynaklanır. Diğer taraftan, riski düşürmesi en önemli
avantajı olarak söylenebilir. Ayrıca ilgili ver setinin normal dağı-
olduğunda • × kriterinin o– × ile oldukça benzer davrandığı

lıma sahip olduğu ve doğrusal regresyon model tahmini söz konusu
gözlenebilir. Fakat parametrik olmayan regresyon söz konusu ol-

duğunda sonuçlar bu bölümün sonunda verilen simülasyon ve ger-
çek veri çalışmalarında ortaya konmuştur.
verilen kriterlerde olduğu gibi ?Ü=Ü “aşırı uyum (overfitting)” ve

Goodman istatistiği (tuvwv): Eşitlikler (5.29-5.35) arasında
“yetersiz uyum (underfitting)” arasında yer alan sade, az değişkenli

(parsimony) bir modeli amaçlayan bir kriterdir. Dolayısıyla uyum
iyiliğini aktif parametre sayısına ve örneklem büyüklüğüne göre
meye çalışır. ?Ü=Ü ile ilgili daha fazla detay için Moses ve Hol-
cezalandırarak en uygun düzeltme parametresini veya modeli seç-
land (2009) incelenebilir. ?Ü=Ü, aşağıdaki gibi hesaplanır;

‖ 5− ‖D
RÜ=Ü = x − 1x 5.36
y − ÜA
Burada y toplam benzersiz (unique) nokta sayısından bir eksik
değerdir. Genelleme yapılırsa y − ÜA
alınabilir; Rµ = ÜA 5 − .
serbest derecesi olarak
136
5.3.2. Riske dayalı seçim kriterleri

Sınırlandırılmış en çok olabilirlik (REML): Ruppert vd.
varyans tahminine h^D dayalı olarak hesaplanır ve en uygun ×

(2003) tarafından gösterildiği gibi REML kriteri modelin teorik
değerini bulmayı amaçlar. Buna göre REML skoru aşağıdaki gibi

ifade edilebilir;
‖ 5− ‖D
S QN × = 5.37
ÜA 5 −
Burada REML ve GCV kriterlerinin örneklem büyüklüğü büyü-
dükçe normal dağılıma uymayan ver setleri hariç benzer değerleri
verdiği görülebilir. Detayları için Reis ve Ogden (2009) incelenebi-
lir.
tahmin edilen modeller için uyum değerleri O þP ve gerçek değerler

Klasik pilotlara dayalı risk tahmini (RECP): Risk ölçümü,
uygun × için risk fonksiyonu klasik pilotlara dayalı olarak aşağıda-

arasındaki mesafe ölçülerek yapılır. Buna göre model için en
ki hesaplanabilir;
S b × = f \‖ 5 − ‖D + h$ÔD ÜA 3 ] 5.38
Burada h$ÔD , • × kriterinde olduğu gibi hesaplanır.
önerilmiş ve düzeltme parametresi ×’ya bağlı olarak hesaplanabilen

Lokal Risk Tahmini (LRE): Bu kriter Lee (2003) tarafından
− 0Ô ¡ lokal riski minimum yapabilen × pa-

D
SÔ =
h$ D dayalı olarak aşağıdaki gibi hesaplanır:

rametresini seçmeye çalışır. LRE kriteri model varyans tahmini
SÔ = Ó − D
+ h$ D 3
5.39
Burada Ó ifadesi parantez içinde verilen çarpımdan elde edilen
3
için SÔ
vektörün i’inci değerini ifade eder. Benzer şekilde, matris
tahmini hesaplanır ve SÔ minimum yapan 0Ô

çarpımının i’inci değeri anlamına gelir. Burada her
hesaplanır.
137
Sonunda bileşik bir Ó0Ô elde edilir. Hesaplanması ile ilgili detaylar
için Aydın vd. (2013) ve Lee (2003) incelenebilir.
5.3.3. Simülasyon Uygulamaları

Bu bölümde, düzeltme parametresi seçimi için tanıtılan her
bir kriterin kitap boyunca tanıtılan tahmin yöntemleri için kullanıl-
dığında nasıl davrandıkları incelenmiştir. Bunu başarabilmek için
bir simülasyon çalışması yapılmış ve iki adet gerçek veri seti kul-
lanılarak sonuçlar sunulmuştur. Bu bölümde hem tahmin yöntemle-
rinin performansları ki bu yöntemler (i) kNN regresyon, (ii) Kernel
düzeltme yöntemi, (iii) Lokal ağırlıklı regresyon, (iv) B-splayn
regresyon, (v) Cezalı splayn regresyon ve (vi) Splayn düzeltme
yöntemi olarak sıralanabilir.
Simülasyon verisinin üretilmesi ve incelenmesi planlanan se-
örneklem büyüklüğü ( ) ve hataların varyansı h^D dikkate alın-

naryolar sunulmuştur. Burada senaryo için dikkate alınan faktörler,
mıştır. Buna göre simülasyon tasarımı aşağıdaki gibidir;

= + , = 1, … , 9, = 100, D = 200, q =
500

= 1.25 • − 0.5 ⁄ , 1 ≤ • ≤ , = 7z \ ]−
8¹f .q´
. ´

1.5z \ ]
8¹f .´
. ¨
 = åO]^ = 0, h^D¹ P, h^Dª = 0.25, h^D˜ = 0.5,
Bu bağlamda düzeltme parametresi seçimi için sonuçlar, ilgili
tablo ve grafiklerde sunulmuştur. Bu sonuçlar mümkün her simü-
lasyon konfigürasyonu için incelenmiştir. İlk olarak Şekil 5.3’te
üretilen regresyon fonksiyonu farklı konfigürasyonlar için veril-
miştir.
138
Şekil 5.3: Simülasyonda üretilen bazı konfigürasyonlar ve üretilen veriler
Bu bölümde, Şekil 5.3’te üretilen farklı senaryolar içeren pa-

rametrik olmayan regresyon fonksiyonu yukarıda bahsedil-
diği gibi altı farklı tahmin yöntemi ve 11 farklı parametre seçim
kriteri kullanılarak en uygun (optimal) tahminler elde edilmiştir.
Buna göre her bir tahmin yöntemi için ilgili en optimal düzeltme
parametre seçim sonuçları Tablo 5.1’de verilmiştir.
139
#KOD parçası sadece Şekil 5.4 ‘teki kNN regresyon

panelini verir. Diğerleri için kod parçası diğer
fonksiyonlar için de çalıştırılmalıdır.
#--------------------------------------------------
----------------------
n <- 50
data <- npdata(n,0.5)
x <- (data$x); y <- (data$y)
lam <- seq(0.001,2,length.out=20; k <- seq(2,20,
length.out=20)
h <- seq(0.1,2,length.out=20)
plot(x,y,ylim=c(min(y),max(y)),pch=19)
par(new=TRUE)
for (i in 1:20){
knn.est<- knnsmooth(x,y,k[i])
#kd.est <- kdsmooth(x,y,h[i])
#la.est <- localsmooth(x,y,h[i])
#bs.est <- bsmooth(x,y,35,lam[i])
#tps.est<- TPBsmooth(x,y,40,lam[i])
#ss.est <- splinesmooth(x,y,lam[i])
par(new=TRUE)
plot(x,knn.est$fhat,ylim=c(min(y),max(y)),type="l",
col="red")
}
Parametre seçiminden önce, her bir tahmin yönteminin, farklı

düzeltme parametre değerlerine karşın (örn: kNN regresyon için
“>”, Kernel regresyon için bant genişliği, “ℎ” vb.) eğri tahmin
sürecinin nasıl olduğu aşağıda verilen grafik ve kodlarda açıkça
görülebilir.
Şekil 5.4, altı tahmin yöntemi için de düzeltme parametre-
sindeki değişimin, tahmin eğrilerini nasıl etkilediğini göstermekte-
dir. Burada her yöntemin farklı tepkiler verdiği fakat son tahlilde
düzeltme parametresinin değeri arttıkça eğrilerin giderek bir doğ-
ruya dönüştüğü aksi durumda ise dalgalı bir yapıda olduğu açıkça
görülebilir. Panel (D) (E) ve (F) gösterilen splayn tahmin edicileri-
140
nin benzer davrandığı gözlemlenir. Ayrıca Şekil 5.4, düzeltme

parametresinin seçiminin uygun model tahmini ve tahmin perfor-
mansı için kritik öneme sahip olduğunu ispatlar.
Şekil 5.4: Farklı düzeltme parametre değerlerine karşın tahmin eğrileri:

(A) kNN regresyon, (B) Kernel regresyon, (C) Lokal ağırlıklı regresyon,
(D), B-splayn yöntemi, (E) Cezalı splayn, (F) Splayn düzeltme yöntemi.
141
set.seed(12223)
# kNN regresyonu için k seçimi
select.k <- param.select(x,y,method="kNN",range=20,
criterion="AIC")
select.k$opt
select.k$value
# Kernel regresyonu için bant genişliği “h” seçimi

opt.h <- param.select(x,y,method="Kernel",range=20,
criterion="GCV")
select.h$opt
select.h$value
# B-splayn regresyonu için Düzeltme parametresi “λ”

seçimi
opt.lam <- param.select(x,y,method="BS",range=20,
criterion="REML")
select.lam$opt
select.lam$value
# Splayn düzeltme regresyonu için Düzeltme parametresi

“λ” seçimi
opt.lam <- param.select(x,y,method="SS",range=20,
criterion="BIC")
select.lam$opt
select.lam$value
Tablo 5.1, AIC, BIC, GCV ve REML kriterleriyle dört farklı

tahmin edici için optimal düzeltme parametre seçim sonuçlarını
göstermektedir. Genel çerçeve incelendiğinde AIC, BIC ve GCV
kriterlerinin ilgili simülasyon verisi için Kernel, B-splayn ve
Splayn düzeltme yöntemleri için oldukça benzer davranışları sergi-
düşük “> = 36 ve > = 39” değerleri seçilmişken BIC ve GCV

lediği görülmektedir. k-NN regresyon için AIC ve REML daha
> = 45 olarak belirlenmiştir. Burada “>” kNN yöntemi için en

yakın komşu sayısı ve aynı zamanda düzeltme parametresi görevini
üstlenen parametredir. Ayrıca, diğer üç yöntem için de REML
142
kriteri diğerlerinden daha düşük düzeltme parametresi belirlemiştir.

Bu farklılığın REML kriterinin modele verdiği ceza miktarıyla
ilgili olduğu söylenir.
= 100,
h^D = 0.25
Tablo 5.1: Tahmin yöntemleri için seçim kriterleri sonuçları
> ℎ × ×
kNN Reg. Kernel D. B-Splayn Splayn D.
Değer Değer Değer Değer
AIC 1.395 36 1.726 2 18.336 2 3.655 1.794
BIC 3.308 45 3.701 2 36.146 2 7.479 1.794
GCV 1.381 45 1.210 2 1.423 2 1.237 1.794
REML 67.675 39 57.60 0.1 56.671 0.05 2.807 0.05
Tablo 5.1’e benzer şekilde diğer simülasyon kombinasyonla-

rı için de tablolar kolaylıkla elde edilebilir. Kodlarda sunulan
seçimler ve tahminler de benzer şekilde elde edilebilir. Kodlarda
gösterilen seçimlerle ilgili kriterlerin davranışları aşağıdaki şekil-
de verilmiştir. Şekil 5.5’te kriterler değerlerinin düzeltme para-
metresine karşı grafikleri görülmektedir. Bu bağlamda kriter de-
ğerlerinin minimum noktası, optimal düzeltme parametre değerini
işaret eder. Buna göre Tablo 5.1’de verilen değerler, Şekil 5.5 ile
doğrulanır.
143
(a) kNN Regresyon (b) Kernel Regresyon
(c) B-splayn Regresyon (d) Splayn Düzeltme Yöntemi
Şekil 5.5: Dört tahmin yönteminin 4 farklı kritere göre düzeltme para-
metrelerinin seçilmesi
Tablo 5.2: Simülasyon verileri için tahmin sonuçları, KHKO değerleri.
= 100, h^D = 0.25

Kriter kNN Reg. Kernel D. B-Splayn Splayn D.
= 200, h^D = 0.5

0.918 0.930 0.311 0.827
AIC
= 100, h^D = 0.25 0.918

1.042 1.042 0.489 0.945
= 200, h^D = 0.5

0.930 0.311 0.827
BIC
= 100, h^D = 0.25 0.918

1.042 1.042 0.489 0.945
= 200, h^D = 0.5

0.930 0.311 0.827
GCV
= 100, h^D = 0.25 0.651

1.042 1.042 0.489 0.945
= 200, h^D = 0.5

0.277 0.262 0.209
REML
0.799 0.463 0.447 0.360
144
Tablo 5.2 ve Şekil 5.6 farklı simülasyon kombinasyonları için

model tahminlerinden elde edilen KHKO değerleri sunulmuştur.
Tablo 5.2 incelendiğine REML haricindeki üç kriterin aynı dü-
zeltme parametrelerini seçtiği için aynı KHKO değerlerini verdiği
görülebilir. Burada REML kriterinin diğer kriterlere göre daha iyi
performans göstermiştir. Bunun temel nedeni Şekil 5.6’da görül-
düğü gibi daha küçük düzeltme parametresi seçmesidir. Tahmin
edicilerin performansları incelendiğinde ise her iki simülasyon
kombinasyonu için de B-splayn ve Splayn düzeltme yöntemlerinin
kNN ve Kernel regresyon yöntemlerinden daha iyi performans
varyans değeri h^D = 0.25 ve h^D = 0.5 için de beklendiği şekilde

gösterdiği görülebilir. Elbette veri üretiminde belirlenen farklı iki
varyans değeri arttığında KHKO değerlerinde belirgin bir artış

olmuştur. Şekil 5.6’da REML’ye dayalı elde edilen eğrilerin verile-
ri daha iyi temsil ettiği de açıkça görülebilir. kNN regresyonda
belirgin bir farklılığın görülmeme sebebi ise “>” değerinin tüm
kriterlerde benzer seçilmesidir. Performans olarak da en düşük
performansı yine kNN regresyon modelinin gösterdiği söylenebilir.
(A) o– (B) S QN
yöntemi ile elde edilen eğri tahminleri, = 100, h^D = 0.25

Şekil 5.6: Yaygın kullanılan üç kriter AIC ve REML için dört farklı tahmin
Aşağıdaki kodlarda, Tablo 5.2 ve Şekil 5.6’da yer alan ve

REML kriteri için hesaplanmış değerler R programında elde edile-
bilir. Diğer kombinasyonlar için kriter ve yöntemler değiştirilebilir.
145

criterion="REML")
select.h <- param.select(x,y,method="Kernel",range=20,
criterion="REML")
select.lam1 <- param.select(x,y,method="BS",range=20,
criterion="REML")
select.lam2 <- param.select(x,y,method="SS",range=20,
criterion="REML")
rmse.k <- sqrt(mean((select.k$fitted-y)^2))

rmse.h <- sqrt(mean((select.h$fitted-y)^2))
rmse.lambs <- sqrt(mean((select.lam1$fitted-y)^2))
rmse.lamss <- sqrt(mean((select.lam2$fitted-y)^2))
data.frame(rmse.k,rmse.h,rmse.lambs,rmse.lamss)
plot(x,y,pch=19,ylab="f(x) & y",cex=0.5)

par(new=TRUE)
plot(x,select.k$fitted,type="l",col=2,ylim=c(min(y),
max(y)),ylab="f(x)& y",lwd=2)
par(new=TRUE)
plot(x,select.h$fitted,type="l",col=3,ylim=c(min(y),
max(y)),ylab="f(x)& y",lwd=2)
par(new=TRUE)
plot(x,select.lam1$fitted,type="l",col=6,ylim=c(min(y)
,max(y)),ylab="f(x) & y",lwd=2)
par(new=TRUE)
plot(x,select.lam2$fitted,type="l",col=7,ylim=c(min(y)
,max(y)),ylab="f(x) & y",main="REML kriterine göre
seçimler",lwd=2)
grid()
le-
gend("bottomleft",legend=c("kNN","Kernel","BS","SS"),
lty=c(1,1,1,1),col=c(2,3,6,7))
5.3.4. Gerçek Veri Uygulamaları

a) Motosiklet kazası verileri
Aşağıda verilen kodlar kullanılarak Tablo 5.6’da elde edilen
parametre ve kriter değerlerinden bazıları elde edilebilir. Tüm so-
nuçlar, verilen kodlarda ilgili yerlerde kriter argümanı değiştirile-
rek elde edilebilir.
146
data <- mcycle

x <- (data$times)
y <- (data$accel)
n <- length(x)
#kNN regresyonu için k seçimi

criterion="REML")
select.k$opt
select.k$value

select.h <- param.select(x,y,method="Kernel",range=20,
criterion="BIC")
select.h$opt
select.h$value
# B-splayn regresyonu için Düzeltme parametresi “λ”

seçimi
select.lam <- param.select(x,y,method="BS",range=20,
criterion="GCV")
select.lam$opt
select.lam$value
# Splayn düzeltme regresyonu için Düzeltme paramet-

resi “λ” seçimi
select.lam <- param.select(x,y,method="SS",range=20,
criterion="AIC")
select.lam$opt
select.lam$value
Tablo 5.3, dört parametre seçim kriteri için hesap değerleri ve
lendiğinde, “>” değeri tüm kriterler için "> = 103" olarak seçil-
seçilen düzeltme parametreleri verilmiştir. kNN regresyonu ince-
miştir ki bu değer, kNN regresyonu için yüksek bir değerdir ve

tahmin edilen eğriyi fazla pürüzsüzleştirir ve giderek lineer bir
doğruya dönüştürür. Bunun temel nedenlerinden bir tanesi, moto-
siklet veri setindeki gözlemlerin simülasyona göre daha yüksek
varyansla saçılmasıdır. Bu durum, Şekil 5.7’de görülebilir. Benzer
şekilde dört seçim kriteri, Kernel düzeltme yöntemi için farklı kri-
147
ter skorları için “ℎ = 3” olarak belirlemiştir ve Şekil 5.7’de eğrile-

rin veriyi iyi temsil ettiği dolayısıyla kriterlerin en uygun paramet-
geçerlidir ve × = 1 olarak belirlenmiştir. Yalnızca splayn düzeltme

reyi seçtiği söylenebilir. Aynı durum B-splayn yöntemi için de
GCV’den daha küçük bir değer S QN: × = 0.121 ile veri nokta-
yöntemi için REML kriteri diğer üç kriter olan AIC, BIC ve
larına daha hassas bir eğri tahmini sağlar. Bu durum yine Şekil 5.7
dikkatle incelenirse görülebilir.
Tablo 5.3: Motosiklet kazası verisi için düzeltme parametrelerinin

seçilmesi
> ℎ Değer × Değer ×

Değer Değer
AIC -13.851 103 -8.892 3 7.287 1 27.968 0.5
BIC -10.775 103 1.434 3 40.952 1 91.447 0.5
GCV 2977.407 103 3308.253 3 3279 1 3494.47 0.5
REML 392.71 103 428.13 3 397.94 1 364.89 0.121
Tablo 5.4’te verilen değerler için aşağıdaki tabloda verilen

kodlar kullanılabilir. Benzer şekilde kriter argümanı değiştirilerek
sonuçların hepsi elde edilebilir.

criterion="AIC")
select.h <- pa-
ram.select(x,y,method="Kernel",range=20,criterion="
BIC")
select.lam1 <- param.select(x,y,method="BS",range=20,
criterion="GCV")
select.lam2 <- param.select(x,y,method="SS",range=20,
criterion="REML")
rmse.k <- sqrt(mean((select.k$fitted-y)^2))

rmse.h <- sqrt(mean((select.h$fitted-y)^2))
rmse.lambs <- sqrt(mean((select.lam1$fitted-y)^2))
rmse.lamss <- sqrt(mean((select.lam2$fitted-y)^2))
data.frame(rmse.k,rmse.h,rmse.lambs,rmse.lamss)
148
Tablo 5.4’te ise tahmin edilen parametrik olmayan regresyon

modellerine ait KHKO değerleri sunulmuştur. Seçilen düzeltme
parametrelerine bağlı olarak kNN regresyonunda kriterlere bağlı
KHKO değerleri aynı elde edilmiştir. Burada elde edilen KHKO
değerleri ile ilgili şu belirtilmelidir; veri seti standartlaştırılmadı-
ğından KHKO değerleri yüksek görünse de verinin saçılımına
göre elde edilen değerlerin normal olduğu Şekil 5.7’de y-ekseni
incelendiğinde ve eğriler incelendiğinde görülebilir. Bu bağlamda
en iyi tahmin performansını B-splayn göstermiş ve onu kNN reg-
resyonunun takip ettiği görülebilir. Kernel ve Splayn Düzeltme
yöntemleri ise birbirlerine yakın performanslar göstermiştir. kNN
regresyonunun düşük KHKO vermesinin temel nedeni, veri yapı-
sının sıfır etrafında şekillenmesi ve kNN regresyon eğrisinin di-
ğer yöntemlerden daha lineer ve sıfıra yakın kalmasından kaynak-
landığı belirtilebilir. Dolayısıyla burada şu belirtilmelidir, KHKO
değerlerini tek başına incelemek yeterli olmayabilir, tahmin eğri-
lerin grafiği de performansların incelenmesi için görülmelidir.
Tablo 5.4: Motosiklet verisi için yaygın kullanılan üç kritere dayalı tah-
min edilen regresyon modelleri için KHKO değerleri
AIC 37.467 51.682 21.615 67.329
BIC 37.467 51.682 21.615 67.329
GCV 37.467 51.682 21.615 67.329
REML 37.467 51.682 21.616 67.661
149
(A) V– (B) S QN
Şekil 5.7: Motosiklet verisi için tahmin edilen eğriler
b) Böbrek hastalığı verileri

Bu bölümde böbrek hastalığı verileri ile parametrik olmayan
regresyon modelleri tahmin edilmiştir. Veri setinin R programında
çağrılması ve Tablo 5.5’teki sonuçların kısmen elde edilmesi için
aşağıdaki kodlar kullanılabilir.
Tablo 5.5’te kriter değerleri ve seçilen düzeltme parametrele-
BIC ve GCV kriterleri > = 66, REML ise > = 18 olarak belirlen-
rinin değerleri görülebilir. kNN regresyon için REML hariç AIC,
miştir. Bu durumda REML tahmin eğrisinin veri noktalarına daha

hassas olduğu söylenebilir. Bu çıkarım Şekil 5.8’in sağ panelinde
ne benzer şekilde tüm kriterler aynı bant genişliği değerini ℎ = 3

açıkça görülebilir. Kernel düzeltme yöntemi için motosiklet verisi-
seçmiştir. B-splayn regresyonunda ise REML × = 0.05 ve diğer üç

kriter için × = 1 olarak belirlenmiştir. Splayn düzeltme yöntemi
için ise AIC ile BIC aynı, GCV ve REML daha küçük × değerleri
vermiştir. Buna göre, REML için tahmin edilen eğrilerin, her bir
kestirici için, daha dalgalı yapıda olduğu söylenebilir ve bu durum
Şekil 5.8’de açıkça gösterilmiştir. GCV panelindeki eğriler veriyi
daha stabil temsil ederken yani veri noktalarının arasından pürüz-
süz şekilde geçerken REML panelinde eğriler, pek çok veri nokta-
sının içinden geçerek veriyi temsil etmeye çalışmıştır. Bu sonuçlar
göz önüne alındığında, REML benzer sonuçlar üreten kriterlerin,
örneklem içi (in sample) tahminlerde iyi performans göstermesi
150
beklenirken örneklem dışı, modelin hiç karşılaşmadığı veri nokta-

ların için tahmin performansının düşük olacağı söylenebilir. GCV
paneli özelinde ise tam tersine, tahmin edilen modelin hem örnek-
lem içi hem de örneklem dışı tahminlerde daha dengeli bir perfor-
mans göstermesi beklenir. Burada araştırmacı, belirlenen hedef
doğrultusunda uygun olan kriteri seçip kullanabilir.
library(condSURV)
library(psych)
library(pracma)
library(MASS)
library(frailtyHL)
data <- kidney

x <- scale(data$frail); y <- scale(data$time); n <-
length(x)
#kNN regresyonu için k seçimi

criterion="GCV")
select.k$opt
select.k$value

select.h <- param.select(x,y,method="Kernel",
range=20,criterion="REML")
select.h$opt
select.h$value
# B-splayn regresyonu için Düzeltme parametresi “×”

seçimi
select.lam <- param.select(x,y,method="BS",range=20,
criterion="BIC")
select.lam$opt
select.lam$value
# Splayn düzeltme regresyonu için Düzeltme paramet-

resi “×” seçimi
select.lam <- param.select(x,y,method="SS",range=20,
criterion="AIC")
select.lam$opt
select.lam$value
151
Tablo 5.5: Böbrek hastalığı verileri için düzeltme parametrelerinin

seçimi
> ℎ Değer × ×
Değer Değer Değer
AIC 2.056 66 2.087 3 18.986 1 13.210 0.5
BIC 4.389 66 4.459 3 40.751 1 28.341 0.5
GCV 0.986 66 0.987 3 0.976 1 0.976 0.476
REML 73.990 18 74.057 3 63.919 0.05 62.902 0.144
Tablo 5.6’da verilen KHKO değerleri beklendiği üzere,

REML için daha düşük elde edilmiştir. Bunun nedeni yukarıda
açıklandığı üzere, REML kriterinin daha küçük düzeltme paramet-
resi seçmesi ve dolayısıyla veri noktalarına daha yakın seyreden bir
eğri tahmini yapmasıdır. Bunun avantaj ve dezavantajı da yukarı-
daki çıkarımlarda belirtilmiştir. AIC, BIC ve GCV tüm örneklerde,
simülasyon da dâhil olmak üzere benzer sonuçları üretmiş ve böb-
rek verisinde de aynı değerleri vermiştir. Motosiklet veri örneğin-
den olduğu gibi, Tablo 5.6 incelendiğinde B-splayn yönteminin
diğer yöntemlerden daha düşük KHKO değerleri sunduğu açıkça
görülmektedir. Kernel regresyon ve splayn düzeltme yöntemleri
incelendiğinde ise bu iki yöntemin de en az B-splayn kadar pürüz-
süz eğriler sunduğu açıkça görülebilir.
Tablo 5.6: Böbrek hastalığı verisi için yaygın kullanılan üç kritere dayalı
tahmin edilen regresyon modelleri için KHKO değerleri
AIC 0.993 1.001 0.827 1.130
BIC 0.993 1.001 0.827 1.130
GCV 0.993 1.001 0.828 1.133
REML 0.617 1.001 0.805 1.234
152
(A) (B)
Şekil 5.8: Böbrek hastalığı verisi için tahmin edilen eğriler
5.4. Splayn kestiricileri için düğüm seçim

yöntemleri
Splaynlara dayalı parametrik olmayan regresyon fonksiyonu
tahmincileri söz konusu olduğunda, düzeltme parametresine ek
olarak düğüm seçimi de tahmin performansını önemli ölçüde etki-
lidir. Cezalı splaynlara dayalı tahmin yöntemleri ilgili bölümlerde
anlatıldığından bu bölümde yalnızca düğüm seçim yöntemleri anla-
tılmıştır. Genellikle, düğüm noktaları bilinmediğinden seçilmesi
gerekir. Düğüm seçimi için literatürde üç temel yöntem gösterilebi-
lir. Bu yöntemler sırasıyla (i) Varsayılan seçim yöntemi, (ii) Miyop
algoritma (iii) Kapsayıcı algoritma olarak söylenebilir. Her ne
kadar yapılan çalışmalar incelendiğinde farklı yöntemlerle karşı-
laşmak mümkün olsa da pek çok yöntem sıralanan üç yöntemden
herhangi birinin geliştirilmesi veya uzantılarından oluşmaktadır.
Düğüm sayısı splayn modelin yaklaştırma yeteneği için çok
daha önemli bir rol oynar. Kullanılan düğüm sayısı ve bunların
nereye yerleştirmesi gerektiği konusu önemlidir. Bu anlamda Lite-
ratürde farklı düğüm seçim kriterleri vardır. Bu durumda yaygın
olarak aşağıdaki yöntemlerden biri yapabilir:
153
i) Varsayılan seçim yöntemi (DSM)

Buradaki esas düşünce, regresyon fonksiyonundaki temel ya-
pıyı çözmek için yeterli sayıda düğüm seçmektir. Ancak sonraki
bölümlerde görüleceği gibi daha ayrıntılı cezalandırılmış spline
modelleri için düğüm sayısını nispeten düşük tutmanın hesaplama
avantajları vardır. Makul olan, her bir düğüm arasında sabit sayıda
farklı ve sıralı gözlem (örneğin 4-5 gib) olmasını sağlayacak dü-
ğümleri için seçmektir. Büyük veri kümeleri için bu, aşırı düğüm
sayısına yol açabilir, bu nedenle izin verilen maksimum düğüm
sayısı (örneğin, toplam 20-40) önerilir.
Açıklayıcı değişkeni, küçükten büyüğe doğru farklı ve sıralı
halede (yani, değişkenin aynı değeri alan birden çok değeri varsa
yeri, > = 1,2, … , « ç sıralı ve farklı ′lerin

sadece bir tanesi dikkate alınır) düzenlenir. Daha sonra düğümlerin
>+1
=X Y . ¿Î öA ™>¶™B >=AÜ ¶ 5™
‹
«+2
yer alırlar. Genellikle iyi çalışan basit bir varsayılan « sayısının
seçimi şu şekilde verilir:
=A>¶Î ‘™ ?ÎA=¶Î k ¶™A ?= Î?Î
«=B Ð , 35 Ñ 5.40
4
ii) Miyop algoritma

Miyop algoritma, düğüm seçimi için kullanılan iteratif bir sü-
reçtir. Bu süreçte algoritma, düğüm seçiminde kullanılacak olası
dizileri dener ve belirlenen bir tolerans değerine göre tahminde bir
biri «e = « , … , «´ = 5,10,20,40,80 olsun ve örneklem bü-

iyileşme olmazsa iterasyonu sonlandırır. Örneğin; olası dizilerden
yüklüğü ≤ 80 olsun. Ek olarak düzeltme parametresi için de

olası bir dizi olarak ×e = × , … , ×´ verilmiş olsun. Burada, GCV
kriteri ile düğüm sayısı ve düğüm noktalarını belirlemek aşağıda
verilen adımlarla mümkün olabilir;
154
W × için ve « = 5 için elde edilir.

Adım 1. Cezalı splayn tahmini olası dizilere bağlı olarak
Adım 2. Cezalı splayn tahmini W ×D için ve « = 10 için

elde edilir.
W × > 0.98 W ×D ise iterasyon durdu-
rulur ve min! W × , W ×D # kriterini sağlayan ilgili düğüm
Adım 3. Eğer
sayısı kullanılır.
W × < 0.98 W ×D ise adım, 1-3 arası
yeniden fakat • = 2, … ,5’e kadar devam eder.
Aksi durumda,
iii) Kapsayıcı algoritma

Bu algoritma, Miyop algoritmaya benzerdir fakat tüm müm-
kün düğüm noktalarını tarar ve en uygunu bulmaya çalışır. Bu
Buna göre algoritmanın adımları «~ , • = 2, … , aşağıdaki gibidir;

bağlamda miyop algoritmasına göre yavaştır fakat riski düşüktür.
Adım 1. Cezalı splayn tahmini WO×~ P ile seçilen ×~ ve «~

için elde edilir.
WO×~ P minimum yapan «~ değeri düğüm sayısı
olarak ve «~ adet ’nin sıralı ve tekil değerleri ise düğüm noktaları
Adım 2.
olarak seçilirler.
iv) Eşit-aralıklı düğüm seçim yöntemi

Öncelikle açıklayıcı değişkeninden ℎ‹ (aralık) değeri, he-
saplanır:
max − min
ℎ‹ =
«−1
Daha sonra, düğün noktaları,
‹ = min + > − 1 ℎ‹ , > = 1,2, … , «

olarak alınır.
155
v) Görsel İncelemeyle düğüm seçimi

Alternatif olarak kullanıcı, verilerdeki gürültüye göre ′nin
sine dayalı olarak düğüm sayısı «'yi seçebilir. Örneğin, regresyon

karmaşıklığını belirlemek için dağılım grafiğinin görsel inceleme-
fonksiyonu çok fazla ince ayrıntıya sahip gibi görünüyorsa « artı-

rılmalıdır. Bu nedenle, «'yi belirlemek için otomatik düğüm seçme
algoritmaları geliştirilmiştir.
vi) AIC ve BIC Kriterleri ile Düğüm seçimi
bir ağ araması (grid search) olacaktır, yani belirli bir maksimum «

Eşit uzaklıklı aralıkların sayısını seçmenin birinci yolu, basit
tion Criterion-AIC) minimum yapan optimum > ∈ 2, … , « dü-

düğüm sayısı için, örneğin Akaike bigi kriterini (Akaike informa-
ğüm sayısı seçilir.

Düğüm seçimi yöntemlerinin uygulamada nasıl davrandıkla-
rını, motosiklet kazası verileri üzerinde incelenmiştir. Bu bağlamda
Tablo 5.7’de cezalı splayn ve B-splayn için düğüm seçimi sonuçla-
rı farklı algoritmalara göre sunulmuştur.
Örnek: Motosiklet verisi için düğüm seçimi için kullanılan
yöntemler ve düğüm seçimi gerektiren B-splayn ve cezalı splayn
tahmin edicileri incelenmiştir. Buna göre aşağıdaki Tablo 5.7 ve
Şekil 5.9’da iki yönteme ait sonuçlar sunulmuştur. Aşağıdaki tablo
ve grafiklerin elde edilmesi için bölüm sonunda verilen R kodları
kullanılabilir.
Tablo 5.9’da düğüm seçim algoritmalarının belirlediği düğüm
sayıları hem B-splayn hem de cezalı splayn için gösterilmiştir.
Burada algoritmaların her iki kestirici için de aynı düğüm sayılarını
seçtiği görülmektedir. Fakat burada belirtmek gerekir ki B-splayn
ve Cezalı splaynlar farklı teorilere sahip olduğundan, düğüm sayısı
ve düzeltme parametreleri aynı bile seçilse tahmin performansları
farklı elde edilir. Bu da Şekil 5.9’da açıkça görülebilir. Ayrıca
156
görüldüğü üzere, DSM beklendiği gibi MA ve FSM arasında bir

düğüm sayısı belirlemiş, MA en fazla düğüm sayısını belirlemiş,
FSM ise en düşük düğüm sayını vermiştir.
Tablo 5.7: Splayn kestiricilerinin düğüm seçimi yöntemlerine göre dü-

ğüm sayıları
DSM MA FSM
B-splayn 24 40 5
Cezalı Splayn 24 40 5
Şekil 5.8: Belirlenen düğüm sayısı ve düğüm lokasyonlarına göre

tahmin eğrilerinin değişimi
Şekil 5.9’da görüldüğü gibi FSM B-splayn için iyi çalışma-

mış, tam tersine DSM ve MA ile daha optimal düğümler belirlen-
miş görünmektedir. Cezalı splayn ise her üç kestirici için de tatmin
edici sonuçlar üretmiş, düğüm sayısından fazla etkilenmediği gö-
rülmüştür. Bu bağlamda cezalı splayn için düzeltme parametresinin
tahmin performansında daha kritik öneme sahip olduğu söylenebi-
lir. Diğer yandan ise B-splayn için düğüm sayısı ve düğüm nokta-
larının lokasyonlarının büyük öneme sahip olduğu sonucu çıkartı-
labilir.
157
KAYNAKÇA
1. Akaike, H. (1974). A new look at the statistical model identification. IEEE

transactions on automatic control, 19(6), 716-723.
2. Aydin, D. (2007). A comparison of the nonparametric regression models
using smoothing spline and kernel regression. World Academy of Science,
Engineering and Technology, 36, 253-257.
3. Aydın, D. (2015). Semiparametrik regresyon modellemede splayn düzeltme
yaklaşımı ile tahmin ve çıkarsamalar, Doktora Tezi, Anadolu Üniversitesi,
Türkiye.
4. Bozdogan, H. (1987). Model selection and Akaike's information criterion
(AIC): The general theory and its analytical extensions. Psychometrika, 52(3),
345-370.
5. Bowman, A. W., & Azzalini, A. (2014). R package sm: nonparametric smoot-
hing methods (version 2.2-5.4). University of Glasgow, UK and Universita di
padova, Italia.
6. Carter, C. K., Eagleson, G. K., & Silverman, B. W. (1992). A comparison of
the Reinsch and Speckman splines. Biometrika, 79(1), 81-91.
7. Craven, P., & Wahba, G. (1978). Smoothing noisy data with spline functions:
estimating the correct degree of smoothing by the method of generalized
cross-validation. Numerische mathematik, 31(4), 377-403.
8. Crowley, J., & Hu, M. (1977). Covariance analysis of heart transplant survival
data. Journal of the American Statistical Association, 72(357), 27-36.
9. Copas, J. B., & Fryer, M. J. (1980). Density estimation and suicide risks in
psychiatric treatment. Journal of the Royal Statistical Society: Series A (Gene-
ral), 143(2), 167-176.
10. Gasser, T., Sroka, L., & Jennen-Steinmetz, C. (1986). Residual variance and
residual pattern in nonlinear regression. Biometrika, 73(3), 625-633.
11. De Boor, C., & De Boor, C. (1978). A practical guide to splines (Vol. 27, p.
325). New York: springer-verlag.
12. Duong, T., Wand, M., Duong, M.T., & Suggests, M. A. S. S. (2015). Package
‘feature’.
13. Duong, T., Duong, M. T., & Suggests, M. A. S. S. (2022). Package ‘ks’. R
package version, 1(5).
14. Efromovich, S. (1999). Quasi-linear wavelet estimation. Journal of the Ameri-
can Statistical Association, 94(445), 189-204.
15. Eubank, R. L. (1999). Nonparametric regression and spline smoothing. CRC
press.
16. Fan, J., Gijbels, I., Hu, T. C., & Huang, L. S. (1996). A study of variable
bandwidth selection for local polynomial regression. Statistica Sinica, 113-127.
159
17. Guidoum, A. C. (2015). Kernel estimator and bandwidth selection for density
and its derivatives. Department of Probabilities and Statistics, University of
Science and Technology, Houari Boumediene, Algeria.
18. Green, P. J., & Silverman, B. W. (1994). Nonparametric regression and gene-
ralized linear models: a roughness penalty approach. Crc Press.
19. Hayfield, T., & Racine, J. S. (2008). Nonparametric econometrics: The np
package. Journal of statistical software, 27, 1-32.
20. Härdle, W. K. (1991). Smoothing techniques: with implementation in S.
Springer Science & Business Media.
21. Härdle, W., Müller, M., Sperlich, S., & Werwatz, A. (2004). Nonparametric
and semiparametric models (Vol. 1). Berlin: Springer.
22. Härdle, W. (1990). Applied nonparametric regression (No. 19). Cambridge
university press.
23. Härdle, W., & Linton, O. (1994). Applied nonparametric methods. Handbook
of econometrics, 4, 2295-2339.
24. Hurvich, C. M., Simonoff, J. S., & Tsai, C. L. (1998). Smoothing parameter
selection in nonparametric regression using an improved Akaike information
criterion. Journal of the Royal Statistical Society: Series B (Statistical Metho-
dology), 60(2), 271-293.
25. Mallows, C. L. (1973). Bounds on distribution functions in terms of expecta-
tions of order-statistics. The Annals of Probability, 297-303.
26. Moses, T., & Holland, P. W. (2009). Selection strategies for univariate logli-
near smoothing models and their effect on equating function accuracy. Journal
of Educational Measurement, 46(2), 159-176.
27. Nadaraya, E. A. (1964). On estimating regression. Theory of Probability & Its
Applications, 9(1), 141-142.
28. Parzen, E. (1962). On estimation of a probability density function and mode.
The annals of mathematical statistics, 33(3), 1065-1076.
29. Reiss, P. T., & Todd Ogden, R. (2009). Smoothing parameter selection for a
class of semiparametric linear models. Journal of the Royal Statistical Society:
Series B (Statistical Methodology), 71(2), 505-523.
30. Robinson, T., & Moyeed, R. (1989). Making robust the cross-validatory choi-
ce of smoothing parameter in spline smoothing regression. Communications
in Statistics-Theory and Methods, 18(2), 523-539.
31. Rosenblatt, M. (1956). Remarks on some nonparametric estimates of a density
function. The annals of mathematical statistics, 832-837.
32. Ruppert, D., Wand, M. P., & Carroll, R. J. (2003). Semiparametric regression
(No. 12). Cambridge university press.
33. Schwarz, G. (1978). Estimating the dimension of a model. The annals of
statistics, 461-464.
34. Schmidt, G., Kallieris, D., Barz, J., Mattern, R., Schulz, F., & Schüler, F.
(1981). Belastbarkeitsgrenzen des angegurteten Fahrzeuginsassen bei der
Frontalkollision. FAT, Schriftenreihe, (15).
160
Kaynakça
35. Sheather, S. J., & Jones, M. C. (1991). A reliable data‐based bandwidth selec-
tion method for kernel density estimation. Journal of the Royal Statistical So-
ciety: Series B (Methodological), 53(3), 683-690.
36. Simonoff, J. S. (1986). Jackknifing and bootstrapping goodness-of-fit statis-
tics in sparse multinomials. Journal of the American Statistical Association,
81(396), 1005-1011.
37. Tarter, M. E., & Lock, M. D. (1993). Model-free curve estimation (Vol. 56).
CRC Press.
38. Terrell, G. R., & Scott, D. W. (1992). Variable kernel density estimation. The
Annals of Statistics, 1236-1265.
39. Wand, M., Ripley, B., & Ripley, M. B. (2015). Package ‘KernSmooth’.
40. Wahba, G. (1990). Spline models for observational data. Society for industrial
and applied mathematics.
41. Wand, M. P., & Jones, M. C. (1995). Kernel smoothing. CRC press.
42. Wasserman, L. (2004). All of statistics: a concise course in statistical inferen-
ce (Vol. 26). New York: Springer.
43. Watson, G. S. (1964). Smooth regression analysis. Sankhyā: The Indian Jour-
nal of Statistics, Series A, 359-372.
161
DİZİNLER
açıklayıcı değişken, iii, 13, 45, 51, düğüm noktaları, 74, 80, 86, 90, 91,
54, 55, 81, 94, 108, 118, 128 93, 94, 95, 96, 153, 154, 155,
Akaike, 133, 156, 159, 160 157
algoritma, 15, 133, 153, 154, 155 düğüm sayısı, 79, 87, 97, 153, 154,
ampirik dağılım, 21, 23, 44 155, 156, 157
artıklar, 112 düzeltme parametresi, 4, 45, 53, 54,
asimptotik, 14, 28, 38, 123, 125 65, 66, 67, 77, 78, 79, 85, 89,
bağımlı değişken, 31, 45, 81, 100 93, 94, 101, 113, 117, 124, 132,
bağımsız değişken, 1, 100 133, 135, 136, 137, 138, 140,
bant genişliği, 26, 27, 32, 33, 34, 142, 143, 145, 152, 153, 154,
36, 38, 39, 42, 43, 44, 47, 50, 157
53, 54, 59, 61, 68, 121, 123, düzleştirme parametresi, 5, 7, 9, 10,
130, 140, 142, 147, 150, 151 11, 13, 14, 28, 31, 33, 36, 47,
beklenen değer, 7, 23, 24, 28, 37, 48, 120, 121, 130
122, 125 düzleştirme yöntemleri, iii, iv, 2, 5,
belirlilik katsayısı, 100 15, 119, 132
böbrek hastalığı verileri, 150 en küçük kareler, 1, 59, 60, 61, 62,
Böbrek hastalığı verileri, 150, 152 64, 65, 66, 73, 76, 81, 83, 86,
B-splayn, 3, 4, 45, 73, 74, 75, 76, 95, 102, 106, 112
77, 78, 79, 130, 138, 141, 142, frekans, 21, 22, 25, 29, 30, 31, 32
143, 144, 145, 147, 148, 149, gayzer veri seti, 25, 30
150, 151, 152, 156, 157, 195 göreli risk, 126, 127
budanmış polinom, 78 güven aralığı, 100, 101, 108, 109,
budanmış üstel tabanlı, 80, 84, 86 128
ceza matrisi, 76, 84, 85, 91, 95 hata kareler, 16, 18, 28, 48, 57, 87,
ceza parametresi, 73 88, 89, 106, 118, 122, 133
cezalı en küçük kareler, 62, 81, 83, hataların varyansı, 127, 128, 129,
84, 85, 86, 89, 95, 102 130, 132, 138
cezalı kareler, 75, 81, 82, 95 histogram, 3, 7, 8, 9, 23, 24, 25, 26,
cezalı splayn, 2, 3, 4, 45, 80, 87, 27, 28, 29, 30, 31, 32, 33, 169,
120, 132, 138, 141, 153, 171, 177, 178
155,156, 157,195 interpolasyon, 89, 122
çapraz geçerlilik, 9, 61, 134, 197 kareli hata, 8, 9, 16, 28
dağılım fonksiyonu, 6, 19, 20, 23, kernel ağırlıkları, 15, 64, 66
44 kernel düzeltme, 3, 56, 56, 57, 58,
değişen varyans, 129 65, 138, 147, 150
diagonal matris, 62 kernel eğrileri, 39, 40
doğrusal fonksiyon, 83, 104 kernel fonksiyonları, 32, 34, 37,
doğrusal regresyon, 10, 59, 88, 89, 41, 43, 53, 55
95, 101, 136 kernel regresyonu, 15, 58, 59, 65,
130, 142, 147, 151
163
k-NN regresyon, 46, 52, 142 120, 122, 123, 126, 127, 128,
k-NN tahmini, 47, 48, 49, 50, 174 129, 131, 138, 154, 156
kuadratik, 59, 83, 84, 86, 114, 115, regresyon kestiricileri, 69, 105
190 ridge regresyon, 76
kuadratik splayn, 84, 86 sabit tasarım modeli, 13
kübik splayn, 74, 88, 89, 90, 91, 94, seçim kriteri, 70, 78, 79, 139, 147
95, 98, 103, 104, 130 semiparametrik, 96
Kübik splayn, 104 serbestlik derecesi, 4, 70, 78, 107,
kümülatif, 5, 19, 20, 22, 25 112, 113, 128, 130
lokal doğrusal, 65, 66, 67, 68, 114, simülasyon, iii, 1, 2, 4, 13, 51, 52,
115 97, 98, 109, 123, 126, 133, 136,
lokal polinomial, 3, 58, 62, 63, 64, 138, 142, 143, 144, 145,
68, 69, 70, 71, 180 152,174
lokal regresyon, 58, 70, 71, 72, 109, span, 59, 68, 69, 70, 71, 72, 109,
112, 130 114, 115, 180, 182, 197
lokal sabit, 64, 65, 68 splayn düzeltme, 3,45, 80,87, 89,
merkezi limit teoremi, 125 93, 94,95,97, 101, 103, 104,
normal dağılım, 19, 23, 33, 51, 56, 138, 141, 142, 145,
98, 136, 137 147,148,150, 151, 152, 203, 205
normal denklemler, 62, 83 standart sapma, 33, 98, 125
öklid uzaklığı, 47, 49, 124 taban fonksiyonları, 74, 75, 84
örneklem büyüklüğü, 1, 14, 125, tahmin vektörü, 60, 77
126, 130, 134, 135, 136, 137, Taylor serisi, 38, 59, 63, 65, 66
138, 154 toplam hata, 120, 121, 122, 125,
parametrik olmayan regresyon, 3, 4, 126
7, 9, 10, 20, 37, 47, 53, 55, 59, uyum değerleri, 4, 70, 83, 85, 96,
80, 81, 88, 89, 95, 122, 124, 100, 105, 107, 108, 109, 110,
125, 127, 128, 131, 132, 133, 114, 115, 137
136, 139, 149, 150, 153 uyum iyiliği, 118, 128, 134, 136
pürüzlülük, 2, 68, 80,87, 89, varyans tahmini, 4, 124, 127, 128,
91,95,120 129, 131, 133, 135, 137
R paketleri, 43 yanıt değişkeni, iii, 1, 7,11, 46, 52,
R programlama, 31 59, 61, 98, 118, 129
rassal değişken, 6, 12, 15, 20, 37, yanlılık, 120,122,123
50 yansız tahmin, 130
rastgele tasarım modeli, 12, 13 yoğunluk fonksiyonu, 6, 7, 12, 19,
regresyon analizi, 1 23, 28, 29, 32, 36, 38, 39, 126
regresyon eğrisi, 11, 12, 121, 149 yoğunluk kestiricisi, 23, 24, 32, 33,
regresyon fonksiyonu, 1, 6, 7, 9, 14, 36, 38, 39, 41, 44
15, 48, 50, 51, 55, 59, 63, 67, yoğunluk tahmini, iii, 3, 17, 20, 23,
77, 80, 86, 87, 105, 108, 119, 26, 27, 30, 32, 33, 34, 36, 44, 53
164
EKLER
EK-A: R Kodları
Ek-A1. Örnek 1.2’nin R-kodları
library(MASS)
data(mcycle)
attach(mcycle)
x=times
y=accel
par(mfrow=c(2,2))
n=length(y)
#sp_seq = seq(from=0.05,to=1.0, by=0.5)
#CV_err_sp = rep(NA,length(sp_seq))
#for(j in 1:length(sp_seq)){
#spar_using = sp_seq[j]
#CV_err = rep(NA, n)
#for(i in 1:n){
#x_val = x[i]
#y_val = y[i]
#x_tr = x[-i]
#y_tr = y[-i]
#SS_fit = smooth.spline(x=x_tr,y=x_tr,spar=spar_using)
#y_val_predict = predict(SS_fit,x=x_val)
#CV_err[i] = (y_val - y_val_predict$y)^2
#}
#CV_err_sp[j] = mean(CV_err)
#}
#CV_err_sp
#sp_seq[which(CV_err_sp == min(CV_err_sp))]
n = length(y)
N_cv = 100
k = 5
cv_lab = sample(n,n,replace=F) %% k
## randomly split all the indices into k numbers
h_seq = seq(from=0.2,to=5.0, by=0.1)
CV_err_h = rep(0,length(h_seq))
for(i_tmp in 1:N_cv){
CV_err_h_tmp = rep(0, length(h_seq))
cv_lab = sample(n,n,replace=F) %% k
for(i in 1:length(h_seq)){
h0 = h_seq[i]
165
CV_err =0
for(i_cv in 1:k){
w_val = which(cv_lab==(i_cv-1))
x_tr = x[-w_val]
y_tr = y[-w_val]
x_val = x[w_val]
y_val = y[w_val]
kernel_reg = ksmooth(x = x_tr,y=y_tr,kernel = "nor-
mal",bandwidth=h0,
x.points=x_val)
# WARNING! The ksmooth() function will order the x.points
from
# the smallest to the largest!
CV_err = CV_err+mean((y_val[order(x_val)]-
kernel_reg$y)^2,na.rm=T)
# na.rm = T: remove the case of 'NA'
}
CV_err_h_tmp[i] = CV_err/k
}
CV_err_h = CV_err_h+CV_err_h_tmp
}
CV_err_h = CV_err_h/N_cv
plot(h_seq,CV_err_h,pch=18, type="b", lwd=4, col="blue",
xlab="Düzgünleştirme Parametresi",
ylab="5-CV Hata")
h_opt = h_seq[which(CV_err_h==min(CV_err_h))]
h_opt
plot(x,y,pch=20,xlab="Zaman",ylab="Hızlanma")
Kreg1 = ksmooth(x,y,kernel = "normal",bandwidth = 2.5)
lines(Kreg1, lwd=2, col="orange")
legend("topright", c("h=2.5"), lwd=2, col=c("orange"))
plot(x,y,pch=20, xlab="Zaman",ylab="Hızlanma")
Kreg2 = ksmooth(x,y,kernel = "normal",bandwidth=0.9)
lines(Kreg2, lwd=2, col="blue")
legend("topright", c("h=0.9"), lwd=2, col=c("blue"))
plot(x,y,pch=20,xlab="Zaman",ylab="Hızlanma")
Kreg3 = ksmooth(x,y,kernel = "normal",bandwidth = 4)
lines(Kreg3, lwd=2, col="limegreen")
legend("topright", c("h=4"), lwd=2, col=c("limegreen"))
#plot(x,y,pch=20,xlab="Zaman",ylab="Hızlanma")
#Kreg4 = ksmooth(x,y,kernel = "normal",bandwidth = 5)
#lines(Kreg4, lwd=2, col="purple")
#legend("topright", c("h=5"), lwd=2, col=c("purple"))
166
Ekler
Ek A2. Şekil 2.2: R-Kodları

x=faithful$eruptions
#Drawing from the histogram of X
par(mfrow=c(1,2))
hist(x,xlab="Püskürtme Uzunluğu",main="Gayzer Verisi")
h <- hist(x,probability=FALSE, breaks=8)
#lines(h$density)
hist(x,xlab="Püskürtme Uzunluğu",main="Gayzer Veri-
si",ylim=c(1,80))
h <- hist(x, probability=TRUE, bre-
aks=8,xlab="Püskürtme Uzunluğu",
main="Gayzer Verisi")
old = options(digits=3)
scale <- sum(h$density)
sum(h$density/scale) # check if 1
#F-inverse function (cdf) for the histogram, scaled
to total 1
cumprob <- cumsum(h$density/scale)
167

par(mfrow=c(2,2))
dat=faithful$eruptions
#hist(dat,main="(a)",xlab="Püskürme uzunluğu",xlim=
c(1,6),
col="darkmagenta",freq=FALSE)
h <-hist(dat,main="X'in Histogramı",xlab="Püskürtme
Uzunluğu", ylim=c(0,90))
text(h$mids,h$counts,labels=h$counts,adj=c(0.5,-0.5))
hist(dat, breaks=4, xlab="Püskürtme Uzunluğu",

main="Sınıfları Ayıran Nokta Sayısı (breaks)=4",
freq=FALSE)
hist(dat,breaks=seq(1.5,5.5,by=0.10),xlim=c(1,5),
xlab="Püskürtme Uzunluğu",main="Band genişliği
h=0.10",freq=FALSE)
hist(dat,main="Farklı Sınıf Aralıklı",xlab=

"Püskürtme Uzunluğu",xlim=c(1,6),col="white",
border="brown",breaks=c(1,2.5,3.5,4,5,5.5))
168
Ekler
Ek A4: Örnek 2.4: R-Kodları

require(agricolae)
dat=faithful$eruptions
par(mfrow=c(2,2))
par(mar=c(4.1,4.1,3.7,2.1))
a1<-hist(dat, # histogram
col="peachpuff", # column color
border="black",
prob = TRUE, # show densities instead of frequ-
encies
xlab = "Püskürme uzunluğu",ylab="Yoğunluk",
main = "Gayzer verise-
ti",xlim=c(1,6),ylim=c(0,0.55),breaks=3)
polygon.freq(a1,frequency=3,col="black",lwd=2)
grid()
border="black",
encies
main = "Gayzer veriseti",xlim=c(1,6),breaks=5)
grid()
border="black",
encies
grid()
border="black",
encies
grid()
169

Create some input data
x<-c(-1.3,-1,-0.3, -0.5, 0,1, 1.9)
# Calculate the KDE
kde<-density(x,kernel="gaussian",bw=0.5)
# Calcualte the singel kernels/pdf's making up the
KDE of all observations
A.kernel<-sapply(x, function(i) {den-
sity(i,kernel="gaussian",bw=0.5)},simplify=F)
sapply(1:length(A.kernel), func-
tion(i){A.kernel[[i]][['y']]<<-
(A.kernel[[i]][['y']])/length(x)},simplify=F)
# Plot everything together ensuring the right scale
(the area of the single kernels is corrected)
plot(kde,main=list("Gaussian Ker-
nel",cex=1.3,font=1,col= "black"))
rug(x,col=2,lwd=2.5)
sapply(A.kernel, function(i){
lines(i,col="red")}
)
170
Ekler

x=c(1,1,1,5,7,8,8,13,14,14,17,18,21,21,22,25,27,27,
30,30,31,31,32,34,35,36,37,38,39,39,40,49,49,54,56,
56,62,63,65,65,67,75,76,79,82,83,84,84,84,90,91,92,
93,93,103,103,111,112,119,122,123,126,129,134,144,
147,153,163,167,175,228,231,235,242,256,256,257,311,
314,322,369,415,573,609,640,737)
par(mfrow=c(2,2))
kde1<-density(x,kernel="gaussian",bw = "sj")
plot(kde1,main=list("Gaussian Kernel (bw = sj)",
cex=1.3,font=1,col= "black"))
kde2<-density(x,kernel="gaussian",bw = "bcv")
plot(kde2,main=list("Gaussian Kernel (bw = bvc)",
kde3<-density(x,kernel="gaussian",bw = "ucv")
plot(kde3,main=list("Gaussian Kernel (bw = ucv)",
kde4<-density(x,kernel="gaussian",bw = "nrd")
plot(kde4,main=list("Gaussian Kernel (bw = nrd)",
171
Ek A7. Şekil 3.1: R-Kodları (Örnek 4.1)

w<-0
f<-0
#Veri üretilmesi (Simülasyon)
x<-c(1,3,4,5,7)
y<- c(0.54,-0.65,-0.91,-0.95,0.99,0.30)#cos(x^2)
#------------------
k=3
#x=2
Jx=c(1,3,4)
for (i in 1:length(x)){
if (is.element(x[i],Jx)){
w[i]<-length(x)/k
}
else{
w[i]<-0
}
f[i]<-w[i]*y[i]
}
fhat<-sum(f)/length(x)
x1<-c(1,2,3,4,5,7)
y1<- c(0.54,-0.65,-0.91,-0.95,0.99,0.30)
y2<-c(y1[1],fhat,y1[3],y1[4],y1[5],y1[6])
plot(x1,y1,ylim=c(min(y1)-0.2,max(y1)),pch=19,xlab =
'x',ylab='y')
par(new=T)
plot(2,fhat,col="red",xlim=c(min(x1),max(x1)),ylim=c
(min(y1)-0.2,max(y1)),pch=19,xlab =
'x',ylab='y',main=list("f(x=2)ve k=3 için k-NN tah-
mini", cex=1.5,font=11))
grid()
text(1.6,0.6,'(1, 0.54)',cex=1)
text(1,0.45,'k1',cex=1,col="blue")
text(2.6,-0.35,'Tahmin değeri:(2, -
0.44)',col="red",cex=1)
text(2.6,-0.55,'Gerçek değer:(2, -0.65)',cex=1)
text(3,-0.82,'(3, -0.91)',cex=1)
text(3,-1,'k2',cex=1,col="blue")
text(4.3,-0.86,'(4, -0.95)',cex=1)
text(4,-1.05,'k3',cex=1,col="blue")
text(5,0.92,'(5, 0.99)',cex=1)
text(6.6,0.4,'(7, 0.30)',cex=1)
172
Ekler

library(MASS)
library(pracma)
par(mfrow=c(2,2))
par(mar=c(4.1,4.1,3.1,3.1))
x<-mcycle$times
y<-mcycle$accel
k=1
w<-0; f<-0; n=length(y)
dist <- 0; index <- 0
f <- 0; fhat <- 0; w <- 0
Jx<-0
kernf<-function(u){
#res<-(3/4)*(1-u^2)*I(abs(u)<=1)
res<-(35/32)*(1-u^2)^3*I(abs(u)<=1)
#res<-(1/sqrt(2*pi))*exp(-(u^2)/2)
return(res)
}
say<-0
for (i2 in 1:n) {
u<-x[i2]-x
for (j in 1:n){
dist[j]<-(y[i2]-y[j])^2
index[j]<-j
say<-say+1
dist<- dist[!is.na(dist)]
index<- index[!is.na(index)]
disted<-matrix(c(index,dist),length(index),2)
sdist<-sortrows(disted,2)
}
Jx1=sdist[1:k,1]
for (l2 in 1:k){
Jx[l2]<-x[Jx1[l2]]
}
#w[i]<-length(x)/k
w<-
((1/k)*kernf(u/(k/sqrt(n/5))))/((1/n)*sum((1/k)*
(kernf(u/(k/sqrt(n/5))))))
173
#w<-
((1/k)*kernf(u/(k)))/((1/n)*sum((1/k)*(kernf(u/(k)))))
}
else{
w[i]<-0
}
#f[i]<-w[i]*y[i]
f<-w%*%y
}
fhat[i2]<-sum(f)/(length(x))
}
Zaman=mcycle$times
Hızdaki_Değişim=mcycle$accel
plot(Zaman,fhat,col="red",type="l",ylim=c(min(y),
max(y)),ylab="Hızdaki_Değişim")
par(new=T)
plot(Zaman,Hızdaki_Değişim,ylim=c(min(y),max(y)),
pch=19,main=list("k=1",cex=1.5,font=11))
grid()
174
Ekler
Ek A9. Örnek 3.1: R-Kodları

x=c(4.37, 3.87, 4.00, 4.03, 3.50, 4.08, 2.25, 4.70,
1.73, 4.93, 1.73, 4.62, 3.43, 4.25, 1.68, 3.92, 3.68,
3.10, 4.03, 1.77, 4.08, 1.75, 3.20, 1.85, 4.62, 1.97,
4.50, 3.92, 4.35, 2.33, 3.83, 1.88, 4.60, 1.80, 4.73,
1.77, 4.57, 1.85, 3.52, 4.00, 3.70, 3.72, 4.25, 3.58,
3.80, 3.77, 3.75, 2.50, 4.50, 4.10, 3.70, 3.80, 3.43,
4.00, 2.27, 4.40, 4.05, 4.25, 3.33, 2.00, 4.33, 2.93,
4.58, 1.90, 3.58, 3.73, 3.73, 1.82, 4.63, 3.50, 4.00,
3.67, 1.67, 4.60, 1.67, 4.00, 1.80, 4.42, 1.90, 4.63,
2.93, 3.50, 1.97, 4.28, 1.83, 4.13, 1.83, 4.65, 4.20,
3.93, 4.33, 1.83, 4.53, 2.03, 4.18, 4.43, 4.07, 4.13,
3.95, 4.10, 2.72, 4.58, 1.90, 4.50, 1.95,4.83, 4.12)
require(UsingR)
par(mfrow=c(1,2))
hist(x, # histogram
col="white", # column color
border="black",
#prob = TRUE, # show densities instead of frequen-
cies
xlab = "Püskürtme Süreleri",main=list("Şohpen Arı-
zası",cex=1.3,font=1,col= "black"))
#lines(density(x), # density plot
lwd = 2,# thickness of line
col = "black")
hist(x, prob = TRUE, # show densities instead of

frequencies
xlab = "Püskürtme Süreleri",
main=list("Şohpen Arızası",cex=1.3,font=1,col=
"black"))
simple.freqpoly((x,breaks=0.5)
lwd = 2,# thickness of line
col = "black")
bins=seq(1.50,5,by=0.5)
bins
Aralık= cut(x, bins, right=FALSE)
Aralık
freq = table(Aralık)
freq
relfreq = freq / sum(freq)
old = options(digits=1)
cbind(freq,relfreq)
175
Ek A10. Şekil 3.3: R kodları

dat=c(4.37, 3.87, 4.00, 4.03, 3.50, 4.08, 2.25, 4.70,
1.73, 4.93, 1.73, 4.62, 3.43, 4.25, 1.68,3.92, 3.68,
3.10, 4.03, 1.77, 4.08, 1.75, 3.20, 1.85, 4.62, 1.97,
4.50, 3.92, 4.35, 2.33, 3.83, 1.88, 4.60, 1.80, 4.73,
1.77, 4.57, 1.85, 3.52, 4.00, 3.70, 3.72, 4.25, 3.58,
3.80, 3.77, 3.75, 2.50, 4.50, 4.10, 3.70, 3.80, 3.43,
4.00, 2.27, 4.40, 4.05, 4.25, 3.33, 2.00, 4.33, 2.93,
4.58, 1.90, 3.58, 3.73, 3.73, 1.82, 4.63, 3.50, 4.00,
3.67, 1.67, 4.60, 1.67, 4.00, 1.80, 4.42, 1.90, 4.63,
2.93, 3.50, 1.97, 4.28, 1.83, 4.13, 1.83, 4.65, 4.20,
3.93, 4.33, 1.83, 4.53, 2.03, 4.18, 4.43, 4.07, 4.13,
3.95, 4.10, 2.72, 4.58, 1.90, 4.50, 1.95,4.83, 4.12)
par(mfrow=c(2,2))
par(mar=c(4.1,4.1,3.7,2.1))
hist(dat, # histogram
border="black",
prob = T, # show densities instead of frequen-
cies
main = "( a
)",xlim=c(1,6),ylim=c(0,0.55),breaks=3)
lines(density(dat), # density plot
lwd = 2, # thickness of line
col = "black")
border="black",
encies
main = "( b )",xlim=c(1,6),breaks=5)
col = "black")
176
Ekler
border="black",
encies
main = "( c )",xlim=c(1,6),breaks=15)
col = "black")
border="black",
encies
main = "( d )",xlim=c(1,6),breaks=25)
col = "black")
177

par(mfrow=c(2,2))
par(mar = c(6.5, 6.5, 2.5, 2.5))
x=mcycle$times
y=mcycle$accel
loess25 <- loess(y ~ x,degree=0,span=0.25)
smooth25 <- predict(loess25)
MSE25=mean((y-smooth25)^2)
df25 = loess25$trace.hat
#yhat<-loess25$y:Yaklaşık smooth25 ile aynı
loess50 <- loess(y ~ x, degree=0,span=0.50)
#create scatterplot with each regression line over-
laid
plot(x, y, pch=19, xlab="Time (ms)",ylab="Acceleration
(g)", main='Dağılma Diyağramı')
(g)", main='Lokal Sabit Regresyon Tahminleri')
# add fit lines
lines(x,smooth25, lwd = 2,lty=1,col='red')
lines(x,smooth50,lwd = 2, lty = 2, col='purple')
lines(x,smooth75, lwd = 2, lty = 3, col='blue')
# add legend
legend("bottomright", c("loess(0.25)", "loess(0.50)",
"loess(0.75)"),lty = 1:3, lwd = 2, col = c("red",
"purple", "blue"), bty = "n")
178
Ekler

(g)", main='Lokal Doğrusal Regresyon Tahminleri')
(g)", main='Lokal Polinomial Regresyon Tahminleri')
179

#load data
library(car)
data(Prestige)
head(Prestige)
par(mar = c(6.5, 6.5, 2.5, 2.5))
x=Prestige$income
y=Prestige$prestige
loess.gcv <- function(x, y){
nobs <- length(y)
xs <- sort(x, index.return = TRUE)
x <- xs$x
y <- y[xs$ix]
tune.loess <- function(s){
lo <- loess(y ~ x, span = s)
mean((lo$fitted - y)^2) / (1 - lo$trace.hat/
nobs)^2
}
os <- optimize(tune.loess, interval = c(.01, 99))
$minimum
lo <- loess(y ~ x, span = os)
list(x = x, y = lo$fitted, df = lo$trace.hat, span
= os)
}
locreg.gcv <- loess.gcv(x, y)

locreg.gcv$df
locreg.gcv$span
MSE.gcv<-mean((y-locreg.gcv$y)^2)
MSE.gcv
sqrt(MSE.gcv)
#fit.gcv<-loess(y~x,span=locreg.gcv$span)
loess.cv <- function(x, y){

nobs <- length(y)
x <- xs$x
y <- y[xs$ix]
180
Ekler

mean(((lo$fitted - y)^2) / (1 - lo$trace.hat)^2)
}
os1 <- optimize(tune.loess, interval = c(0.80,
100))$minimum
lo <- loess(y ~ x, span = os1)
= os1)
}
locreg.cv <- loess.cv(x, y)
locreg.cv$df
locreg.cv$span
MSE.cv<-mean((y-locreg.cv$y)^2)
MSE.cv
sqrt(MSE.cv)
loess.aic <- function(x, y){

nobs <- length(y)
x <- xs$x
y <- y[xs$ix]
log10(sqrt(mean((lo$fitted - y)^2)))+1+(2*(1 +
lo$trace.hat))/(nobs-lo$trace.hat-2)
}
os2 <- optimize(tune.loess, interval = c(0.45,
0.99))$minimum
= os2)
}
locreg.aic <- loess.aic(x, y)
locreg.aic$df
locreg.aic$span
MSE.aic<-mean((y-locreg.aic$y)^2)
MSE.aic
sqrt(MSE.aic)
loess.cp <- function(x, y){
nobs <- length(y)
181

x <- xs$x
y <- y[xs$ix]
mean((lo$fitted - y)^2)+2*(sqrt(mean((lo$fitted -
y)^2)))*(lo$trace.hat)+(sqrt(mean((lo$fitted - y)^2)))
}
os3 <- optimize(tune.loess, interval = c(1,150))
$minimum
= os3)
}
locreg.cp <- loess.cp(x, y)
locreg.cp$df
locreg.cp$span
MSE.cp<-mean((y-locreg.cp$y)^2)
MSE.cp
sqrt(MSE.cp)
#create scatterplot with each regression line over-

laid
plot(x, y, pch=19, xlab="Gelir",ylab="Prestij",
main='Farlkı Secim Kriterlerine Dayalı Lokal Regres-
yon Tahminleri')
# add fit lines
lines(locreg.gcv, lwd=2,lty=1,col='red')
lines(locreg.cv, lwd= 2,lty=2,col='blue')
lines(locreg.aic, lwd=2,lty=3,col='black')
lines(locreg.cp, lwd=2,lty=4,col='purple')
# add legend
legend("bottomright", c("locreg.gcv", "locreg.cv",
"locreg.aic","locreg.cp"),lty = 1:4, lwd = 2, col =
c("red", "blue", "black","purple"), bty = "n")
182
Ekler

par(mar = c(4.1, 4.1, 0.1, 0.1))
plot(mcycle)
bsbasis <- function(z, knots, j, degree) {
if(degree == 0)
B <- 1 * (knots[j] <= z & z < knots[j + 1])
if(degree > 0) {
b1 <- (z - knots[j]) / (knots[j + degree] -
knots[j])
b2 <- (knots[j + degree + 1] - z) /
(knots[j + degree + 1] - knots[j + 1])
B <- b1 * bsbasis(z, knots, j, degree - 1) +
b2 * bsbasis(z, knots, j + 1, degree - 1)
}
B[is.na(B)] <- 0
return(B)
}
n=length(mcycle)
bs <- function(z, degree = 3, knots = NULL) {
## Compute knots.
if(is.null(knots))
knots <- 40
if(length(knots) < 2) {
step <- (max(z) - min(z)) / (knots - 1)
knots <- seq(min(z) - degree * step,
max(z) + degree * step, by = step)
}
B <- NULL
for(j in 1:(length(knots) - degree - 1))
B <- cbind(B, bsbasis(z, knots, j, degree))
return(B)
}
P <- function(order = 2, k = 7) {
D <- diag(k)
for(i in 1:order)
D <- diff(D)
K <- crossprod(D, D)
return(K)
}
183
## Order 1 penalty.
P(1)
find.lambda <- function(y, Z, K) {
ZZ <- crossprod(Z); tZ <- t(Z); gcv <- func-
tion(lambda) {
S <- Z %*% solve(ZZ + lambda * K) %*% tZ
yhat <- S %*% y; trS <- sum(diag(S)); rss <-
sum((y - yhat)^2)
drop(rss * n / (n - trS)^2)
}
lambda <- optimize(gcv, lower = 40, upper = 1e+5)
$minimum
return(lambda)
}
Z <- bs(mcycle$times, degree = 3, knots = 80)
K <- P(2, ncol(Z))
## Search optimum lambda.
lambda <- find.lambda(mcycle$accel, Z, K)
y<-mcycle$accel
## Estimate the function and plot.
S <- Z %*% solve(crossprod(Z) + lambda * K,tol=1e-
100) %*% t(Z)
yhat <- S%*%y
par(mar = c(4.1, 4.1, 0.5, 0.5))
plot(mcycle, col = rgb(0.1, 0.1, 0.1, alpha = 0.3))
lines(yhat ~ sort(mcycle$times), lwd = 2)
legend("bottomright", paste("df =", round(sum(diag(S)),
2)), bty = "n")
184
Ekler

#load data
library(car)
## Loading required package: carData
data(Prestige)
head(Prestige)
x=Prestige$income
y=Prestige$prestige
## Single basis functions.
bsbasis <- function(z, knots, j, degree) {
if(degree == 0)
B <- 1 * (knots[j] <= z & z < knots[j + 1])
if(degree > 0) {
b1 <- (z - knots[j]) / (knots[j + degree] -
knots[j])
b2 <- (knots[j + degree + 1] - z) /
(knots[j + degree + 1] - knots[j + 1])
B <- b1 * bsbasis(z, knots, j, degree - 1) +
b2 * bsbasis(z, knots, j + 1, degree - 1)
}
B[is.na(B)] <- 0
return(B)
}
n=length(Prestige)
## And the complete design matrix.
bs <- function(z, degree = 3, knots = NULL) {
## Compute knots.
if(is.null(knots))
knots <- 40
if(length(knots) < 2) {
step <- (max(z) - min(z)) / (knots - 1)
knots <- seq(min(z) - degree * step,
max(z) + degree * step, by = step)
}
## Evaluate each basis function
## and return the full design matrix B.
B <- NULL
for(j in 1:(length(knots) - degree - 1))
B <- cbind(B, bsbasis(z, knots, j, degree))
return(B)
}
185
find.lambda1 <- function(y, Z, K) {

ZZ <- crossprod(Z)
tZ <- t(Z)
gcv <- function(lambda) {
S <- Z %*% solve(ZZ+lambda*K)%*%t(Z)
yhat <- S %*% y
trS <- sum(diag(S))
rss <- sum((y - yhat)^2)
drop(rss*n/(n - trS)^2)
}
lambda <- optimize(gcv, lower = 400, upper = 1e+5)
$minimum
return(lambda)
}
find.lambda2 <- function(y, Z, K) {
ZZ <- crossprod(Z)
tZ <- t(Z)
cv <- function(lambda) {
S <- Z %*% solve(ZZ+lambda*K)%*%t(Z)
yhat <- S %*% y
trS <- sum(diag(S))
rss <- sum((y - yhat)^2)
1/n*sum((rss/(1 - trS)^2))
}
lambda <- optimize(cv, lower = 4000, upper = 1e+5)
$minimum
return(lambda)
}

x <- xs$x
y <- y[xs$ix]
## Set up design and penatly matrix.
Z <- bs(x, degree = 3, knots = 120)
K <- P(2, ncol(Z))
## Search optimum lambda.
lambda.gcv <- find.lambda1(y, Z, K)
lambda.cv <- find.lambda2(y, Z, K)
## Estimate the function and plot.
S <- Z %*% solve(crossprod(Z) + lambda.gcv*K,tol=1e-
100) %*% t(Z)
186
Ekler
S1 <- Z %*% solve(crossprod(Z) + lambda.cv*K,tol=1e-

100) %*% t(Z)
yhat <- S%*%y
yhat1 <- S1%*%y
#MSE.gcv<-mean((y-yhat)^2)
#MSE.cv<-mean((y-yhat1)^2)
par(mar = c(4.1, 4.1, 2.5, 2.5))
plot(x,y,
pch=19,cex=0.5,ylim=c(min(y),max(y)*1.2),ylab=
"Prestij",xlab="Gelir")
lines(x,yhat, lwd = 2,lty=1,col="blue")
lines(x,yhat1, lwd = 2,lty=2,col="red")
legend("bottomright",c("B-spline.gcv", "B-spline.cv"),
lty = 1:2, lwd = 2, col = c("blue", "red"),bty = "n")
legend("topright", paste("df.gcv =",round(sum(diag(S)),
2),"df.cv =",round(sum(diag(S1)),2)))
legend("topleft", paste("MSE.gcv =",round(mean((y-
yhat)^2), 2), "MSE.cv =",round(mean((y-yhat1)^2),2)))
187

library(SemiPar)
par(mfrow = c(2, 2))
x<-mcycle$times
y<-mcycle$accel
tp <- function(z, degree = 1, knots = seq(min(z),
max(z), length = 10)) {
## If knots is integer.
if(length(knots) < 2)
knots <- seq(min(z), max(z), length = knots)
## Setup the columns for the global polinomials.
Z <- outer(z, 0:degree, "^"); cn <- paste("z^",
0:degree, sep = "")
## Compute local polinomials.
if(length(knots) > 2) {
knots <- sort(unique(knots))
for(j in 2:(length(knots) - 1)) {
zk <- z - knots[j]
check <- zk < 0
zk <- zk^degree
zk[check] <- 0
Z <- cbind(Z, zk)
cn <- c(cn, paste("(z-", round(knots[j], 2),
")^", degree, sep = ""))
}
}
## Assign column names.
colnames(Z) <- cn
return(Z)
}
## Setup the design and penalty matrix.
degree <- 1
Z <- tp(sort(mcycle$times), degree = degree, knots =
40)
K <- diag(c(rep(0, degree + 1), rep(1, ncol(Z) -
degree - 1)))
## Perform a simple grid search.
lambda <- seq(1e-03, 1e+03, length = 500)
gcv <- NULL
188
Ekler
n <- nrow(mcycle)
ZZ <- crossprod(Z)
tZ <- t(Z)
## Run the search.
for(i in lambda) {
S <- Z %*% solve(ZZ + i*K,tol=1e-100) %*% tZ
yhat <- S %*% mcycle$accel
trS <- sum(diag(S))
rss <- sum((mcycle$accel - yhat)^2)
gcv <- c(gcv, drop(rss * n / (n - trS)^2))
}
## Plot GCV curve and fitted smooth effect.
plot(gcv ~ lambda, type = "l", lwd = 2)
i <- which.min(gcv)
abline(v = lambda[i], lty = 2, col = "lightgray")
legend("bottomright", paste("Lamda=",round(lambda[i],
3)), bty = "n")
plot(mcycle, col = rgb(0.1, 0.1, 0.1, alpha =
0.5),main="Budanmış Üstel Tabalı Doğrusal Splayn")
S <- Z %*% solve(ZZ + lambda[i]*K,tol=1e-100) %*% tZ
yhat <- S %*%y
lines(yhat ~ sort(x), lwd = 2)
2)), bty = "n")
# Kuadratik
tp <- function(z, degree = 3, knots = seq(min(z),
max(z), length = 10)) {
## If knots is integer.
if(length(knots) < 2)
knots <- seq(min(z), max(z), length = knots)
## Setup the columns for the global polinomials.
Z <- outer(z, 0:degree, "^"); cn <- paste("z^",
0:degree, sep = "")
## Compute local polinomials.
if(length(knots) > 2) {
knots <- sort(unique(knots))
for(j in 2:(length(knots) - 1)) {
zk <- z - knots[j]
check <- zk < 0
zk <- zk^degree
zk[check] <- 0
189
Z <- cbind(Z, zk)

cn <- c(cn, paste("(z-", round(knots[j], 2),
")^", degree, sep = ""))
}
}
## Assign column names.
colnames(Z) <- cn
return(Z)
}
## Setup the design and penalty matrix.
degree <- 3
Z <- tp(sort(mcycle$times), degree = degree, knots =
40)
K <- diag(c(rep(0, degree + 1), rep(1, ncol(Z) -
degree - 1)))
## Perform a simple grid search.
gcv <- NULL
n <- nrow(mcycle)
ZZ <- crossprod(Z)
tZ <- t(Z)
## Run the search.
for(i in lambda) {
S <- Z %*% solve(ZZ + i*K,tol=1e-100) %*% tZ
yhat <- S %*% mcycle$accel
trS <- sum(diag(S))
rss <- sum((mcycle$accel - yhat)^2)
gcv <- c(gcv, drop(rss * n / (n - trS)^2))
}
## Plot GCV curve and fitted smooth effect.
plot(gcv ~ lambda, type = "l", lwd = 2)
i <- which.min(gcv)
abline(v = lambda[i], lty = 2, col = "lightgray")
legend("topright", paste("Lamda=",lambda[i]), bty =
"n")
plot(mcycle, col = rgb(0.1, 0.1, 0.1, alpha =
0.5),main="Budanmış Üstel Tabanlı Kuadratik Splayn")
S <- Z %*% solve(ZZ + lambda[i]*K,tol=1e-100) %*% tZ
yhat <- S %*%y
lines(yhat ~ sort(x), lwd = 2)
2)), bty = "n")
190
Ekler

set.seed(1)
n <- 100
fx <- sin(2*pi*x)
y <- fx + rnorm(n, 0,sd = 0.5)
d = diff(x) #h aralığı
R = matrix(0, n-2, n-2)
for (j in 2:(n-2)){
R[j-1,j-1] = (d[j-1]+d[j])/3
R[j-1,j] = d[j]/6
R[j,j-1] = d[j]/6
}
R[n-2, n-2] = (d[n-2]+d[n-1])/3
Q = matrix(0, n, n-2)
for (j in 2:(n-1)){
Q[j-1,j-1] = 1/d[j-1]
Q[j,j-1] = -(1/d[j-1]+1/d[j])
Q[j+1,j-1] = 1/d[j]
}
cv <- NULL # Lambda cv ile seçiliyor
## Run the search.
for(i in length(lambda)) {
K = Q%*%solve(R)%*%t(Q)
H = solve(diag(n)+lambda[i]*K,tol=1e-100)
yhat <- H%*%y
trH <- sum(diag(H))
rss <- sum((y- yhat)^2)
cv <- c(cv, drop((1/n)*(rss*n /(n - trH)^2)))
}
i <- which.min(cv)
K = Q%*%solve(R)%*%t(Q) #K matrix
H = solve(diag(n)+lambda[i]*K) #H matrix
yh1 = H%*%y;
plot(x, y, pch=19, col="gray")
lines(x, yh1, col="blue", lwd=2)
legend(0.6, 1.5, c("Estimated Regression Curve"),
lty=c(1,1,2), cex=0.7, col="blue")
191

library(npreg)
library(stats)
# define function
n <- 101
fx <- sin(2*pi*x)

set.seed(1)
y <- fx + rnorm(n, sd = 0.3)
# fit using ss
mod.ss <- ss(x, y, nknots = 10)
mod.ss
# fit using smooth.spline
mod.smsp <- smooth.spline(x, y, nknots = 10)
mod.smsp
# rmse between solutions and f(x)
sqrt(mean((fx - mod.ss$y )^2))
sqrt(mean((fx - mod.smsp$y )^2))
# plot data and f(x)
plot(x, y)
lines(x, fx, lwd = 2)
lines(x, mod.ss$y, lty = 2, col = 2, lwd = 2)
lines(x, mod.smsp$y, lty = 3, col = 3, lwd = 2)
legend("topright",legend = c("f(x)", "ss", "smooth.
spline"),
lty = 1:3, col = 1:3, lwd = 2, bty = "n")
192
Ekler
Ek A18. Bölüm 5.4 Örnek: R kodları

#Düğüm seçimi için hazırlanan DSM(), MA() ve FSM()
fonksiyonları yularıda verilen #github linkinden elde
edilebilir.
data <- MASS::mcycle

x <- (data$times)
y <- (data$accel)
lambda<-0.01
dsm_knots <- DSM(x)

ma_knots <- MA(x,y,lambda)
fsm_knots <- FSM(x,y,lambda)
data.frame(dsm_knots, ma_knots, fsm_knots)
BS_dsm <- bsmooth(x,y,24,0.05); BS_ma <- bsmooth

(x,y,40,0.05)
BS_fsm <- bsmooth(x,y,5,0.05)
CS_dsm <- TPBsmooth(x,y,24,0.05); CS_ma <- TPBsmooth

(x,y,40,0.05)
CS_fsm <- TPBsmooth(x,y,5,0.05)
a <- min(y)
b <- max(y)
plot(x,y,pch=19,cex=0.7,xlab="times",ylab="accel")
par(new=TRUE)
plot(x,BS_dsm$fhat,type="l",ylim=c(a,b),ylab="accel",
xlab="times",col=2,lty=1,lwd=3)
par(new=TRUE)
plot(x,BS_ma$fhat,type="l",ylim=c(a,b),ylab="accel",
xlab="times",col=3,lty=2,lwd=3)
par(new=TRUE)
plot(x,BS_fsm$fhat,type="l",ylim=c(a,b),ylab="accel",
xlab="times",col=4,lty=3,lwd=3,main="B-Splayn Tahmin-
leri")
par(new=TRUE)
193
legend("bottomright",legend=c("DSM, K=24","MA, K=40",

"FSM, K=5"),col=c(2:4),lty=c(1,2,3),cex=0.75)
grid()
#-----------------------------------------------------
------------------
plot(x,y,pch=19,cex=0.7,xlab="times",ylab="accel")
par(new=TRUE)
plot(x,CS_dsm$fhat+4,type="l",ylim=c(a,b),ylab="accel"
,xlab="times",col=2,lty=1,lwd=3)
par(new=TRUE)
plot(x,CS_ma$fhat-
4,type="l",ylim=c(a,b),ylab="accel",xlab="times",
col=3,lty=2,lwd=3)
par(new=TRUE)
plot(x,CS_fsm$fhat,type="l",ylim=c(a,b),ylab="accel",
xlab="times",col=4,lty=3,lwd=3,main="Cezalı Splayn
Tahminleri")
par(new=TRUE)
legend("bottomright",legend=c("DSM, K=24","MA, K=40",
"FSM, K=5"),col=c(2:4),lty=c(1,2,3),cex=0.75)
grid()
194
Ekler
Ek A19. Bölüm 5’te kullanılan R fonksiyonları

#SMOOTHING Functions----------------------------------
------------------
knnsmooth <- function(x,y,k){
library(MASS)
library(pracma)
w <-0; f <-0; n <- length(y); dist <- 0;
index<- 0
f <- 0; fhat <- 0; w <- 0; Jx <-0; W
<- matrix(0,n,n)
kernf<-function(u){
#res<-(3/4)*(1-u^2)*I(abs(u)<=1)
res<-(35/32)*(1-u^2)^3*I(abs(u)<=1)
#res<-(1/sqrt(2*pi))*exp(-(u^2)/2)
return(res)
}
say<-0
for (i2 in 1:n) {
u<-x[i2]-x
for (j in 1:n){
dist[j]<-(y[i2]-y[j])^2
index[j]<-j
say<-say+1
dist<- dist[!is.na(dist)]
index<- index[!is.na(index)]
disted<-matrix(c(index,dist),length(index),2)
sdist<-sortrows(disted,2)
}
Jx1=sdist[1:k,1]
for (l2 in 1:k){
Jx[l2]<-x[Jx1[l2]]
}
#w[i]<-length(x)/k
#w<-
((1/k)*kernf(u/(k/sqrt(n/5))))/((1/n)*sum((1/k)*(kernf
(u/(k/sqrt(n/5))))))
w<-
((1/k)*kernf(u/(k)))/((1/n)*sum((1/k)*(kernf(u/(k)))))
195
}
else{
w[i]<-0
}
#f[i]<-w[i]*y[i]
f[i]<-(w[i]*y[i])/(k)
}
W[,i2] <- w
fhat[i2]<-sum(f)
}
#plot(fhat,type="l")
a <- new.env()
a$fhat <- fhat
a$W <- (1/n)*t(W)#(1/n)*t(W) #Smoothing mat-
rix of kNN regression
return(a)
}
######################################################
##################
kdsmooth <- function(x,y,bws){
#bws range between mean(y)+-2sigma
library(condSURV)
n <- length(y); sx <-
seq(min(x),max(x),length.out = n)
fhat <- ksmooth(x,y,kernel="normal",bandwidth =
bws,n.points=n)
W <- matrix(0,n,n)
for (i in 1:n){
W[,i] <- NWW(x,sx[i],kernel="gaussian",bws)
}
fhat2 <- W%*%y
a <- new.env()
a$fhat <- fhat$y
a$sx <- fhat$x
a$W <- W
return(a)
}
######################################################
##################
localsmooth <- function(x,y,span){ #second degree
local with tricube kernel function
196
Ekler
library(KernSmooth)
library(locfit)
library(evmix)
#--------------------------------------------------
-----------------
n <- length(y)
sx <-seq(min(x)-0.1,max(x)+0.1,length.out=n)
span <- 0.1
yhat <- 0
H <- matrix(0,n,n)
#--------------------------------------------------
-----------------
for (j in 1:n){
u <- x[j]-sx; K <-
diag(kdgaussian(u,bw=span))
e <- matrix(c(1,rep(0,1)),2,1); ones
<- matrix(1,n,1)
xd <- x-sx[j]; xm <- mat-
rix(c(ones,xd),n,2)
yhat[j] <-t(e)%*%solve(t(xm)%*%K%*%xm,tol=1e-
500)%*%t(xm)%*%K%*%y
H[j,] <-t(e)%*%solve(t(xm)%*%K%*%xm,tol=1e-
500)%*%t(xm)%*%K
}
a <- new.env()
a$fhat <- yhat
a$Hatmatrix <- H
return(a)
}
######################################################
##################
bsmooth <- function(x,y,nknots,sp){
library(splines)
myknots <- seq(min(x)*1.5,max(x),length.out =
nknots)
ones <- matrix(1,n,1)
Bmat <- bs(x,degree = 3,knots = myknots)
B <- matrix(c(ones,Bmat),n,(ncol(Bmat)+1))
D <-matrix(0,n,(ncol(Bmat)+1))
for (i in 1:n){
for (j in 1:(ncol(Bmat)+1)){
197
if (i==j){
D[i,j]<-1
}
if (j==(i+1)){
D[i,j]<--3
}
if (j==(i+2)){
D[i,j]<-3
}
if (j==(i+3)){
D[i,j]<--1
}
}
}
bhat <-solve(t(B)%*%B+sp*t(D)%*%D,tol=10e-
200)%*%t(B)%*%y
fhat <- B%*%bhat
H <- B%*%solve(t(B)%*%B+sp*t(D)%*%D,tol=10e-
200)%*%t(B)
a <- new.env()
a$fhat <- fhat
a$H <- H
return(a)
}
######################################################
##################
TPBsmooth <- function(x,y,nknotsi,sp){
library(psre)
ones <- matrix(1,n,1);
Bmat <- tpb(x,degree = 3,nknots = nknotsi)
B <- matrix(c(ones,Bmat),n,(ncol(Bmat)+1))
D <-matrix(0,n,(ncol(Bmat)+1))
for (i in 1:n){
for (j in 1:(ncol(Bmat)+1)){
if (i==j){
D[i,j]<-1
}
if (j==(i+1)){
D[i,j]<--3
}
if (j==(i+2)){
198
Ekler
D[i,j]<-3
}
if (j==(i+3)){
D[i,j]<--1
}
}
}
bhat <-solve(t(B)%*%B+sp*t(D)%*%D,tol=10e-
200)%*%t(B)%*%y
fhat <- B%*%bhat
H <- B%*%solve(t(B)%*%B+sp*t(D)%*%D,tol=10e-
200)%*%t(B)
a <- new.env()
a$fhat <- fhat
a$H <- H
return(a)
}
######################################################
##################
splinesmooth <- function(x,y,sp){
smoother.matrix <- function(a.spline, x) {
n <- length(x); w <- matrix(0, nrow=n, ncol=n)
for (i in 1:n) {
y <- rep_len(0, n) # Equivalent to rep(0,
length.out=n)
y[i] <- 1
w[,i] <- fitted(smooth.spline(x, y, lamb-
da=a.spline$lambda))
}
return(w)
}
fit <- smooth.spline(x,y,spar=sp)
fhat <- fit$y
H <-smoother.matrix(fit,x)
a <- new.env()
a$fhat <- fhat
a$H <- H
a$x <- fit$x
return(a)
}
######################################################
199
#################
#FUNCTIONS OF CRITERIA------------------------------
-------------
myAIC <- function(y,H){ #H düzeltme matrisi
S_\lambda olarak da geçer
library(psych)
library(pracma)
n <- length(y)
score <- 2*tr(H)-2*log((t(y)%*%((diag(n)-
H)^2)%*%y)/(tr(diag(n)-H)))
return(score)
}
#---------------------------------------------------
------------------
myBIC <- function(y,H){ #Bayes bilgi kriteri
n <- length(y)
score <- tr(H)*(log(n))-2*log((t(y)%*%((diag(n)-
H)^2)%*%y)/(tr(diag(n)-H)))
return(score)
}
#-----------------------------------------------------
------------------
myGCV <- function(y,H){ #Genelleştirilmiş Çapraz
geçerlilik (Generalized CV)
n <- length(y)
score <- ((1/n)*(t(y)%*%((diag(n)-
H)^2)%*%y))/(((1/n)*tr(diag(n)-H))^2)
return(score)
}
#---------------------------------------------------
------------------
myREML <- function(y,H){
n <- length(y)
score <- (n*(t(y)%*%((diag(n)-
H)^2)%*%y))/(tr(diag(n)-H))
return(score)
}
200
Ekler
Ek A20. Splayn düzeltme yönteminin matris

hesaplamaları
sspline<-function(z,lambda){
n<-length(z); q <- length(unique(z)); t <-
unique(z); h<-0
for (b in 1:q-1) {
h[b]<-t[b+1]-t[b]
}
Q<-matrix(0,q,(q-2))
for (i in 1:(q-2)) {
for (j in 2:q) {
if (i==j-1) {
Q[j-1,i]<-(1/h[j-1])
}
if (i==j) {
Q[j-1,i]<- (-(1/h[j-1])+(1/h[j]))
}
if (i==j+1) {
Q[j-1,i]<-(1/h[j])
}
if (abs(i-j)>=2) {
Q[j-1,i]<-0
}}}
R<-matrix(0,q-2,q-2)
for (i in 2:q-1){
for (j in 2:q-1) {
if (i==j) {
R[j-1,i-1]<-1/3*(h[i-1]+h[i])
}
if (i==j-1) {
R[j-1,i-1]<-1/6*h[i]
}
if (i==j+1){
R[j-1,i-1]<-1/6*h[i]
}
if (abs(i-j)>=2) {
R[j-1,i-1]<-0
}}}
N <- matrix(0,n,q)
for (i in 1:n){
for (j in 1:q){
201
if (z[i]==t[j]){
N[i,j] <- 1
}
else{
N[i,j] <- 0
}}}
K<-((Q)%*%solve(R)%*%t(Q))
S <- N%*%solve(t(N)%*%N+lambda*K)%*%t(N)
a <- new.env()
a$S <- S; a$N <- N; a$K <- K; a$Q <- Q;
a$R <- R
return(a)
}
#ÖRNEK-----------------------------------------
------------------------
n <- 45
z <- 10*sort(runif(n))
z[5] <- z[7]
y <- z*sin(z)+rnorm(n,sd=0.5)
obj <- sspline(z,0.0001)
plot(obj$S%*%y,type="l",ylim=c(min(y),max(y)),
ylab="y & f",xlab="z")
par(new=TRUE)
plot(y,pch=19,ylab="y & f",xlab="z")
202
ÖZ GEÇMİŞ
Prof. Dr. Dursun Aydın

Anadolu Üniversitesi Fen Edebiyat Fakültesi İstatistik Bölü-
münden 1993 yılında mezun oldu. Marmara Üniversitesi İktisat
Fakültesi Ekonometri/İstatistik Anabilim Dalında “Diskriminant
Analizi ve Bir uygulama” adlı teziyle 1999 yılında yüksek lisansını
bitirdi. 2005 yılında Anadolu üniversitesi Fen Bilimleri Enstitüsü
İstatistik/Teorik İstatistik Anabilim Dalında “Semiparametrik reg-
resyon modellemede splayn düzeltme yöntemi ile tahmin ve çıkar-
samalar” adlı doktorasını tamamladı. Muğla Sıtkı Koçman Üniver-
sitesi Fen Fakültesi İstatistik Bölümünde hâlen aktif olarak bölüm
başkanlığı görevini yürütmektedir. Daha önce Nobel Akademik
Yayıncılık tarafından Uygulamalı Regresyon Analizi, Kavramlar
ve R Hesaplamaları ve Olasılık ve İstatistik II: İstatistiğe Giriş adlı
kitapları yayımlanmıştır.
Arş. Gör. Ersin Yılmaz

2013 yılında Ege Üniversitesi Fen Fakültesi İstatistik Bölü-
münde mezun oldu. Muğla Sıtkı Koçman Üniversitesi Fen Bilimle-
ri Enstitüsü, İstatistik Anabilim Dalında sansürlü veri ve yarı pa-
rametrik regresyon üzerine çalıştı ve yüksek lisansını 2018 yılında
tamamladı. 2023 yılı itibariyle hâlen aktif olarak yüksek boyutlu
veri analizi ve yarı-parametrik regresyon modelleri üzerine doktora
öğrenimine devam etmektedir. Muğla Sıtkı Koçman Üniversitesi
Fen Fakültesi İstatistik Bölümünde araştırma görevlisi olarak ça-
lışmaktadır.
203

BASKINonparametrik Regresyon Analizi 1

Uploaded by

Copyright:

Available Formats

You might also like

BASKINonparametrik Regresyon Analizi 1

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

BASKINonparametrik Regresyon Analizi 1

Uploaded by

Copyright:

Available Formats

NONPARAMETRİK REGRESYON ANALİZİ:

Farklı Yaklaşımlar ve R Hesaplamaları

Yayın No.: 1716

© Copyright 2023, NOBEL BİLİMSEL ESERLER SERTİFİKA NO.: 20779

Genel Yayın Yönetmeni: Nevzat Argun -nargun@nobelyayin.com-

Sayfa Tasarım: Furkan Mülayim -furkan@nobelyayin.com-

Kütüphane Bilgi Kartı

Nonparametrik regresyonun genel tanımı, yanıt (bağımlı) de-

ÖN SÖZ ................................................................................................. iii

KAYNAKÇA ........................................................................................ 159

EKLER ................................................................................................ 165

ÖZGEÇMİŞ ......................................................................................... 203

Regresyon analizi, yanıt (bağımlı) değişken ile bir veya daha

temel amacı, . fonksiyonu için bir model kurmak ve fonksiyo-

nunu ′lere dayalı olarak tahmin etmektir. Burada şu belirtilmeli-

Şekil 1: Nonparametrik ilişki için simülasyon örneği

Genellikle parametrik regresyon modelleri . fonksiyonu-

. Fonksiyonu için önceden belirlenmiş bir şekil varsaymaz.

Bunun yerine fonksiyonunu “pürüzsüzlük” ve “süreklilik” özellik-

toplamsal splaynlar (additive splines), kısmi splaynlar (partial spli-

Dördüncü bölümde tanıtılan nonparametrik regresyon modeli

DÜZLEŞTİRME VE BAZI KAVRAMLAR

En genel alamda düzleştirme, bir veri setinde ortaya çıkan pü-

1.1. Düzleştirme Kavramı

nunu tahmin etmek mümkündür. Ancak, bir g

! = 0# ve sabit bir varyansa sahip rassal gözlem hataları gös-

termektedir. Burada temel amaç, aşağıda belirtilen regresyon fonk-

= noktada . ’in tahminini üretirler. Diğer bir

aralık ya da kutudaki gözlem sayıları dikkate alınmıştır. Histog-

Şekil 1.1: Rüzgâr verilerine dayalı elde edilen histogramlar.

let kazası verileri (simulated motorcycle accident data) dikkate

olarak ölçülen zaman ve ’lerde "g" cinsinden çarpma anındaki

hızlardaki değişimi (ivmeleri) göstermektedir. Parametrik olmayan

$ hızdaki değişim = 0 zaman tahminleri elde edilmiştir. Bu

Şekil 1.2. Bu şekil üzerinde üst sol grafik düzleştirme para-

1.2. Verilerin Stokastik Doğası

tır. İlk senaryo bağımsız, aynı dağılımlı rassal , değişkenleriy-

le (independent, idenatically distributed random variables-iid)

Burada g = 4 g , 5 ifadesi ’in marjinal yoğunluk

tırmacının açıklayıcı değişkeninin değerlerini kontrol edebildiği

bilgi kaybı olmaması için !=, G# = !0,1# ve = − 0.5 / ya da

= / , = 1,2, … , dizilerinin dikkate alındığı varsayılır. Eşit

1.3. Düzleştirme Sürecinde Karşılaşılan Zorluklar

ğında, asimptotik bir anlamda, değişkenlikte bir artış olduğu bili-

rin tahminlerine göre daha az doğru olacaktır. Sınırdaki birkaç

olarak burada dikkate alınan yöntemler için harcanan süre, K D

işlemleriyle sonuçlanmaktadır. Bu tür bir algoritma bazı etkileşimli

1.4. Yan-Varyans Dengesi

bilinmeyen bir fonksiyonu göstersin. Ayrıca, 0 ’de ’in bir kestiri-

cisini göstersin. Burada belirtmek gerekirse 0 kestiricisi, bir

kestirici veriye bağlı olduğu için rasgeledir. Bu anlamda 0 , bir

fonksiyonunun tahminidir. Burada belirtilen fonksiyon ve

tahmini arasındaki farka dayanan “kareli hata ve LM -kayıp fonksi-

gözlenen verilere bağlı olan 0 fonksiyonudur. Bu anlamda risk ve

MSE terimlerini birbirlerinin yerine kullanacağız.

sabit bir noktasındaki 0 ’in yanını gösterirken,

sabit bir noktasındaki 0 ’in varyansını gösterir.

Şekil 1.3: Tahmin ediciler için Yan-Varyans dengesi