Ryzyko UB

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 88

Teoria ryzyka w ubezpieczeniach

1
Wojciech Niemiro

1 Wydział Matematyki i Informatyki, Uniwersytet Mikołaja Kopernika, To-


ruń oraz Instytut Matematyki Stosowanej i Mechaniki, Uniwersytet Warszawski,
wniem@mat.uni.torun.pl, wniem@mimuw.edu.pl
Spis treści

1 Elementy ekonomiki ubezpieczeń 3

1.1 Wstęp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.2 Użyteczność . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2 Probabilistyczne modele ryzyka 10

2.1 Indywidualny model ryzyka . . . . . . . . . . . . . . . . . . . 10

Sploty . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

Przybliżenie normalne . . . . . . . . . . . . . . . . . . . . . . 14

2.2 Kolektywny model ryzyka . . . . . . . . . . . . . . . . . . . . 16

Sumy losowe . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

Złożone rozkłady Poissona . . . . . . . . . . . . . . . . . . . . 20

2.3 Aproksymacja modelu indywidualnego przez model kolektywny 21

3 Teoria ruiny 24

3.1 Proces nadwyżki ubezpieczyciela z czasem dyskretnym . . . . 24

Nierówność Lundberga . . . . . . . . . . . . . . . . . . . . . . 27

Wykładnicza zamiana miary . . . . . . . . . . . . . . . . . . . 31

1
Zastosowanie Teorii Odnowienia . . . . . . . . . . . . . . . . . 34

3.2 Proces nadwyżki ubezpieczyciela z czasem ciągłym . . . . . . 40

Proces Poissona . . . . . . . . . . . . . . . . . . . . . . . . . . 40

Złożony proces Poissona . . . . . . . . . . . . . . . . . . . . . 46

Klasyczny proces nadwyżki z czasem ciągłym . . . . . . . . . 48

4 Teoria zaufania 52

4.1 Wstęp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

4.2 Statystyczne testy jednorodności . . . . . . . . . . . . . . . . . 52

4.3 Podejście bayesowskie . . . . . . . . . . . . . . . . . . . . . . . 60

Rozkłady a priori i a posteriori . . . . . . . . . . . . . . . . . 60

Warunkowa niezależność i dostateczność . . . . . . . . . . . . 65

Zagadnienie predykcji . . . . . . . . . . . . . . . . . . . . . . . 69

Predykcja w modelu bayesowskim. . . . . . . . . . . . . . . . 71

4.4 Od teorii bayesowskiej do modeli liniowych . . . . . . . . . . . 74

Predykcja liniowa . . . . . . . . . . . . . . . . . . . . . . . . . 75

Liniowa predykcja w modelu bayesowskim . . . . . . . . . . . 77

Model Bühlmanna - Strauba. . . . . . . . . . . . . . . . . . . 81

Zestawienie wzorów . . . . . . . . . . . . . . . . . . . . . . . . 86

Model Bühlmanna-Strauba jako mieszany model liniowy . . . 87

2
Rozdział 1

Elementy ekonomiki ubezpieczeń

1.1 Wstęp

Istotą i celem systemu ubezpieczeniowego jest redukcja negatywnych skutków


finansowych wynikających ze zdarzeń losowych. Nic dziwnego, że rachunek
prawdopodobieństwa pełni podstawową rolę w konstruowaniu matematycz-
nych modeli użytecznych w ubezpieczeniach. Statystyka matematyczna jest z
kolei podstawowym narzędziem identyfikacji tych modeli, czyli dopasowania
parametrów modeli do rzeczywistości.

Zaczniemy od krótkiego „słowniczka” polsko-angielsko-matematycznego. Prze-


tłumaczymy na język matematyki kilka zasadniczych pojęć z zakresu ubez-
pieczeń. Pamiętajmy przy tym, że każdy przekład na inny język prowadzi
do nieuniknionych uproszczeń i zniekształceń. . .

• Szkodę (loss) będziemy utożsamiali z nieujemną zmienną losową, X >


0. Gdy X przyjmuje wartość 0, to oznacza po prostu brak szkody.

• Polisa (policy) jest to kontrakt pomiędzy ubezpieczającym (insured )


a ubezpieczycielem (insurer ), w którym ubezpieczyciel zobowiązuje się
pokryć określoną część szkody w zamian za uzgodnioną opłatę, nazy-
waną składką (premium). Wypłacone w przypadku zajścia szkody X

3
odszkodowanie (indemnity) oznaczymy przez I(X). zaś składkę ozna-
czymy przez h. Z matematycznego punktu widzenia kontrakt ubezpie-
czeniowy sprowadza się do określenia funkcji I : [0, ∞[→ [0, ∞[ i liczby
h > 0. Naturalne jest założenie, że 0 6 I(x) 6 x dla każdego x > 0.
Pełne ubezpieczenie odpowiada funkcji tożsamościowej I(x) = x.
• Składką netto (net premium lub pure premium) nazywamy wartość
oczekiwaną odszkodowania. Dla uproszczenia rozważmy pełne ubezpie-
czenie i napiszmy µ = EX. Oczywiście rzeczywista składka jest zawsze
większa od składki netto, h > µ, ponieważ ubezpieczyciel musi z czegoś
żyć i pokryć koszty swojej działalności. Możemy napisać sugestywny
wzór h = µ(1 + θ) + c i powiedzieć, że θ jest narzutem względnym (re-
lative loading, wyrażonym w procentach oczekiwanej wysokości straty)
a c jest narzutem dodatkowym, który od µ nie zależy.

1.2 Użyteczność

Dlaczego ludzie się ubezpieczają? Wobec tego, że h > µ, klient towarzystwa


ubezpieczeniowego zawsze „średnio traci” na podpisaniu kontraktu! Decyzja
o zawarciu kontraktu wydaje się w świetle tego nieracjonalna. Istnieje teo-
ria, która ma wytłumaczyć powstały paradoks, nie rezygnując z założenia o
racjonalnym charakterze podejmowanych decyzji ekonomicznych. Ta teoria
opiera się na tak zwanej Zasadzie Użyteczności. Osobę podejmującą decy-
zje nazywamy decydentem. Zakłada się, że zachowanie decydenta daje się
opisać w terminach pewnej funkcji u : R → R zwanej funkcją użyteczności
(utility function) w następujący sposób. Ponieważ interesuje nas podejmo-
wanie decyzji w sytuacji niepewności, „wypłaty” traktujemy jako zmienne
losowe.
Zasada Użyteczności. Załóżmy, że decydent posługujący się funkcją uży-
teczności u ma do wyboru jedną z dwóch „akcji”:

• akcja 1 prowadzi do wypłaty X1 ,


• akcja 2 prowadzi do wypłaty X2 .

Zasada użyteczności mówi, że

4
• decydent wybierze akcję 1 jeśli Eu(X1 ) > Eu(X2 ),

• decydent wybierze akcję 2 jeśli Eu(X2 ) > Eu(X1 ).

W przypadku gdy Eu(X1 ) = Eu(X2 ), obie akcje są dla decydenta „równie


dobre”.

Pominiemy dyskusję o zgodności tej zasady z rzeczywistością i o metodach


jej empirycznej weryfikacji.

Przedyskutujmy zakładane zazwyczaj własności funkcji użyteczności. Ra-


cjonalnie działający decydent woli mieć więcej, niż mniej. Wydaje się zatem
rozsądne natępujące założenie.

• Funkcja u jest rosnąca.

Przyjmuje się zazwyczaj założenie o tak zwanej „awersji do ryzyka”. W


sytuacji gdy do wyboru jest albo wypłata, która jest wielkością determini-
styczą a albo wypłata, która jest zmienną losową o wartości oczekiwanej a,
wtedy nie lubiący ryzyka decydent wybierze pewną wypłatę a. Oznacza to, że
u(a) = u(EX) > Eu(X). Jest to dobrze znana nierówność Jensena! Awersja
do ryzyka jest równoważna następującemu założeniu.

• Funkcja u jest wklęsła.

Wreszcie wspomnijmy, że rosnące afiniczne przekształcenia funkcji użytecz-


ności są nieistotne z punktu widzenia podejmowania decyzji. Jeśli u1 (x) =
au(x) + b i a > 0 to decydenci posługujący się funkcjami u i u1 będą postę-
powali identycznie.

Zasada Użyteczności uzupełniona założeniem o awersji do ryzyka wyjaśnia


paradoks, o którym wspomnieliśmy poprzednio. Wyobrażmy sobie osobnika,
którego stan posiadania jest opisany kwotą w, któremu zagraża szkoda X
i który może wykupić pełne ubezpieczenie za cenę h. Chociaż h > EX,
czyli w − h < E(w − X) to dla wklęsłej funkcji u jest całkiem możliwe, że
u(w − h) > Eu(w − X). W takim przypadku decyzja o ubezpieczeniu się,
czyli wybór pewnej wypłaty w − h jest zgodna z Zasadą Użyteczności.

5
1.2.1 PRZYKŁAD. Funkcja użyteczności jest dana wzorem
u(x) = −e−αx ,
dla pewnej stałej α > 0. Zauważmy, że jest to funkcja rosnąca i wklęsła.
Zastanówmy się, jaką składkę decydent gotów będzie zapłacić za pełne ubez-
pieczenie straty X. Decyzja o ubezpieczeniu zostanie podjęta gdy u(w −h) >
Eu(w −X), czyli −e−α(w−h) > E−e−α(w−X) , gdzie w jest wyjściowym stanem
posiadania decydenta. Rozwiązując tę nierówność dochodzimy do wniosku,
że maksymalna cena ubezpieczenia, którą decydent zapłaci jest równa
1
h= log EeαX .
α
Ciekawą własnością rozważanej tu wykładniczej funkcji użyteczności jest
fakt, że decyzja nie zależy od w, „majątku początkowego”.

1.2.2 PRZYKŁAD. Inną często rozważaną funkcją użyteczności jest funkcja


potęgowa,
u(x) = xγ ,
dla pewnej stałej γ, określona dla u > 0. Jeśli 0 < γ < 1, ta funkcja jest
rosnąca i wklęsła.

1.2.3 PRZYKŁAD. Funkcja kwadratowa,


u(x) = x − αx2 ,
dla pewnej stałej α > 0 jest wklęsła. Dla argumentów spełniających nierów-
ność x < 1/(2α) jest ponadto rosnąca.

Zajmiemy się teraz przykładami różnych kontraktów ubezpieczeniowych i


przytoczymy sławne twierdzenie o optymalnej postaci kontraktu. Najważ-
niejsze są dwa następujące typy kontraktów.
1.2.4 PRZYKŁAD. Kontrakt typu stop-loss, czyli inaczej polisa z udziałem
własnym. Ubezpieczyciel zobowiązuje się pokryć nadwyżkę szkody X ponad
pewien ustalony z góry poziom d. Jeśli szkoda nie przekroczy d, odszkodo-
wanie się nie należy. Innymi słowy,
(
0 jeśli x < d;
Id (x) =
x − d jeśli x > d.

6
1.2.5 PRZYKŁAD. Ubezpieczenie proporcjonalne polega na tym, że ubez-
pieczyciel zobowiązuje się pokryć ustalony procent szkody X. Innymi słowy,

I(x) = kx

dla pewnej stałej k < 1.

Zaletą zarówno kontraktów typu stop-loss jak i proporcjonalnych jest pro-


stota reguł. Ponadto kontrakty typu stop-loss są w pewnym senise opty-
malne. Precyzuje to następujące twierdzenie.

1.2.6 TWIERDZENIE. Niech u będzie funkcją wklęsłą. Załóżmy, że Id jest


funkcją określoną w Przykładzie 1.2.4, zaś I jest dowolną funkcją spełniającą
warunek 0 6 I(x) 6 x dla x > 0. Jeżeli

EId (X) = EI(X) = h,

to
Eu(w − X + Id (X) − h) > Eu(w − X + I(X) − h).

Interpretacja tego matematycznego faktu jest następująca. Decydent zasta-


nawia się, czy wybrać kontrakt Id , czy raczej I. Zakładamy, że oba kontrakty
są dostępne za tę samą cenę h i gwarantują wypłaty odszkodowań o tej samej
wartości oczekiwanej. Oczywiście u jest funkcją użyteczności. Jeśli spełnione
jest założenie o „awersji do ryzyka” to decydent wybierze kontrakt stop-loss.

Dowód twierdzenia 1.2.6. Wystarczy pokazać, że dla wklęsłej funkcji u mamy


Eu(Id (X) − X) > Eu(I(X) − X) (dlaczego?). Nierówność

u(Id (x) − x) − u(I(x) − x) > u0 (Id (x) − x)(Id (x) − I(x))

jest bezpośrednią konsekwencją wklęsłości funkcji u. Dla x spełniających


warunek Id (x) − I(x) > 0 mamy x > d (bo Id (x) > 0) a więc Id (x) − x = −d.
Dla x takich, że Id (x) − I(x) 6 0 skorzystamy z nierówności Id (x) − x >
−d, która jest zawsze spełniona i pociąga za sobą u0 (Id (x) − x) 6 u0 (−d).
Wnioskujemy, że dla każdego x zachodzi nierówność

u(Id (x) − x) − u(I(x) − x) > u0 (−d)(Id (x) − I(x)).

7
Wystarczy teraz zastosować do obu stron wartość oczekiwaną:

E [u(Id (X) − X) − u(I(X) − X)] > u0 (−d)(h − h) = 0,

co kończy dowód.
1.2.7 Uwaga. W powyższym dowodzie dla uproszczenia użyliśmy pochod-
nej u0 funkcji u. Założenie o różniczkowalności nie jest jednak potrzebne.
Nierówność
u(b) − u(a) > u0 (b)(b − a),
którą w istotny sposób wykorzystaliśmy, pozostaje prawdziwa jeśli u0 (b) za-
stąpić prawostronną pochodną u0+ (b) = limx→b+ (u(x) − u(b))/(x − b) lub
lewostronną pochodną u0− (b) = limx→b− (u(x) − u(b))/(x − b). Dla funkcji
wklęsłej na przedziale otwartym jednostronne pochodne zawsze istnieją.

1.2.8 Wniosek. Przy założeniach Twierdzenia 1.2.6,

Var(X − Id (X)) 6 Var(X − I(X)).

Aby uzasadnić ten wniosek, wystarczy zastosować Twierdzenie 1.2.6 do funk-


cji u(y) = −(w − y − µ)2 , gdzie µ = EX. Zauważmy przy okazji, że w Twier-
dzeniu 1.2.6 nie zakłada się, że u jest funkcją rosnącą. Wystarcza założenie
o wklęsłości u.

Zwróćmy uwagę na pewną szczególną wersję „awersji do ryzyka”. Przypu-


śćmy, że decydent ma do wyboru albo wypłatę X1 albo wypłatę X2 . W
sytuacji gdy EX1 = EX2 i VarX1 < VarX2 decydent wybierze X1 . Mniejszą
wariancję interpretujemy jako „mniejszą niepewność” czyli „mniejsze ryzyko”.
Matematycznie jest to założenie, że decydent posługuje się kwadratową kwa-
dratową użyteczności (Przykład 1.2.3).

Chociaż Wniosek 1.2.8 prostą konsekwencją Twierdzenia 1.2.6 to jest na tyle


ciekawy, że być może zasługuje na niezależny dowód.

Dowód Wniosku 1.2.8. Elementarna nierówność a2 − b2 > 2(a − b)b pozwala


napisać

(x − I(x))2 − (x − Id (x))2 > 2(Id (x) − I(x))(x − Id (x)).

8
Jeśli Id (x) − I(x) > 0 to x − Id (x) = d. Z kolei jeśli Id (x) − I(x) 6 0 to
x−Id (x) 6 d. W obu przypadkach, (Id (x)−I(x))(x−Id (x)) > (Id (x)−I(x))d.
Biorąc wartość oczekiwaną dostajemy

E (X − I(X))2 − (X − Id (X))2 > (h − h)d = 0,


 

co kończy dowód.

Na zakończenie naszych rozważań wyjaśnijmy, jak można łatwo obliczać wy-


stępującą w Twierdzeniu 1.2.6 wielkość EId (X), a więc składkę netto dla
kontraktu stop-loss. Bardzo przydatna jest następująca wersja „wzoru na
całkowanie przez części”.

1.2.9 Stwierdzenie. Jeżeli strata X > 0 jest zmienną losową o dystrybu-


ancie F to Z ∞
EId (X) = [1 − F (x)]dx.
d

Dowód. Możemy napisać


Z ∞ Z ∞
EId (X) = Id (x)F (dx) = (x − d)F (dx)
0 d
Z ∞Z x Z ∞Z ∞ Z ∞
= dyF (dx) = F (dx)dy = [1 − F (y)]dy.
d d d y d

Przypomnijmy, że w przypadku gdy rozkład zmiennej losowej X ma gęstość


f , symbol F (dx) można zastąpić przez f (x)dx.

1.2.10 Wniosek. Dla dowolnej liczby h spełniającej nierówność 0 6 h 6 EX


istnieje dokładnie jedna liczba d taka, że h = EId (X).

1.2.11 PRZYKŁAD. Przypuśćmy, że strata X jest zmienną losową o roz-


kładzie wykładniczym Ex(0.1). Rozważmy proporcjonalny kontrakt ubez-
pieczeniowy I(x) = x/2. Znajdźmy taką wielkość „udziału własnego” d aby
kontrakt typu stop-loss miał taką samą wartość oczekiwaną, czyli EId (X) =
EI(X). Proste rozważania i rachunek oparty na Stwierdzeniu prowadzą do
rozwiązania d = 10 log 2. Zachęcamy Czytelnika do obliczenia Var(X −I(X))
i Var(X − Id (X)).

9
Rozdział 2

Probabilistyczne modele ryzyka

2.1 Indywidualny model ryzyka


Indywidualny model ryzyka polega po prostu na tym, że szkody związane z
poszczególnymi polisami opisuje się jako niezależne, nieujemne zmienne lo-
sowe. Oczywiście, założenie o niezależności jest pewnym uproszczeniem, ale
w modelowaniu matematycznym tego rodzaju idealizacje są nieuniknione.
Głównym obiektem zainteresowania jest suma szkód w portfelu polis i jej
rozkład prawdopodobieństwa. W rozważanym modelu ten rozkład jest splo-
tem rozkładów pojedynczych składników.
Indywidualny model ryzyka.
n
X
S = Sn = Xi ,
i=1
gdzie X1 , . . . , Xn są niezależnymi zmiennymi losowymi i Xi > 0.

• Xi oznacza szkody związane z i-tą polisą,


• S oznacza sumę szkód w rozważanym portfelu.

Podkreślmy jeszcze, że omawiany model opisuje straty w ustalonym okresie


(powiedzmy w ciągu roku) i wobec tego nie ma tu potrzeby jawnego uwzględ-
niania czasu pojawiania się poszczególnych szkód. Modele uwzględniające
ewolucję w czasie omówimy później, w Rozdziale 3.

10
Sploty

Przypomnimy elementarne wiadomości o splotach rozkładów i przy okazji


wprowadzimy oznaczenia, które będą w dalszym ciągu używane. Jeżeli X1 i
X2 są niezależnymi zmiennymi losowymi o dystrybuantach F1 i F2 , to suma
S = X1 + X2 ma dystrybuantę
Z ∞
F (s) = F1 (s − x)F2 (dx).
−∞

Jeśli rozkłady F2 są absolutnie ciągłe i mają gęstości fi (względem miary


Lebesgue’a), to powyższy wzór można przepisać w postaci
Z ∞
F (s) = F1 (s − x)f2 (x)dx.
−∞

Rozkład F ma wtedy gęstość f daną wzorem


Z ∞
f (s) = f1 (s − x)f2 (x)dx.
−∞

Jeśli rozkłady Fi są dyskretne i mają „gęstości” fi (x) = P(Xi = x) to


X
f (s) = P(S = s) = f1 (s − x)f2 (x).
x

Będziemy pisać F = F1 ∗ F2 i f = f1 ∗ f2 . Zauważmy pewną niekonsekwencję


tych oznaczeń. Z punktu widzenia analizy matematycznej należałoby powie-
dzieć, że dystrybuanta F jest splotem dystrybuanty F1 i gęstości f2 . Ale w
rachunku prawdopodobieństwa mówi się o splotach rozkładów prawdopodo-
bieństwa, a dystrybuanty/gęstości traktuje się tylko jako alternatywne opisy
rozkładów.
Przy okazji wprowadźmy oznaczenie na „splotowe potęgi” rozkładów. Jeśli
n > 0 to
F n∗ = F
| ∗ ·{z
· · ∗ F} .
n razy
∗0
Dodatkowo przyjmijmy, że F jest rozkładem skupionym w zerze.
P0 Jest to
zgodne z naturalną konwencją dotyczącą „pustej sumy”: S0 = i=1 Xi = 0.
Jeśli myślimy o F jako o dystrybuancie, to
(
1 dla x > 0;
F ∗0 (x) =
0 dla x < 0.

11
Podobnie dla splotu n > 1 jednakowych gęstości przyjmiemy oznaczenie

f n∗ = f ∗ · · · ∗ f .
| {z }
n razy

Dla n = 0 napiszmy f 0∗ (s) = 0 dla s > 0 oraz f 0∗ (0) = 1. To jest całkowicie


uzasadnione w przypadku dyskretnym, bo w istocie oznacza, że P(S0 = 0) =
1. Dla rozkładów absolutnie ciągłych ta notacja jest pewnym nadużyciem,
bo rozkład F ∗0 nie ma „gęstości w zwykłym sensie”, czyli względem miary
Lebesgue’a. Warto byśmy o tym zastrzeżeniu pamiętali.

W teorii ryzyka mamy często do czynienia ze zmiennymi losowymi nieujem-


nymi (na przykład są to wysokości szkód) oraz ze zmiennymi dyskretnymi o
wartościach nieujemnych i całkowitych (na przykład liczby szkód). W przy-
padku gdy X1 , X2 > 0, wzór na splot gęstości przybiera postać
Z s
f (s) = f1 (s − x)f2 (x)dx.
0
R∞ Rs
Podobnie można zastąpić całkę −∞ przez 0 we wzorze na dystrybuantę.
Jeśli X1 , X2 mają wartości 0, 1, . . ., to
s
X
f (s) = P(S = s) = f1 (s − x)f2 (x).
x=1

Przypomnijmy kilka dobrze znanych faktów dotyczących splotów typowych


rozkładów.

Rozkłady Poissona Poiss(λ1 ) ∗ Poiss(λ2 ) = Poiss(λ1 + λ2 ).

Rozkłady normalne N(µ1 , σ12 ) ∗ N(µ2 , σ22 ) = N(µ1 + µ2 , σ12 + σ22 ).

Rozkłady gamma Gamma(α1 , λ) ∗ Gamma(α2 , λ) = Gamma(α1 + α2 , λ).

Rozkłady dwumianowe Bin(n1 , p) ∗ Bin(n2 , p) = Bin(n1 + n2 , p).

Rozkłady ujemne dwumianowe

Bin− (α1 , p) ∗ Bin− (α2 , p) = Bin− (α1 + α2 , p)

12
To zestawienie wygląda pięknie, ale raczej nie należy się spodziewać, że wynik
będzie równie prosty w innych, mniej „przyjaznych” przykładach.

2.1.1 PRZYKŁAD. Przypuśćmy, że portfel polis składa się z kilku różnią-


cych się między sobą jednorodnych pod-portfeli. Jednorodność rozumiemy
w ten sposób, że każda z polis składających się na pod-portfel jest jedna-
kowa i wiąże się z takim samym ryzykiem. Matematycznie, zmienne losowe
Xi opisujące szkody wewnątrz jednego pod-portfela mają jednakowy rozkład
prawdopodobieństwa. Stale obowiązuje założenie o niezależności wszystkich
zmiennych Xi w całym portfelu. W ubezpieczeniach życiowych, dość prostym
przykładem jest portfel opisany tabelką postaci

k nk qk bk
1 n1 q1 b1
··· ··· ··· ···
r nr qr br

gdzie

• k jest numerem pod-portfela (grupy „ jednakowych” polis),

• nk jest liczbą polis w k-tym pod-portfelu,

• qk jest prawdopodobieństwem powstania szkody dla każdej z polis w


k-tym pod-portfelu (powiedzmy, prawdopodobieństwem śmierci ubez-
pieczonego),

• bk jest wysokością wypłaty w przypadku powstania szkody (powiedzmy,


odszkodowaniem przysługującym w wypadku śmierci ubezpieczonego).

ZakładamyPtu deterministyczną wysokość wypłat bk oraz niezależność wszyst-


r
kich n = k=1 nk zmiennych losowych opisujących szkody. Każda z tych
zmiennych przyjmuje dwie wartości: 0 lub bk (z prawdopodobieństwami od-
powiednio 1 − qk i qk , zależnymi od grupy k). W takim portfelu suma od-
szkodowań S jest postaci
r
X r
X
(k)
S= S = bk L k ,
k=1 k=1

13
gdzie Lk jest liczbą wypłat w k-tej grupie, Lk ∼ Bin(ni , qi ) i zmienne losowe
S (k) = bk Lk są niezależne. Nawet w tak nieskomplikowanej sytuacji rozkład
S nie wyraża się żadnym prostym wzorem i jest możliwy do obliczenia na
ogół tylko numerycznie.

Przybliżenie normalne

Skoro dokładne obliczanie splotów jest trudne, dużą wartość mają metody
przybliżone. Najczęściej używana jest aproksymacja rozkładem normalnym.
Jest to metoda oparta na Centralnym Twierdzeniu Granicznym rachunku
prawdopodobieństwa (CTG). Przypomnimy najprostszą wersję tego wyniku.

2.1.2 TWIERDZENIE (Centralne Twierdzenie Graniczne). Załóżmy, że


X1 , . . . , Xn są niezależnymi zmiennymi losowymi o jednakowym rozkładzie
prawdopodobieństwa
Pn o wartości oczekiwanej EXi = µ i wariancji VarXi = σ 2 .
Jeśli Sn = i=1 Xi , to dla każdej liczby a,
 S − nµ 
n
lim P √ 6 a = Φ(a),
n→∞ nσ

gdzie Z a
1 2 /2
Φ(a) = √ e−x dx. 
2π −∞

Inaczej,
Sn − nµ
√ →d N(0, 1), (n → ∞).

Symbol „→d ” oznacza zbieżność według rozkładu.

Dla nas ważna jest interpretacja CTG, wnioski zeń wynikające i zastoso-
wania. W praktyce najczęściej interpretuje się CTG w następujący sposób.
Dla „dostatecznie dużych n”, suma Sn ma w przybliżeniu rozkład normalny
N(nµ, nσ 2 ). Zauważmy, że nµ = ESn i nσ 2 = VarSn .

14
2.1.3 PRZYKŁAD. Wróćmy do sytuacji opisanej w Przykładzie 2.1.1. Przy-
pomnijmy, że zmienna losowa S (k) , która opisuje łączne szkody w k-tym
pod-portfelu jest sumą nk niezależnych zmiennych losowych o jednakowych
rozkładach, przy tym ES (k) = bk nk qk i VarS (k) = b2k nk qk (1 − qk ). To po
prostu wynika stąd, że S (k) = bk Lk i Lk ∼ Bin(nk , qk ). Jeśli liczby polis
nk we wszystkich pod-portfelach są duże, to S (k) ma w przybliżeniu roz-
kład N(bk nk qk , b2k nk qk (1 − qk )). Z własności splotów rozkładów normalnych
wnioskujemy, że całkowita suma S ma w przybliżeniu rozkład

N (ES, VarS) ,

gdzie
r
X r
X
ES = bk n k q k , VarS = b2k nk qk (1 − qk ).
k=1 k=1

Innymi słowy, możemy bardzo łatwo obliczać przybliżone wartości prawdo-


podobieństwa zdarzeń typu {S 6 a} lub {S > a}:
 
a − ES
P(S 6 a) ≈ Φ √ .
VarS

2.1.4 PRZYKŁAD. Niech S oznacza, jak poprzednio, sumę szkód w portfelu.


Ustalmy „małą dodatnią liczbę” α. Względnym narzutem bezpieczeń-
stwa (relative security loading) nazywamy taką liczbę θ > 0, że h = (1+θ)ES
jest kwantylem rzędu α rozkładu straty, P(S > h) = α. Interpretacja ubez-
pieczeniowa tego pojęcia jest taka: jeśli składkę dla każdej polisy obliczymy
składkę zgodnie z regułą

składka = (1 + θ) ∗ (składka netto),

to prawdopodobieństwo tego, że straty przekroczą zebraną składkę jest „do-


statecznie małe”, to znaczy równe α (na przykład α = 0.01).

Dla uproszczenia rozważmy jednorodny portfel składający się z n polis, czyli


załóżmy, że S = ni=1 Xi , gdzie X1 , . . . , Xn są i.i.d. Przeanalizujmy zależ-
P
ność narzutu θ od wielkości portfelu. Oznaczmy przez µ = EX1 i VarXi = σ 2
momenty pojedynczego składnika sumy. Posłużymy się przybliżeniem nor-
malnym. Niech z = z1−α będzie kwantylem rzędu α rozkładu N(0, 1), to
znaczy Φ(z) = 1 − α. Ponieważ ES = nµ i VarS = nσ 2 , więc kwantyl rzędu

15

1−α rozkładu sumy S jest w przybliżeniu równy nµ+zσ n. W konsekwencji
otrzymujemy następujący przybliżony wzór:

θ≈√ .
n
Ten wzór częściowo wyjaśnia, dlaczego duże firmy ubezpieczeniowe mogą
sobie pozwolić na kalkulowanie składki na niższym poziomie i w rezultacie
uzyskiwać przewagę nad konkurencją. Względny narzut bezpieczeństwa θ
maleje wraz ze wzrostem rozmiaru n portfela. Oczywiście rozważamy model
bardzo uproszczony i nasze wyjaśnienie bierze pod uwagę tylko jeden aspekt
złożonego zjawiska. Podkreślmy jednak pożytek płynący z prostych modeli
i przybliżonych wzorów: pozwalają one czasem zrozumieć zasadnicze prawi-
dłowości, które niekoniecznie byłyby dostrzeżone na podstawie dokładnych
(powiedzmy numerycznych) obliczeń.

2.2 Kolektywny model ryzyka

Najważniejszą cechą kolektywnego modelu ryzyka jest to, że nie opisuje on


szkód związanych z konkretnymi polisami. Łączna strata w portfelu polis
jest sumą składników, odpowiadających szkodom pojawiającym się w okre-
ślonym przedziale czasu (można sobie wyobrażać, że szkody są numerowane
w kolejności ich zajścia, ale ta interpretacja nie jest konieczna). Ponieważ
liczba szkód jest zmienną losową, łączną stratę modelujemy jako sumę loso-
wej liczby losowych składników.

Sumy losowe
Pn
Dla ciągu zmiennych losowych X1 , . . . , Xn , . . ., napiszmy Sn = i=1 Xi i
S0 = 0. Jeśli N jest zmienną losową o wartościach całkowitych i nieujemnych
to możemy rozważyć sumę
N
X
SN = Xi ,
i=1
w której mamy losową liczbę (losowych) składników.
Odtąd stale będą obowiązywać następujące założenia:

16
• X1 , . . . , Xn , . . . są są niezależne i mają jednakowy rozkład prawdopo-
dobieństwa,
• N jest zmienną niezależną od X1 , . . . , Xn , . . ..

Będziemy SN nazywali po prostu sumą losową. Następujące stwierdzenie


opisuje pewne charakterystyki rozkładu prawdopodobieństwa tej zmiennej
losowej. Wprowadżmy następujące oznaczenia na dystrybuantę, funkcję two-
rzącą momenty i na momenty pojedynczego składnika, powiedzmy X = X1 .

F (x) = P(X 6 x), M (r) = EerX ,


EX = µ, VarX = σ 2 .

Oznaczmy ponadto funkcję generującą prawdopodobieństwa zmiennej loso-


wej N przez
Q(z) = Ez N .
2.2.1 Stwierdzenie. Przy naszych założeniach,

• Momenty sumy losowej są następujące

ESN = µEN, VarSN = σ 2 EN + µ2 VarN.

• Funkcja generująca momenty sumy losowej jest dana następującym


wzorem
E exp(rSN ) = Q(M (r)).

• Dystrybuanta sumy losowej jest dana następującym wzorem



X
P(SN 6 x) = F n∗ (x)P(N = n).
n=0

Zajmijmy się teraz gęstością. Niech f będzie gęstością zmiennej losowej X


lub funkcją prawdopodobieństwa,
(
F 0 (x) jeśli F jest absolutnie ciągła,
f (x) =
P(X = x) jeśli F jest dyskretna.

17
Gęstość sumy losowej jest dana wzorem

X
fSN (x) = f n∗ (x)P(N = n).
n=0

W przypadku dyskretnym możemy napisać po prostu fSN (x) = P(SN = x).

2.2.2 PRZYKŁAD. Załóżmy, że N ma rozkład geometryczny, P(N = n) =


pq n dla n = 0, 1, . . ., gdzie p + q = 1. O rozkładzie pojedynczego składnika
sumy złóżmy, że jest to rozkład wykładniczy, X1 ∼ Ex(λ). Obliczmy rozkład
sumy losowej SN dwiema metodami.

Najpierw posłużymy się gęstościami. Dla ustalonego n suma Sn ma gęstość


Gamma(n, λ). W naszych oznaczeniach, dla s > 0 i dla n > 0,
λn
f n∗ (s) = sn−1 e−λx
(n − 1)!

i f 0∗ (s) = 0 dla s > 0. Zatem



X λn
fSN (x) = sn−1 e−λx pq n
n=1
(n − 1)!

X (qλn−1 ) n−1
= qpλe−λx s = qpλe−λx eqλx
n=1
(n − 1)!
= qpλe−pλx .
R∞
Nie należy się dziwić, że 0 fSN (x)dx = q, obliczona funkcja nie całkuje się
do jedynki. Suma losowa przyjmuje wartość 0 z dodatnim prawdopodobień-
stwem, mianowicie
P(SN = 0) = P(N = 0) = p.
Rozkład prawdopodobieństwa zmiennej losowej SN jest mieszanką rozkładu
wykładniczego i „delty Diraca” w zerze: qEx(pλ) + pδ0 . Czytelnik, który nie
boi się nonszalanckiej
R∞ notacji może napisać fSN (0) = P(SN = 0) i otrzymać
fSN (0)+ 0 fSN (x)dx = q+p = 1. W każdym razie widzimy, że dystrybuanta
interesującego nas rozkładu jest dana wzorem
(
1 − qe−pλs dla s > 0;
FSN (s) =
0 dla s < 0.

18
Zauważmy, że ta dystrybuanta ma skok w zerze: FSN (s) = p.
Ten sam wynik można uzyskać nieco szybciej posługując się funkcjami two-
rzącymi momenty. Dla pojedynczego składnika mamy M (r) = EerX1 =
λ/(λ − r). Funkcja tworząca prawdopodobieństwa dla rozkładu geometrycz-
nego jest równa Q(z) = Ez N = p/(1 − qz). Stąd
p(λ − r) pλ
MSN (r) = =p+q .
1 − qλ pλ − r
Prawa cześć tego wzoru jest kombinacją wypukłą funkcji tworzącej momenty
zera i funkcji tworzącej momenty rozkładu wykładniczego. To pozwala roz-
poznać, że poszukiwany rozkład jest mieszanką pδ0 + qEx(pλ).

Zreasumujmy nasze rozważania w następującej postaci.


Kolektywny model ryzyka. Łączna strata w portfelu jest sumą losową
N
X
S = SN = Xi ,
i=1

gdzie

• N oznacza losową liczbę szkód, które zaszły (w ciągu ustalonego czasu),


• Xi > 0 jest wysokością i-tej poniesionej szkody.

Zakłada się, że X1 , . . . , Xn , . . . są i.i.d. oraz N jest zmienną niezależną od


X1 , . . . , Xn , . . ..

Podkreślmy różnice pomiędzy założeniami w modelu indywidualnym i kolek-


tywnym.

• W modelu kolektywnym zakłada się, że składniki są niezależne i mają


jednakowy rozkład prawdopodobieństwa. W modelu indywidualnym z
oczywistych względów nie zakłada się jednakowego rozkładu. Dokład-
niejsze wyjaśnienie tej kwestii odłożymy do Podrozdziału 2.3.
• W modelu kolektywnym można zakładać, że składniki sumy są dodat-
nie, zaś w modelu indywidualnym trzeba uwzględniać składniki równe
0. To jest naturalne, bo dla niektórych polis (faktycznie, dla sporej ich
części) występuje brak szkód.

19
Złożone rozkłady Poissona

Szczególną rolę odgrywają sumy losowe w których liczba składników N ma


rozkład Poissona. Na początku spróbujemy wyjaśnić, dlaczego tak jest. Ele-
mentarne, ale bardzo ciekawe twierdzenie graniczne mówi, że rozkład dwu-
mianowy można przybliżać rozkładem Poissona.
2.2.3 TWIERDZENIE (Twierdzenie Graniczne Poissona). Jeśli n → ∞,
pn → 0 i npn → λ, gdzie 0 < λ < ∞, to dla dowolnego ustalonego k =
0, 1, 2, . . .,
λk
 
n k
pn (1 − pn )n−k → e−λ .
k k!

Krócej,
Bin(n, pn ) →d Poiss(λ).
Ten fakt zwany jest niekiedy „prawem małych liczb” i wyjaśnia, dlaczego o
liczbie szkód N przyjmuje się chętnie założenie, że ma rozkład Poissona. Jeśli
jest dużo okazji do spowodowania szkody (n → ∞) ale w każdym przypadku
z osobna szkoda pojawia się niezależnie od pozostałych z małym prawdo-
podobieństwem (pn → 0) to liczba szkód powinna mieć rozkład zbliżony do
rozkładu Poissona.

2.2.4 DEFINICJA. Niech SN = N


P
i=1 Xi , gdzie zmienne Xi i N są nie-
zależne, N ∼ Poiss(λ) i P(Xi 6 x) = P (x). Rozkład prawdopodobień-
stwa sumy losowej SN nazywamy złożonym rozkładem Poissona i oznaczamy
SN ∼ CPoiss(λ, P (·)).

Zauważmy, że złożony rozkład Poissona zależy od dwóch „parametrów”, mia-


nowicie od liczby λ i dystrybuanty P . Drugi parametr jest „nieskończenie
wymiarowy” bo jest funkcją a nie liczbą. Dystrybuanta P pełni tu tylko rolę
wygodnej reprezentacji rozkładu prawdopodobieństwa zmiennych Xi . Jeśli
będzie wygodniej, będziemy używali równoważnego zapisu CPoiss(λ, P (·)) ≡
CPoiss(λ, p(·)), gdzie p jest gęstością rozkładu Xi (szczególnie dla modeli
dyskretnych).

Warto zapamiętać wzory na dystrybuantę i – przede wszystkim – na funkcję


tworzącą momenty złożonego rozkładu Poissona, podane poniżej.

20
2.2.5 Wniosek. Jeśli S ∼ CPoiss(λ, P (·)) to

X λn n∗
P(S 6 x) = e−λ P (x),
n=0
n!
rS
Ee = exp [λ(M (r) − 1)] .
gdzie M jest funkcją tworzącą momenty dla rozkładu o dystrybuancie P .

Poniższe niepozorne stwierdzenie jest, w moim przekonaniu, kluczem do zro-


zumienia rozkładów Poissona („zwykłych” i złożonych).
PN
2.2.6 Stwierdzenie. Rozważmy sumę losową S = i=1 Xi , gdzie N ∼
Poiss(λ) i rozkład prawdopodobieństwa składników jest dyskretny, o warto-
ściach w zbiorze {a1 , . . . , am }. Niech P(Xi = aj ) = p(aj ) = pj . Określimy
zmienne losowe Nj w następujący sposób:
N
X
(2.2.7) Nj = #{i : 1 6 i 6 N, Xi = aj } = I(Xi = aj ).
i=1

Wtedy zmienne losowe N1 , . . . , Nm są niezależne, Nj ∼ Poiss(pj λ) i


m
X
(2.2.8) S= aj Nj .
j=1

Odwrotnie, jeśli N1 , . . . , Nm są niezależnymi zmiennymi losowymi, Nj ∼


Pmj ) i S jest określone wzorem 2.2.8. Wtedy S ∼ CPoiss(λ, p(·)), gdzie
Poiss(λ
λ = j=1 λj , a dyskretna gęstość p jest dana wzorem p(aj ) = λj /λ.

2.3 Aproksymacja modelu indywidualnego przez


model kolektywny

Przytoczymy twierdzenie, które ma podstawowe znaczenie w teorii ryzyka.


Pokazuje ono, że indywidualny model ryzyka można aproksymować przez
model kolektywny. Wyjaśnia też, dlaczego tak ważne są złożone rozkłady
Poissona. Z teoretycznego punktu widzenia jest to wynik dotyczący trójkąt-
nej tablicy zmiennych losowych. Tego typu twierdzenia graniczne odgrywają
istotną rolę w rachunku prawdopodobieństwa.

21
2.3.1 TWIERDZENIE (Zbieżność sum do złożonego rozkładu Poissona).
Rozważmy trójkątną tablicę, w której n-ty wiersz składa się z niezależnych
zmiennych losowych Vn1 , In1 , . . . , Vn1 , In1 . Załóżmy, że Vni > 0, a zmienne
Ini są zero-jedynkowe: P(Ini = 1) = qni = 1 − P(Ini = 1). Niech Pni (x) =
P(Vni 6 x). Napiszmy
X n
Sn = Ini Vni .
i=1

Załóżmy, że dla n → ∞

(i) max qni → 0,


i
X
(ii) qni → λ,
i
X qni
(iii) Pni (x) → P (x).
i
λ

Wtedy
Sn →d CPoiss(λ, P (·)) (n → ∞).

Dowód. Na początek wprowadźmy następujące oznaczenia.


X X qni
λn = qni , Pn (x) = Pni (x).
i i
λn

(r) = EerVni . Zauważmy, że i (qni /λn )Pni (x) → P (x) i w kon-


P
Niech MniP
sekwencji i (qni /λn )Mni (r) → M (r), gdzie M (·) jest funkcją tworzącą mo-
menty rozkładu o dystrybuancie P (·). Stąd natychmiast wynika, że
" #
X
(*) exp qni (Mni (r) − 1) →n→∞ exp [λ (M (r) − 1)] ,
i

gdzie prawa strona jest funkcją tworzącą momenty rozkładu CPoiss(λ, P (·)).
Ponieważ EerIni Vni = qni EerVni + 1 − qni = 1 + qni (Mni (r) − 1), więc
Y
(**) EerSn = qni = [1 + qni (Mni (r) − 1)] .
i

22
Biorąc pod uwagę wzory (*) i (**) widzimy, że dowód będzie zakończony jeśli
pokażemy, że:

Y Y
[1 + qni (Mni (r) − 1)] − exp [qni (Mni (r) − 1)]


i i
X
6 |1 + qni (Mni (r) − 1) − exp [qni (Mni (r) − 1)]|
i
X
2
6 qni
i
X
6 max qni qni
i
i
→n→∞ 0,

przynajmniej dla r < 0. Żeby Q uzasadnić


Q powyższe
P oszacowania, użyjemy
elementarnej nierówności | i ai − i bi | 6 i |ai − bi |, która zachodzi dla
|ai |, |bi | 6 1. Przy naszych założeniach mamy 0 < Mni (r) 6 1 dla r <
0. Wykorzystaliśmy ponadto nierówność |ez − 1 − z| 6 z 2 , prawdziwą dla
dostatecznie małych |z|.

23
Rozdział 3

Teoria ruiny

3.1 Proces nadwyżki ubezpieczyciela z czasem


dyskretnym

Rozważymy proces nadwyżki ubezpieczyciela (insurer’s surplus process) ob-


serwowany w określonych odstępach czasu. Momenty obserwacji dzielą więc
czas na ciąg przedziałów (długości tych przedziałów nie muszą być takie same,
mogą być również zmiennymi losowymi). Przyjmijmy następujące oznacze-
nia:

Yi − strata netto (to znaczy strata − przyrost składki) w i-tym przedziale


czasowym,
Sn − skumulowana strata netto w okresie 1, . . . , n, czyli Sn = ni=1 Yi ,
P

u − początkowa rezerwa (nadwyżka ubezpieczyciela na początku rozpatry-


wanego okresu czasu).

Tak więc nadwyżka na koniec n-tego okresu (czyli w n-tym momencie obser-
wacji procesu, n = 1, 2, . . .) wynosi
n
X
(3.1.1) u − Sn = u − Yi ,
i=1

24
Prawdopodobieństwo (ostatecznej) ruiny jest równe

(3.1.2) ψ(u) = P(Sn > u for some n).

Moment ruiny jest następującą zmienną losową:


(
min{n : Sn > u} jeśli takie n istnieje;
(3.1.3) R = R(u) =
∞ jeśli Sn 6 u dla wszystkich n.

Zwróćmy uwagę na ważną i typową konwencję oznaczeniową: jeśli do ruiny w


ogóle nie dojdzie, to przyjmujemy, że R = ∞. Możemy dzięki temu napisać
ψ(u) = P(R(u) < ∞).

surplus

SR
u Y2
Y1
R

1 2 3 n

Rysunek 3.1: Proces nadwyżki ubezpieczyciela z czasem dyskretnym.

25
Będziemy też rozważali prawdopodobieństwo ruiny w skończonym czasie:

ψm (u) = P(Sn > u dla pewnego n 6 m).

Oczywiście, ψm (u) = P(R(u) 6 m).

Przyjmiemy następujące założenie.


3.1.4 Założenie. Zmienne losowe Y1 , Y2 , . . . są niezależne, mają ten sam
rozkład i skończoną wartość oczekiwaną. Oznaczmy przez F dystrybuantę
każdej z tych zmiennych.

Dla uproszczenia oznaczeń, oznaczmy przez Y = Yi „ jakąkolwiek” zmienną


losową o dystrybuancie F . Możemy zatem napisać

F (y) = P(Y 6 y).

i Z ∞
E(Y ) = yF (dy).
−∞

Przy Założeniu 3.1.4, ciąg sum 0 = S0 , S1 , . . . nazywamy błądzeniem loso-


wym. Problem ruiny jest ściśle związany z zachowaniem ciągu maksimów
dla błądzenia losowego. Niech

Ξn = max{0, S1 , . . . , Sn },
Ξ = lim Ξn = max{0, S1 , S2 , . . .},
n→∞

Rzecz jasna,

ψ(u) = P(Ξ > u),


ψm (u) = P(Ξm > u).

Zacznijmy od przytoczenia następującego, intuicyjnie oczywistego wyniku.


3.1.5 Stwierdzenie. Jeśli E(Y ) > 0 to ψ(u) = 1 dla każdego u > 0. Jeśli
E(Y ) < 0 to 0 < ψ(u) < 1 dla każdego u > 0.

26
Dla E(Y ) > 0, pierwsza część tego stwierdzenia wynika natychmiast z moc-
nego prawa wielkich liczb (MPWL). W rzeczy samej, Sn /n →p.n. E(Y ), zatem
Sn → ∞ i stąd Ξ = ∞ z prawdopodobieństwem 1. To znaczy, że ψ(u) = 1.

Jeśli E(Y ) = 0, jest również prawdą, że Ξn → ∞ ale dowód jest trudniejszy


i zostanie pominięty.

Przypadek E(Y ) < 0 jest najbardziej interesujący z punktu widzenia zasto-


sowań ubezpieczeniowych i w dalszym ciągu na nim się skoncentrujemy. Nie
jest trudno pokazać, że w tym przypadku 0 < ψ(u) < 1.

Nierówność Lundberga

Następujące twierdzenie podaje pewne równanie na prawdopodobieństwo ru-


iny. Dowód jest bardzo typowy: spotkamy później kilka innych równań wy-
prowadzonych w analogiczny sposób.

3.1.6 TWIERDZENIE. Prawdopodobieństwo ruiny spełnia następujące


równanie: Z u
ψ(u) = 1 − F (u) + ψ(u − v)F (dv).
−∞

Dowód. Skorzystamy ze wzoru na prawdopodobieństwo całkowite, warunku-


jąc względem zmiennej losowej Y1 . Obliczymy zatem P(R < ∞|Y1 = v). Dla
v > u to prawdopodobieństwo jest równe 1 (ruina następuje w pierwszym
kroku, R = 1). Jeśli v 6 u to P(R < ∞|Y1 = v) = ψ(u − v), ponieważ cały
proces „powtarza się od nowa” z kapitałem początkowym zmienionym z u na
u − v. Całkując względem rozkładu zmiennej Y1 otrzymujemy wynik.

Nieznaczna modyfikacja powyższego rozumowania prowadzi do rekurencyj-


nych wzorów na prawdopodobieństwo ruiny w czasie skończonym.

ψ1 (u) = 1 − F (u),
u
(3.1.7)
Z
ψm+1 (u) = 1 − F (u) + ψm (u − v)F (dv).
−∞

27
Te wzory mogą służyć do numerycznego obliczenia ψ: zaczynamy od funkcji
ψ1 danego pierwszym wzorem a następnie kolejno obliczamy funkkcje ψ2 , . . .
używając drugiego wzoru. Oczywiście,

ψm (u) % ψ(u) przy m → ∞, dla wszystkich u > 0.

W dalszych rozważaniach centralną rolę będzie grało następujące pojęcie.


3.1.8 DEFINICJA. Współczynnikiem dopasowania (adjustment coef-
ficient) nazywamy taką liczbę r > 0, że
Z ∞
rY
ery F (dy) = 1.

E e =
−∞

M (k)
F

0 r

M ’ (0)<0 M ’ (r) >0


F F

Rysunek 3.2: Funkcja tworząca momenty MF i współczynnik dopasowania


r.

28
Należy w tym miejscu poczynić kilka uwag, mając przed oczyma powyższy
rysunek. Niech
MF (κ) = E eκY


będzie funkcją tworzącą momenty zmiennej losowej Y . Załóżmy, że MF (κ) <


∞ dla κ w pewnym otoczeniu zera. Jeśli E(Y ) = MF0 (0) < 0 to MF maleje
w pewnym otoczeniu zera. Wiadomo, że jest to funkcja wypukła. Jeśli za-
łożymy, że limκ→γ− MF (κ) = ∞ dla γ = sup{κ : MF (κ) < ∞}, to równanie
definiujące współczynnik dopasowania ma dokładnie jedno rozwiązanie (nie
ma tu znaczenia, czy γ < ∞ czy γ = ∞). Otrzymaliśmy w ten sposób wa-
runek dostateczny istnienia r, który można łatwo sprawdzić dla wielu rodzin
rozkładów. Tak czy inaczej, odtąd przyjmiemy następujące założenie.
3.1.9 Założenie. Rozkład F zmiennej losowej Y jest taki, że E(Y ) < 0,
funkcja tworząca momenty MF is jest skończona w pewnym prawostronnym
otoczeniu 0 i współczynnik dopasowania r istnieje.

Najważniejszym, być może, wynikiem w klasycznej teorii ruiny jest następu-


jąca nierówność.
3.1.10 TWIERDZENIE (Nierówność Lundberga). Jeśli Założenia 3.1.4 i
3.1.9 są spełnione to
ψ(u) ≤ e−ru ,
gdzie r jest współczynnikiem dopasowania.

Dowód. Pokażemy przez indukcję, że dla wszystkich m,

ψm (u) ≤ e−ru .

Użyjemy wzorów 3.1.7. Najpierw zauważmy, że


Z ∞
ψ1 (u) = 1 − F (u) = F (dv)
u
Z ∞
6 er(v−u) F (dv)
u
Z ∞
−ru
6e erv F (dv)
−∞
−ru
6e .

29
na mocy definicji liczby r. Następnie, zakładając nierówność ψm (u) 6 e−ru
wnioskujemy, że
Z u
ψm+1 (u) = 1 − F (u) + ψm (u − v)F (dv)
−∞
Z ∞ Z u
6 F (dv) + e−r(u−v) F (dv)
−∞
Zu ∞
6 er(v−u) F (dv)
−∞
−ru
6e .

W końcu, wystarczy się powołać na zbieżność ψm (u) → ψ(u) przy m →


∞.

Zauważmy, że powyższy dowód sugeruje pewną rekurencyjną metodę szaco-


wania z góry prawdopodobieństwa ruiny. Zdefiniujmy ciąg funkcji ψ m jak
następuje:

ψ 0 (u) = e−ru ,
u
(3.1.11)
Z
m+1
ψ (u) = 1 − F (u) + ψ m (u − v)F (dv).
−∞

Z dowodu Twierdzenia 3.1.10 wynika, że ψ 1 (u) 6 ψ 0 (u). Co więcej, ψ(u) 6


ψ 0 (u). Teraz łatwo wywnioskować, używając napisanych wyżej rekurencyj-
nych wzorów, że ψ 2 (u) ≤ ψ 1 (u) i ψ(u) ≤ ψ 1 (u). Postępując w ten sam
sposób otrzymujemy kolejno nierówności ψ(u) ≤ ψ m+1 (u) ≤ ψ m (u). Można
pokazać, że

ψ m (u) & ψ(u) przy m → ∞ dla wszystkich u.

Uzasadnienie tego faktu pominiemy.


Porównajmy ciąg funkcji ψ m z ciągiem ψm , zdefiniowanych przez (3.1.7),
które aproksymują ψ z dołu. Oba ciągi są szybko zbieżne i mogą razem służyć
do oszacowania prawdopodobieństwa ruiny z kontrolowaną dokładnością. Ta
metoda została zaproponowana przez L. Gajka.

30
Wykładnicza zamiana miary

Opiszemy elegancki chwyt matematyczny, który zadziwiająco łątwo pozwala


udowodnić głębokie twierdzenia, a w dodatku jest podstawą obliczeniowych
algorytmów Monte Carlo. Przypomnijmy, że Y , strata netto w pojedynczym
przedziale czasu, ma rozkład o dystrybuancie F i E(Y ) < 0. Niech r będzie
współczynnikiem dopasowania. Zdefiniujmy

Z y
F̃ (y) = erv F (dv),
−∞

Z definicji r wynika, że F̃ (∞) = 1. W konsekwencji, zdefiniowana powyżej


funkcja F̃ jest dystrybuantą pewnego rozkładuprawdopodobieństwa.

W skrócie napiszemy wzór na F̃ w uproszczonej postaci:

(3.1.12) F̃ (dy) = ery F (dy).

Jeśli rozkład F ma gęstość f , to f˜(y) = ery f (y) jest gęstością rozkładu F̃ .

Rozważmy zmienną losową Ỹ o dystrybuancie F̃ :

P(Ỹ 6 y) = F̃ (y).

Ponieważ M jest wypukła, MF0 (0) < 0 i MF (0) = MF (r) = 1, otrzymujemy


następujący wniosek:

Z Z
E(Ỹ ) = y F̃ (dy) = yery F (dy)
Z
d
= ery F (dy)
dr
= MF0 (r) > 0.

31
Wyobraźmy sobie teraz ciąg Ỹ1 , Ỹ2 , . . . niezależnych
Pzmiennych losowych o
n
jednakowym rozkładzie F̃ . Powiemy, że sumy S̃n = i=1 Ỹi tworzą błądzenie
losowe stowarzyszone lub sprzeżone z oryginalnym błądzeniem Sn = ni=1 Yi .
P
Ogólnie, wielkości oznaczane symbolami ze znaczkiem ˜ są zdefiowane den-
tycznie jak ich odpowiedniki bez ˜ ale w terminach zmiennych Ỹi zmiast
Yi .

Zauważmy, że dla procesu u−S̃n , ruina jest pewna, na mocy Stwiedzenia 3.1.5.
Stowarzyszony proces ma ujemny dryf, w przeciwieństwie do oryginalnego
procesu. W naszych oznaczeniach,

P(R̃ < ∞).

Przejdźmy teraz do wyjaśnienia w jaki sposób badanie stowarzyszonego pro-


cesu u − S̃n prowadzi do wyników dotyczących procesu u − Sn , bo przecież
ten ostatni jest obiektem zainteresowania. Niech

Rn = {(y1 , . . . , yn ) : y1 ≤ u, . . . , y1 + · · · + yn−1 ≤ u, y1 + · · · + yn−1 + yn > u},

to znaczy zdarzenie {R = n} jest równoważne temu, że (Y1 , . . . , Yn ) ∈ Rn . Z


tego wynika, ze

Z Z
P(R̃ = n) = ··· f˜(y1 ) · · · f˜(yn )dy1 · · · dyn
Rn
Z Z
= ··· ery1 f (y1 ) · · · eryn f (yn )dy1 · · · dyn
Rn
Z Z
= ··· er(y1 +···+yn ) f (y1 ) · · · f (yn )dy1 · · · dyn
Rn
rSn

= E e ;R = n .

Dodając stronami powyższe równości dla n = 1, 2, . . ., otrzymujemy

1 = P(R̃ < ∞) = E erSR ; R < ∞ = E erSR |R < ∞ P(R < ∞).


 

32
Zatem

1
P(R < ∞) = .
E (exp[rSR ]|R < ∞)

Zauważmy, że to ostatnie równanie dotyczy już tylko wielkości związanych


z oryginalnym procesem. Oczywiste przekształcenie prowadzi do następują-
cego ważnego wyniku.
3.1.13 TWIERDZENIE. Dla procesu ruiny w czasie dyskretnym, przy na-
szych stałych założeniach mamy

exp[−ru]
P(R < ∞) = .
E (exp[r(SR − u)]|R < ∞)

Zmienna losowa SR − u jest niczym innym jak wartością bezwzględną nad-


wyżki w momencie ruiny (z konieczności ujemnej). Mianownik we wzorze
3.1.13 jest równy wartości funkcji tworzącej momenty zmiennej losowej SR −u
w punkcie r, obliczonej przy założeniu, że ta zmienna w ogóle istnieje. Za-
uważmy, że ten mianownik jest zawsze wiekszy od 1, więc z Twierdzenia
3.1.13 wynika, że P(R < ∞) < e−ru . Otrzymaliśmy w ten sposób inny
dowód nierówności Lundberga (Twierdzenie 3.1.10).
Teraz wykonajmy bardzo podobne rachunki, ale „w odwrotnym kierunku”:

Z Z
P(R = n) = ··· f (y1 ) · · · f (yn )dy1 · · · dyn
Rn
Z Z
= ··· e−ry1 f˜(y1 ) · · · e−ryn f˜(yn )dy1 · · · dyn
Rn
Z Z
= ··· e−r(y1 +···+yn ) f˜(y1 ) · · · f˜(yn )dy1 · · · dyn
Rn
 
= E erS̃n ; R̃ = n .

 zdarzeń {R̃ = n} ma prawdopodobieństwo 1,


Ponieważ suma mnogościowa
dostajemy P(R < ∞) = E exp[−rS̃R̃ ] . W konsekwencji,

33
 
−ru
(3.1.14) P(R < ∞) = e E exp[−r(S̃R̃ − u)] .

Wyprowadzony w ten sposób fakt może być użyty do konstrukcji algorytmu


typu Monte Carlo (MC) obliczania ψ(u) = P(R < ∞):

Powtarzaj (możliwie najwięcej razy)


Symuluj stowarzyszony proces u−S̃n aż do momentu ruiny (n = R̃).
Oblicz e−r(S̃R̃ −u) .

Oblicz średnią obliczonych wielkości.

Pomnóż wynik przez e−ru aby otrzymać estymator prawdopodobień-


stwa ruiny ψ(u).

Algorytm jest prosty i efektywny. Zauważmy, że czas symulacji jest zawsze


skończony, ponieważ stowarzyszony proces zawsze, prędzej lub później scho-
dzi poniżej 0 (zwykle całkiem prędko). Jest zadziwiające, że najbardziej
efektywny algorytm MC obliczania prawdopodobieństwa ruiny polega na sy-
mulowaniu innego procesu, dla którego ruina jest pewna!

Zastosowanie Teorii Odnowienia

Popatrzmy na proces nadwyżki w czasie dyskretnym z innego punktu wi-


dzenia. Rozważmy momenty, w których proces osiąga rekordowe wartości
poniżej poprzednio osiągniętego poziomu. Mówimy, że są to

momenty drabinowe (w dół), oznaczane przez K1 < K2 < · · · .

Odpowiadające im wartości rekordów są to tak zwane

wartości drabinowe (w dół), oznaczane przez u − C1 > u − C2 > · · · .

34
Ważne jest spostrzeżenie, że dla E(Y ) < 0 mamy zawsze skończoną (ale
losową) liczbę momentów i wartości drabinowych. To dlatego, że proces ma
dodatni dryf i prawie na pewno u − Sn → ∞ (Stwierdzenie 3.1.5). Niech
D będzie liczbą punktów drabinowych (Ki , u − Ci ). Jest to zmienna losowa
taka, ze P(0 6 D < ∞) = 1.
Odstępy pomiędzy kolejnymi wartościami drabinowymi będziemy oznaczać
przez L1 , L2 , . . .. Mamy zatem Li = Ci − Ci−1 ,

L1 = C1 , . . . , CD = L1 + · · · + LD .

Formalne definicje opisanych powyżej pojęć są następujące. Przyjmiemy


umownie, że min ∅ = ∞. Ta konwencja była już użyta w (3.1.3). Połóżmy

K0 = 0; Ki+1 = min{n > Ki : Sn > SKi },


C0 = 0; Ci = SKi ,

gdzie przyjmujemy, że S∞ = ∞, a więc Ci = ∞ jeśli Ki = ∞ (po prostu, jeśli


moment drabinowy nie istnieje, to wartość drabinowa nie istnieje). Możemy
teraz napisać

D = max{i : Ci < ∞}.

Nasza konwencja (polegająca na zastąpieniu nieistniejących wartości drabi-


nowych przez ∞) może się wydać sztuczna, ale w dalszym ciągu okaże się
bardzo wygodna.
Zmienne losowe Li (wielkości o jakie kolejne rekordy w dół są „poprawiane”)
są określone jako

L1 = C1 ; Li+1 = Ci+1 − Ci .

Uważny Czytelnik zauważy, że powyższe wzory pracują niestety tylko dla


i 6 D.
Oczywisty ale kluczowy fakt sformułujemy w następujący sposób.

35
3.1.15 Stwierdzenie. Możemy traktować L1 , L2 , . . . jak niezależne zmienne
losowe o jednakowym rozkładzie, przyjmujące wartości w przedziale ]0, ∞].

Dowód. W momencie K1 (jeśli ten pierwszy moment drabinowy istnieje),


proces „ zaczyna się od nowa” i ewoluuje niezależnie w identyczny sposób jak
proces zaczynający się w chwili 0 z tą różnicą, że początkowy poziom u jest
zastąpiony przez u − L1 . Następna zmienna L2 jest określona tak samo jak
L1 = C1 , tylko w terminach ciągu YK1 +1 , YK1 +2 , . . . zamiast ciągu Y1 , Y2 , . . ..
W rezultacie,

P(K2 = k, L2 6 y|K1 , L1 ) = P(K1 = k, L1 6 y).

W szczególności, P(L2 6 y|L1 ) = P(L1 6 y). Stąd

P(L1 6 y1 , L2 6 y2 ) = P(L1 6 y1 )P(L2 6 y2 ),


P(L1 6 y) = P(L2 6 y).

Analogiczne równości zachodzą dla więcej niż dwóch zmiennych Li .

Ciąg sum dodatnich zmiennych losowych o jednakowym rozkładzie nazywa


się procesem odnowienia. Jeśli te zmienne przyjmują wartość ∞ z niezero-
wym prawdopodobieństwem (mówimy, że są to zmienne ułomne) to proces
odnowienia nazywamy chwilowym. Ciąg rekordów

C1 = L1 , . . . , CD = L1 + · · · + LD .

jest zatem chwilowym procesem odnowienia. Niech H oznacza dystry-


buantę „typowego rekordu” czyli dowolnej ze zmiennych Li . Dla uproszczenia
opuszczając indeks i, napiszmy

H(y) = P(L 6 y).

Zauważmy, że jest to dystrybuanta ułomna, to znaczy

36
H(∞) = lim H(y) = q < 1.
y→∞

Prawdopodobieństwo „brakujące do jedynki” jest równe 1 − q = P(L = ∞).


Jest to prawdopodobieństwo zdarzenia polegającego na tym, że proces nad-
wyżki nigdy nie spadnie poniżej poziomu początkowego (rekord nigdy nie
zostanie pobity).

Niech

1
G(y) = P(L 6 y|L < ∞) = H(y).
q

Tak określona funkcja G jest warunkową dystrybuantą rekordu, pod warun-


kiem tego, że rekord zaistniał. Obie funkcje H i G są pokazane na załączonym
rysunku.

1
G(y)

H(y)

Rysunek 3.3: Dystrybuanty H i G.

37
Następujący schemat może pomóc w zrozumieniu pojęcia chwilowego procesu
odnowienia.

1−q
q
 *
Generuj L1 ∼ G Stop:D := 0


C1 := L1

1−q
q
 *
Generuj L2 ∼ G Stop:D := 1


C1 := L1 + L2

1−q
q
 *
Generuj L3 ∼ G Stop:D := 2


C1 := L1 + L2 + L3

.. ..
. .

1−q
q
 *
Generuj Ln ∼ G Stop:D := n − 1


C1 := L1 + · · · + Ln

.. ..
. .

38
Podsumujmy nasze rozważania w następujący sposób.

• Zmienna losowa D ma rozkład geometryczny, P(D = n) = (1 − q)q n


dla n = 0, 1, . . ..

• Zmienne losowe L1 , . . . , LD są niezależne i mają jednakowy rozkład o


dystrybuancie G.

Następujący sławny i ważny wynik natychmiast wynika z naszych dotych-


czasowych ustaleń.

3.1.16 TWIERDZENIE (Wzór Chinczyna - Pollaczka). Prawdopodobień-


stwo ruiny ψ(u) jest dane następującym wzorem:

X
1 − ψ(u) = (1 − q) q n Gn∗ (u).
n=0

Dowód. Lewa strona, 1 − ψ(u), jest dystrybuantą zmiennej losowejPCD . Z


rozważań dotyczących zmiennych losowych D i Li wynika, że CD = D n=1 Ln
ma złożony rozkład geometryczny (oznaczmy go CGeo(q, G)). Wzór
Chinczyna-Pollaczka jest po prostu szczególnym przypadkiem ogólnego wzoru
na dystrybuantę sumy losowej, Stwierdzenie 2.2.1.

Może się wydawać, że Twierdzenie 3.1.16 jest „pełnym rozwiązaniem” zadania


o prawdopodobieństwie ruiny. Jest rzeczywiście użyteczne i ważne, ale jego
stosowanie natrafia na dwie trudności. Po pierwsze, zarówno występująca
we wzorze liczba q jak i dystrybuanta G są określone w terminach procesu
rekordów Li . Nie jest jasne jak obliczyć q i G mając do dyspozycji dystry-
buantę F wyjściowych zmiennych Yi . Po drugie, nawet jeśli znamy q i G, to
stoimy przed problemem obliczania potęg splotowych Gn .

W następnym podrozdziale okaże się, że pierwszą trudność możemy pokonać


(lub przynajmniej ominąć) rozważając szczególny przypadek procesu nad-
wyżki, mianowicie klasyczny model z czasem ciągłym. Drugą trudność mo-
żemy pokonać (lub przynajmniej ominąć) przechodząc do funkcji tworzących
momenty.

39
3.2 Proces nadwyżki ubezpieczyciela z czasem
ciągłym

Przejdziemy teraz do modelu, w którym pojawianie się (lub rejestrowanie)


szkód traktuje się jako proces losowy. Proces Poissona jest klasycznym mo-
delem ciągu zdarzeń zachodzących w „zupełnie losowo wybranych” chwilach.
Najpierw omówimy konstrukcję i własności tego procesu.

Proces Poissona

3.2.1 DEFINICJA. Rozważmy niezależne zmienne losowe W1 , . . . , Wk , . . .


o jednakowym rozkładzie wykładniczym, Xi ∼ Ex(λ) i utwórzmy kolejne sumy

T0 = 0, T1 = W1 , T2 = W1 + W2 , . . . , Tk = W1 + · · · + Wk , . . .

Niech, dla t ≥ 0,
N (t) = max{k : Tk 6 t}.
Rodzinę zmiennych losowych N (t) nazywamy procesem Poissona.

Proces Poissona dobrze jest wyobrażać sobie jako losowy zbiór punktów na
półprostej: {T1 , T2 , . . . , Tk , . . .}. Zmienna N (t) oznacza liczbę punktów, które
„wpadły” w odcinek ]0, t]. Wygodnie będzie używać symbolu

N (s, t) = N (t) − N (s)

dla oznaczenia liczby punktów, które „wpadły” w odcinek ]s, t].

3.2.2 Stwierdzenie. Jeśli N (t) jest procesem Poissona, to

(λt)k
P(N (t) = k) = e−λt .
k!

Dowód. Zauważmy, że
Tk ∼ Gamma(k, λ).

40
Wobec tego ze wzoru na prawdopodobieństwo całkowite wynika, że
P(N (t) = k) = P(Tk 6 t, Tk+1 > t)
Z t
= P(Tk+1 > t|Tk = s)fTk (s) ds
0
Z t
= P(Wk+1 > t − s|Tk = s)fTk (s) ds
0
Z t
λk k−1 −λs
= e−λ(t−s) s e ds
0 Γ(k)
k Z t
−λt λ λk tk (λt)k
=e sk−1 ds = e−λt = e−λt .
Γ(k) 0 (k − 1)! k k!

Oczywiście EN (t) = λt. Liczba


1 EN (t)
λ= =
EWi t
jest nazywana intensywnością procesu.
3.2.3 Stwierdzenie. Jeśli
0 < t1 < t2 < · · · < ti < · · · ,
to zmienne losowe N (t1 ), N (t1 , t2 ), . . . są niezależne i każda z nich ma rozkład
Poissona:
N (ti−1 , ti ) ∼ Poiss(λ(ti − ti−1 )).

Dowód. Pokażemy, że warunkowo, dla N (t1 ) = k, ciąg zmiennych losowych


Tk+1 − t1 , Wk+2 , Wk+3 . . . , jest iid ∼ Ex(λ).
Wynika to z własności braku pamięci rozkładu wykładniczego. W istocie,
dla ustalonych N (t1 ) = k i Sk = s mamy
P(Tk+1 − t1 > t|N (t1 ) = k, Tk = s)
= P(Tk+1 − t1 > t|Tk = s, Tk+1 > t1 )
= P(Wk+1 > t1 + t − s|Wk+1 > t1 − s)
= P(Wk+1 > t) = e−λt .

41
Fakt, że zmienne Wk+2 , Wk+3 . . . są niezależne od zdarzenia N (t1 ) = k jest
oczywisty. Pokazaliśmy w ten sposób, że losowy zbiór punktów {Tk+1 −
t1 , Tk+2 − t1 , . . .} ma warunkowo, dla N (t1 ) = k taki sam rozkład prawdo-
podobieństwa, jak {T1 , T2 , . . .}. Proces Poissona obserwowany od momentu
t1 jest kopią wyjściowego procesu. Wynika stąd w szczególności, że zmienna
losowa N (t2 , t1 ) jest niezależna od N (t1 ) i N (t2 , t1 ) ∼ Poiss(λ(t2 −t1 )). Dalsza
część dowodu przebiega analogicznie i ją pominiemy.

3.2.4 Lemat. Jeśli W1 , . . . , Wn są niezależnymi zmiennymi losowymi o jed-


nakowym rozkładzie wykładniczym,

Yi ∼ Ex(λ),

T0 = 0, T1 = W1 , T2 = W1 + W2 , . . . , Tk = W1 + · · · + Wk to wektor losowy
 
T1 Tk−1
(U1 , . . . , Uk−1 ) = ,...,
Tk Tk

jest niezależny od Tk i ma rozkład jednostajny na sympleksie ∆ = {u =


(u1 , . . . , uk−1 ) : 0 6 u1 6 . . . 6 uk−1 6 1}.

Dowód. Obliczymy łączną gęstość zmiennych losowych Tk , U1 , . . . , Un−1 . Ze


wzoru na przekształcenie gęstości wynika, że

fTk ,U1 ,...,Uk−1 (t, u1 , . . . , uk−1 ) = fW1 ,...,Wk (u1 t, (u2 − u1 )t, . . . , (1 − uk−1 )t)

−λu1 t −λ(u2 −u1 )t −λ(1−uk−1 )t ∂(w1 , . . . , wk )

= λe λe · · · λe ∂(t, u1 , . . . uk−1 )
= λk tk−1 e−λt , (t > 0, u ∈ ∆).

ponieważ jakobian przekształcenia odwrotnego jest równy tk−1 . Wystarczy


teraz zauważyć, że

k k−1 −λt tk−1 −λt


λ t e = e · (k − 1)! (t > 0, u ∈ ∆)
(k − 1)!

jest iloczynem 1-wymiarowej gęstości rozkładu Gamma(k, λ) i (k −1)-wymia-


rowej gęstości jednostajnej na ∆.

42
Zauważmy, że jeśli U1 , . . . , Uk−1 są niezależnymi zmiennymi o jednakowym
rozkładzie jednostajnym U(0, 1) i

U1:k−1 6 · · · 6 Uk−1:k−1

oznaczają statystyki pozycyjne, to wektor losowy (U1:k−1 , . . . , Uk−1:k−1 ) ma


rozkład jednostajny na sympleksie ∆. Stąd wynika następujący wniosek.

3.2.5 Wniosek. Warunkowo, dla Tk = t, ciąg zmiennych losowych

T1 , . . . , Tk−1

ma rozkład taki sam, jak ciąg statystyk pozycyjnych

V1:k−1 , . . . , Vk−1:k−1

z rozkładu U(0, t).

Zróbmy jeszcze jeden mały krok i zmieńmy zdarzenie warunkujące.

3.2.6 Stwierdzenie. Warunkowo, dla N (t) = k, ciąg zmiennych losowych

T1 , . . . , Tk

ma rozkład taki sam, jak ciąg statystyk pozycyjnych

V1:k , . . . , Vk:k

z rozkładu U(0, t).

Dowód. Z Wniosku 3.2.5 wynika, że warunkowo, dla Tk = s, wektor losowy


(T1 , . . . , Tk−1 ) ma taki rozkład, jak k − 1 statystyk pozycyjnych z U (0, s).
Napiszmy gęstość warunkową:

(k − 1)!
fT1 ,...,Tk−1 (t1 , . . . , tk−1 |Tk = s) = .
sk−1

43
Obliczmy teraz warunkową gęstość zmiennej losowej Tk , jeśli N (t) = n:
P(N (t) = k|Tk = s)fTk (s)
fTk (s|N (t) = k) =
P(N (t) = k)
P(Wk+1 > t − s)fTk (s)
=
P(N = k)
−λ(t−s) k
e (λ /(k − 1)!)sk−1 e−λs
=
e−λt (λt)k /k!
ksk−1
= (0 6 s 6 t).
tk
A zatem
fT1 ,...,Tk−1 ,Tk (t1 , . . . , tk−1 , s|N (t) = k)
= fT1 ,...,Tk−1 (t1 , . . . , tk−1 |Tk = s)fTk (s|N (t) = k)
(k − 1)! ksk−1 k!
= k−1
· k = k.
s t t
Otrzymaliśmy gęstość rozkładu jednostajnego na k-wymiarowym sympleksie,
co jest równoznaczne z tezą.

Stwierdzenie 3.2.6 wyjaśnia dlaczego proces Poissona jest modelem „całko-


wicie losowych punktów czasu” znacznie lepiej niż Definicja 3.2.1. Podamy
jescze jedno twierdzenie charakteryzujące proces Poissona. Jest ono nie tylko
bardzo sugestywne, ale wprowadza pewien ważny sposób określania proce-
sów stochastycznych z czasem ciągłym, który ułatwia zrozumienie ich natury
i jest bardzo użyteczny w probabilistycznym modelowaniu zjawisk.
3.2.7 TWIERDZENIE. Załóżmy, że (N (t) : t > 0) jest procesem o war-
tościach w {0, 1, 2, . . .}, stacjonarnych i niezależnych przyrostach (to znaczy
N (t) − N (s) jest niezależne od (N (u), u 6 s) i ma rozkład zależny tylko od
t − s dla dowolnych 0 < s < t) oraz, że trajektorie N (t) są prawostronnie
ciągłymi funkcjami mającymi lewostronne granice (prawie na pewno). Jeżeli
N (0) = 0 i spełnione są następujące warunki:
P(N (t) = 1)
(i) lim = λ,
t→0 t
P(N (t) ≥ 2)
(ii) lim = 0,
t→0 t
to N (·) jest jednorodnym procesem Poissona z intensywnością λ

44
Bardzo prosto można zauważyć, że proces Poissona (N (t) : t > 0) o inten-
sywności λ ma własności wymienione w Twierdzeniu 3.2.7. Ciekawe jest, że
te własności w pełni charakteryzują proces Poissona.

Szkic dowodu Twierdzenia 3.2.7. Pokażemy tylko, że

(λt)n
pn (t) := P(N (t) = n) = e−λt .
n!
Najpierw zajmiemy się funkcją p0 (t) = P(N (t) = 0). Z niezależności i jedno-
rodności przyrostów wynika tożsamość

p0 (t + h) = p0 (h)p0 (t).

Stąd
 P∞ 
p0 (t + h) − p0 (t) p0 (h) − 1 p1 (h) i=2 pi (h)
= p0 (t) = − − p0 (h).
h h h h

Przejdźmy do granicy z h → 0 i skorzystajmy z własności (i) i (ii). Dostajemy


proste równanie różniczkowe:

p00 (t) = −λp0 (t).

Rozwiązanie tego równania z warunkiem początkowym p0 (0) = 1 jest funkcja

p0 (t) = e−λt .

Bardzo podobnie obliczamy kolejne funkcje pn . Postępujemy rekurencyjnie:


zakładamy, że znamy pn−1 i układamy równanie różniczkowe dla funkcji pn .
Podobnie jak poprzednio,
n
X
pn (t + h) = pn (t)p0 (h) + pn−1 (t)p1 (h) + pn−1 (t)pi (h),
i=2

a zatem
n
pn (t + h) − pn (t) p0 (h) − 1 p1 (h) 1X
= pn (t) + pn−1 (t) + pn−i (t)pi (h).
h h h h i=2

45
Korzystając z własności (i) i (ii) otrzymujemy równanie

p0n (t) = −λpn (t) + λpn−1 (t).

To równanie można rozwiązać metodą uzmiennienia stałej: poszukujemy


rozwiązania postaci pn (t) = c(t)e−λt . Zakładamy przy tym indukcyjnie,
że pn−1 (t) = (λt)n−1 e−λt /(n − 1)! i mamy oczywisty warunek początkowy
pn (0) = 0. Stąd już łatwo dostać dowodzony wzór na pn .

Na koniec zauważmy, że z postaci funkcji p0 łatwo wywnioskować jaki ma


rozkład zmienna T1 = inf{t : N (t) > 0}. Istotnie, P(T1 > t) = P(N (t) = 0)
= p0 (t) = e−λt .

Własności (i) i (ii), w połączeniu z jednorodnością przyrostów można prze-


pisać w następującej sugestywnej formie:

P(N (t + h) = n + 1|N (t) = n) = λh + o(h),


(3.2.8)
P(N (t + h) = n|N (t) = n) = 1 − λh + o(h), h & 0.

Złożony proces Poissona

3.2.9 DEFINICJA. Rozważmy proces Poissona (N (t) : t > 0) o intensyw-


ności λ oraz ciąg niezależnych zmiennych losowych X1 , . . . , Xn , . . . o jedna-
kowym rozkładzie. Mówimy, że zmienne losowe
N (t)
X
Z(t) = Xi
i=1

tworzą złożony proces Poissona.

P0
Używamy tu zwykłej konwencji dotyczącej „pustej sumy”: n=1 · · · = 0.
Losowe punkty „tworzące” proces Poissona (N (t) : t > 0) oznaczamy, tak jak
poprzednio, przez T1 < T2 < · · · < Tn < · · · , a odcinki pomiędzy nimi przez
W1 , W2 , . . . , Wn , . . .. Dystrybuantę „typowej zmiennej X = Xi ” będziemy
starali się zawsze w tym podrozdziale oznaczać symbolem P :

P (x) = P(X 6 x).

46
Trajektorie procesu (Z(t) : t > 0) są prawostronnie ciągłymi funkcjami
schodkowymi, które są stałe na przedziałach pomiędzi skokami,
n
X
Z(t) = Xi dla Tn 6 t < Tn .
i=1

Oczywiście, momenty skoków procesu (Z(t)) są te same, co procesu (N (t)).


W odróżnieniu od „zwykłego” procesu Poissona, proces Z ma skoki losowej
wysokości:
Z(Tn ) − Z(Tn −) = Z(Tn ) − Z(Tn−1 ) = Xn .

Dla ustalonych s < t, symbolem

Z(s, t) = Z(t) − Z(s)

oznaczmy przyrost procesu Z. Odpowiednikiem Stwierdzenia 3.2.3 jest na-


stępujący fakt.

3.2.10 Stwierdzenie. Jeśli

0 < t1 < t2 < · · · < ti < · · · ,

to zmienne losowe Z(t1 ), Z(t1 , t2 ), . . . są niezależne i każda z nich ma złożony


rozkład Poissona:

Z(ti−1 , ti ) ∼ CPoiss(λ(ti − ti−1 ), P ).

W szczególności, dla ustalonego t > 0,

N (t) ∼ CPoiss(λt, P ).

Z drugiej strony, wartość procesu w kolejnym momencie skoku ma rozkład


bedący potęgą splotową P ,

N (Tn ) ∼ P n∗ .

47
Klasyczny proces nadwyżki z czasem ciągłym

Przyjmijmy następujące oznaczenia:

Ti − moment pojawienia się i-tej szkody,

Xi − wysokość i-tej szkody,

N (t) − liczba szkód w przedziale czasowym [0, t], innymi słowy N (t) = max{n :
Tn 6 t},
PN (t)
Z(t) − skumulowane szkody w okresie [0, t], czyli Z(t) = i=1 Xi ,

u − początkowa rezerwa (nadwyżka ubezpieczyciela na początku rozpatry-


wanego okresu czasu).

c − intensywność napływu składki (kwota składki przypadająca na jed-


nostkę czasu).

3.2.11 Założenie. W klasycznym modelu spełnione są następujące warunki.

(i) (N (t) : t > 0) jest procesem Poissona o intensywności λ.

(ii) Zmienne losowe X1 , X2 , . . . są dodatnie, niezależne od siebie nawzajem


i od procesu N , mają ten sam rozkład o dystrybuancie P i skończonej
wartości oczekiwanej µ.

(iii) Wartość składki zgromadzonej do momentu t wynosi ct (to znaczy, że


składka napływa ciągłym, jednostajnym strumieniem z intensywnością
c > 0).

Nadwyżka ubezpieczyciela w mmomencie t (czyli wartość początkowa + ze-


brana składka − skumulowane straty) wynosi
N (t)
X
(3.2.12) u + ct − Z(t), gdzie Z(t) = Xi .
n=1

Przy Założeniu 3.2.11, Z jest złożonym procesem Poissona.

48
Omówmy dwa rozdzaje „dyskretyzacji czasu” dla procesu (3.2.12).

Dyskretyzacja I: Obserwujemy proces w równych odstępach czasu (po-


wiedzmy co rok), czyli rozważamy ciąg zmiennych losowych

u + ch − Z(h), u + 2ch − Z(2h), . . . , u + nch − Z(nh), . . . .

Możemy napisać
n
X
u + nch − Z(nh) = u − Yi ,
i=1

gdzie

(3.2.13) Yn = Z((n − 1)h, nh) − ch.

Zmienne losowe Y1 , Y2 , . . . są niezależne i mają jednakowy rozkład złożony


Poissona,
Y ∼ CPoiss(λh, P ).
Spełnione jest zatem Założenie 3.1.4 i wszystkie wyniki Podrozdziału 3.1
pozostają prawdziwe dla określonego w ten sposób procesu nadwyżki z czasem
dyskretnym.

Dyskretyzacja II: Obserwujemy proces w chwilach pojawiania się szkód,


czyli rozważamy ciąg zmiennych losowych

u + cT1 − Z(T1 ), u + cT2 − Z(T2 ), . . . , u + cTk − Z(Tk ), . . . .

W tym przypadku możemy napisać


k
X
u + cTk − Z(Tk ) = u − Yi ,
i=1

gdzie zmienne Yi są określone inaczej, mianowicie

(3.2.14) Yk = Xk − cWk .

Podobnie jak dla Dyskretyzacji I, zmienne losowe Y1 , Y2 , . . . są niezależne i


mają jednakowy rozkład. W rozpatrywanym teraz przypadku,

Y ∼ P ∗ Ex− (λ),

49
gdzie symbol Ex− ∗ (λ) oznacza rozkład zmiennej losowej −W , W ∼ Ex(λ).
Spełnione jest Założenie 3.1.4 i wszystkie wyniki Podrozdziału 3.1 pozostają
prawdziwe.

Skomentujmy konsekwencje wybrania jednego z dwóch schematów dyskrety-


zacji.

Dyskretyzacja I wydaje się bardziej „realistyczna” i dostosowana do


badania zjawiska z punktu widzenia praktyki. Matematycznie jednak
prowadzi do mniej wygodnego modelu, ponieważ złożony rozkład Po-
issona CPoiss(λh, P ) nie jest zbyt przyjazny.

Dyskretyzacja II ma zalety z matematycznego punktu widzenia. Roz-


kład P ∗ Ex− (λ) jest łatwym do obliczenia splotem. Co więcej ten
rozkład ma tak zwany wykładniczy lewy ogon, co prowadzi do znacz-
nego uproszczenia teorii i do bardziej satysfakcjonujących rezultatów.

W dalszym ciągu rozważana będzie wyłącznie Dyskretyzacja II. Zmienne


losowe Yi są zatem określone wzorem (3.2.14). Skoncentrujemy się na wyni-
kach dotyczących prawdopodobieństwa ruiny. Dla procesu z czasem ciągłym,
moment ruiny jest określony następująco:

(
inf{t > 0 : u + ct − Z(t) < 0} jeśli takie t istnieje;
TR =
∞ jeśli takie t nie istnieje.

Jest to notacja zgodna ze wzorami (3.1.2) i (3.1.3) dotyczącymi modelu z


czasem dyskretnym! Istotnie, ruina w modelu ciągłym może nastąpić tylko w
jednym z momentów skoku Tk . Zmienna losowa R = min{n : Y1 + · · · + Yn >
u} oznacza teraz numer szkody która spowodowała ruinę, zaś momentem
ruiny jest TR .

Zapowiadane uproszczenie teorii zawdzięczamy głównie następującemu stwier-


dzeniu.

50
3.2.15 Stwierdzenie. Rozważmy klasyczny proces nadwyżki z czasem cią-
głym sprecyzowany w Założeniu 3.2.11. Jeśli zmienne Yi są określone wzorem
(3.2.14), to określony w ten sposób proces z czasem dyskretnym spełnia Zało-
żenie 3.1.4. Rekordy w dół tworzą chwilowy proces odnowienia, dla którego
λ y
Z
H(y) = P(L 6 y) = [1 − P (x)]dx.
c 0

Pierwsza część Stwierdzenia 3.2.15 jest powtórzeniem znanych faktów, omó-


wionych przy okazji wprowadzania Dyskretyzacji II. Ważny, ciekawy i zupeł-
nie nieoczywisty jest wzór wyrażający dystrybuantę H w terminach P , c i λ.
Wyprowadzenie pominiemy. Istnieją bardzo różne dowody tego wzoru. Jedne
są żmudne, rachunkowe i niewiele wyjaśniają. Inne są bardzo pomysłowe i
trudne pojęciowo.

Zauważmy, że na mocy standardowego wzóru na całkowanie przez części,


Z ∞
µ = EY = [1 − P (x)]dx.
0

Stąd widać, że Stwierdzenie 3.2.15 można sformułować w postaci dwóch na-


stępujących wzorów.
1 y
Z
G(y) = P(L 6 y|L < ∞) = [1 − P (x)]dx
µ 0
(3.2.16)
λµ
q = P(L < ∞) = .
c

Zauważmy, że q = ψ(0) jest prawdopodobieństwem ruiny przy zerowej re-


zerwie początkowej. Nierówność λµ < c oznacza, że szybkość napływania
składki przewyższa średnią wartość szkód na jednostkę czasu (λµt = EZ(t)).

Stwierdzenie 3.2.15 lub równoważnie wzór (3.2.16) wyrażają w jawny sposób,


w terminach liczb c, λ, µ i dystrybuanty P wszystkie wielkości, które wy-
stępują we wzorze Chinczyna-Pollaczka (Twierdzenie 3.1.16). W tym sensie
otrzymujemy możliwy do zastosowania wzór na prawdopodobieństwo ruiny.
Trudno jednak określić ten wzór przymiotnikiem „ jawny”, ze względu na wy-
stępujące w nim potęgi splotowe.

51
Rozdział 4

Teoria zaufania

4.1 Wstęp

Przedstawimy zarys teorii, która służy do obliczania składki w niejednorod-


nych portfelach kontraktów. Angielski termin Credibility Theory czasami
tłumaczy się jako „teoria wiarogodności”, ale lepsza wydaje się nazwa „teoria
zaufania”. Jest to w istocie bardzo specjalny dział statystyki matematycznej,
blisko związany z podejściem bayesowskim i z modelami liniowymi. W tym
rozdziale będziemy stosować notację typową w statystyce. Zaczniemy od wy-
jaśnienia, co rozumiemy przez jednorodność danych i jakie są statystyczne
metody rozpoznawania jednorodności/niejednorodności.

4.2 Statystyczne testy jednorodności

Towarzystwo ubezpieczeniowe musi ustalić wysokość składki, którą ma zapła-


cić klient. Staramy się przewidzieć, jakiej wysokości szkód można oczekiwać
ze strony tego klienta w okresie objętym umową ubezpieczenia, a więc w przy-
szłości. Przypuśćmy, że dysponujemy danymi, dotyczącymi jego przeszłych
szkód:
x1 , . . . , x n .

52
Rzeczywiste dane są najczęściej wstępnie pogrupowane i łącznie rozpatruje
się całą grupę „ jednakowych” umów, ale łatwiej będzie mówić o pojedynczym
kliencie. Wielkości xi mogą być wysokościami pojedynczych szkód. Mogą to
być sumaryczne wysokości szkód w kolejnych latach lub liczby szkód w po-
szczególnych latach. Liczby x1 , . . . , xn traktujemy jako realizacje zmiennych
losowych X1 , . . . , Xn . Innymi słowy, patrzymy na nasze dane jak na wynik
pewnego „doświadczenia losowego”. Zgłoszone przez naszego klienta szkody
są przecież wynikiem „przypadkowych zdarzeń”. Założymy, że zmienne lo-
sowe X1 , . . . , Xn są niezależne i mają jednakowy rozkład prawdopodobień-
stwa. Oba założenia wydają się rozsądne. Wypadki, które przytrafiają się w
kolejnych latach można uznać w przybliżeniu za zdarzenia niezależne. Zało-
żenie o jednakowym rozkładzie prawdopodobieństwa mówi tyle, że nasz klient
wciąż „zachowuje się podobnie”. Innymi słowy, X1 , . . . , Xn jest próbką losową
z pewnego rozkładu prawdopodobieństwa Pθ . Zapiszemy to symbolicznie w
postaci

X1 , . . . , Xn ∼i.i.d. Pθ .

Jak zwykle w statystyce matematycznej, rozkład Pθ zależy od nieznanego pa-


rametru θ, który trzeba estymować na podstawie danych. Istotne dla naszych
dalszych rozważań jest to, że parametr θ może być różny dla poszczególnych
klientów lub, przynajmniej, dla pewnych grup kontraktów. W teorii zaufania
θ nazywa się zazwyczaj parametrem strukturalnym.

Przypuśćmy, że nasze dane dotyczą p kontraktów ubezpieczeniowych. Roz-


patrujemy model p niezależnych próbek:

parametr dane

kontrakt 1 θ1 X11 , . . . , X1i , . . . , X1n1 ∼ Pθ1


..
.
kontrakt j θj Xj1 , . . . , Xji , . . . , Xjnj ∼ Pθj
..
.
kontrakt p θp Xp1 , . . . , Xpi , . . . , Xpnp ∼ Pθp

53
Wskaźnik i może na przykład numerować lata. Zmienna Xji opisuje wtedy
szkody dla j-tego kontraktu w i-tym roku. Dane dotyczące j-tego kontraktu
obejmują nj lat. Próbki mają na ogół różne liczności.

Hipoteza

H0 : θ1 = · · · = θj = · · · = θp .

stwierdza, że wszystkie próbki pochodzą z tego samego rozkładu. Jeśli ta


hipoteza jest prawdziwa to mówimy, że rozpatrywany portfel ryzyk jest jed-
norodny. Przyjęcie lub odrzucenie H0 ma poważne konsekwencje.

I skrajne podejście. Przyjmujemy, że portfel jest jednorodny, a więc


wszystkie zmienne losowe Xji stanowią jedną próbkę losową z rozkładu Pθ ,
gdzie θ = θ1 = · · · = θp . Obliczamy

θ̂ – estymator θ na podstawie połączonej próbki


X11 , . . . , X1n1 , . . . , Xp1 , . . . , Xpnp .

Najlepszym, w pewnym sensie, oszacowaniem przyszłych roszczeń jest war-


tość oczekiwana względem rozkładu Pθ , czyli µ(θ) = Eθ X. Ponieważ nie
znamy parametru θ, więc zastępujemy go przez nasz estymator θ̂. W re-
zultacie, przewidujemy w przyszłości jednakowe szkody µ(θ̂) dla każdego z
kontraktów. To przewidywanie stanowi podstawę obliczania składki.

II skrajne podejście. Odrzucamy hipotezę o jednorodności. Dla każdego


kontraktu oddzielnie obliczamy

θ̂j – estymator θj na podstawie próbki Xj1 , . . . , Xjnj ,

ignorując dane dotyczące innych kontraktów. W tym kontekście mówi się


czasem, że θ̂1 , . . . , θ̂p są indywidualnymi estymatorami. Oszacowaniem przy-
szłych roszczeń dla j-tego kontraktu jest µ(θj ). Składkę dla poszczególnych
kontraktów obliczamy niezależnie, na podstawie indywidualnych estymato-
rów µ(θ̂1 ), . . . , µ(θ̂p ).

54
Oba skrajne podejścia mają poważne wady. Z jednej strony, podejście I i
obciążanie wszystkich klientów jednakową składką prowadzi do „negatywnej
selekcji ryzyk”. Klienci spodziewający się niższych strat mogą unikać towa-
rzystwa stosującego takie podejście i szukać innego ubezpieczyciela. Prze-
ciwnie, klienci narażeni na wyższe straty będą chętnie wybierali to właśnie
towarzystwo. Z drugiej strony, estymatory indywidualne stosowane przy po-
dejściu II mogą być bardzo niedokładne ze względu na szczupłość danych
dotyczących każdego kontraktu z osobna. Co więcej, niektórzy aktuariusze
wysuwają argumenty natury ideologicznej przeciw podejściu II. Istota dzia-
łalności ubezpieczeniowej polega przecież na tym, że wielu ubezpieczających
pokrywa wspólnie indywidualne straty, a więc niejako „dzieli się ryzykiem”.
Teoria wiarogodności jest pewnym kompromisem pomiędzy dwiema skrajno-
ściami. Zanim przejdziemy do omawiania tej teorii, wspomnijmy o metodach
testowania hipotezy o jednorodności.

Hipoteza H0 wyraża w formalny sposób przekonanie, że różnice pomiędzy


stratami poniesionymi przez poszczególnych klientów wynikają tylko z przy-
czyn losowych. W samej naturze ubezpieczeń leży traktowanie tej hipotezy
w uprzywilejowany sposób. Powiedzmy, że przyjmujemy H0 za założenie
obowiązujące dotąd, dopóki nie pojawią się dane wyraźnie z tą hipotezą
niezgodne. Klasyczna teoria testowania hipotez statystycznych jest w tej sy-
tuacji odpowiednim narzędziem. Budujemy test na poziomie istotności α,
gdzie odpowiednio mała liczba α precyzuje stopień naszego przywiązania do
hipotezy zerowej.

Rozkłady dwumianowe Wyobraźmy sobie p klientów-kierowców. Przy-


puśćmy, że j-ty klient ubezpieczał samochód przez nj lat. W każdym roku
mógł spowodować wypadek („sukces”) lub nie spowodować („porażka”). Igno-
rujemy, dla uproszczenia, możliwość wielokrotnych wypadków w ciągu roku.
Mamy do czynienia z p schematami Bernoulli’ego. Jeśli Xj jest liczbą wy-
padków dla j-tego klienta to

X1 ∼ Bin(n1 , θ1 ),
···
Xp ∼ Bin(np , θp ).

Hipoteza H0 : θ1 = · · · = θp stwierdza tutaj, że prawdopodobieństwo „suk-


cesu” (wypadku) jest równe dla wszystkich klientów. Stosujemy pewną wersję
testu niezależności chi-kwadrat.

55
Test chi-kwadrat. Statystyka testowa ma postać

p
X (Xi − nj θ̂)2
χ2 = ,
j=1 nj θ̂(1 − θ̂)

P P
gdzie θ̂ = j Xj / j nj jest estymatorem prawdopodobieństwa sukcesu ob-
liczonym dla połączonej próbki. Jeśli H0 jest prawdziwa (i liczności próbek
n1 , . . . , np są dostatecznie duże) to ta statystyka ma w przybliżeniu rozkład
χ2 (p − 1). A więc, test na poziomie istotności α jest taki: odrzucamy H0 jeśli

χ2 > χ21−α (p − 1),

gdzie χ21−α (p − 1) jest kwantylem rzędu 1 − α rozkładu chi-kwadrat z p − 1


stopniami swobody.

4.2.1 PRZYKŁAD. Rozważmy takie fikcyjne dane, dotyczące przebiegu ubez-


pieczenia 10 klientów w ciągu 4 lat (gwiazdki oznaczają wypadki):

Klient j/ Rok i 1 2 3 4 razem estymatory


„indywidualne” θj
1 klient * * 2 0.50
2 klient 0 0.00
3 klient * 1 0.25
4 klient 0 0.00
5 klient * 1 0.25
6 klient 0 0.00
7 klient * 1 0.25
8 klient 0 0.00
9 klient * * 2 0.50
10 klient * * * 3 0.75

razem * * * 10

56
Rzut oka na tę tabelkę wystarcza, by przekonać się, że estymatory indy-
widualne są tu nie do przyjęcia. Prowadzą do przewidywania, że klienci
numer 2, 4, 6 i 8 nie będą w przyszłości mieli żadnych szkód. Z drugiej
strony, θ̂ = 10/40 = 0.25 jest oszacowaniem prawdopodobieństwa wypadku
w ciągu roku otrzymanym z połączonej próbki. Przeprowadzimy test hipo-
tezy H0 : θ1 = · · · = θ10 na poziomie istotności 0.05. Mamy tu p = 10,
n1 = · · · = n10 = 4 i nj θ̂ = 1. Wartość statystyki testowej

2 1 h
χ = (2 − 1)2 + (0 − 1)2 + (0 − 1)2 + (0 − 1)2
0.75 i
+ (0 − 1)2 + (2 − 1)2 + (3 − 1)2 = 13.33

porównujemy z poziomem krytycznym 16.9, odczytanym z tablic χ2 (9). Test


nie odrzuca H0 . Różnice w ilości wypadków dla poszczególnych klientów
mieszczą się w granicach losowych fluktuacji, zdarzających się rozsądnie czę-
sto w sytuacji gdy klienci są „ jednakowi”. „Rozsądnie często” znaczy dla nas:
z prawdopodobieństwem przynajmniej 0.05.

Mimo wszystko, obciążenie naszych 10 klientów jednakową składką nie wy-


daje się najszczęśliwszym pomysłem. Warto poszukać „kompromisowych”
rozwiązań, mieszczących się pomiędzy skrajnościami I i II. 

Rozkłady normalne. Rozważmy p niezależnych próbek z rozkładów nor-


malnych:

próbka 1: X11 , . . . , X1n1 ∼ N(θ1 , s2 );


... ... ...
próbka j: Xj1 , . . . , Xjnj ∼ N(θj , s2 );
... ... ...
próbka p: Xp1 , . . . , Xpnp ∼ N(θp , s2 ).

Zwróćmy uwagę na to, że zakładamy równość wariancji wszystkich rozkładów.


Interesująca nas hipoteza H0 : θ1 = · · · = θp stwierdza równość wartości
oczekiwanych. Jest to najprostszy model tak zwanej analizy wariancji, w
skrócie ANOVA (Analysis of Variance). Indywidualnymi estymatorami są
po prostu średnie poszczególnych próbek:

57
nj
1 X
θ̂j = X̄j = Xji .
nj i=1

Oczywisty jest też estymator z połączonej próbki:

p p nj
1X 1 XX
θ̂ = X̄ = nj X̄j = Xji ,
n j=1 n j=1 i=1

Pp
gdzie n = j=1 nj . Niech
p p nj
X X X
2
SSB = nj (X̄j − X̄) , SSW = (Xji − X̄j )2 ,
j=1 j=1 i=1

p nj
X X
SST = (Xji − X̄)2 .
j=1 i=1

Skróty mają takie znaczenie: SSB jest sumą kwadratów pomiędzy próbkami
(Between), SSW jest sumą kwadratów wewnątrz próbek (Within) i SST jest
całowitą sumą kwadratów (Sum of Squares, Total ). „Podstawowa tożsamość
analizy wariancji” mówi, że SST = SSB + SSW. Przejrzystym sposóbem
przedstawienia „analizy wariancji” jest taka tabelka:

Źródło Sumy Stopnie Średnie Statystyka


zmienności kwadratów swobody kwadraty F
między próbkami SSB p−1 MSB = SSB
p−1
MSB
F = MSW
SSW
wewnątrz próbek SSW n−p MSW = n−p
SST
razem SST n−1 MST = n−1

W ostatniej kolumnie pojawia się F , statystyka testowa w naszym zagadnie-


niu weryfikacji hipotezy o jednorodności. Jasne, że powinniśmy odrzucać H0 ,
jeśli MSB jest duże w porównaniu z MSW.

58
Test ANOVA. Statystyką testową jest

MSB SSB/(p − 1)
F = = .
MSW SSW/(n − p)

Przy prawdziwości H0 , ta statystyka ma rozkład F Snedecora z p−1 stopniami


swobody w liczniku i n − 1 stopniami swobody w mianowniku. Hipotezę H0
odrzucamy, jeśli

F > F1−α (p − 1, n − p),

gdzie F1−α (p − 1, n − p) jest odpowiednim kwantylem tego rozkładu.

4.2.2 PRZYKŁAD. Rozważmy trzech klientów towarzystwa ubezpieczenio-


wego. Powiedzmy, że są to firmy wynajmujące samochody. W takiej sytuacji
możemy dość spokojnie przyjąć, że sumaryczne (lub średnie) szkody w ko-
lejnych latach są są zmiennymi losowymi o rozkładzie zbliżonym do normal-
nego. To jest pierwsze z podstawowych założeń modelu ANOVA. Gorzej jest
z drugim założeniem: o równości wariancji. Jest ono uzasadnione właściwie
tylko wtedy, gdy liczba ubezpieczonych samochodów w dla trzech firm (i dla
kolejnych lat) jest w przybliżeniu równa. Nasz przykład ma tylko znacze-
nie ilustracyjne, więc przyjmijmy, że tak właśnie jest. Wyobraźmy sobie, że
próbki są takie:

Lata: 1 2 3 4 5 6 7 średnie „indywidualne”


1 firma 25 15 20 30 10 20
2 firma 40 20 25 50 10 35 30
3 firma 5 15 20 20 40 10 30 20

„Średnią globalną” jest X̄ = (5/18) · 20 + (6/18) · 30 + (7/18) · 20 = 23.33.


Oto tabelka analizy wariancji:

59
Źródło Sumy Stopnie Średnie Statystyka
zmienności kwadratów swobody kwadraty F
między próbkami 400 2 200 1.39
wewnątrz próbek 2150 15 143.3
razem 2550 17

Test na poziomie istotności α = 0.05 nie odrzuca H0 , bo odpowiedni kwantyl


F0.95 (2, 15) = 3.68 > 1.39. Mamy więc pewne podstawy, aby przyjąć skrajne
podejście I i potraktować wszystkie trzy firmy jednakowo. Niemniej, poszu-
kiwanie kompromisowego rozwiązania także w tym przykładzie wydaje się
sensowne. 

4.3 Podejście bayesowskie

Niech X będzie obserwowaną zmienną losową. Zakładamy, że rozkład praw-


dopodobieństwa Pθ tej zmiennej ma gęstość fθ i zależy od nieznanego para-
metru θ. Jak zwykle, termin „gęstość” jest rozumiany w szerszym sensie i
obejmuje przypadek dyskretny.

Zbiór wartości zmiennej losowej X oznaczymy symbolem X i nazwiemy prze-


strzenią obserwacji. Zbiór możliwych wartości θ oznaczymy przez P. Jest
to przestrzeń parametrów. W „zwykłym” modelu statystycznym mamy okre-
śloną rodzinę gęstości {fθ : θ ∈ P} lub, co na jedno wychodzi, rodzinę roz-
kładów prawdopodobieństwa {Pθ : θ ∈ P} na przestrzeni obserwacji.

Rozkłady a priori i a posteriori

Podejście bayesowskie polega na tym, że nieznany parametr θ traktujemy


jako realizację zmiennej losowej Θ. Rozkład prawdopodobieństwa tej zmien-
nej losowej przyjęto nazywać rozkładem a priori, ponieważ wyraża on na-
szą wiedzę (lub przekonania) o parametrze przed zaobserwowaniem zmiennej

60
losowej X (bez brania pod uwagę danych). Gęstość rozkładu a priori ozna-
czymy przez π. Model bayesowski określamy przez podanie, oprócz rodziny
gęstości {fθ : θ ∈ P} na przestrzeni obserwacji, także gęstości π na prze-
strzeni parametrów P. Prześledźmy najpierw konstrukcję modelu formalnie,
z matematycznego punktu widzenia.

Rozpatrujemy parę zmiennych losowych Θ i X. Łączną gęstość tych zmien-


nych definiujemy wzorem

f (θ, x) = π(θ)fθ (x), (θ ∈ P, x ∈ X ).

W ten sposób określamy jeden rozkład prawdopodobieństwa, nazwijmy go


P, na nowej przestrzeni probabilistycznej Ω = P × X . Symbole E, Var, f
(bez wskaźnika θ) będą odtąd oznaczały wartość oczekiwaną, wariancję i
gęstość względem tego rozkładu P. Zauważmy, że teraz fθ staje się warun-
kową gęstością zmiennej losowej X dla Θ = θ:

f (θ, x)
fθ (x) = = f (x|θ).
π(θ)

Jeśli dana jest wartość naszej obserwacji i wiemy, że X = x, to możemy


przy pomocy znanego wzoru Bayesa policzyć rozkład warunkowy losowego
parametru Θ. Jest to tak zwany rozkład a posteriori. Gęstość tego rozkładu
oznacza się często przez πx∗ .

Wzór Bayesa. Rozkład a posteriori parametru Θ, dla danej obserwacji


X = x, ma gęstość

π(θ)fθ (x)
πx (θ) = f (θ|x) = ,
f (x)

gdzie

Z
f (x) = π(θ)fθ (x)dθ. 

61
Gęstość f opisuje rozkład brzegowy zmiennej losowej X w modelu bayesow-
skim. W tym kontekście mówi się f jest mieszanką wyjściowych gęstości fθ .
W istocie, możemy traktować f jako „średnią ważoną” funkcji fθ , z „funkcją
wagową” π.

Rozważmy teraz interpretację modelu bayesowskiego. Tę sprawę warto omó-


wić dość dokładnie. Jeśli rozkład a priori wyraża tylko przekonania staty-
styka i jest wybrany arbitralnie, to obliczone na jego podstawie prawdopo-
dobieństwo ma charakter subiektywnej oceny szans. To jest klasyczny punkt
widzenia teorii bayesowskiej. W wielu zastosowaniach rozkład a priori ma
jednak inną, bardziej obiektywną interpretację. Dotyczy to szczególnie ubez-
pieczeń i teorii zaufania.

Towarzystwo ubezpieczeniowe ma do czynienia z różnymi klientami. Jedni


kierowcy powodują wypadki częściej, inni rzadziej. Przypuśćmy, że dla kon-
kretnego klienta wysokość lub liczba szkód jest zmienną losową X o gęstości
prawdopodobieństwa fθ . Każdemu klientowi odpowiada inna wartość para-
metru θ. Rozkład o gęstości π opisuje „rozrzut” tego parametru w populacji
klientów. Jeśli zgłaszanie się klientów uznać za zjawisko przypadkowe, to
każda nowa umowa jest dwuetapowym doświadczeniem losowym. W pierw-
szym etapie pojawia się realizacja θ zmiennej losowej Θ, wybrana zgodnie z
rozkładem priori. W drugim etapie, przypadek decyduje o wystąpieniu i wy-
sokości aktualnych szkód. Wynikiem doświadczenia jest realizacja x zmiennej
losowej X. Parametr θ jest już w drugim etapie ustalony, a losową zmien-
ność szkód opisuje rozkład prawdopodobieństwa Pθ , który interpretujemy
jako rozkład warunkowy zmiennej X przy danym Θ = θ.

Reasumując, lączny rozkład prawdopodobieństwa zmiennych losowych Θ i


X jest probabilistycznym modelem dwuetapowego doświadczenia losowego,
w którym obserwowujemy tylko wynik drugiego etapu: realizację zmiennej
losowej X. Zmienna losowa Θ jest nieobserwowalna i możemy co najwyżej
podać jej rozkład a posteriori.

4.3.1 PRZYKŁAD (Model Poisson/Gamma). Załóżmy, że liczba szkód dla


pojedynczego klienta w ciągu n lat jest zmienną losową X ∼ Poiss(nθ). Tak
więc

(nθ)x
fθ (x) = Pθ (X = x) = e−nθ , (x = 0, 1, . . .).
x!
62
Parametr θ jest średnią liczbą szkód przypadających na rok. Przyjmijmy,
że zmienność θ w populacji klientów opisuje rozkład Gamma(α, λ). Pierw-
szym etapem doświadczenia losowego jest, z punktu widzenia towarzystwa
ubezpieczeniowego, zawarcie umowy z pewnym klientem wybranym z tej po-
pulacji. Średnia roczna liczba szkód dla naszego klienta jest więc zmienną
losową Θ o gęstości prawdopodobieństwa

λα α−1 −λθ
π(θ) = θ e , (θ > 0).
Γ(α)

W drugim etapie doświadczenia klient jest już ustalony, czyli mamy Θ = θ


i liczba szkód X jest zmienną losową o (warunkowej) gęstości fθ . Łączny
rozkład prawdopodobieństwa zmiennych losowych Θ i X określamy przez
podanie gęstości:

λα α−1 −λθ −nθ (nθ)x


f (θ, x) = π(θ)fθ (x) = θ e ·e , (θ > 0, x = 0, 1, . . .).
Γ(α) x!

Jest to dwuwymiarowa „gęstość prawdopodobieństwa” na przestrzeni P ×


X =]0, ∞[×{0, 1, . . .}. Chociaż zmienna losowa Θ jest typu ciągłego a zmienna
X jest dyskretna, powinno być jasne jak taką „gęstość” należy rozumieć.
Gęstość brzegowa zmiennej X opisuje rozkład liczby szkód w całej populacji
klientów. Mamy


λα α−1 −θλ (nθ)x −nθ
Z
f (x) = P(X = x) = θ e · e dθ
0 Γ(α) x!
Z ∞
λα nx
= θx+α−1 e−(λ+n)θ dθ
x!Γ(α) 0
λα nx Γ(x + α)
= ·
x!Γ(α) (λ + n)x+α
 α  x
(x + α − 1)(x + α − 2) · · · (α + 1)α λ n
=
x! λ+n λ+n
 
x+α−1 λ α  n x
= .
x λ+n λ+n

63
Niech λ/(λ + n) = p i n/(λ + n) = 1 − p. Wtedy

 
−α α
P(X = x) = p (p − 1)x .
x

Jest to tak zwany ujemny rozkład dwumianowy, który oznaczamy symbolem


Bin− (α, p). Okazało się, że ten rozkład jest mieszanką rozkładów Poissona,
z rozkładem mieszającym gamma.
Przypomnijmy, że Θ opisuje „częstość powodowania szkód” dla naszego klienta,
a więc może być podstawą do przewidywania liczby jego przyszłych szkód.
Towarzystwo ubezpieczeniowe jest zainteresowane znajomością tej zmiennej
losowej, ale nie może jej bezpośrednio obserwować. Nasz stan wiedzy (lub
raczej stopień niewiedzy) o zmiennej Θ po zaobserwowaniu liczby roszczeń
X = x opisuje rozkład a posteriori. Ze wzoru Bayesa mamy

λα α−1 −θλ θx −θ  λα

Γ(x + α) 
πx (θ) = f (θ|x) = θ e e ·
Γ(α) x! x!Γ(α) (λ + n)x+α
(λ + n)α+x α+x−1 −(λ+n)θ
= θ e .
Γ(α + x)

Rozkład warunkowy parametru Θ przy danym X = x jest więc rozkładem


Gamma(α + x, λ + n). 

4.3.2 PRZYKŁAD (Model Dwumianowy/Beta). Załóżmy, że obserwujemy


liczbę X sukcesów w n próbach Bernoulli’ego z nieznanym prawdopodobień-
stwem sukcesu θ. Zmienna X ma rozkład dwumianowy Bin(n, θ). Wygodnie
przyjąć, że rozkład a priori jest rozkładem Beta(α, β):
Γ(α + β) α−1
π(θ) = θ (1 − θ)β−1 , (0 < θ < 1).
Γ(α)Γ(β)
Łączny rozkład zmiennych losowych Θ i X ma gęstość
f (θ, x) = π(θ)fθ (x)
 
Γ(α + β) α−1 β−1 n
= θ (1 − θ) θx (1 − θ)n−x ,
Γ(α)Γ(β) x
(0 < θ < 1, x = 0, 1, . . . , n).

64
Rozkład brzegowy zmiennej X ma gęstość

Γ(α + β) 1 α+x−1
Z  
β+n−x−1 n
f (x) = θ (1 − θ) dθ
Γ(α)Γ(β) 0 x
 
Γ(α + β) Γ(α + x)Γ(β + n − x) n
= ·
Γ(α)Γ(β) Γ(α + β + n) x
   
−α −β −α − β
= .
x n−x n

Jest to uogólniony rozkład hipergeometryczny. Jak łatwo widać,

Γ(α + β + n)
πx (θ) = f (θ|x) = θα+x−1 (1 − θ)β+n−x−1 .
Γ(α + x)Γ(β + n − x)

Rozkład a posteriori jest więc rozkładem Beta(α + x, β + n − x). 

Warunkowa niezależność i dostateczność

Rozpatrzmy sytuację nieco ogólniejszą. Przypuśćmy, że nasze dane, czyli


obserwacje X1 , . . . , Xn stanowią próbkę losową z rozkładu Pθ . Dla ustalonej
wartości parametru θ ∈ P, łączny rozkład prawdopodobieństwa zmiennych
losowych X1 , . . . , Xn ma n-wymiarową gęstość

Y
fθ (x1 , . . . , xn ) = fθ (xi ). (∗)
i

Oczywiście, jeśli mamy do czynienia ze zmiennymi Xi typu dyskretnego, to


lewa strona tego wzoru jest równa Pθ (X1 = x1 , . . . , Xn = xn ). Przestrzenią
obserwacji jest teraz X n , gdzie X jest zbiorem wartości pojedynczej zmien-
nej. Model statystyczny sprowadza się zatem do podania rodziny rozkładów
prawdopodobieństwa {Pθ : θ ∈ P} lub, co na jedno wychodzi, rodziny gę-
stości {fθ : θ ∈ P} na przestrzeni przestrzeni obserwacji. Model bayesowski
otrzymujemy, jeśli określimy ponadto gęstość π na przestrzeni parametrów.

65
4.3.3 Założenie. Rozpatrujemy układ zmiennych losowych
Θ; X1 , . . . , X n
o łącznej gęstości prawdopodobieństwa
Y
f (θ; x1 , . . . , xn ) = π(θ) fθ (xi ).
i

Otrzymujemy w ten sposób rozkład prawdopodobieństwa P na przestrzeni


probabilistycznej Ω = P × X n , opisany przez (n + 1)-wymiarową gęstość.
Rozkład brzegowy próbki X1 , . . . , Xn na przestrzeni X n ma gęstość

Z Y
f (x1 , . . . , xn ) = π(θ) fθ (xi )dθ. (∗∗)
i

Gęstość (∗∗) nie jest iloczynem jednowymiarowych gęstości brzegowych po-


jedynczych obserwacji. Zmienne losowe X1 , . . . , Xn w modelu bayesowskim
przestają być niezależne. Wzór (∗) mówi tylko, że obserwacje X1 , . . . , Xn są
warunkowo niezależne, dla danego Θ = θ. Intuicyjnie, powód jest taki, że
wszystkie obserwacje Xi „zależą od jednej i tej samej zmiennej losowej Θ”. W
zastosowaniach ubezpieczeniowych może to znaczyć, powiedzmy, że zmienne
Xi dotyczą jednego i tego samego klienta. Innymi słowy, podstawowe zało-
żenie naszego modelu możemy sformułować tak:

• π jest gęstością rozkładu zmiennej losowej Θ;


• Dla ustalonego Θ = θ,
X1 , . . . , Xn są warunkowo niezależnymi zmiennymi losowymi;
fθ jest warunkową gęstością każdej ze zmiennych Xi .

Wzór Bayesa ulega tylko nieznacznej modyfikacji i przyjmuje teraz postać

Q
π(θ) i fθ (xi )
πx (θ) = f (θ|x1 , . . . , xn ) = .
f (x1 , . . . , xn )

66
4.3.4 PRZYKŁAD (Model Poisson/Gamma, dostateczność). Rozważymy w
istocie ten sam model co w Przykładzie 4.3.1, tylko uwzględnimy obserwacje
dotyczące wielu lat. Niech X1 , . . . , Xn będą liczbami szkód, zgłoszonych w
kolejnych latach przez jednego klienta. Załóżmy, że te zmienne są próbką z
rozkładu Poiss(θ) i rozkład a priori jest Gamma(α, λ). Obliczenie rozkładu
a posteriori jest podobne jak w Przykładzie 4.3.1. Pokażemy jak upraszcza
rachunki ignorowanie nieistotnych stałych normalizujących. Wprowadźmy
taką konwencję: symbol „const” oznacza dowolne wyrażenie liczbowe, które
nie zależy od parametru θ (ale może zależeć od obserwacji x1 , . . . , xn ). Przy
każdym pojawieniu się ów „const” może oznaczać inną liczbę. Możemy teraz
napisać

πx (θ) = f (θ|x1 , . . . , xn ) = const · f (θ; x1 , . . . , xn )


= const · θα+Σi xi −1 e−θ(λ+n) .

Nie trzeba znać stałej „const” w ostatniej


P linijce, żeby rozpoznać, że rozkład
a posteriori jest równy Gamma(α + i xi , λ + n). 

Zauważmy, że obliczony w Przykładzie 4.3.4 rozkład P a posteriori zależy od


obserwacji x1 , . . . , xn tylko poprzez ich sumę, s = i xi . Otrzymaliśmy ten
sam wynik co poprzednio w Przykładzie 4.3.1. Informacja o parametrze θ
zawarta w obserwacjach x1 , . . . , xn jest taka sama jak informacja zawarta w
ich sumie. Powiemy, że suma obserwacji jest w rozważanym wyżej modelu
statystyką dostateczną. Ogólniejsza definicja jest następujaąca.

4.3.5 DEFINICJA. Rozważmy model bayesowski sformułowany w Założe-


niu 4.3.3. Niech T = T (X1 , . . . , Xn ) będzie pewną funkcją obserwacji (czyli
statystyką). Jeśli rozkład a posteriori zależy od obserwacji tylko poprzez war-
tość t statystyki T , czyli

f (θ|x1 , . . . , xn ) = f (θ|t)

to mówimy, że T jest statystyką dostateczną.

Podana tu bayesowska definicja dostateczności jest (niemal) równoważna z


klasyczną definicją znaną z wykładu statystyki.

67
4.3.6 PRZYKŁAD (Model Normalny/Normalny). Niech zmienne X1 , . . . , Xn
będą wysokościami szkód w kolejnych latach dla tego samego klienta (lub
„ jednorodnej” grupy klientów, których z góry decydujemy się traktować jed-
nakowo). Przyjmijmy, że jest to próbka z rozkładu normalnego N(θ, s2 ).
Gęstość prawdopodobieństwa pojedynczej obserwacji jest postaci
 
1 2
fθ (x) = const · exp − 2 (x − θ) .
2s

Mamy w istocie do czynienia z dwoma parametrami θ i s2 opisującymi roz-


kład prawdopodobieństwa. Załóżmy jednak, że s2 jest znane (to niezbyt
realistyczne założenie zostanie później pominięte). Niech rozkład a priori
nieznanego parametru θ będzie normalny N(m, a2 ), czyli
 
1 2
π(θ) = const · exp − 2 (θ − m) .
2a
Przypomnijmy, że w dalszym ciągu symbol „const” oznacza współczynnik
proporcjonalności, który może zależeć od x1 , . . . , xn i oczywiście od m, a2 i
s2 . Zgodnie z taką umową możemy napisać

πx (θ) = f (θ|x1 , . . . , xn ) = const · f (θ; x1 , . . . , xn )


 n 
1 2 1 X 2
= const · exp − 2 (θ − m) − 2 (xi − θ)
2a 2s i=1
 
1 2 m n 2 nx
= const · exp − 2 θ + 2 θ − 2 θ + 2 θ
2a a 2s s
2 2 2
na x + s2 m 
 
na + s 2
= const · exp − θ − 2θ
2s2 a2 na2 + s2
2 2
na x + s2 m 2
2
 
na + s
= const · exp − θ− .
2s2 a2 na2 + s2

P
Oczywiście, x oznacza xi /n. Wykonaliśmy tu znaną ze szkoły średniej ope-
rację sprowadzania trójmianu kwadratowego do postaci kanonicznej. Wyrazy
wolne zostają „pochłonięte” przez zmieniającą się „stałą” const. Dodanie
stałej do argumentu funkcji wykładniczej jest tym samym, co pomnożenie
tej funkcji przez stałą. Widać już, że rozkład a posteriori jest normalny,

68
 na2 x + s2 m s 2 a2 
N , 2 .
na2 + s2 na + s2

Statystyką dostateczną jest średnia obserwacji, x (lub równoważnie, suma).

Interpretacja naszego modelu jest podobna jak w Przykładzie 4.3.1. Para-


metr θ opisuje średnią wysokość szkód (na rok) zgłaszanych przez naszego
klienta. Rozrzut liczby aktualnych szkód Xi wokół średniej θ opisuje warian-
cja s2 . Jeśli wyobrazimy sobie, że nasz klient jest „losowo wybranym przed-
stawicielem” pewnej populacji, to musimy uznać θ za wielkość podlegającą
wahaniom losowym, czyli za realizację zmiennej losowej Θ.. Jej zmienność
odzwierciedla wariancja a2 . 

Zagadnienie predykcji

Zajmiemy się teraz ogólnym zadaniem przewidywania wartości zmiennej lo-


sowej na podstawie obserwacji innych zmiennych losowych. Niech X1 , . . . , Xn
i Y będą zmiennymi losowymi o znanym łącznym rozkładzie prawdopodo-
bieństwa P. Symbolem X oznaczymy wektor losowy (X1 , . . . , Xn ). Załóżmy,
że zmienne X1 , . . . , Xn odgrywają rolę obserwacji, to znaczy mamy dane ich
realizacje Xi = xi . Zmienna Y jest „ukryta”, nieobserwowalna. Chodzi o to,
żeby możliwie dobrze przewidzieć wartość Y na podstawie danych x1 , . . . , xn .
Innymi słowy, chcemy tak dobrać funkcję h : Rn → R, aby zmienna losowa

h(X) = h(X1 , . . . , Xn )

najlepiej przybliżała Y . Oczywiście, przewidywanie musi być obarczone pew-


nym losowym błędem. Będziemy się starali zminimalizować błąd średnio-
kwadratowy, określony wzorem

MSE = E (Y − h(X))2 .

Skrót MSE pochodzi od Mean Square Error. Od tej pory zakładamy, że


zmienna losowa Y ma wariancję, czyli EY 2 < ∞.

69
4.3.7 DEFINICJA. Zmienną losową Ŷ = ĥ(X) nazywamy najlepszym
predyktorem Y , jeśli
2 2
E Y − ĥ(X) ≤ E Y − h(X)

dla każdej funkcji h : R → R. W skrócie piszemy Ŷ = BP(Y ).

BP jest skrótem angielskiego terminu Best Predictor. Oczywiście, nasza de-


finicja ma nieco umowny charakter. Wybraliśmy za podstawowe kryterum
MSE w dużej mierze dlatego, że jest to wygodne rachunkowo.

4.3.8 TWIERDZENIE. Najlepszym predyktorem zmiennej losowej Y na


podstawie wektora obserwacji X jest warunkowa wartość oczekiwana:

BP(Y ) = E(Y |X).

Dla najlepszego predyktora, MSE = EVar(Y |X).

Dowód. Zauważmy, że
2
MSE = E (Y − h(X))2 = E Y − E(Y |X) + E(Y |X) − h(X)
2 2
= E Y − E(Y |X) + E E(Y |X) − h(X)
 
+ 2E Y − E(Y |X) E(Y |X) − h(X)
2 2
= E Y − E(Y |X) + E E(Y |X) − h(X) .

Wyraz z dwójką na początku znika, ponieważ znika warunkowa wartość ocze-


kiwana: EE (Y − E(Y |X)) (E(Y |X) − h(X)) |X = E (E(Y |X) − h(X)) ·
(E(Y |X) − E(Y |X)) = 0.

Widać, że MSE jest sumą dwóch nieujemnych składników. Pierwszy z nich


jest równy EVar(Y |X) i nie zależy od wyboru funkcji h. Drugi składnik staje
się zerem wtedy, gdy h(X) = E(Y |X).

70
Predykcja w modelu bayesowskim.

Rozbudujmy nieco model bayesowski, opisany przez Założenie 4.3.3. Oprócz


zmiennych X1 , . . . , Xn , zaobserwowanych w przeszłości, wyobraźmy sobie
jeszcze jedną zmienną losową, powiedzmy Xn+1 , która opisuje przyszłe szkody
dla tego samego klienta (lub dla klienta z tej samej jednorodnej grupy). Za-
kładamy, że dla danego Θ = θ, zmienna Xn+1 jest warunkowo niezależna
od X1 , . . . , Xn i ma też warunkowy rozkład o gęstości fθ . Nowa zmienna
„podlega tym samym prawom” co obserwacje dotyczące przeszłości, ale jest
nieobserwowalna. Naszym podstawowym zadaniem jest przewidywanie Xn+1
na podstawie danych X1 , . . . , Xn . Zacznijmy od prostego spostrzeżenia, które
ułatwia intuicyjne zrozumienie naszego modelu. Z założenia o warunkowej
niezależności wynika, że

f (xn+1 |θ; x1 , . . . , xn ) = f (xn+1 |θ). (∗)

Jeśli znalibyśmy parametr strukturalny Θ to najlepszym predyktorem przy-


szłych roszczeń Xn+1 byłaby, zgodnie z Twierdzeniem 4.3.8, warunkowa war-
tość oczekiwana

µ(Θ) = E(Xn+1 |Θ).

Co więcej, obserwacje X1 , . . . , Xn nie byłyby nam potrzebne do przewidywa-


nia Xn+1 bo wobec (∗),

µ(Θ) = E(Xn+1 |Θ, X1 , . . . , Xn ).

Niestety, nie znamy Θ i możemy tylko oszacować µ(Θ) na podstawie obser-


wacji X1 , . . . , Xn . Z Twierdzenia 4.3.8 wynika, że najlepszym predyktorem
zmiennej losowej µ(Θ) jest wartość oczekiwana a posteriori:

BP (µ(Θ)) = E µ(Θ)|X1 , . . . , Xn .

71
Gęstość a posteriori πx obliczamy ze wzoru Bayesa, więc
Z

E µ(Θ)|X1 = x1 , . . . , Xn = xn = µ(θ)πx (θ)dθ
R Q
µ(θ)π(θ) i fθ (xi )dθ
= R Q .
π(θ) i fθ (xi )dθ

4.3.9 Stwierdzenie. Najlepszy predyktor zmiennej losowej Xn+1 na podsta-


wie obserwacji X1 , . . . , Xn pokrywa się z najlepszym predyktorem zmiennej
µ(Θ):

BP(Xn+1 ) = BP (µ(Θ)) .

Dowód. Niech X = (X1 , . . . , Xn ) oznacza wektor obserwacji. Na mocy (∗)


mamy

E(Xn+1 |X) = E E(Xn+1 |Θ, X)|X
 
= E E(Xn+1 |Θ)|X = E µ(Θ)|X .

Chociaż predyktory zmiennych Xn+1 i µ(Θ) są takie same, to oczywiście


błędy predykcji są różne. Łatwo pokazać, że jeśli µ̂(X) = E (µ(Θ)|X) trak-
tujemy jako BP (µ(Θ)), to

MSE = E (µ(Θ) − µ̂(X))2 = EVar (µ(Θ)|X) .

Z kolei jeśli µ̂(X) traktujemy jako BP (Xn+1 ), to

MSE = E (Xn+1 − µ̂(X))2 = EVar (µ(Θ)|X) + EVar(Xn+1 |Θ).

Jak zwykle, X = (X1 , . . . , Xn ).

72
Zwróćmy uwagę na sens błędu średniokwadratowego w modelu bayesowskim.
Wartość oczekiwana, o której mowa w definicji MSE, oznacza średnią wzglę-
dem łącznego rozkładu prawdopodobieństwa wszystkich rozważanych zmien-
nych losowych. Należy pamiętać o tym, że przymiotnik „średni” odnosi się
do obu etapów doświadczenia losowego. Innymi słowy, w naszych zastoso-
waniach ubezpieczeniowych, minimalizujemy średni błąd predykcji w całej
populacji klientów.

Zróbmy dygresję na temat terminologii. W „zwykłym” modelu ststystycznym


mówi się o estymacji wielkości µ(θ), zależnej od nieznanego parametru θ. Jeśli
estymatorem jest statystyka µ̂(X) = µ̂(X1 , . . . , Xn ) to funkcję ryzyka tego
estymatora określamy wzorem

R(θ) = Eθ (µ(θ) − µ̂(X))2 .

Podejście bayesowskie pozwala mówić o średniej wartości ryzyka ER(Θ). To


jest nic innego jak nasz błąd średniokwadratowy. Oczywiście, wartość ocze-
kiwaną ryzyka oblicza się względem rozkładu a priori:

Z
MSE = R(θ)π(θ)dθ.

W tym kontekście, MSE nazywa się ryzykiem bayesowskim estymatora


µ̂(X). Jeśli µ̂(X) = BP (µ(Θ)) to statystycy mówią, że µ̂ = µ̂(X) jest
estymatorem bayesowskim µ(θ).

4.3.10 PRZYKŁAD (Model Normalny/Normalny, predykcja). W Przykła-


dzie 4.3.6 obliczyliśmy rozkład a posteriori. Estymatorem bayesowskim wiel-
kości µ(θ) = θ jest wartość oczekiwana tego rozkładu,

na2 x + s2 m
θ̂ = .
na2 + s2

Innymi słowy,

a2 n
θ̂ = zx + (1 − z)m, gdzie z = .
a2 n + s 2

73
Otrzymaliśmy ważny wzór, dobrze znany każdemu aktuariuszowi. Ten sam
wzór wyprowadzimy później przy nieco innych założeniach.

Równie łatwo napisać wzór na błąd średniokwadratowy estymacji/predykcji.


Dla zadania estymacji parametru θ,
2 s 2 a2
E Θ − zX + (1 − z)m = 2 .
na + s2
Jeśli rozważamy zadanie predykcji przyszłych szkód Xn+1 , to
2 s 2 a2
E Xn+1 − zX + (1 − z)m = + s2 .
na2 + s2
4.3.11 PRZYKŁAD (Model Poisson/Gamma, predykcja). Rozważmy model
zdefinioway w Przykładzie . Estymatorem bayesowskim wielkości µ(θ) = θ
jest wartość oczekiwana zmiennej losowej rozkładzie Gamma(α + s, n + λ),
bo jest to rozkład a posteriori:
P
xi + α
θ̂ = i . 
n+λ

4.4 Od teorii bayesowskiej do modeli liniowych

Naszym celem jest przewidywanie przyszłych szkód na podstawie zgroma-


dzonych przez ubezpieczyciela danych. W modelu bayesowskim, zadanie
predykcji ma eleganckie rozwiązanie, które przedstawiliśmy w poprzednim
podrozdziale. Niestety, użyteczność tego rozwiązania jest ograniczona. Obli-
czenie najlepszego predyktora wymaga znajomości łącznego rozkładu praw-
dopodobieństwa rozważanych zmiennych losowych. Dlatego warto zadanie
postawić trochę mniej ambitnie i skupić uwagę na predykcji liniowej. Dzięki
temu można rozważać modele znacznie prostsze i wymagające mniej szcze-
gółowych założeń.

74
Predykcja liniowa

Rozważamy, podobnie jak w poprzednim podrozdziale, wektor obserwacji


X = (X1 , . . . , Xn ) i nieobserwowalną zmienną losową Y . Poszukujemy teraz
predyktora h(X) zmiennej Y , który jest liniową funkcją obserwacji:
n
X
h(X) = h(X1 , . . . , Xn ) = c0 + ci X i .
i=1

W dalszym ciągu, mówiąc o funkcjach liniowych mamy na myśli funkcje nie-


jednorodne, które mogą zawierać wyraz wolny. Tak jak poprzednio, za kry-
terium jakości przyjmiemy błąd średniokwadratowy MSE. Od tego momentu
zakładamy stale, że EY 2 < ∞ i EXi2 < ∞.

4.4.1 DEFINICJA. Zmienna losowa Ŷ = ĥ(X) jest najlepszym liniowym


predyktorem zmiennej Y , jeśli ĥ : Rn → R jest funkcją liniową i
2 2
E Y − ĥ(X) ≤ E Y − h(X)

dla każdej funkcji liniowej h : Rn → R. Będziemy symbolicznie pisali Ŷ =


BLP(Y ). 

Skrót BLP pochodzi od „Best Linear Predictor”.

4.4.2PTWIERDZENIE (Najlepszy liniowy predyktor). Zmienna losowa


c0 + ni=1 ci Xi jest najlepszym liniowym predyktorem Y , jeśli współczynniki
c0 , c1 , . . . , cn spełniają układ równań:
n
X
ci Cov(Xi , Xk ) = Cov(Xk , Y ), k = 1, . . . , n;
i=1
n
X
c0 = EY − ci EXi .
i=1

75
Dowód. Ponieważ ograniczamy się do funkcji liniowych, MSE jest faktycznie
funkcją współczynników c0 , c1 , . . . , cn . Będziemy szukać minimum tej funkcji.
 n
X n
X 2
MSE(c0 , c1 , . . . , cn ) = E Y − EY − ci (Xi − EXi ) + EY − ci EXi − c0
i=1 i=1
= E(Y − EY )2
X n
+E ci (Xi − EXi )(Xj − EXj )cj
i,j=1
Xn
− 2E ci (Xi − EXi )(Y − EY )
i=1
 n
X 2
+ EY − ci EXi − c0 .
i=1

Czytelnik łatwo przekona się, że te iloczyny mieszane w rozwinięciu kwa-


dratu, które nie zostały napisane, mają wartość oczekiwaną zero.

Tak więc, MSE =


n
X n
X  n
X 2
VarY + ci cj Cov(Xi , Xj ) − 2 ci Cov(Xi , Y ) + EY − ci EXi − c0 .
i,j=1 i=1 i=1

Pierwszy składnik w ogóle nie zależy od współczynników ci . Z kolei ostatni


składnik można zawsze zmniejszyć do zera przez odpowienie dobranie wyrazu
wolnego c0 , dla każdych c1 , . . . , cn . Ostatnie z równań w tezie twierdzenia
dostajemy, przyrównując do zera ten składnik. Pozostaje więc wyznaczyć
c1 , . . . , cn tak, żeby zminimalizować dwa środkowe składniki. Mamy
" n n
#
∂ X X
ci cj Cov(Xi , Xj ) − 2 ci Cov(Xi , Y )
∂ck i,j=1 i=1
n
X
=2 ci Cov(Xi , Xk ) − 2Cov(Xk , Y ).
i=1

Przyrównując pochodne cząstkowe do zera, otrzymujemy nasz układ równań.

76
Układ równań w tym twierdzeniu zawsze ma rozwiązanie. To po prostu dla-
tego, że nieujemna funkcja kwadratowa gdzieś musi przyjmować najmniejszą
wartość. Niekiedy rozwiązań może być dużo. Najczęściej będziemy mieli
do czynienia z „niezdegenerowanym przypadkiem”, kiedy nasz układ n + 1
równań z n + 1 niewiadomymi ma jedno rozwiązanie.

Ważne dla nas będzie spostrzeżenie, że możemy wyznaczyć najlepszy liniowy


predyktor bez dokładnej znajomości rozkładów prawdopodobieństwa. Wy-
starczy znać wartości oczekiwane i kowariancje wszystkich interesujących nas
zmiennych.

Liniowa predykcja w modelu bayesowskim

Wróćmy do modelu bayesowskiego z poprzedniego rozdziału. Rozpatrujemy


zmienne losowe Θ, X1 , . . . , Xn spełniające Założenie 4.3.3. W tym modelu, Θ
jest losową „zmienną strukturalną”, z samej swojej natury nieobserwowalną.
Interesuje nas predykcja µ(Θ) na podstawie obserwacji X1 , . . . , Xn .

Wartości oczekiwane i struktura kowariancji. Przypomnijmy, że funk-


cja µ jest określona następująco.
(R
xfθ (x)dx dla zmiennej typu ciągłego;
µ(θ) = Eθ (Xi ) = P
x xfθ (x) dla zmiennej typu dyskretnego.

Analogicznie, niech
(R
(x − µ(θ))2 fθ (x)dx dla zmiennej ciągłej;
σ 2 (θ) = Var θ (Xi ) = P 2
x (x − µ(θ)) fθ (x) dla zmiennej dyskretnej.

W modelu bayesowskim, µ(θ) i σ 2 (θ) można interpretować jako warunkową


wartość oczekiwaną i warunkową wariancję:

µ(θ) = E(Xi |Θ = θ), σ 2 (θ) = Var(Xi |Θ = θ).

Zauważmy, że µ(Θ) = E(Xi |Θ) i σ 2 (Θ) = Var(Xi |Θ) są zmiennymi losowymi.


Dalszą dyskusję ułatwią nam następujące oznaczenia:

77
Z
m= µ(θ)π(θ)dθ,
Z
s2 = σ 2 (θ)π(θ)dθ,
Z
2
a = (µ(θ) − m)2 π(θ)dθ.

Całki w powyższych wzorach intertetujemy jako wartości oczekiwane wzglę-


dem rozkładu a priori. W zasadzie trzymamy się symboli tradycyjnie uży-
wanych w teorii wiarogodności. Może tylko oznaczenie a2 nie jest całkiem
ortodoksyjne. Reasumując,

µ(Θ) = E(Xi |Θ),


σ 2 (Θ) = Var(Xi |Θ),
m = Eµ(Θ),
s2 = Eσ 2 (Θ),
a2 = Varµ(Θ).

Na mocy dobrze znanej własności warunkowej wartości oczekiwanej,

EXi = EE(Xi |Θ) = Eµ(Θ) = m.

Równie znany „wzór na dekompozycję wariancji” daje

VarXi = VarE(Xi |Θ) + EVar(Xi |Θ)


= Varµ(Θ) + Eσ 2 (Θ)
= a2 + s 2 .

Dla i 6= k mamy Covθ (Xi , Xk ) = 0. Istotnie, zmienne Xi i Xk są warunkowo


niezależne, a więc są warunkowo nieskorelowane, dla danego Θ = θ. Stąd
wynika, że

78
Cov(Xi , Xk ) = Cov (E(Xi |Θ), E(Xi |Θ)) + ECov(Xi , Xk |Θ)
= Cov(µ(Θ), µ(Θ)) + 0
= a2 .

Zastosowaliśmy „dekompozycję kowariancji”, która wygląda zupełnie podob-


nie jak dla wariancji. Równie łatwo sprawdzić, że Cov (Xi , µ(Θ)) = a2 .

Otrzymane powyżej wyniki można prosto zapisać używając symbolu Iik zde-
finiowanego w taki sposób:

(
1 jeśli i = k;
Iik =
0 6 k.
jeśli i =

4.4.3 Stwierdzenie. W modelu określonym przez 4.3.3, zmienne X1 , . . . , Xn


mają tę samą wartość oczekiwaną m i następującą strukturę kowariancji:

Cov(Xi , Xk ) = a2 + Iik s2 ,

Ponadto, Eµ(Θ) = m, Varµ(Θ) = a2 i Cov (Xi , µ(Θ)) = a2 .

Stwierdzenie 4.4.3 opisuje strukturę wartości oczekiwanych i kowariancji, a


więc zawiera wszystko co potrzeba do rozwiązania zadania predykcji liniowej.

Przypuśćmy, że interesuje nas predykcja zmiennej losowej Xn+1 , która repre-


zentuje przyszłe szkody. Jeśli włączymy tę nową zmienną do naszego mo-
delu, to łatwo widać, że BLP(Xn+1 ) = BLP(µ(Θ)). Zmienna losowa µ(Θ),
powtórzmy, reprezentuje średnią wysokość szkód dla rozpatrywanego klienta.
Żeby wyznaczć BLP(µ(Θ)), musimy rozwiązać układ równań
n
X
ck (Iik s2 + a2 ) = a2 , (k = 1, . . . , n),
i=1
n
X
c0 = m − ci m.
i=1

79
Przepiszmy k-te równanie w postaci

s 2 c k + a2 c • = a2 ,
Pn
gdzie c• = i=1 ci . Jeśli zsumujemy te równania względem k to otrzymamy

s2 c• + a2 nc• = a2 n,

skąd
a2 n
c• = 2 .
a n + s2
Niech z = c• . Teraz już łatwo wyliczyć, że ck = z/n dla k = 1, . . . , n.
Wreszcie, c0 = m − c• m = (1 − z)m.

W ten sposób wyprowadziliśmy następujący wynik:

4.4.4 TWIERDZENIE (Najlepszy liniowy predyktor). W modelu 4.3.3


mamy
BLP(µ(Θ)) = z X̄ + (1 − z)m,
gdzie
n
1X a2 n
X̄ = Xi , z= 2 .
n i=1 a n + s2
Liczba z nazywa się współczynnikiem zaufania (lub wiarogodności).

W Przykładzie 4.3.10 spotkaliśmy już ten sam predyktor. Ogólniej, jeśli


najlepszy predyktor jest liniową funkcją obserwacji, to siłą rzeczy pokrywa
się z najlepszym liniowym predyktorem, a więc musi mieć postać podaną
powyżej. Modele bayesowskie, w których tak właśnie jest, to znaczy BP =
BLP, nazywają się „dokładnymi modelami zaufania” (exact credibility). We
wszystkich przykładach rozpatrzonych poprzednio mieliśmy do czynienia z
takimi właśnie modelami.

80
Model Bühlmanna - Strauba.

Rozpatrzymy p jednorodnych grup danych. Dla ustalenia uwagi powiedzmy,


że Xji jest średnią szkód i-tego klienta z j-tej grupy. Nasze dane mają więc
postać tablicy zmiennych losowych. Zakładamy, że z każdą grupą klientów,
czyli z każdym wierszem tablicy związana jest inna zmienna strukturalna:

Θ1 ; X11 , . . . X1i , . . . X1n1 ,


.. .. .. .. ..
. . . . .
Θj ; Xj1 , . . . Xji , ... ... ... Xjnj ,
.. .. .. .. ..
. . . . .
Θp ; Xp1 , . . . Xpi , . . . ... Xpnp .

4.4.5 Założenie. Rozważany układ zmiennych losowych

Θj ; Xji (j = 1, . . . , p; i = 1, . . . , nj )

ma łączną gęstość prawdopodobieństwa


 Y Y
f (θj ); (xji ) = π(θj ) fθj (xji ).
j i

Zmienne Xji mają skończoną wartość oczekiwaną i wariancję. 

Innymi słowy,

• Θ1 , . . . , Θp są niezależnymi zmiennymi losowymi.

• π jest gęstością prawdopodobieństwa każdej ze zmiennych Θj ;

• Dla ustalonych wartości Θj = θj ,


Xji są warunkowo niezależnymi zmiennymi losowymi;
fθj jest warunkową gęstością każdej ze zmiennych Xji .

81
Zauważmy, że warunkowy rozkład zmiennych Xji z j-tej grupy zależy tylko
od Θj . Układ zmiennych losowych spełniających Założenie 4.4.5 będziemy
nazywać modelem Bühlmanna - Strauba.

Funkcje µ, σ 2 i liczbę m definiujemy tak jak poprzednio w terminach gęstości


fθ i rozkładu a priori π. Mamy teraz

µ(Θj ) = E(Xji |Θj ), σ 2 (Θj ) = Var(Xji |Θj ).

Oczywiście,

m = EXji = Eµ(Θj ), s2 = Eσ 2 (Θj ), a2 = Varµ(Θj ).

Opiszemy strukturę kowariancji zmiennych występujących w modelu Bühl-


manna - Strauba. Wobec tego, że wiersze są niezależne, z łatwością otrzy-
mujemy następujący wzór:

Cov(Xji , Xj 0 i0 ) = Ijj 0 (Iii0 s2 + a2 ).

Podobnie, Cov(Xji , µ(Θj 0 )) = Ijj 0 a2 .

Najlepsza predykcja liniowa. Interesuje nas głównie predykcja zmiennej


losowej µ(Θj ) dla pewnego ustalonego j = j0 . Jest to średnia wysokość szkód
w j0 -tej grupie klientów. Dla ubezpieczyciela predykcja tej zmiennej ma
zasadnicze znaczenie. Jest równoważna predykcji przyszłych szkód każdego
z klientów należących do tej grupy (lub nawet nowego klienta, jeśli mamy
podstawy zakwalifikować go właśnie do j0 -tej grupy).

Zaczniemy od spostrzeżenia tyleż oczywistego, co zaskakującego. Najlepszy


liniowy predyktor BLP(µ(Θj0 )) obliczony na podstawie całej tablicy danych
(Xji ) zależy tylko od zmiennych Xj0 i z j0 -tej grupy. To wynika z faktu, że
wiersze: (Θj ; Xji , i = 1, . . . , nj ) są niezależne dla j = 1, . . . , p. Stosując
Twierdzenie 4.4.4 do j-tego wiersza dostajemy

BLP(µ(Θj )) = zj X̄j + (1 − zj )m,

gdzie
a2 nj
zj =
a2 nj + s2

82
jest współczynnikiem zaufania (zależnym od grupy j),
1 X
X̄j = Xji
nj i

jest średnią danych w j-tej grupie. Oczywiście, można również odwołać się
explicite do Twierdzenia 4.4.2 i wykorzystać fakt, że zmienne z różnych wier-
szy są nieskorelowane, aby otrzymać w drodze czysto rachunkowej ten sam
wynik.

Nasuwa się wobec tego pytanie: po co nam model uwzględniający dane dla
wielu klientów, skoro najlepszy liniowy predyktor korzysta tylko z danych
dotyczących jednego klienta? Odpowiedź jest bardzo prosta. Nasz predyktor
zakłada znajomość trzech parametrów: m, s2 i a2 . W praktyce te parametry
są nieznane i musimy je estymować na podstawie danych. Dwa z nich, m
i a2 opisują własności populacji klientów i mogą być estymowane tylko jeśli
mamy próbkę z tej populacji! Rolę tej próbki odgrywają wiersze tablicy (Xji )
– i dlatego są potrzebne. Model Bühlmanna - Strauba reprezentuje w tym
sensie empiryczne podejście bayesowskie.

Istnieje pewna „hierarchia predyktorów”, której warto się przyjrzeć na przy-


kładzie modelu Bühlmanna - Strauba. Załóżmy, że celem jest predykcja
µ(Θj ) dla ustalonego j = j0 .

• BP (Best Predictor ), najlepszy predyktor: obliczenie BP wymaga zna-


jomości wiarogodności fθ i rozkładu a priori π;

• BLP (Best Linear Predictor ), najlepszy liniowy predyktor: obliczenie


BLP wymaga znajomości parametrów m, s2 , i a2 ;

• BLUP (Best Linear Unbiased Predictor ), najlepszy nieobciążony li-


niowy predyktor: obliczenie BLUP wymaga znajomości parametrów
s2 , i a2 , czyli komponentów wariancyjnych; średnią globalną m esty-
mujemy z danych;

• EBLUP (Empirical Best Linear Unbiased Predictor ), empiryczna wer-


sja najlepszego nieobciążonego liniowego predyktora: EBLUP można
obliczyć na podstawie danych; z danych estymujemy parametry m, s2 ,
i a2

83
Poprzestaniemy na podaniu podstawowych wzorów na predyktory i estyma-
tory używane w modelu Bühlmanna - Strauba. Wyjaśnimy sens tych wzo-
rów na poziomie intuicyjnym. Pominiemy formalne definicje takich pojęć
jak BLUP i BLUE (Best Linear Unbiased Estimator ), najlepszy liniowy nie-
obciążony estymator oraz wyjaśnienie związku między nimi. To są tematy
należące do teorii mieszanych modeli liniowych i tylko w tym kontekście
można je właściwie zrozumieć.

Oznaczenia. Niech µj = µ(Θj ). Jak zwykle, pomijamy wskaźniki sumowa-


nia, dostatecznie jasno wynikacjące z kontekstu. Stosujemy konwencję wpro-
wadzoną już poprzednio: sumowanie względem pewnego indeksu oznaczmy
„wykropkowując” ten indeks. Na przykład:
p p
X X X X
n• = nj = nj , z• = zj = zj .
j j=1 j j=1

Będziemy potrzebowali kilku skrótów używanych w analizie wariancji (ANOVA).


Przypomnijmy oznaczenia wprowadzone w Podrozdziale 4.2:
X nj 1 X
X̄ = X̄j = Xji ,
j
n• n• ji

p p nj
X X X
2
SSB = nj (X̄j − X̄) , SSW = (Xji − X̄j )2 ,
j=1 j=1 i=1

Predyktory i estymatory Najlepszy liniowy predyktor BLP(µj ), został


obliczony przy założeniu, że znana jest globalna średnia m i zależy tylko od
zmiennych Xji z j-tej grupy. Jeśli m jest nieznane, to możemy po prostu
zastępujemy ten parametr odpowiednim estymatorem. Do estymacji m wy-
korzystujemy dane ze wszystkich grup. Można pokazać, że najlepszy liniowy
nieobciążony estymator parametru m jest dany następującym wzorem:
X zj
BLUE(m) = m̂ = X̄j .
j
z•

Interesujące jest to, że BLUE(m) jest średnią ważoną w której wagi są zwią-
zane ze współczynnikami wiarogodności zj . Na pierwszy rzut oka wydawać
by się mogło, że bardziej naturalne jest użycie „zwykłej” średniej X̄. Na ogół

84
jednak X̄ 6= m̂. Obie średnie są estymatorami nieobciążonymi, ale m̂ ma
mniejszą wariancję (w istocie, najmniejszą spośród wszystkich estymatorów
liniowych nieobciążonych). To wynika z faktu, że średnie grupowe X̄j mają
wariancje odwrotnie proporcjonalne do zj , mianowicie Var X̄j = a2 = s2 /nj .

Wstawiając estymator BLUE(m) = m̂ w miejsce nieznanego parametru m


we wzorze na BLP, otrzymujemy BLUP (możemy to prowizorycznie uznać
za definicję BLUPa):

BLUP(µj ) = zj X̄j + (1 − zj )m̂.

Przejdźmy teraz do estymacji komponentów wariancyjnych s2 i a2 . To jest


trudniejsze zadanie i wyniki teoretyczne są mniej zadowalające, niż w przy-
padku estymacji parametru m. Z pierwszym komponentem, s2 jest jeszcze
nie tak trudno. Estymator
SSW
ŝ2 = MSB =
n• − p

jest nieobciążony i intuicyjnie przekonujący. Gorzej z komponentem a2 . Są


używane różne estymatory i nie można definitywnie powiedzieć, które z nich
są „najlepsze”. Interpretacja komponentu a2 podpowiada, żeby użyć „natural-
nego” estymatora MSB = SSB/(p − 1). Okazuje się jednak, że ten estymator
jest obciążony. Proste ale dość żmudne rachunki prowadzą do wzoru na war-
tość oczekiwaną SSB w naszym modelu i pozwalają „usunąć obciążenie”. W
rezultacie otrzymujemy następujący nieobciążony estymator:
 
2 p−1 n•
â = SSB − SSW P .
n• − p n• − n2j
2

Powiemy, że jest to estymator otrzymany metodą ANOVA. Jego wadą jest to,
że czasami przyjmuje wartości ujemne, choć jest estymatorem nieujemnego
parametru a2 . Z praktycznego punktu widzenia problem jest niewielki, bo
można używać estymatora max(â2 , 0). Jednak w ten sposób otrzymujemy
oczywiście estymator obciążony, a więc rezygnujemy z ważnej teoretycznej
zalety estymatora â2 .

85
Zestawienie wzorów

Współczynnik zaufania dla grupy j:

a2 nj
zj =
a2 nj + s2

Najlepszy liniowy predyktor:

BLP(µj ) = zj X̄j + (1 − zj )m.

Najlepszy liniowy nieobciążony predyktor:

BLUP(µj ) = zj X̄j + (1 − zj )m̂.

Najlepszy liniowy nieobciążony estymator średniej:


X zj
BLUE(m) = m̂ = X̄j .
j
z•

Empiryczna wersja predyktora:


ˆ
EBLUP(µj ) = ẑj X̄j + (1 − ẑj )m̂,

gdzie
â2 nj ˆ =
X ẑj
ẑj = , m̂ X̄j .
â2 nj + ŝ2 j
ẑ•

86
Model Bühlmanna-Strauba jako mieszany model liniowy

Z Założenia 4.4.5 wynika, że spełnione są założenia następującego modelu,


który należy do rodziny tak zwanych mieszanych modeli liniowych (Mixed
Linear Models).

4.4.6 Założenie (Model 1-kierunkowej klasyfikacji z efektami losowymi).


Zmienne losowe Xji są postaci

Xji = m + αj + εji , (j = 1, . . . , p; i = 1, . . . , nj ),

gdzie m jest stałą, wszystkie zmienne losowe αj i εji są nieskorelowane,

Eαj = Eεji = 0, Varαj = a2 , Varεji = s2 .

Aby przejść od modelu bayesowskiego do modelu liniowego, czyli pokazać,


że z Założenia 4.4.5 wynika Założenie 4.4.6, wystarczy napisać

εji = Xji − µ(Θj );


αj = µ(Θj ) − m.

Obliczenie wartości oczekiwanych, wariancji i kowariancji tak zdefiniowanych


zmiennych nie przedstawia żadnych trudności.

Interpretacja wielkości występujących w powyższym modelu jest bardzo przej-


rzysta. Każdą ze zmiennych Xji rozkładamy na sumę trzech składników (w
statystycznym żargonie – efektów). Liczba m jest średnią wysokością szkód
w całej populacji klientów, αj jest losowym efektem związanym z przyna-
leżnością klienta do j-tej grupy, zaś εji jest „błędem losowym” zależnym od
grupy i od klienta. Nasze rozważania, oczywiście, żywo przypominają to,
co mówiliśmy w poprzednim rozdziale o interpretacji modelu bayesowskiego.
Nic dziwnego, mamy do czynienia po prostu z opisem tego samego zjawiska
w nieco innym języku.

87

You might also like