Professional Documents
Culture Documents
Ryzyko UB
Ryzyko UB
Ryzyko UB
1
Wojciech Niemiro
1.1 Wstęp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Użyteczność . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
Sploty . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
Przybliżenie normalne . . . . . . . . . . . . . . . . . . . . . . 14
Sumy losowe . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3 Teoria ruiny 24
Nierówność Lundberga . . . . . . . . . . . . . . . . . . . . . . 27
1
Zastosowanie Teorii Odnowienia . . . . . . . . . . . . . . . . . 34
Proces Poissona . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4 Teoria zaufania 52
4.1 Wstęp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
Zagadnienie predykcji . . . . . . . . . . . . . . . . . . . . . . . 69
Predykcja liniowa . . . . . . . . . . . . . . . . . . . . . . . . . 75
Zestawienie wzorów . . . . . . . . . . . . . . . . . . . . . . . . 86
2
Rozdział 1
1.1 Wstęp
3
odszkodowanie (indemnity) oznaczymy przez I(X). zaś składkę ozna-
czymy przez h. Z matematycznego punktu widzenia kontrakt ubezpie-
czeniowy sprowadza się do określenia funkcji I : [0, ∞[→ [0, ∞[ i liczby
h > 0. Naturalne jest założenie, że 0 6 I(x) 6 x dla każdego x > 0.
Pełne ubezpieczenie odpowiada funkcji tożsamościowej I(x) = x.
• Składką netto (net premium lub pure premium) nazywamy wartość
oczekiwaną odszkodowania. Dla uproszczenia rozważmy pełne ubezpie-
czenie i napiszmy µ = EX. Oczywiście rzeczywista składka jest zawsze
większa od składki netto, h > µ, ponieważ ubezpieczyciel musi z czegoś
żyć i pokryć koszty swojej działalności. Możemy napisać sugestywny
wzór h = µ(1 + θ) + c i powiedzieć, że θ jest narzutem względnym (re-
lative loading, wyrażonym w procentach oczekiwanej wysokości straty)
a c jest narzutem dodatkowym, który od µ nie zależy.
1.2 Użyteczność
4
• decydent wybierze akcję 1 jeśli Eu(X1 ) > Eu(X2 ),
5
1.2.1 PRZYKŁAD. Funkcja użyteczności jest dana wzorem
u(x) = −e−αx ,
dla pewnej stałej α > 0. Zauważmy, że jest to funkcja rosnąca i wklęsła.
Zastanówmy się, jaką składkę decydent gotów będzie zapłacić za pełne ubez-
pieczenie straty X. Decyzja o ubezpieczeniu zostanie podjęta gdy u(w −h) >
Eu(w −X), czyli −e−α(w−h) > E−e−α(w−X) , gdzie w jest wyjściowym stanem
posiadania decydenta. Rozwiązując tę nierówność dochodzimy do wniosku,
że maksymalna cena ubezpieczenia, którą decydent zapłaci jest równa
1
h= log EeαX .
α
Ciekawą własnością rozważanej tu wykładniczej funkcji użyteczności jest
fakt, że decyzja nie zależy od w, „majątku początkowego”.
6
1.2.5 PRZYKŁAD. Ubezpieczenie proporcjonalne polega na tym, że ubez-
pieczyciel zobowiązuje się pokryć ustalony procent szkody X. Innymi słowy,
I(x) = kx
to
Eu(w − X + Id (X) − h) > Eu(w − X + I(X) − h).
7
Wystarczy teraz zastosować do obu stron wartość oczekiwaną:
co kończy dowód.
1.2.7 Uwaga. W powyższym dowodzie dla uproszczenia użyliśmy pochod-
nej u0 funkcji u. Założenie o różniczkowalności nie jest jednak potrzebne.
Nierówność
u(b) − u(a) > u0 (b)(b − a),
którą w istotny sposób wykorzystaliśmy, pozostaje prawdziwa jeśli u0 (b) za-
stąpić prawostronną pochodną u0+ (b) = limx→b+ (u(x) − u(b))/(x − b) lub
lewostronną pochodną u0− (b) = limx→b− (u(x) − u(b))/(x − b). Dla funkcji
wklęsłej na przedziale otwartym jednostronne pochodne zawsze istnieją.
8
Jeśli Id (x) − I(x) > 0 to x − Id (x) = d. Z kolei jeśli Id (x) − I(x) 6 0 to
x−Id (x) 6 d. W obu przypadkach, (Id (x)−I(x))(x−Id (x)) > (Id (x)−I(x))d.
Biorąc wartość oczekiwaną dostajemy
co kończy dowód.
9
Rozdział 2
10
Sploty
11
Podobnie dla splotu n > 1 jednakowych gęstości przyjmiemy oznaczenie
f n∗ = f ∗ · · · ∗ f .
| {z }
n razy
12
To zestawienie wygląda pięknie, ale raczej nie należy się spodziewać, że wynik
będzie równie prosty w innych, mniej „przyjaznych” przykładach.
k nk qk bk
1 n1 q1 b1
··· ··· ··· ···
r nr qr br
gdzie
13
gdzie Lk jest liczbą wypłat w k-tej grupie, Lk ∼ Bin(ni , qi ) i zmienne losowe
S (k) = bk Lk są niezależne. Nawet w tak nieskomplikowanej sytuacji rozkład
S nie wyraża się żadnym prostym wzorem i jest możliwy do obliczenia na
ogół tylko numerycznie.
Przybliżenie normalne
Skoro dokładne obliczanie splotów jest trudne, dużą wartość mają metody
przybliżone. Najczęściej używana jest aproksymacja rozkładem normalnym.
Jest to metoda oparta na Centralnym Twierdzeniu Granicznym rachunku
prawdopodobieństwa (CTG). Przypomnimy najprostszą wersję tego wyniku.
gdzie Z a
1 2 /2
Φ(a) = √ e−x dx.
2π −∞
Inaczej,
Sn − nµ
√ →d N(0, 1), (n → ∞).
nσ
Symbol „→d ” oznacza zbieżność według rozkładu.
Dla nas ważna jest interpretacja CTG, wnioski zeń wynikające i zastoso-
wania. W praktyce najczęściej interpretuje się CTG w następujący sposób.
Dla „dostatecznie dużych n”, suma Sn ma w przybliżeniu rozkład normalny
N(nµ, nσ 2 ). Zauważmy, że nµ = ESn i nσ 2 = VarSn .
14
2.1.3 PRZYKŁAD. Wróćmy do sytuacji opisanej w Przykładzie 2.1.1. Przy-
pomnijmy, że zmienna losowa S (k) , która opisuje łączne szkody w k-tym
pod-portfelu jest sumą nk niezależnych zmiennych losowych o jednakowych
rozkładach, przy tym ES (k) = bk nk qk i VarS (k) = b2k nk qk (1 − qk ). To po
prostu wynika stąd, że S (k) = bk Lk i Lk ∼ Bin(nk , qk ). Jeśli liczby polis
nk we wszystkich pod-portfelach są duże, to S (k) ma w przybliżeniu roz-
kład N(bk nk qk , b2k nk qk (1 − qk )). Z własności splotów rozkładów normalnych
wnioskujemy, że całkowita suma S ma w przybliżeniu rozkład
N (ES, VarS) ,
gdzie
r
X r
X
ES = bk n k q k , VarS = b2k nk qk (1 − qk ).
k=1 k=1
15
√
1−α rozkładu sumy S jest w przybliżeniu równy nµ+zσ n. W konsekwencji
otrzymujemy następujący przybliżony wzór:
zσ
θ≈√ .
n
Ten wzór częściowo wyjaśnia, dlaczego duże firmy ubezpieczeniowe mogą
sobie pozwolić na kalkulowanie składki na niższym poziomie i w rezultacie
uzyskiwać przewagę nad konkurencją. Względny narzut bezpieczeństwa θ
maleje wraz ze wzrostem rozmiaru n portfela. Oczywiście rozważamy model
bardzo uproszczony i nasze wyjaśnienie bierze pod uwagę tylko jeden aspekt
złożonego zjawiska. Podkreślmy jednak pożytek płynący z prostych modeli
i przybliżonych wzorów: pozwalają one czasem zrozumieć zasadnicze prawi-
dłowości, które niekoniecznie byłyby dostrzeżone na podstawie dokładnych
(powiedzmy numerycznych) obliczeń.
Sumy losowe
Pn
Dla ciągu zmiennych losowych X1 , . . . , Xn , . . ., napiszmy Sn = i=1 Xi i
S0 = 0. Jeśli N jest zmienną losową o wartościach całkowitych i nieujemnych
to możemy rozważyć sumę
N
X
SN = Xi ,
i=1
w której mamy losową liczbę (losowych) składników.
Odtąd stale będą obowiązywać następujące założenia:
16
• X1 , . . . , Xn , . . . są są niezależne i mają jednakowy rozkład prawdopo-
dobieństwa,
• N jest zmienną niezależną od X1 , . . . , Xn , . . ..
17
Gęstość sumy losowej jest dana wzorem
∞
X
fSN (x) = f n∗ (x)P(N = n).
n=0
18
Zauważmy, że ta dystrybuanta ma skok w zerze: FSN (s) = p.
Ten sam wynik można uzyskać nieco szybciej posługując się funkcjami two-
rzącymi momenty. Dla pojedynczego składnika mamy M (r) = EerX1 =
λ/(λ − r). Funkcja tworząca prawdopodobieństwa dla rozkładu geometrycz-
nego jest równa Q(z) = Ez N = p/(1 − qz). Stąd
p(λ − r) pλ
MSN (r) = =p+q .
1 − qλ pλ − r
Prawa cześć tego wzoru jest kombinacją wypukłą funkcji tworzącej momenty
zera i funkcji tworzącej momenty rozkładu wykładniczego. To pozwala roz-
poznać, że poszukiwany rozkład jest mieszanką pδ0 + qEx(pλ).
gdzie
19
Złożone rozkłady Poissona
Krócej,
Bin(n, pn ) →d Poiss(λ).
Ten fakt zwany jest niekiedy „prawem małych liczb” i wyjaśnia, dlaczego o
liczbie szkód N przyjmuje się chętnie założenie, że ma rozkład Poissona. Jeśli
jest dużo okazji do spowodowania szkody (n → ∞) ale w każdym przypadku
z osobna szkoda pojawia się niezależnie od pozostałych z małym prawdo-
podobieństwem (pn → 0) to liczba szkód powinna mieć rozkład zbliżony do
rozkładu Poissona.
20
2.2.5 Wniosek. Jeśli S ∼ CPoiss(λ, P (·)) to
∞
X λn n∗
P(S 6 x) = e−λ P (x),
n=0
n!
rS
Ee = exp [λ(M (r) − 1)] .
gdzie M jest funkcją tworzącą momenty dla rozkładu o dystrybuancie P .
21
2.3.1 TWIERDZENIE (Zbieżność sum do złożonego rozkładu Poissona).
Rozważmy trójkątną tablicę, w której n-ty wiersz składa się z niezależnych
zmiennych losowych Vn1 , In1 , . . . , Vn1 , In1 . Załóżmy, że Vni > 0, a zmienne
Ini są zero-jedynkowe: P(Ini = 1) = qni = 1 − P(Ini = 1). Niech Pni (x) =
P(Vni 6 x). Napiszmy
X n
Sn = Ini Vni .
i=1
Załóżmy, że dla n → ∞
Wtedy
Sn →d CPoiss(λ, P (·)) (n → ∞).
gdzie prawa strona jest funkcją tworzącą momenty rozkładu CPoiss(λ, P (·)).
Ponieważ EerIni Vni = qni EerVni + 1 − qni = 1 + qni (Mni (r) − 1), więc
Y
(**) EerSn = qni = [1 + qni (Mni (r) − 1)] .
i
22
Biorąc pod uwagę wzory (*) i (**) widzimy, że dowód będzie zakończony jeśli
pokażemy, że:
Y Y
[1 + qni (Mni (r) − 1)] − exp [qni (Mni (r) − 1)]
i i
X
6 |1 + qni (Mni (r) − 1) − exp [qni (Mni (r) − 1)]|
i
X
2
6 qni
i
X
6 max qni qni
i
i
→n→∞ 0,
23
Rozdział 3
Teoria ruiny
Tak więc nadwyżka na koniec n-tego okresu (czyli w n-tym momencie obser-
wacji procesu, n = 1, 2, . . .) wynosi
n
X
(3.1.1) u − Sn = u − Yi ,
i=1
24
Prawdopodobieństwo (ostatecznej) ruiny jest równe
surplus
SR
u Y2
Y1
R
1 2 3 n
25
Będziemy też rozważali prawdopodobieństwo ruiny w skończonym czasie:
i Z ∞
E(Y ) = yF (dy).
−∞
Ξn = max{0, S1 , . . . , Sn },
Ξ = lim Ξn = max{0, S1 , S2 , . . .},
n→∞
Rzecz jasna,
26
Dla E(Y ) > 0, pierwsza część tego stwierdzenia wynika natychmiast z moc-
nego prawa wielkich liczb (MPWL). W rzeczy samej, Sn /n →p.n. E(Y ), zatem
Sn → ∞ i stąd Ξ = ∞ z prawdopodobieństwem 1. To znaczy, że ψ(u) = 1.
Nierówność Lundberga
ψ1 (u) = 1 − F (u),
u
(3.1.7)
Z
ψm+1 (u) = 1 − F (u) + ψm (u − v)F (dv).
−∞
27
Te wzory mogą służyć do numerycznego obliczenia ψ: zaczynamy od funkcji
ψ1 danego pierwszym wzorem a następnie kolejno obliczamy funkkcje ψ2 , . . .
używając drugiego wzoru. Oczywiście,
M (k)
F
0 r
28
Należy w tym miejscu poczynić kilka uwag, mając przed oczyma powyższy
rysunek. Niech
MF (κ) = E eκY
ψm (u) ≤ e−ru .
29
na mocy definicji liczby r. Następnie, zakładając nierówność ψm (u) 6 e−ru
wnioskujemy, że
Z u
ψm+1 (u) = 1 − F (u) + ψm (u − v)F (dv)
−∞
Z ∞ Z u
6 F (dv) + e−r(u−v) F (dv)
−∞
Zu ∞
6 er(v−u) F (dv)
−∞
−ru
6e .
ψ 0 (u) = e−ru ,
u
(3.1.11)
Z
m+1
ψ (u) = 1 − F (u) + ψ m (u − v)F (dv).
−∞
30
Wykładnicza zamiana miary
Z y
F̃ (y) = erv F (dv),
−∞
P(Ỹ 6 y) = F̃ (y).
Z Z
E(Ỹ ) = y F̃ (dy) = yery F (dy)
Z
d
= ery F (dy)
dr
= MF0 (r) > 0.
31
Wyobraźmy sobie teraz ciąg Ỹ1 , Ỹ2 , . . . niezależnych
Pzmiennych losowych o
n
jednakowym rozkładzie F̃ . Powiemy, że sumy S̃n = i=1 Ỹi tworzą błądzenie
losowe stowarzyszone lub sprzeżone z oryginalnym błądzeniem Sn = ni=1 Yi .
P
Ogólnie, wielkości oznaczane symbolami ze znaczkiem ˜ są zdefiowane den-
tycznie jak ich odpowiedniki bez ˜ ale w terminach zmiennych Ỹi zmiast
Yi .
Zauważmy, że dla procesu u−S̃n , ruina jest pewna, na mocy Stwiedzenia 3.1.5.
Stowarzyszony proces ma ujemny dryf, w przeciwieństwie do oryginalnego
procesu. W naszych oznaczeniach,
Z Z
P(R̃ = n) = ··· f˜(y1 ) · · · f˜(yn )dy1 · · · dyn
Rn
Z Z
= ··· ery1 f (y1 ) · · · eryn f (yn )dy1 · · · dyn
Rn
Z Z
= ··· er(y1 +···+yn ) f (y1 ) · · · f (yn )dy1 · · · dyn
Rn
rSn
= E e ;R = n .
32
Zatem
1
P(R < ∞) = .
E (exp[rSR ]|R < ∞)
exp[−ru]
P(R < ∞) = .
E (exp[r(SR − u)]|R < ∞)
Z Z
P(R = n) = ··· f (y1 ) · · · f (yn )dy1 · · · dyn
Rn
Z Z
= ··· e−ry1 f˜(y1 ) · · · e−ryn f˜(yn )dy1 · · · dyn
Rn
Z Z
= ··· e−r(y1 +···+yn ) f˜(y1 ) · · · f˜(yn )dy1 · · · dyn
Rn
= E erS̃n ; R̃ = n .
33
−ru
(3.1.14) P(R < ∞) = e E exp[−r(S̃R̃ − u)] .
34
Ważne jest spostrzeżenie, że dla E(Y ) < 0 mamy zawsze skończoną (ale
losową) liczbę momentów i wartości drabinowych. To dlatego, że proces ma
dodatni dryf i prawie na pewno u − Sn → ∞ (Stwierdzenie 3.1.5). Niech
D będzie liczbą punktów drabinowych (Ki , u − Ci ). Jest to zmienna losowa
taka, ze P(0 6 D < ∞) = 1.
Odstępy pomiędzy kolejnymi wartościami drabinowymi będziemy oznaczać
przez L1 , L2 , . . .. Mamy zatem Li = Ci − Ci−1 ,
L1 = C1 , . . . , CD = L1 + · · · + LD .
L1 = C1 ; Li+1 = Ci+1 − Ci .
35
3.1.15 Stwierdzenie. Możemy traktować L1 , L2 , . . . jak niezależne zmienne
losowe o jednakowym rozkładzie, przyjmujące wartości w przedziale ]0, ∞].
C1 = L1 , . . . , CD = L1 + · · · + LD .
36
H(∞) = lim H(y) = q < 1.
y→∞
Niech
1
G(y) = P(L 6 y|L < ∞) = H(y).
q
1
G(y)
H(y)
37
Następujący schemat może pomóc w zrozumieniu pojęcia chwilowego procesu
odnowienia.
1−q
q
*
Generuj L1 ∼ G Stop:D := 0
C1 := L1
1−q
q
*
Generuj L2 ∼ G Stop:D := 1
C1 := L1 + L2
1−q
q
*
Generuj L3 ∼ G Stop:D := 2
C1 := L1 + L2 + L3
.. ..
. .
1−q
q
*
Generuj Ln ∼ G Stop:D := n − 1
C1 := L1 + · · · + Ln
.. ..
. .
38
Podsumujmy nasze rozważania w następujący sposób.
39
3.2 Proces nadwyżki ubezpieczyciela z czasem
ciągłym
Proces Poissona
T0 = 0, T1 = W1 , T2 = W1 + W2 , . . . , Tk = W1 + · · · + Wk , . . .
Niech, dla t ≥ 0,
N (t) = max{k : Tk 6 t}.
Rodzinę zmiennych losowych N (t) nazywamy procesem Poissona.
Proces Poissona dobrze jest wyobrażać sobie jako losowy zbiór punktów na
półprostej: {T1 , T2 , . . . , Tk , . . .}. Zmienna N (t) oznacza liczbę punktów, które
„wpadły” w odcinek ]0, t]. Wygodnie będzie używać symbolu
(λt)k
P(N (t) = k) = e−λt .
k!
Dowód. Zauważmy, że
Tk ∼ Gamma(k, λ).
40
Wobec tego ze wzoru na prawdopodobieństwo całkowite wynika, że
P(N (t) = k) = P(Tk 6 t, Tk+1 > t)
Z t
= P(Tk+1 > t|Tk = s)fTk (s) ds
0
Z t
= P(Wk+1 > t − s|Tk = s)fTk (s) ds
0
Z t
λk k−1 −λs
= e−λ(t−s) s e ds
0 Γ(k)
k Z t
−λt λ λk tk (λt)k
=e sk−1 ds = e−λt = e−λt .
Γ(k) 0 (k − 1)! k k!
41
Fakt, że zmienne Wk+2 , Wk+3 . . . są niezależne od zdarzenia N (t1 ) = k jest
oczywisty. Pokazaliśmy w ten sposób, że losowy zbiór punktów {Tk+1 −
t1 , Tk+2 − t1 , . . .} ma warunkowo, dla N (t1 ) = k taki sam rozkład prawdo-
podobieństwa, jak {T1 , T2 , . . .}. Proces Poissona obserwowany od momentu
t1 jest kopią wyjściowego procesu. Wynika stąd w szczególności, że zmienna
losowa N (t2 , t1 ) jest niezależna od N (t1 ) i N (t2 , t1 ) ∼ Poiss(λ(t2 −t1 )). Dalsza
część dowodu przebiega analogicznie i ją pominiemy.
Yi ∼ Ex(λ),
T0 = 0, T1 = W1 , T2 = W1 + W2 , . . . , Tk = W1 + · · · + Wk to wektor losowy
T1 Tk−1
(U1 , . . . , Uk−1 ) = ,...,
Tk Tk
fTk ,U1 ,...,Uk−1 (t, u1 , . . . , uk−1 ) = fW1 ,...,Wk (u1 t, (u2 − u1 )t, . . . , (1 − uk−1 )t)
−λu1 t −λ(u2 −u1 )t −λ(1−uk−1 )t ∂(w1 , . . . , wk )
= λe λe · · · λe ∂(t, u1 , . . . uk−1 )
= λk tk−1 e−λt , (t > 0, u ∈ ∆).
42
Zauważmy, że jeśli U1 , . . . , Uk−1 są niezależnymi zmiennymi o jednakowym
rozkładzie jednostajnym U(0, 1) i
U1:k−1 6 · · · 6 Uk−1:k−1
T1 , . . . , Tk−1
V1:k−1 , . . . , Vk−1:k−1
T1 , . . . , Tk
V1:k , . . . , Vk:k
(k − 1)!
fT1 ,...,Tk−1 (t1 , . . . , tk−1 |Tk = s) = .
sk−1
43
Obliczmy teraz warunkową gęstość zmiennej losowej Tk , jeśli N (t) = n:
P(N (t) = k|Tk = s)fTk (s)
fTk (s|N (t) = k) =
P(N (t) = k)
P(Wk+1 > t − s)fTk (s)
=
P(N = k)
−λ(t−s) k
e (λ /(k − 1)!)sk−1 e−λs
=
e−λt (λt)k /k!
ksk−1
= (0 6 s 6 t).
tk
A zatem
fT1 ,...,Tk−1 ,Tk (t1 , . . . , tk−1 , s|N (t) = k)
= fT1 ,...,Tk−1 (t1 , . . . , tk−1 |Tk = s)fTk (s|N (t) = k)
(k − 1)! ksk−1 k!
= k−1
· k = k.
s t t
Otrzymaliśmy gęstość rozkładu jednostajnego na k-wymiarowym sympleksie,
co jest równoznaczne z tezą.
44
Bardzo prosto można zauważyć, że proces Poissona (N (t) : t > 0) o inten-
sywności λ ma własności wymienione w Twierdzeniu 3.2.7. Ciekawe jest, że
te własności w pełni charakteryzują proces Poissona.
(λt)n
pn (t) := P(N (t) = n) = e−λt .
n!
Najpierw zajmiemy się funkcją p0 (t) = P(N (t) = 0). Z niezależności i jedno-
rodności przyrostów wynika tożsamość
p0 (t + h) = p0 (h)p0 (t).
Stąd
P∞
p0 (t + h) − p0 (t) p0 (h) − 1 p1 (h) i=2 pi (h)
= p0 (t) = − − p0 (h).
h h h h
p0 (t) = e−λt .
a zatem
n
pn (t + h) − pn (t) p0 (h) − 1 p1 (h) 1X
= pn (t) + pn−1 (t) + pn−i (t)pi (h).
h h h h i=2
45
Korzystając z własności (i) i (ii) otrzymujemy równanie
P0
Używamy tu zwykłej konwencji dotyczącej „pustej sumy”: n=1 · · · = 0.
Losowe punkty „tworzące” proces Poissona (N (t) : t > 0) oznaczamy, tak jak
poprzednio, przez T1 < T2 < · · · < Tn < · · · , a odcinki pomiędzy nimi przez
W1 , W2 , . . . , Wn , . . .. Dystrybuantę „typowej zmiennej X = Xi ” będziemy
starali się zawsze w tym podrozdziale oznaczać symbolem P :
46
Trajektorie procesu (Z(t) : t > 0) są prawostronnie ciągłymi funkcjami
schodkowymi, które są stałe na przedziałach pomiędzi skokami,
n
X
Z(t) = Xi dla Tn 6 t < Tn .
i=1
N (t) ∼ CPoiss(λt, P ).
N (Tn ) ∼ P n∗ .
47
Klasyczny proces nadwyżki z czasem ciągłym
N (t) − liczba szkód w przedziale czasowym [0, t], innymi słowy N (t) = max{n :
Tn 6 t},
PN (t)
Z(t) − skumulowane szkody w okresie [0, t], czyli Z(t) = i=1 Xi ,
48
Omówmy dwa rozdzaje „dyskretyzacji czasu” dla procesu (3.2.12).
Możemy napisać
n
X
u + nch − Z(nh) = u − Yi ,
i=1
gdzie
(3.2.14) Yk = Xk − cWk .
Y ∼ P ∗ Ex− (λ),
49
gdzie symbol Ex− ∗ (λ) oznacza rozkład zmiennej losowej −W , W ∼ Ex(λ).
Spełnione jest Założenie 3.1.4 i wszystkie wyniki Podrozdziału 3.1 pozostają
prawdziwe.
(
inf{t > 0 : u + ct − Z(t) < 0} jeśli takie t istnieje;
TR =
∞ jeśli takie t nie istnieje.
50
3.2.15 Stwierdzenie. Rozważmy klasyczny proces nadwyżki z czasem cią-
głym sprecyzowany w Założeniu 3.2.11. Jeśli zmienne Yi są określone wzorem
(3.2.14), to określony w ten sposób proces z czasem dyskretnym spełnia Zało-
żenie 3.1.4. Rekordy w dół tworzą chwilowy proces odnowienia, dla którego
λ y
Z
H(y) = P(L 6 y) = [1 − P (x)]dx.
c 0
51
Rozdział 4
Teoria zaufania
4.1 Wstęp
52
Rzeczywiste dane są najczęściej wstępnie pogrupowane i łącznie rozpatruje
się całą grupę „ jednakowych” umów, ale łatwiej będzie mówić o pojedynczym
kliencie. Wielkości xi mogą być wysokościami pojedynczych szkód. Mogą to
być sumaryczne wysokości szkód w kolejnych latach lub liczby szkód w po-
szczególnych latach. Liczby x1 , . . . , xn traktujemy jako realizacje zmiennych
losowych X1 , . . . , Xn . Innymi słowy, patrzymy na nasze dane jak na wynik
pewnego „doświadczenia losowego”. Zgłoszone przez naszego klienta szkody
są przecież wynikiem „przypadkowych zdarzeń”. Założymy, że zmienne lo-
sowe X1 , . . . , Xn są niezależne i mają jednakowy rozkład prawdopodobień-
stwa. Oba założenia wydają się rozsądne. Wypadki, które przytrafiają się w
kolejnych latach można uznać w przybliżeniu za zdarzenia niezależne. Zało-
żenie o jednakowym rozkładzie prawdopodobieństwa mówi tyle, że nasz klient
wciąż „zachowuje się podobnie”. Innymi słowy, X1 , . . . , Xn jest próbką losową
z pewnego rozkładu prawdopodobieństwa Pθ . Zapiszemy to symbolicznie w
postaci
X1 , . . . , Xn ∼i.i.d. Pθ .
parametr dane
53
Wskaźnik i może na przykład numerować lata. Zmienna Xji opisuje wtedy
szkody dla j-tego kontraktu w i-tym roku. Dane dotyczące j-tego kontraktu
obejmują nj lat. Próbki mają na ogół różne liczności.
Hipoteza
H0 : θ1 = · · · = θj = · · · = θp .
54
Oba skrajne podejścia mają poważne wady. Z jednej strony, podejście I i
obciążanie wszystkich klientów jednakową składką prowadzi do „negatywnej
selekcji ryzyk”. Klienci spodziewający się niższych strat mogą unikać towa-
rzystwa stosującego takie podejście i szukać innego ubezpieczyciela. Prze-
ciwnie, klienci narażeni na wyższe straty będą chętnie wybierali to właśnie
towarzystwo. Z drugiej strony, estymatory indywidualne stosowane przy po-
dejściu II mogą być bardzo niedokładne ze względu na szczupłość danych
dotyczących każdego kontraktu z osobna. Co więcej, niektórzy aktuariusze
wysuwają argumenty natury ideologicznej przeciw podejściu II. Istota dzia-
łalności ubezpieczeniowej polega przecież na tym, że wielu ubezpieczających
pokrywa wspólnie indywidualne straty, a więc niejako „dzieli się ryzykiem”.
Teoria wiarogodności jest pewnym kompromisem pomiędzy dwiema skrajno-
ściami. Zanim przejdziemy do omawiania tej teorii, wspomnijmy o metodach
testowania hipotezy o jednorodności.
X1 ∼ Bin(n1 , θ1 ),
···
Xp ∼ Bin(np , θp ).
55
Test chi-kwadrat. Statystyka testowa ma postać
p
X (Xi − nj θ̂)2
χ2 = ,
j=1 nj θ̂(1 − θ̂)
P P
gdzie θ̂ = j Xj / j nj jest estymatorem prawdopodobieństwa sukcesu ob-
liczonym dla połączonej próbki. Jeśli H0 jest prawdziwa (i liczności próbek
n1 , . . . , np są dostatecznie duże) to ta statystyka ma w przybliżeniu rozkład
χ2 (p − 1). A więc, test na poziomie istotności α jest taki: odrzucamy H0 jeśli
razem * * * 10
56
Rzut oka na tę tabelkę wystarcza, by przekonać się, że estymatory indy-
widualne są tu nie do przyjęcia. Prowadzą do przewidywania, że klienci
numer 2, 4, 6 i 8 nie będą w przyszłości mieli żadnych szkód. Z drugiej
strony, θ̂ = 10/40 = 0.25 jest oszacowaniem prawdopodobieństwa wypadku
w ciągu roku otrzymanym z połączonej próbki. Przeprowadzimy test hipo-
tezy H0 : θ1 = · · · = θ10 na poziomie istotności 0.05. Mamy tu p = 10,
n1 = · · · = n10 = 4 i nj θ̂ = 1. Wartość statystyki testowej
2 1 h
χ = (2 − 1)2 + (0 − 1)2 + (0 − 1)2 + (0 − 1)2
0.75 i
+ (0 − 1)2 + (2 − 1)2 + (3 − 1)2 = 13.33
57
nj
1 X
θ̂j = X̄j = Xji .
nj i=1
p p nj
1X 1 XX
θ̂ = X̄ = nj X̄j = Xji ,
n j=1 n j=1 i=1
Pp
gdzie n = j=1 nj . Niech
p p nj
X X X
2
SSB = nj (X̄j − X̄) , SSW = (Xji − X̄j )2 ,
j=1 j=1 i=1
p nj
X X
SST = (Xji − X̄)2 .
j=1 i=1
Skróty mają takie znaczenie: SSB jest sumą kwadratów pomiędzy próbkami
(Between), SSW jest sumą kwadratów wewnątrz próbek (Within) i SST jest
całowitą sumą kwadratów (Sum of Squares, Total ). „Podstawowa tożsamość
analizy wariancji” mówi, że SST = SSB + SSW. Przejrzystym sposóbem
przedstawienia „analizy wariancji” jest taka tabelka:
58
Test ANOVA. Statystyką testową jest
MSB SSB/(p − 1)
F = = .
MSW SSW/(n − p)
59
Źródło Sumy Stopnie Średnie Statystyka
zmienności kwadratów swobody kwadraty F
między próbkami 400 2 200 1.39
wewnątrz próbek 2150 15 143.3
razem 2550 17
60
losowej X (bez brania pod uwagę danych). Gęstość rozkładu a priori ozna-
czymy przez π. Model bayesowski określamy przez podanie, oprócz rodziny
gęstości {fθ : θ ∈ P} na przestrzeni obserwacji, także gęstości π na prze-
strzeni parametrów P. Prześledźmy najpierw konstrukcję modelu formalnie,
z matematycznego punktu widzenia.
f (θ, x)
fθ (x) = = f (x|θ).
π(θ)
π(θ)fθ (x)
πx (θ) = f (θ|x) = ,
f (x)
gdzie
Z
f (x) = π(θ)fθ (x)dθ.
61
Gęstość f opisuje rozkład brzegowy zmiennej losowej X w modelu bayesow-
skim. W tym kontekście mówi się f jest mieszanką wyjściowych gęstości fθ .
W istocie, możemy traktować f jako „średnią ważoną” funkcji fθ , z „funkcją
wagową” π.
(nθ)x
fθ (x) = Pθ (X = x) = e−nθ , (x = 0, 1, . . .).
x!
62
Parametr θ jest średnią liczbą szkód przypadających na rok. Przyjmijmy,
że zmienność θ w populacji klientów opisuje rozkład Gamma(α, λ). Pierw-
szym etapem doświadczenia losowego jest, z punktu widzenia towarzystwa
ubezpieczeniowego, zawarcie umowy z pewnym klientem wybranym z tej po-
pulacji. Średnia roczna liczba szkód dla naszego klienta jest więc zmienną
losową Θ o gęstości prawdopodobieństwa
λα α−1 −λθ
π(θ) = θ e , (θ > 0).
Γ(α)
∞
λα α−1 −θλ (nθ)x −nθ
Z
f (x) = P(X = x) = θ e · e dθ
0 Γ(α) x!
Z ∞
λα nx
= θx+α−1 e−(λ+n)θ dθ
x!Γ(α) 0
λα nx Γ(x + α)
= ·
x!Γ(α) (λ + n)x+α
α x
(x + α − 1)(x + α − 2) · · · (α + 1)α λ n
=
x! λ+n λ+n
x+α−1 λ α n x
= .
x λ+n λ+n
63
Niech λ/(λ + n) = p i n/(λ + n) = 1 − p. Wtedy
−α α
P(X = x) = p (p − 1)x .
x
λα α−1 −θλ θx −θ λα
Γ(x + α)
πx (θ) = f (θ|x) = θ e e ·
Γ(α) x! x!Γ(α) (λ + n)x+α
(λ + n)α+x α+x−1 −(λ+n)θ
= θ e .
Γ(α + x)
64
Rozkład brzegowy zmiennej X ma gęstość
Γ(α + β) 1 α+x−1
Z
β+n−x−1 n
f (x) = θ (1 − θ) dθ
Γ(α)Γ(β) 0 x
Γ(α + β) Γ(α + x)Γ(β + n − x) n
= ·
Γ(α)Γ(β) Γ(α + β + n) x
−α −β −α − β
= .
x n−x n
Γ(α + β + n)
πx (θ) = f (θ|x) = θα+x−1 (1 − θ)β+n−x−1 .
Γ(α + x)Γ(β + n − x)
Y
fθ (x1 , . . . , xn ) = fθ (xi ). (∗)
i
65
4.3.3 Założenie. Rozpatrujemy układ zmiennych losowych
Θ; X1 , . . . , X n
o łącznej gęstości prawdopodobieństwa
Y
f (θ; x1 , . . . , xn ) = π(θ) fθ (xi ).
i
Z Y
f (x1 , . . . , xn ) = π(θ) fθ (xi )dθ. (∗∗)
i
Q
π(θ) i fθ (xi )
πx (θ) = f (θ|x1 , . . . , xn ) = .
f (x1 , . . . , xn )
66
4.3.4 PRZYKŁAD (Model Poisson/Gamma, dostateczność). Rozważymy w
istocie ten sam model co w Przykładzie 4.3.1, tylko uwzględnimy obserwacje
dotyczące wielu lat. Niech X1 , . . . , Xn będą liczbami szkód, zgłoszonych w
kolejnych latach przez jednego klienta. Załóżmy, że te zmienne są próbką z
rozkładu Poiss(θ) i rozkład a priori jest Gamma(α, λ). Obliczenie rozkładu
a posteriori jest podobne jak w Przykładzie 4.3.1. Pokażemy jak upraszcza
rachunki ignorowanie nieistotnych stałych normalizujących. Wprowadźmy
taką konwencję: symbol „const” oznacza dowolne wyrażenie liczbowe, które
nie zależy od parametru θ (ale może zależeć od obserwacji x1 , . . . , xn ). Przy
każdym pojawieniu się ów „const” może oznaczać inną liczbę. Możemy teraz
napisać
f (θ|x1 , . . . , xn ) = f (θ|t)
67
4.3.6 PRZYKŁAD (Model Normalny/Normalny). Niech zmienne X1 , . . . , Xn
będą wysokościami szkód w kolejnych latach dla tego samego klienta (lub
„ jednorodnej” grupy klientów, których z góry decydujemy się traktować jed-
nakowo). Przyjmijmy, że jest to próbka z rozkładu normalnego N(θ, s2 ).
Gęstość prawdopodobieństwa pojedynczej obserwacji jest postaci
1 2
fθ (x) = const · exp − 2 (x − θ) .
2s
P
Oczywiście, x oznacza xi /n. Wykonaliśmy tu znaną ze szkoły średniej ope-
rację sprowadzania trójmianu kwadratowego do postaci kanonicznej. Wyrazy
wolne zostają „pochłonięte” przez zmieniającą się „stałą” const. Dodanie
stałej do argumentu funkcji wykładniczej jest tym samym, co pomnożenie
tej funkcji przez stałą. Widać już, że rozkład a posteriori jest normalny,
68
na2 x + s2 m s 2 a2
N , 2 .
na2 + s2 na + s2
Zagadnienie predykcji
h(X) = h(X1 , . . . , Xn )
MSE = E (Y − h(X))2 .
69
4.3.7 DEFINICJA. Zmienną losową Ŷ = ĥ(X) nazywamy najlepszym
predyktorem Y , jeśli
2 2
E Y − ĥ(X) ≤ E Y − h(X)
Dowód. Zauważmy, że
2
MSE = E (Y − h(X))2 = E Y − E(Y |X) + E(Y |X) − h(X)
2 2
= E Y − E(Y |X) + E E(Y |X) − h(X)
+ 2E Y − E(Y |X) E(Y |X) − h(X)
2 2
= E Y − E(Y |X) + E E(Y |X) − h(X) .
70
Predykcja w modelu bayesowskim.
71
Gęstość a posteriori πx obliczamy ze wzoru Bayesa, więc
Z
E µ(Θ)|X1 = x1 , . . . , Xn = xn = µ(θ)πx (θ)dθ
R Q
µ(θ)π(θ) i fθ (xi )dθ
= R Q .
π(θ) i fθ (xi )dθ
BP(Xn+1 ) = BP (µ(Θ)) .
72
Zwróćmy uwagę na sens błędu średniokwadratowego w modelu bayesowskim.
Wartość oczekiwana, o której mowa w definicji MSE, oznacza średnią wzglę-
dem łącznego rozkładu prawdopodobieństwa wszystkich rozważanych zmien-
nych losowych. Należy pamiętać o tym, że przymiotnik „średni” odnosi się
do obu etapów doświadczenia losowego. Innymi słowy, w naszych zastoso-
waniach ubezpieczeniowych, minimalizujemy średni błąd predykcji w całej
populacji klientów.
Z
MSE = R(θ)π(θ)dθ.
na2 x + s2 m
θ̂ = .
na2 + s2
Innymi słowy,
a2 n
θ̂ = zx + (1 − z)m, gdzie z = .
a2 n + s 2
73
Otrzymaliśmy ważny wzór, dobrze znany każdemu aktuariuszowi. Ten sam
wzór wyprowadzimy później przy nieco innych założeniach.
74
Predykcja liniowa
75
Dowód. Ponieważ ograniczamy się do funkcji liniowych, MSE jest faktycznie
funkcją współczynników c0 , c1 , . . . , cn . Będziemy szukać minimum tej funkcji.
n
X n
X 2
MSE(c0 , c1 , . . . , cn ) = E Y − EY − ci (Xi − EXi ) + EY − ci EXi − c0
i=1 i=1
= E(Y − EY )2
X n
+E ci (Xi − EXi )(Xj − EXj )cj
i,j=1
Xn
− 2E ci (Xi − EXi )(Y − EY )
i=1
n
X 2
+ EY − ci EXi − c0 .
i=1
76
Układ równań w tym twierdzeniu zawsze ma rozwiązanie. To po prostu dla-
tego, że nieujemna funkcja kwadratowa gdzieś musi przyjmować najmniejszą
wartość. Niekiedy rozwiązań może być dużo. Najczęściej będziemy mieli
do czynienia z „niezdegenerowanym przypadkiem”, kiedy nasz układ n + 1
równań z n + 1 niewiadomymi ma jedno rozwiązanie.
Analogicznie, niech
(R
(x − µ(θ))2 fθ (x)dx dla zmiennej ciągłej;
σ 2 (θ) = Var θ (Xi ) = P 2
x (x − µ(θ)) fθ (x) dla zmiennej dyskretnej.
77
Z
m= µ(θ)π(θ)dθ,
Z
s2 = σ 2 (θ)π(θ)dθ,
Z
2
a = (µ(θ) − m)2 π(θ)dθ.
78
Cov(Xi , Xk ) = Cov (E(Xi |Θ), E(Xi |Θ)) + ECov(Xi , Xk |Θ)
= Cov(µ(Θ), µ(Θ)) + 0
= a2 .
Otrzymane powyżej wyniki można prosto zapisać używając symbolu Iik zde-
finiowanego w taki sposób:
(
1 jeśli i = k;
Iik =
0 6 k.
jeśli i =
Cov(Xi , Xk ) = a2 + Iik s2 ,
79
Przepiszmy k-te równanie w postaci
s 2 c k + a2 c • = a2 ,
Pn
gdzie c• = i=1 ci . Jeśli zsumujemy te równania względem k to otrzymamy
s2 c• + a2 nc• = a2 n,
skąd
a2 n
c• = 2 .
a n + s2
Niech z = c• . Teraz już łatwo wyliczyć, że ck = z/n dla k = 1, . . . , n.
Wreszcie, c0 = m − c• m = (1 − z)m.
80
Model Bühlmanna - Strauba.
Θj ; Xji (j = 1, . . . , p; i = 1, . . . , nj )
Innymi słowy,
81
Zauważmy, że warunkowy rozkład zmiennych Xji z j-tej grupy zależy tylko
od Θj . Układ zmiennych losowych spełniających Założenie 4.4.5 będziemy
nazywać modelem Bühlmanna - Strauba.
Oczywiście,
gdzie
a2 nj
zj =
a2 nj + s2
82
jest współczynnikiem zaufania (zależnym od grupy j),
1 X
X̄j = Xji
nj i
jest średnią danych w j-tej grupie. Oczywiście, można również odwołać się
explicite do Twierdzenia 4.4.2 i wykorzystać fakt, że zmienne z różnych wier-
szy są nieskorelowane, aby otrzymać w drodze czysto rachunkowej ten sam
wynik.
Nasuwa się wobec tego pytanie: po co nam model uwzględniający dane dla
wielu klientów, skoro najlepszy liniowy predyktor korzysta tylko z danych
dotyczących jednego klienta? Odpowiedź jest bardzo prosta. Nasz predyktor
zakłada znajomość trzech parametrów: m, s2 i a2 . W praktyce te parametry
są nieznane i musimy je estymować na podstawie danych. Dwa z nich, m
i a2 opisują własności populacji klientów i mogą być estymowane tylko jeśli
mamy próbkę z tej populacji! Rolę tej próbki odgrywają wiersze tablicy (Xji )
– i dlatego są potrzebne. Model Bühlmanna - Strauba reprezentuje w tym
sensie empiryczne podejście bayesowskie.
83
Poprzestaniemy na podaniu podstawowych wzorów na predyktory i estyma-
tory używane w modelu Bühlmanna - Strauba. Wyjaśnimy sens tych wzo-
rów na poziomie intuicyjnym. Pominiemy formalne definicje takich pojęć
jak BLUP i BLUE (Best Linear Unbiased Estimator ), najlepszy liniowy nie-
obciążony estymator oraz wyjaśnienie związku między nimi. To są tematy
należące do teorii mieszanych modeli liniowych i tylko w tym kontekście
można je właściwie zrozumieć.
p p nj
X X X
2
SSB = nj (X̄j − X̄) , SSW = (Xji − X̄j )2 ,
j=1 j=1 i=1
Interesujące jest to, że BLUE(m) jest średnią ważoną w której wagi są zwią-
zane ze współczynnikami wiarogodności zj . Na pierwszy rzut oka wydawać
by się mogło, że bardziej naturalne jest użycie „zwykłej” średniej X̄. Na ogół
84
jednak X̄ 6= m̂. Obie średnie są estymatorami nieobciążonymi, ale m̂ ma
mniejszą wariancję (w istocie, najmniejszą spośród wszystkich estymatorów
liniowych nieobciążonych). To wynika z faktu, że średnie grupowe X̄j mają
wariancje odwrotnie proporcjonalne do zj , mianowicie Var X̄j = a2 = s2 /nj .
Powiemy, że jest to estymator otrzymany metodą ANOVA. Jego wadą jest to,
że czasami przyjmuje wartości ujemne, choć jest estymatorem nieujemnego
parametru a2 . Z praktycznego punktu widzenia problem jest niewielki, bo
można używać estymatora max(â2 , 0). Jednak w ten sposób otrzymujemy
oczywiście estymator obciążony, a więc rezygnujemy z ważnej teoretycznej
zalety estymatora â2 .
85
Zestawienie wzorów
a2 nj
zj =
a2 nj + s2
gdzie
â2 nj ˆ =
X ẑj
ẑj = , m̂ X̄j .
â2 nj + ŝ2 j
ẑ•
86
Model Bühlmanna-Strauba jako mieszany model liniowy
Xji = m + αj + εji , (j = 1, . . . , p; i = 1, . . . , nj ),
87