UPC Beamer Template

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 62

Metody wyznaczania kombinacji liniowej

predyktorów w klasyfikacji binarnej

Adrian Siwak

Politechnika Wrocławska
Promotor: dr Alicja Jokiel - Rokita

17 kwietnia 2023

1 / 28
Plan prezentacji
Krzywa ROC
Wprowadzenie
Definicja
Estymacja krzywej ROC
porównywanie klasyfikatorów
AUC i pAUC
definicja AUC
estymacja AUC
definicja pAUC
kombinacje liniowe predyktorów
Maksymalizacja AUC - Idea problemu
Przypadek wielowymiarowy
wprowadzenie
Algorytm 1 -Sprawdzian krzyżowy
Algorytm 2 - Metoda Bootstrap
Maksymalizacja pAUC
założenia (Wenbao Yu, Taesung Park)
Algorytm iteracyjny 2 / 28
Krzywa ROC - Wstęp

ROC ang. Receiver Operating Characteristic — zastosowania

3 / 28
Krzywa ROC - Wstęp

ROC ang. Receiver Operating Characteristic — zastosowania


▶ medycyna

3 / 28
Krzywa ROC - Wstęp

ROC ang. Receiver Operating Characteristic — zastosowania


▶ medycyna
▶ uczenie maszynowe

3 / 28
Krzywa ROC - Wstęp

ROC ang. Receiver Operating Characteristic — zastosowania


▶ medycyna
▶ uczenie maszynowe
▶ teoria wykrywania sygnałów

3 / 28
Krzywa ROC - Wstęp

ROC ang. Receiver Operating Characteristic — zastosowania


▶ medycyna
▶ uczenie maszynowe
▶ teoria wykrywania sygnałów
▶ ocena aplikacji kredytowych

3 / 28
Wstęp

Załóżmy, że dane są niezależnymi parami (U, L) ∈ R × {0, 1},


gdzie U jest zmienną losową o rozkładzie absolutnie ciągłym, a E
reprezentuje etykietę binarną.

4 / 28
Wstęp

Załóżmy, że dane są niezależnymi parami (U, L) ∈ R × {0, 1},


gdzie U jest zmienną losową o rozkładzie absolutnie ciągłym, a E
reprezentuje etykietę binarną.

Uwaga
Często zmienną U traktujemy jako wyniki pewnego testu
diagnostycznego, dla którego im większa zaobserwowana wartość u
tym większe prawdopodobieństwo zakwalifikowania obserwacji do
grupy o etykiecie L = 1.

4 / 28
Wstęp

Przyjmujemy, że reguła klasyfikacyjna jest postaci


(
1, gdy u > c
dc (u) =
0, gdy u ¬ c

gdzie c ∈ [−∞, ∞] to pewna ustalona wartość progowa (ang.


threshold), nazywana również punktem odcięcia (ang. cutoff).

5 / 28
Wstęp

Zdefiniowana powyżej reguła diagnostyczna dzieli zbór wartości


zmiennej U na dwa rozłączne podzbiory Interesować nas będzie jej
rozkład w każdej z tych zbiorów.

6 / 28
Wstęp

Zdefiniowana powyżej reguła diagnostyczna dzieli zbór wartości


zmiennej U na dwa rozłączne podzbiory Interesować nas będzie jej
rozkład w każdej z tych zbiorów.

Oznaczenia

6 / 28
Wstęp

Zdefiniowana powyżej reguła diagnostyczna dzieli zbór wartości


zmiennej U na dwa rozłączne podzbiory Interesować nas będzie jej
rozkład w każdej z tych zbiorów.

Oznaczenia
X := (U|L = 0)

6 / 28
Wstęp

Zdefiniowana powyżej reguła diagnostyczna dzieli zbór wartości


zmiennej U na dwa rozłączne podzbiory Interesować nas będzie jej
rozkład w każdej z tych zbiorów.

Oznaczenia
X := (U|L = 0)
Y := (U|L = 1)

6 / 28
Wstęp

Zdefiniowana powyżej reguła diagnostyczna dzieli zbór wartości


zmiennej U na dwa rozłączne podzbiory Interesować nas będzie jej
rozkład w każdej z tych zbiorów.

Oznaczenia
X := (U|L = 0)
Y := (U|L = 1)
F - dystrubuanta X , f - gęstość X

6 / 28
Wstęp

Zdefiniowana powyżej reguła diagnostyczna dzieli zbór wartości


zmiennej U na dwa rozłączne podzbiory Interesować nas będzie jej
rozkład w każdej z tych zbiorów.

Oznaczenia
X := (U|L = 0)
Y := (U|L = 1)
F - dystrubuanta X , f - gęstość X
G - dystrybuanta Y , g - gęstość Y

6 / 28
Wstęp

Zdefiniowana powyżej reguła diagnostyczna dzieli zbór wartości


zmiennej U na dwa rozłączne podzbiory Interesować nas będzie jej
rozkład w każdej z tych zbiorów.

Oznaczenia
X := (U|L = 0)
Y := (U|L = 1)
F - dystrubuanta X , f - gęstość X
G - dystrybuanta Y , g - gęstość Y

Podstawową charakterystyką skuteczności testu diagnostycznego


jest prawdopodobieństwo prawidłowego zakwalifikowania
konkretnego przypadku do grupy o odpowiedniej etykiecie.

6 / 28
Czułość

Definicja
Czułość (ang. sensitivity) określamy jako prawdopodobieństwo, że
przypadek o etykiecie 1 zostanie zakwalifikowany do grupy o
etykiecie 1.

7 / 28
Czułość

Definicja
Czułość (ang. sensitivity) określamy jako prawdopodobieństwo, że
przypadek o etykiecie 1 zostanie zakwalifikowany do grupy o
etykiecie 1.
SE (c) = P(dc (U) = 1|L = 1)

7 / 28
Czułość

Definicja
Czułość (ang. sensitivity) określamy jako prawdopodobieństwo, że
przypadek o etykiecie 1 zostanie zakwalifikowany do grupy o
etykiecie 1.
SE (c) = P(dc (U) = 1|L = 1) = P(U > c|L = 1)

7 / 28
Czułość

Definicja
Czułość (ang. sensitivity) określamy jako prawdopodobieństwo, że
przypadek o etykiecie 1 zostanie zakwalifikowany do grupy o
etykiecie 1.
SE (c) = P(dc (U) = 1|L = 1) = P(U > c|L = 1) = 1 − G (c)

7 / 28
Czułość

Definicja
Czułość (ang. sensitivity) określamy jako prawdopodobieństwo, że
przypadek o etykiecie 1 zostanie zakwalifikowany do grupy o
etykiecie 1.
SE (c) = P(dc (U) = 1|L = 1) = P(U > c|L = 1) = 1 − G (c)

Przypomnienie definicji
G - dystrybuanta Y
Y := (U|L = 1)

7 / 28
Specyficzność

Definicja
Specyficzność (ang. specifity) określamy jako prawdopodobieństwo,
że przypadek o etykiecie 0 zostanie zakwalifikowany do grupy o
etykiecie 0.

8 / 28
Specyficzność

Definicja
Specyficzność (ang. specifity) określamy jako prawdopodobieństwo,
że przypadek o etykiecie 0 zostanie zakwalifikowany do grupy o
etykiecie 0.
SP(c) = P(dc (U) = 0|L = 0)

8 / 28
Specyficzność

Definicja
Specyficzność (ang. specifity) określamy jako prawdopodobieństwo,
że przypadek o etykiecie 0 zostanie zakwalifikowany do grupy o
etykiecie 0.
SP(c) = P(dc (U) = 0|L = 0) = P(U ¬ c|L = 0)

8 / 28
Specyficzność

Definicja
Specyficzność (ang. specifity) określamy jako prawdopodobieństwo,
że przypadek o etykiecie 0 zostanie zakwalifikowany do grupy o
etykiecie 0.
SP(c) = P(dc (U) = 0|L = 0) = P(U ¬ c|L = 0) = F (c)

8 / 28
Specyficzność

Definicja
Specyficzność (ang. specifity) określamy jako prawdopodobieństwo,
że przypadek o etykiecie 0 zostanie zakwalifikowany do grupy o
etykiecie 0.
SP(c) = P(dc (U) = 0|L = 0) = P(U ¬ c|L = 0) = F (c)

Przypomnienie definicji
F - dystrybuanta X
X := (U|L = 0)

8 / 28
Krzywa ROC

9 / 28
Krzywa ROC

Definicja
Krzywą ROC nazywamy zbiór punktów w kwadracie jednostkowym
[0, 1] × [0, 1] spełniających równanie

9 / 28
Krzywa ROC

Definicja
Krzywą ROC nazywamy zbiór punktów w kwadracie jednostkowym
[0, 1] × [0, 1] spełniających równanie

ROC (·) = {(1 − SP(c), SE (c)) : −∞ ¬ c ¬ ∞}.

9 / 28
Krzywa ROC

Definicja
Krzywą ROC nazywamy zbiór punktów w kwadracie jednostkowym
[0, 1] × [0, 1] spełniających równanie

ROC (·) = {(1 − SP(c), SE (c)) : −∞ ¬ c ¬ ∞}.

Alternatywny zapis

ROC (·) = {(1 − F (c), 1 − G (c)) : −∞ ¬ c ¬ ∞}

9 / 28
Estymacja krzywej ROC

Dystrybuanta empiryczna
Niech (X1 , · · · , Xn ) będą iid o dystybuancie F (t)

10 / 28
Estymacja krzywej ROC

Dystrybuanta empiryczna
Niech (X1 , · · · , Xn ) będą iid o dystybuancie F (t)
Wtedy dystrybuantę empiryczną definiujemy jako
n
1X
F̂n (t) = IX ¬t
n i=1 i

gdzie I jest funkcją charakterystyczną zbioru.

10 / 28
Estymacja krzywej ROC

Przypomnienie

ROC (·) = {(1 − F (c), 1 − G (c)) : −∞ ¬ c ¬ ∞}

11 / 28
Estymacja krzywej ROC

Przypomnienie

ROC (·) = {(1 − F (c), 1 − G (c)) : −∞ ¬ c ¬ ∞}

ROC - postać parametryczna


Jeżeli oznaczymy t = 1 − F (c), skąd mamy
c(t) = F −1 (1 − t), t ∈ [0, 1], to krzywą ROC można zapisać w
postaci ROC (t) = 1 − G (F −1 (1 − t)), gdzie I jest funkcją
charakterystyczną zbioru.

11 / 28
Estymacja krzywej ROC

ROC - estymacja
Stąd estymatorem krzywej ROC typu plug-in jest
ˆ (t) = 1 − Ĝ (F̂ −1 (1 − t)), t ∈ [0, 1]
ROC

gdzie F̂ −1 = inf {x : F̂ (x) ­ t}

12 / 28
Macierz pomyłek

13 / 28
ROC wykres

14 / 28
ROCCH - ROC convex hull

15 / 28
AUC - AREA UNDER THE ROC CURVE

Definicja
AUC jestR polem pod krzywą ROC
AUC = 01 ROC (t) dt

16 / 28
AUC - AREA UNDER THE ROC CURVE

Definicja
AUC jestR polem pod krzywą ROC
AUC = 01 ROC (t) dt
AUC = P(Y > X )

16 / 28
AUC - AREA UNDER THE ROC CURVE

Definicja
AUC jestR polem pod krzywą ROC
AUC = 01 ROC (t) dt
AUC = P(Y > X )
X := (U|L = 0)

16 / 28
AUC - AREA UNDER THE ROC CURVE

Definicja
AUC jestR polem pod krzywą ROC
AUC = 01 ROC (t) dt
AUC = P(Y > X )
X := (U|L = 0)
Y := (U|L = 1)

16 / 28
AUC

Założenia
Niech X = (X1 , . . . , Xn ),
Y = (Y1 , . . . , Ym ),
X = (U|L = 0) ∼ F ,
Y = (U|L = 1) ∼ G ,
Zakładamy że próby są niezależne.

AUC = P(Y > X )


Estymatorem AUC jest
m X n
[= 1
X
AUC I (Yi > Xj )
nm i=1 j=1

17 / 28
pAUC

Definicja
Powierzchnię częściowego pola pod krzywą ROC, oznaczamy jako
pAUC (ang. partial Area Under ROC Curve)
Z b
pAUC := ROC (t) dt
a

dla a, b ∈ [0, 1]

18 / 28
pAUC

Definicja
Powierzchnię częściowego pola pod krzywą ROC, oznaczamy jako
pAUC (ang. partial Area Under ROC Curve)
Z b
pAUC := ROC (t) dt
a

dla a, b ∈ [0, 1]

18 / 28
Idea problemu

Mamy kilka testów diagnostycznych dla jednej choroby, chcemy je


połączyć ze sobą żeby osiągnąć większą trafność diagnostyczą,

19 / 28
Idea problemu

Mamy kilka testów diagnostycznych dla jednej choroby, chcemy je


połączyć ze sobą żeby osiągnąć większą trafność diagnostyczą,
W tym celu będziemy szukać kombinacji liniowej tych testów która
maksymalizuje AUC.

19 / 28
Przypadek wielowymiarowy

Wstęp
Niech U = (U1 , . . . , Up )T będzie p testami diagnostycznymi
dającymi ciągłe wyniki.

20 / 28
Przypadek wielowymiarowy

Wstęp
Niech U = (U1 , . . . , Up )T będzie p testami diagnostycznymi
dającymi ciągłe wyniki.Przeprowadzamy je na m zdrowych
pacjentach dostając
Xi = (Xi1 , . . . , Xip )T , i = 1, . . . , m i.i.d. X ∼ F (X ) wyników,
i n chorych pacjentach dostając
Yi = (Yj1 , . . . , Yjp )T , j = 1, . . . , n i.i.d. Y ∼ G (Y ) wyników.

20 / 28
Przypadek wielowymiarowy

Maksymalizacja
Szukamy wektora

β0 = argmax P(β T Y > β T X )


β∈B

gdzie B = {β ∈ R : ||β|| = 1}

21 / 28
Przypadek wielowymiarowy

Maksymalizacja
Szukamy wektora

β0 = argmax P(β T Y > β T X )


β∈B

gdzie B = {β ∈ R : ||β|| = 1}
Jego estymatorem jest
m X n
1 X
β̂ = argmax I (β T Yj > β T Xi )
β∈B nm i=1 j=1

21 / 28
[ (β̂)
Najprostrza estymacja AUC

1 Pm Pn TY
[ (β̂) =
AUC nm i=1 j=1 I (β̂ i > β̂ T Xj )

22 / 28
leave-one-pair-out cross-validation

Sprawdzian krzyżowy dla estymacji AUC (β̂)

m X n
1 X
AUC CV = I (β̂ (−ij)T Yj > β̂ (−ij)T Xi )
nm i=1 j=1

gdzie β̂ (−ij)T jest estymatorem obliczonym w oparciu o próbę bez


pary (i,j)

23 / 28
leave-one-pair-out cross-validation

Sprawdzian krzyżowy dla estymacji AUC (β̂)

m X n
1 X
AUC CV = I (β̂ (−ij)T Yj > β̂ (−ij)T Xi )
nm i=1 j=1

gdzie β̂ (−ij)T jest estymatorem obliczonym w oparciu o próbę bez


pary (i,j)

Wybór podzbioru testów diagnostycznych


Jeżeli w zbioże przeprowadzonych testów są testy zbędne, możemy
poszukiwać ”najlepszego” podzbioru

23 / 28
leave-one-pair-out cross-validation

Sprawdzian krzyżowy dla estymacji AUC (β̂)

m X n
1 X
AUC CV = I (β̂ (−ij)T Yj > β̂ (−ij)T Xi )
nm i=1 j=1

gdzie β̂ (−ij)T jest estymatorem obliczonym w oparciu o próbę bez


pary (i,j)

Wybór podzbioru testów diagnostycznych


Jeżeli w zbioże przeprowadzonych testów są testy zbędne, możemy
poszukiwać ”najlepszego” podzbioru
▶ dla każdego z 2p − 1 podzbiorów obliczamy AUC CV
▶ wybieramy podzbiór z największym AUC CV

23 / 28
leave-one-pair-out bootstrap cross-validation Efron (1983)

Sprawdzian krzyżowy z metodą bootstrap przy estymacji


AUC (β̂)
Niech X ∗(i)b oznacza b-tą próbę bootstrapową z dystrybuanty
empirycznej na X (i) - próba X bez i-tej obserwacji. Y analogicznie.
m X n B
1 X 1 X
AUC BT = I (β̂ ∗b(−ij)T Yj > β̂ ∗b(−ij)T Xi )
nm i=1 j=1 B b=1

gdzie β̂ ∗b(−ij)T jest estymatorem obliczonym w oparciu o b-tą


próbę bootstrapową z X (i) i Y (j) .

24 / 28
Maksymalizacja pAUC - założenia (Wenbao Yu, Taesung
Park, 2014)

X ∼ N(µx , Σx )
Y ∼ N(µy , Σy )

25 / 28
Maksymalizacja pAUC - założenia (Wenbao Yu, Taesung
Park, 2014)

X ∼ N(µx , Σx )
Y ∼ N(µy , Σy )

wtedy
C D = β T Y ∼ N(β T µy , β T Σy β),
C N = β T X ∼ N(β T µx , β T Σx β).
Krzywa ROC dla C D i C N jest postaci (po przekształceniach):

(β T Σx φ−1 (1 − t)) − β T (µy − µx )


p
ROC (t) = 1 − φ( p )
(β T Σy )β
gdzie φ to dystrybuanta rozkładu normalnego
(z tego wzoru można potem korzystać obliczając pAUCu )

25 / 28
26 / 28
Maksymalizacja pAUC - Algorytm

1.Policzyć macierze kowariancji Sx i Sy i wektory średnich µx i


muy .
2. Zgadnąć początkową wartość βˆ(0) .
3. Dla i-tej iteracji,
βˆ(i) = (ω1 (β (i−1)
ˆ )S + ω 2β (i−1)
x 1
ˆ )S )−1 (µˆ − µˆ ),
y y x
ˆ
(i)
następnie ustandaryzować β .
4. Powtarzać krok 3 aż max|βˆ(i) − β (i−1)
ˆ | < 0.001

27 / 28
Bibliografia

1. An introduction to ROC analysis


Tom Fawcett 2015 2. Systemy uczące się
M. Krzyśko, W. Wołczyński, T. Górecki, M. Skorzybut 3. Two
simple algorithms on linear combination of multiple biomarkers to
maximize partial area under the ROC curve
Wenbao Yu, Taesung Park 2014
4. Optimal Combinations of Diagnostic Tests Based on AUC
Xin Huang, Gengsheng Qin, and Yixin Fang 2011

28 / 28

You might also like