UPC Beamer Template

Metody wyznaczania kombinacji liniowej
predyktorów w klasyfikacji binarnej
Adrian Siwak
Politechnika Wrocławska
Promotor: dr Alicja Jokiel - Rokita
17 kwietnia 2023
1 / 28
Plan prezentacji
Krzywa ROC
Wprowadzenie
Definicja
Estymacja krzywej ROC
porównywanie klasyfikatorów
AUC i pAUC
definicja AUC
estymacja AUC
definicja pAUC
kombinacje liniowe predyktorów
Maksymalizacja AUC - Idea problemu
Przypadek wielowymiarowy
wprowadzenie
Algorytm 1 -Sprawdzian krzyżowy
Algorytm 2 - Metoda Bootstrap
Maksymalizacja pAUC
założenia (Wenbao Yu, Taesung Park)
Algorytm iteracyjny 2 / 28
Krzywa ROC - Wstęp
ROC ang. Receiver Operating Characteristic — zastosowania
3 / 28
Krzywa ROC - Wstęp

▶ medycyna
3 / 28
Krzywa ROC - Wstęp

▶ medycyna
▶ uczenie maszynowe
3 / 28
Krzywa ROC - Wstęp

▶ medycyna
▶ teoria wykrywania sygnałów
3 / 28
Krzywa ROC - Wstęp

▶ medycyna
▶ teoria wykrywania sygnałów
▶ ocena aplikacji kredytowych
3 / 28
Wstęp
Załóżmy, że dane są niezależnymi parami (U, L) ∈ R × {0, 1},

gdzie U jest zmienną losową o rozkładzie absolutnie ciągłym, a E
reprezentuje etykietę binarną.
4 / 28
Wstęp
Załóżmy, że dane są niezależnymi parami (U, L) ∈ R × {0, 1},

gdzie U jest zmienną losową o rozkładzie absolutnie ciągłym, a E
reprezentuje etykietę binarną.
Uwaga
Często zmienną U traktujemy jako wyniki pewnego testu
diagnostycznego, dla którego im większa zaobserwowana wartość u
tym większe prawdopodobieństwo zakwalifikowania obserwacji do
grupy o etykiecie L = 1.
4 / 28
Wstęp
Przyjmujemy, że reguła klasyfikacyjna jest postaci

(
1, gdy u > c
dc (u) =
0, gdy u ¬ c
gdzie c ∈ [−∞, ∞] to pewna ustalona wartość progowa (ang.

threshold), nazywana również punktem odcięcia (ang. cutoff).
5 / 28
Wstęp
Zdefiniowana powyżej reguła diagnostyczna dzieli zbór wartości

zmiennej U na dwa rozłączne podzbiory Interesować nas będzie jej
rozkład w każdej z tych zbiorów.
6 / 28
Wstęp

Oznaczenia
6 / 28
Wstęp

Oznaczenia
X := (U|L = 0)
6 / 28
Wstęp

Oznaczenia
X := (U|L = 0)
Y := (U|L = 1)
6 / 28
Wstęp

Oznaczenia
X := (U|L = 0)
Y := (U|L = 1)
F - dystrubuanta X , f - gęstość X
6 / 28
Wstęp

Oznaczenia
X := (U|L = 0)
Y := (U|L = 1)
G - dystrybuanta Y , g - gęstość Y
6 / 28
Wstęp

Oznaczenia
X := (U|L = 0)
Y := (U|L = 1)
G - dystrybuanta Y , g - gęstość Y
Podstawową charakterystyką skuteczności testu diagnostycznego

jest prawdopodobieństwo prawidłowego zakwalifikowania
konkretnego przypadku do grupy o odpowiedniej etykiecie.
6 / 28
Czułość
Definicja
Czułość (ang. sensitivity) określamy jako prawdopodobieństwo, że
przypadek o etykiecie 1 zostanie zakwalifikowany do grupy o
etykiecie 1.
7 / 28
Czułość
Definicja
etykiecie 1.
SE (c) = P(dc (U) = 1|L = 1)
7 / 28
Czułość
Definicja
etykiecie 1.
SE (c) = P(dc (U) = 1|L = 1) = P(U > c|L = 1)
7 / 28
Czułość
Definicja
etykiecie 1.
SE (c) = P(dc (U) = 1|L = 1) = P(U > c|L = 1) = 1 − G (c)
7 / 28
Czułość
Definicja
etykiecie 1.
SE (c) = P(dc (U) = 1|L = 1) = P(U > c|L = 1) = 1 − G (c)
Przypomnienie definicji
G - dystrybuanta Y
Y := (U|L = 1)
7 / 28
Specyficzność
Definicja
Specyficzność (ang. specifity) określamy jako prawdopodobieństwo,
że przypadek o etykiecie 0 zostanie zakwalifikowany do grupy o
etykiecie 0.
8 / 28
Specyficzność
Definicja
etykiecie 0.
SP(c) = P(dc (U) = 0|L = 0)
8 / 28
Specyficzność
Definicja
etykiecie 0.
SP(c) = P(dc (U) = 0|L = 0) = P(U ¬ c|L = 0)
8 / 28
Specyficzność
Definicja
etykiecie 0.
SP(c) = P(dc (U) = 0|L = 0) = P(U ¬ c|L = 0) = F (c)
8 / 28
Specyficzność
Definicja
etykiecie 0.
SP(c) = P(dc (U) = 0|L = 0) = P(U ¬ c|L = 0) = F (c)
Przypomnienie definicji
F - dystrybuanta X
X := (U|L = 0)
8 / 28
Krzywa ROC
9 / 28
Krzywa ROC
Definicja
Krzywą ROC nazywamy zbiór punktów w kwadracie jednostkowym
[0, 1] × [0, 1] spełniających równanie
9 / 28
Krzywa ROC
Definicja
ROC (·) = {(1 − SP(c), SE (c)) : −∞ ¬ c ¬ ∞}.
9 / 28
Krzywa ROC
Definicja
ROC (·) = {(1 − SP(c), SE (c)) : −∞ ¬ c ¬ ∞}.
Alternatywny zapis
ROC (·) = {(1 − F (c), 1 − G (c)) : −∞ ¬ c ¬ ∞}
9 / 28
Dystrybuanta empiryczna
Niech (X1 , · · · , Xn ) będą iid o dystybuancie F (t)
10 / 28
Dystrybuanta empiryczna
Niech (X1 , · · · , Xn ) będą iid o dystybuancie F (t)
Wtedy dystrybuantę empiryczną definiujemy jako
n
1X
F̂n (t) = IX ¬t
n i=1 i
gdzie I jest funkcją charakterystyczną zbioru.
10 / 28
Przypomnienie
ROC (·) = {(1 − F (c), 1 − G (c)) : −∞ ¬ c ¬ ∞}
11 / 28
Przypomnienie
ROC (·) = {(1 − F (c), 1 − G (c)) : −∞ ¬ c ¬ ∞}
ROC - postać parametryczna

Jeżeli oznaczymy t = 1 − F (c), skąd mamy
c(t) = F −1 (1 − t), t ∈ [0, 1], to krzywą ROC można zapisać w
postaci ROC (t) = 1 − G (F −1 (1 − t)), gdzie I jest funkcją
charakterystyczną zbioru.
11 / 28
ROC - estymacja
Stąd estymatorem krzywej ROC typu plug-in jest
ˆ (t) = 1 − Ĝ (F̂ −1 (1 − t)), t ∈ [0, 1]
ROC
gdzie F̂ −1 = inf {x : F̂ (x) t}
12 / 28
Macierz pomyłek
13 / 28
ROC wykres
14 / 28
ROCCH - ROC convex hull
15 / 28
AUC - AREA UNDER THE ROC CURVE
Definicja
AUC jestR polem pod krzywą ROC
AUC = 01 ROC (t) dt
16 / 28
Definicja
AUC = 01 ROC (t) dt
AUC = P(Y > X )
16 / 28
Definicja
AUC = 01 ROC (t) dt
AUC = P(Y > X )
X := (U|L = 0)
16 / 28
Definicja
AUC = 01 ROC (t) dt
AUC = P(Y > X )
X := (U|L = 0)
Y := (U|L = 1)
16 / 28
AUC
Założenia
Niech X = (X1 , . . . , Xn ),
Y = (Y1 , . . . , Ym ),
X = (U|L = 0) ∼ F ,
Y = (U|L = 1) ∼ G ,
Zakładamy że próby są niezależne.
AUC = P(Y > X )

Estymatorem AUC jest
m X n
[= 1
X
AUC I (Yi > Xj )
nm i=1 j=1
17 / 28
pAUC
Definicja
Powierzchnię częściowego pola pod krzywą ROC, oznaczamy jako
pAUC (ang. partial Area Under ROC Curve)
Z b
pAUC := ROC (t) dt
a
dla a, b ∈ [0, 1]
18 / 28
pAUC
Definicja
Powierzchnię częściowego pola pod krzywą ROC, oznaczamy jako
pAUC (ang. partial Area Under ROC Curve)
Z b
pAUC := ROC (t) dt
a
dla a, b ∈ [0, 1]
18 / 28
Idea problemu
Mamy kilka testów diagnostycznych dla jednej choroby, chcemy je

połączyć ze sobą żeby osiągnąć większą trafność diagnostyczą,
19 / 28
Idea problemu
Mamy kilka testów diagnostycznych dla jednej choroby, chcemy je

połączyć ze sobą żeby osiągnąć większą trafność diagnostyczą,
W tym celu będziemy szukać kombinacji liniowej tych testów która
maksymalizuje AUC.
19 / 28
Wstęp
Niech U = (U1 , . . . , Up )T będzie p testami diagnostycznymi
dającymi ciągłe wyniki.
20 / 28
Wstęp
Niech U = (U1 , . . . , Up )T będzie p testami diagnostycznymi
dającymi ciągłe wyniki.Przeprowadzamy je na m zdrowych
pacjentach dostając
Xi = (Xi1 , . . . , Xip )T , i = 1, . . . , m i.i.d. X ∼ F (X ) wyników,
i n chorych pacjentach dostając
Yi = (Yj1 , . . . , Yjp )T , j = 1, . . . , n i.i.d. Y ∼ G (Y ) wyników.
20 / 28
Maksymalizacja
Szukamy wektora
β0 = argmax P(β T Y > β T X )

β∈B
gdzie B = {β ∈ R : ||β|| = 1}
21 / 28
Maksymalizacja
Szukamy wektora
β0 = argmax P(β T Y > β T X )

β∈B
gdzie B = {β ∈ R : ||β|| = 1}
Jego estymatorem jest
m X n
1 X
β̂ = argmax I (β T Yj > β T Xi )
β∈B nm i=1 j=1
21 / 28
[ (β̂)
Najprostrza estymacja AUC
1 Pm Pn TY
[ (β̂) =
AUC nm i=1 j=1 I (β̂ i > β̂ T Xj )
22 / 28
leave-one-pair-out cross-validation
Sprawdzian krzyżowy dla estymacji AUC (β̂)
m X n
1 X
AUC CV = I (β̂ (−ij)T Yj > β̂ (−ij)T Xi )
nm i=1 j=1
gdzie β̂ (−ij)T jest estymatorem obliczonym w oparciu o próbę bez

pary (i,j)
23 / 28
m X n
1 X
nm i=1 j=1

pary (i,j)
Wybór podzbioru testów diagnostycznych

Jeżeli w zbioże przeprowadzonych testów są testy zbędne, możemy
poszukiwać ”najlepszego” podzbioru
23 / 28
m X n
1 X
nm i=1 j=1

pary (i,j)
Wybór podzbioru testów diagnostycznych

Jeżeli w zbioże przeprowadzonych testów są testy zbędne, możemy
poszukiwać ”najlepszego” podzbioru
▶ dla każdego z 2p − 1 podzbiorów obliczamy AUC CV
▶ wybieramy podzbiór z największym AUC CV
23 / 28
leave-one-pair-out bootstrap cross-validation Efron (1983)
Sprawdzian krzyżowy z metodą bootstrap przy estymacji

AUC (β̂)
Niech X ∗(i)b oznacza b-tą próbę bootstrapową z dystrybuanty
empirycznej na X (i) - próba X bez i-tej obserwacji. Y analogicznie.
m X n B
1 X 1 X
AUC BT = I (β̂ ∗b(−ij)T Yj > β̂ ∗b(−ij)T Xi )
nm i=1 j=1 B b=1
gdzie β̂ ∗b(−ij)T jest estymatorem obliczonym w oparciu o b-tą

próbę bootstrapową z X (i) i Y (j) .
24 / 28
Maksymalizacja pAUC - założenia (Wenbao Yu, Taesung
Park, 2014)
X ∼ N(µx , Σx )
Y ∼ N(µy , Σy )
25 / 28
Maksymalizacja pAUC - założenia (Wenbao Yu, Taesung
Park, 2014)
X ∼ N(µx , Σx )
Y ∼ N(µy , Σy )
wtedy
C D = β T Y ∼ N(β T µy , β T Σy β),
C N = β T X ∼ N(β T µx , β T Σx β).
Krzywa ROC dla C D i C N jest postaci (po przekształceniach):
(β T Σx φ−1 (1 − t)) − β T (µy − µx )

p
ROC (t) = 1 − φ( p )
(β T Σy )β
gdzie φ to dystrybuanta rozkładu normalnego
(z tego wzoru można potem korzystać obliczając pAUCu )
25 / 28
26 / 28
Maksymalizacja pAUC - Algorytm
1.Policzyć macierze kowariancji Sx i Sy i wektory średnich µx i

muy .
2. Zgadnąć początkową wartość βˆ(0) .
3. Dla i-tej iteracji,
βˆ(i) = (ω1 (β (i−1)
ˆ )S + ω 2β (i−1)
x 1
ˆ )S )−1 (µˆ − µˆ ),
y y x
ˆ
(i)
następnie ustandaryzować β .
4. Powtarzać krok 3 aż max|βˆ(i) − β (i−1)
ˆ | < 0.001
27 / 28
Bibliografia
1. An introduction to ROC analysis

Tom Fawcett 2015 2. Systemy uczące się
M. Krzyśko, W. Wołczyński, T. Górecki, M. Skorzybut 3. Two
simple algorithms on linear combination of multiple biomarkers to
maximize partial area under the ROC curve
Wenbao Yu, Taesung Park 2014
4. Optimal Combinations of Diagnostic Tests Based on AUC
Xin Huang, Gengsheng Qin, and Yixin Fang 2011
28 / 28

UPC Beamer Template

Uploaded by

Copyright:

Available Formats

You might also like

UPC Beamer Template

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

UPC Beamer Template

Uploaded by

Copyright:

Available Formats

Metody wyznaczania kombinacji liniowej

predyktorów w klasyfikacji binarnej

ROC ang. Receiver Operating Characteristic — zastosowania

ROC ang. Receiver Operating Characteristic — zastosowania

ROC ang. Receiver Operating Characteristic — zastosowania

ROC ang. Receiver Operating Characteristic — zastosowania

ROC ang. Receiver Operating Characteristic — zastosowania

Załóżmy, że dane są niezależnymi parami (U, L) ∈ R × {0, 1},

Załóżmy, że dane są niezależnymi parami (U, L) ∈ R × {0, 1},

Przyjmujemy, że reguła klasyfikacyjna jest postaci

gdzie c ∈ [−∞, ∞] to pewna ustalona wartość progowa (ang.

Zdefiniowana powyżej reguła diagnostyczna dzieli zbór wartości

Zdefiniowana powyżej reguła diagnostyczna dzieli zbór wartości

Zdefiniowana powyżej reguła diagnostyczna dzieli zbór wartości

Zdefiniowana powyżej reguła diagnostyczna dzieli zbór wartości

Zdefiniowana powyżej reguła diagnostyczna dzieli zbór wartości

Zdefiniowana powyżej reguła diagnostyczna dzieli zbór wartości

Zdefiniowana powyżej reguła diagnostyczna dzieli zbór wartości

Podstawową charakterystyką skuteczności testu diagnostycznego

ROC (·) = {(1 − SP(c), SE (c)) : −∞ ¬ c ¬ ∞}.

ROC (·) = {(1 − SP(c), SE (c)) : −∞ ¬ c ¬ ∞}.

ROC (·) = {(1 − F (c), 1 − G (c)) : −∞ ¬ c ¬ ∞}

gdzie I jest funkcją charakterystyczną zbioru.

ROC (·) = {(1 − F (c), 1 − G (c)) : −∞ ¬ c ¬ ∞}

ROC (·) = {(1 − F (c), 1 − G (c)) : −∞ ¬ c ¬ ∞}

ROC - postać parametryczna

gdzie F̂ −1 = inf {x : F̂ (x) ­ t}

AUC = P(Y > X )

Mamy kilka testów diagnostycznych dla jednej choroby, chcemy je

Mamy kilka testów diagnostycznych dla jednej choroby, chcemy je

β0 = argmax P(β T Y > β T X )

β0 = argmax P(β T Y > β T X )

Sprawdzian krzyżowy dla estymacji AUC (β̂)

gdzie β̂ (−ij)T jest estymatorem obliczonym w oparciu o próbę bez

Sprawdzian krzyżowy dla estymacji AUC (β̂)

gdzie β̂ (−ij)T jest estymatorem obliczonym w oparciu o próbę bez

Wybór podzbioru testów diagnostycznych

Sprawdzian krzyżowy dla estymacji AUC (β̂)

gdzie β̂ (−ij)T jest estymatorem obliczonym w oparciu o próbę bez

Wybór podzbioru testów diagnostycznych

Sprawdzian krzyżowy z metodą bootstrap przy estymacji

gdzie β̂ ∗b(−ij)T jest estymatorem obliczonym w oparciu o b-tą

(β T Σx φ−1 (1 − t)) − β T (µy − µx )

1.Policzyć macierze kowariancji Sx i Sy i wektory średnich µx i

1. An introduction to ROC analysis

You might also like

gdzie F̂ −1 = inf {x : F̂ (x) t}