2 Erregresioa

Hizkuntzaren Prozesamendua
Gardenkien iturria (ANLP, David Bamman, UC Berkeley,

HP)
Erregresioa
Erregresioa
Sarrerako x datuetik (𝓧
instantzia-espaziokoak) ℝ-ko
y puntu baterako h mapatzea
George Lucasek 1977. urteko Zinemaldian

aurkeztu zuen Star Wars: Episode IV – A New
Hope, zinemaren historiako klasiko bilakatuko zen
x sagaren lehen filma, eta 42 urte geroago, J.J.
Abrams zuzendariak Star Wars sagak dituen hiru
trilogiei itxiera borobila emateko erronkari eutsi
dio.
y 1.32B euro
Erregresio problemak
ataza 𝓧 𝒴
Iragarri estreinuko Zenbat diru

Zine-kritikak
diru-sarrerak estreinuan
Iragarri etxebizitzen Etxebizitzaren

Salmenta prezioa
salneurria deskribapena
Iragarri stock-ean Produktu baten

Tweet guztiak
mugimenduak salneurria
Erregresioa
Ikasketa gainbegiratua
<x, y> formako

entrenamendurako datuak
emanda, ikasi ĥ(x)
Erregresioa
Ikasketa sakona
Erabaki-zuhaitzak
Eredu probabilistiko grafikoak
Random forests
Erregresio logistikoa Sareak
Support vector machines
Sare neuronalak
Perzeptroia
Erregresio lineala
β ∈ ℝF
(F dimentsioko zenbaki errealen bektorea)
x = Ezaugarri-bektorea β = koefizienteak
Z
Ezaugarria Balioa Xi Ezaugarria β βi
the 0 the 0.01
and 0 and 0.03
action 1 action 15.3
love 1 love 3.1
animation 0 ... animation 13.2 ...
audiences 1 X3 audiences 3.4 β3
not 0 X2 not -3.0 β2
fruit 0 X1 fruit -0.8 β1
BIAS 1 X0 BIAS 16.4 β0

Erregresio lineala
y= balio erreala
ŷ = iragarpena
𝜀 iragarpenaren eta balio errealaren arteko

diferentzia da
Errorea edo iragarpenaren alborapena
(prediction bias) ere deitzen zaio
(ez da Xiβi-ko BIAS)
Ikasketa iteratiboa
Entrenamendua
Parametroen (pisuen, β balioen)
eguneraketa egin, berriro ikasi
Inferentzia:
iragarpenak egin
Eredua ŷ
Atributuak (x) (funtzio iragarlea) Galera
Kalkulatu Galera-
(ŷ - y) funtzioa
Etiketa (y)
Google
●
Ikasketa automatikoko eredu bat, pisuarentzako eta galerarako edozein balio
batzuekin (hipotesi batekin) hasten da eta hipotesi hori modu iteratiboan doitzen
du, galera txikiena lortuko duten pisuak eta alborapenak ikasten dituen arte.
●
Galera-funtzioa: iteratzen, ikasten jarraituko dugu, algoritmoak galera txikiena
duten balioak (β-k) topatzen dituen arte. Iteratuko dugu, galerak aldatzeari uzten
dion arte edo oso poliki aldatzen den arte. Ereduak konbergitu du.
Galera funtzio ezagun bat
● Galera-funtzio bat: errore koadratikoa (L2 galera)

– Adibide baterako (instantzia, datu-puntu bat):
●
Batezbesteko errore koadratikoa: adibide guztien
galera koadratikoen batezbestekoa (Mean Squared
Error-MSE)
Metrikak
(Galera)
• ŷ iragarpenaren eta egiazko y-aren arteko
diferentzia neurtzen du (N adibidetan)
Batez besteko
errore koadratikoa
Mean squared error (MSE)
Batezbesteko errore
absolutua
Mean absolute error
(MAE)
y ŷ MAE MSE
1 2 1 1
% 81,7 MAE 1 1.1 0.1 0.01 % 98,6 MSE

(batezbesteko 1 100 99 9801 (batezbesteko
errore → ← errore
1 5 4 16
absolutua) koadratikoa)
1 -5 6 36
1 10 9 81
1 3 2 4
1 0.9 0.1 0.01
1 1 0 0
9939.0
121.2
2
Batez besteko errore koadratikoak (MSE) muturreko datuak (outlier)
gehiago penalizatzen ditu batezbesteko errore absolutuak baino.
Absolutua sendoagoa da.
β = koefizienteak
Ezaugarria β
Clinton jarraitu -3.1
Trump jarraitu 6.8
Nola lortu β-rako “benghazi” 1.4

balio onak? “benghazi”+
sentimendu 3.2
negatiboa
“etorkin ilegala” 8.7

Galera, Profilean
7.9
batezbesteko errore “errepublikarra”
koadratikoak, Profilean
-3.0
minimizatuz “demokrata”
kokalekua =
-1.7
Berkeley
Karratu gutxiago
Egiten ditugun erroreak,
galera, minimizatu nahi
dugu, horretarako β pisuak
kalkulatuaz
β berria, aurrekoa da
errorea minimizatuta
Lineala
Ikasketa iteratiboa
Entrenamendua
Parametroen (pisuen, β balioen)
eguneraketa egin, berriro ikasi
Inferentzia:
iragarpenak egin
Eredua ŷ
Atributuak (x) (funtzio iragarlea) Galera
Kalkulatu Galera-
(ŷ - y) funtzioa
Etiketa (y)
Google
●
Ikasketa automatikoko eredu bat, pisuarentzako eta galerarako edozein balio
batzuekin (hipotesi batekin) hasten da eta hipotesi hori modu iteratiboan doitzen
du, galera txikiena lortuko duten pisuak eta alborapenak ikasten dituen arte.
●
Galera-funtzioa: iteratzen, ikasten jarraituko dugu, algoritmoak galera txikiena
duten balioak (β-k) topatzen dituen arte. Iteratuko dugu, galerak aldatzeari uzten
dion arte edo oso poliki aldatzen den arte. Ereduak konbergitu du.
Galeraren murrizketa
• Hau bi modutan egin dezakegu:
• Ekuazioekin
• Iteratiboki (gradiente jaitsiera)
Gradiente jaitsiera
●
β-en balio guztientzako 1) βi-rentzako hasiera
galera neurtuko bagenu, puntu bat aukeratu
erregresiotan forma hau
(edozein, batzuetan 0)
lortzen da. Galera-
funtzioaren kurba.
Hasiera
ausaz
Galera Galera
Minimoan
konbergitzen du β balioak β balioak
galera funtzioak
Gradiente jaitsiera
2) Gradienteen jaitsiera 3) Galera-funtzioaren kurbaren
algoritmoak galera kurbaren hurrengo puntua aztertzen da
gradientea kalkulatzen du. Hau da,
bektore bat (noranzkoa eta
tamaina ditu).
Gradiente Gradiente
Hasiera negatiboa Hasiera negatiboa
Galera Galera
Hurrengo
β balioak puntua β balioak
Noranzkoak beti galera-funtzioaren Errepikatu minimora iritsi arte

igoerarik maldatsuena apuntatzen
du. Algoritmoak urrats bat egiten
du gradiente negatiboaren
alderantz galera ahalik eta
azkarren jaisteko.
Ikasketa-tasa
(learning rate)
Gradienteen jaitsierarako algoritmoek gradientea eskalar
batekin biderkatzen dute: ikasketa-tasa (hiperparametroa)
Hasiera Hasiera
Galera Galera
Minimoa
Pasata!
β balioak
Ikasketa-tasa txikia: Ikasketa-tasa handia:

denbora handia errebotea beheko
aldean
https://developers.google.com/machine-learning/crash-course/fitter/graph
Gradiente jaitsiera
• Demagun 10.000 datu-puntu ditugula eta bakoitzeko 10 ezaugarri
• Zenbat SME kalkulu? 10.000 galera kalkulu
• Iterazio bakoitzean 10.000*10= 100.000 konputazio edo β kalkulu
• 1.000 iterazio 100000000 konputazio! GEHIEGI!!

Gradiente jaitsiera
estokastikoa
• Batch: ereduak entrenatzean iterazio batean (gradientearen
eguneratze batean) erabiltzen den adibide multzoa.
• Batch tamaina: batch batean zenbat adibide dauden.
• Batch-ean adibide guztiak: tamaina handia badu, adibide

errepikatuak, denbora asko baina balio iragarle ez oso handia izan
dezake.
• Gradiente jaitsiera estokastikoa (SGD): Batch-ean adibide bakarra

(estokastiko-> ausaz aukeratua)
– Iterazio askorekin badabil baina ez da kontsistentea
• Minibatch SGD: bach osoaren eta SGD arteko oreka (10 eta 1000
ausaz aukeratutako adibide artean)
β = koefizienteak
Ezaugarria β
Clinton jarraitu -3.1
Gutxitan agertzen diren
ezaugarri batzuk, etiketa Trump jarraitu+
bakarraz agertzea posiblea
Bieber jarraitu + 7299302
Futbol liga jarraitu
da (kasualitatez)
“benghazi” 1.4
“benghazi”+
Orokorrean hain gutxitan
sentimendu 3.2
ager daitezke, negatiboa
ausazkotasunaren zarata
handiagoa izan daitekeela “etorkin ilegala” 8.7
Profilean
7.9
“errepublikarra”
Profilean
-3.0
“demokrata”
kokalekua =
-1.7
Berkeley
Erregularizazioa
• Erregularizazioa bai erregresiorako baita

sailkapenerako erabiltzen diren eredu
linealetan erabiltzen da.
Erregularizazioa
Generalizazio kurbak
Galera
Balidatzeko datuak
Entrenamendurako datuak
Iterazioak
●
Galera jaisten da entrenamendu datuetan baina ez
hainbeste balidatzekoetan gaindoitzea (overfitting)
●
Erregularizazioa: ez gehiegi fidatu datuez eta eredu
konplexuak penalizatu
Erregularizazioa
●
Entrenamenduko datuekiko gaindoitzea ekidin: nola?
Erregularizazioa
– Entrenamendua moztu datuek konbergitzen duten
puntuan (kurba gorriaren azpiko puntuan). Zaila.
– Entrenamenduan ereduaren konplexutasuna
zigortu/penalizatu.
●
Datu zuzenak erabili gehiegi fidatu gabe. Oreka behar dugu
datuen zuzentasunaren eta ereduaren sinpletasunaren
artean.
●
Minimizatu galera + konplexutasuna doitu: egiturazko
arriskua minimizatu
Ereduaren konplexutasuna
L2 erregularizazioa
●
Nola neurtu?
– Atributuen pisuen (ponderazioen) funtzioa
– L2 erregularizazioa: atributuen pisuen karratuen batura

(guk β-k erabiltzen ditugu)
– β balio altuak zigortu edo beste modu batean esanda, 0-
ren inguruko β-ak lortu
Sinpletasuna lortzeko
erregularizazioa
●
Erregularizazioaren eragina definitzeko, bere balioa
λ edo erregularizazio-tasarekin biderkatzen da
● L2 erregularizazioaren eragina:
– Pisuen, β, balioak 0-runtz bideratu (ez zehazki
0ra)
– Pisuen batezbestekoa 0runtz bideratu, distribuzio
normal batekin.
L2 erregularizazioa
(Ridge ere deitua)
λ
Erregularizazio-tasa (λ))
• λ) aukeratzearen helburua: entrenamenduko datuen
doitzearen eta sinpletasunaren arteko oreka lortzea
– λ) altuegia: eredu sinplea baina datuak azpidoitzeko
arriskua (pisuen karratuei balio handiegia ematen
diogu). Ereduak ez du nahikoa ikasiko entrenamenduko
datuekin, baliozko iragarpenak egiteko.
– λ) baxuegia: eredu konplexuagoa baina datuak
gaindoitzeko (overfitting) arriskua. Ereduak
entrenamenduko datuen berezitasunak gehiegi ikasiko
ditu eta ezingo du datu berriekin orokortu.
– λ) ideala: ereduak arazorik gabe orokortzen du datu
berriekin.
– λ) ren balioa datuen dependente da
L1 erregularizazioa
(Lasso ere deitua)
• L1 erregularizazioak garrantzi gutxiko atributuen

pisuak zehazki 0-ra bideratzen ditu (eredutik
kentzen dira).
• L1 erregularizazioa: atributuen pisuen balio

absolutuen baturaren arabera penalizatzen ditu β
pisuak.
• λ -k berriro kontrolatzen du erregularizazioa

L1 (Lasso) vs L2 (Ridge)
• Diferentzia: zigor atalean
λ
• L2 : magnitude koadratikoa
λ
• L1: magnitude absolutua
• Diferentzia: Lassok garrantzi txikieneko

ezaugarrietako koefizienteak 0ra eramaten ditu
ezaugarria ezabatuaz. Honek ezaugarriak
aukeratzeko balio dezake.
Laborategia
• Aztertu erregularizazioa erregresio linealean
• Erregularizazioa aldatzeak nolako eragina du

ondorengoetan:
• Zehaztasuna
• Ezaugarri garrantzitsuetan

2 Erregresioa

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

2 Erregresioa

Uploaded by

Copyright:

Available Formats

Hizkuntzaren Prozesamendua

Gardenkien iturria (ANLP, David Bamman, UC Berkeley,

George Lucasek 1977. urteko Zinemaldian

Iragarri estreinuko Zenbat diru

Iragarri etxebizitzen Etxebizitzaren

Iragarri stock-ean Produktu baten

<x, y> formako

Erregresio logistikoa Sareak

Support vector machines

Ezaugarria Balioa Xi Ezaugarria β βi

the 0 the 0.01

and 0 and 0.03

action 1 action 15.3

love 1 love 3.1

animation 0 ... animation 13.2 ...

audiences 1 X3 audiences 3.4 β3

not 0 X2 not -3.0 β2

fruit 0 X1 fruit -0.8 β1

BIAS 1 X0 BIAS 16.4 β0

𝜀 iragarpenaren eta balio errealaren arteko

● Galera-funtzio bat: errore koadratikoa (L2 galera)

% 81,7 MAE 1 1.1 0.1 0.01 % 98,6 MSE

Clinton jarraitu -3.1

Trump jarraitu 6.8

Nola lortu β-rako “benghazi” 1.4

“etorkin ilegala” 8.7

• Hau bi modutan egin dezakegu:

Noranzkoak beti galera-funtzioaren Errepikatu minimora iritsi arte

Ikasketa-tasa txikia: Ikasketa-tasa handia:

• Demagun 10.000 datu-puntu ditugula eta bakoitzeko 10 ezaugarri

• Zenbat SME kalkulu? 10.000 galera kalkulu

• Iterazio bakoitzean 10.000*10= 100.000 konputazio edo β kalkulu

• 1.000 iterazio 100000000 konputazio! GEHIEGI!!

• Batch tamaina: batch batean zenbat adibide dauden.

• Batch-ean adibide guztiak: tamaina handia badu, adibide

• Gradiente jaitsiera estokastikoa (SGD): Batch-ean adibide bakarra

• Erregularizazioa bai erregresiorako baita

– L2 erregularizazioa: atributuen pisuen karratuen batura

• L1 erregularizazioak garrantzi gutxiko atributuen

• L1 erregularizazioa: atributuen pisuen balio

• λ -k berriro kontrolatzen du erregularizazioa

• Diferentzia: Lassok garrantzi txikieneko

• Aztertu erregularizazioa erregresio linealean

• Erregularizazioa aldatzeak nolako eragina du

You might also like