Download as pdf or txt
Download as pdf or txt
You are on page 1of 32

Hizkuntzaren Prozesamendua

Gardenkien iturria (ANLP, David Bamman, UC Berkeley,


HP)
Erregresioa
Erregresioa
Sarrerako x datuetik (𝓧
instantzia-espaziokoak) ℝ-ko
y puntu baterako h mapatzea

George Lucasek 1977. urteko Zinemaldian


aurkeztu zuen Star Wars: Episode IV – A New
Hope, zinemaren historiako klasiko bilakatuko zen
x sagaren lehen filma, eta 42 urte geroago, J.J.
Abrams zuzendariak Star Wars sagak dituen hiru
trilogiei itxiera borobila emateko erronkari eutsi
dio.

y 1.32B euro
Erregresio problemak

ataza 𝓧 𝒴

Iragarri estreinuko Zenbat diru


Zine-kritikak
diru-sarrerak estreinuan

Iragarri etxebizitzen Etxebizitzaren


Salmenta prezioa
salneurria deskribapena

Iragarri stock-ean Produktu baten


Tweet guztiak
mugimenduak salneurria
Erregresioa

Ikasketa gainbegiratua

<x, y> formako


entrenamendurako datuak
emanda, ikasi ĥ(x)
Erregresioa
Ikasketa sakona

Erabaki-zuhaitzak
Eredu probabilistiko grafikoak

Random forests

Erregresio logistikoa Sareak

Support vector machines

Sare neuronalak

Perzeptroia
Erregresio lineala

β ∈ ℝF
(F dimentsioko zenbaki errealen bektorea)
x = Ezaugarri-bektorea β = koefizienteak
Z

Ezaugarria Balioa Xi Ezaugarria β βi

the 0 the 0.01

and 0 and 0.03

action 1 action 15.3

love 1 love 3.1

animation 0 ... animation 13.2 ...

audiences 1 X3 audiences 3.4 β3

not 0 X2 not -3.0 β2

fruit 0 X1 fruit -0.8 β1

BIAS 1 X0 BIAS 16.4 β0


Erregresio lineala

y= balio erreala

ŷ = iragarpena

𝜀 iragarpenaren eta balio errealaren arteko


diferentzia da
Errorea edo iragarpenaren alborapena
(prediction bias) ere deitzen zaio
(ez da Xiβi-ko BIAS)
Ikasketa iteratiboa
Entrenamendua
Parametroen (pisuen, β balioen)
eguneraketa egin, berriro ikasi

Inferentzia:
iragarpenak egin
Eredua ŷ
Atributuak (x) (funtzio iragarlea) Galera
Kalkulatu Galera-
(ŷ - y) funtzioa
Etiketa (y)

Google

Ikasketa automatikoko eredu bat, pisuarentzako eta galerarako edozein balio
batzuekin (hipotesi batekin) hasten da eta hipotesi hori modu iteratiboan doitzen
du, galera txikiena lortuko duten pisuak eta alborapenak ikasten dituen arte.

Galera-funtzioa: iteratzen, ikasten jarraituko dugu, algoritmoak galera txikiena
duten balioak (β-k) topatzen dituen arte. Iteratuko dugu, galerak aldatzeari uzten
dion arte edo oso poliki aldatzen den arte. Ereduak konbergitu du.
Galera funtzio ezagun bat

● Galera-funtzio bat: errore koadratikoa (L2 galera)


– Adibide baterako (instantzia, datu-puntu bat):


Batezbesteko errore koadratikoa: adibide guztien
galera koadratikoen batezbestekoa (Mean Squared
Error-MSE)
Metrikak
(Galera)
• ŷ iragarpenaren eta egiazko y-aren arteko
diferentzia neurtzen du (N adibidetan)

Batez besteko
errore koadratikoa
Mean squared error (MSE)

Batezbesteko errore
absolutua
Mean absolute error
(MAE)
y ŷ MAE MSE
1 2 1 1

% 81,7 MAE 1 1.1 0.1 0.01 % 98,6 MSE


(batezbesteko 1 100 99 9801 (batezbesteko
errore → ← errore
1 5 4 16
absolutua) koadratikoa)
1 -5 6 36
1 10 9 81
1 3 2 4
1 0.9 0.1 0.01
1 1 0 0
9939.0
121.2
2
Batez besteko errore koadratikoak (MSE) muturreko datuak (outlier)
gehiago penalizatzen ditu batezbesteko errore absolutuak baino.
Absolutua sendoagoa da.
β = koefizienteak

Ezaugarria β

Clinton jarraitu -3.1

Trump jarraitu 6.8

Nola lortu β-rako “benghazi” 1.4


balio onak? “benghazi”+
sentimendu 3.2
negatiboa

“etorkin ilegala” 8.7


Galera, Profilean
7.9
batezbesteko errore “errepublikarra”
koadratikoak, Profilean
-3.0
minimizatuz “demokrata”

kokalekua =
-1.7
Berkeley
Karratu gutxiago
Egiten ditugun erroreak,
galera, minimizatu nahi
dugu, horretarako β pisuak
kalkulatuaz

β berria, aurrekoa da
errorea minimizatuta

Lineala
Ikasketa iteratiboa
Entrenamendua
Parametroen (pisuen, β balioen)
eguneraketa egin, berriro ikasi

Inferentzia:
iragarpenak egin
Eredua ŷ
Atributuak (x) (funtzio iragarlea) Galera
Kalkulatu Galera-
(ŷ - y) funtzioa
Etiketa (y)

Google

Ikasketa automatikoko eredu bat, pisuarentzako eta galerarako edozein balio
batzuekin (hipotesi batekin) hasten da eta hipotesi hori modu iteratiboan doitzen
du, galera txikiena lortuko duten pisuak eta alborapenak ikasten dituen arte.

Galera-funtzioa: iteratzen, ikasten jarraituko dugu, algoritmoak galera txikiena
duten balioak (β-k) topatzen dituen arte. Iteratuko dugu, galerak aldatzeari uzten
dion arte edo oso poliki aldatzen den arte. Ereduak konbergitu du.
Galeraren murrizketa

• Hau bi modutan egin dezakegu:

• Ekuazioekin
• Iteratiboki (gradiente jaitsiera)
Gradiente jaitsiera

β-en balio guztientzako 1) βi-rentzako hasiera
galera neurtuko bagenu, puntu bat aukeratu
erregresiotan forma hau
(edozein, batzuetan 0)
lortzen da. Galera-
funtzioaren kurba.

Hasiera
ausaz

Galera Galera

Minimoan
konbergitzen du β balioak β balioak
galera funtzioak
Gradiente jaitsiera
2) Gradienteen jaitsiera 3) Galera-funtzioaren kurbaren
algoritmoak galera kurbaren hurrengo puntua aztertzen da
gradientea kalkulatzen du. Hau da,
bektore bat (noranzkoa eta
tamaina ditu).
Gradiente Gradiente
Hasiera negatiboa Hasiera negatiboa

Galera Galera

Hurrengo
β balioak puntua β balioak

Noranzkoak beti galera-funtzioaren Errepikatu minimora iritsi arte


igoerarik maldatsuena apuntatzen
du. Algoritmoak urrats bat egiten
du gradiente negatiboaren
alderantz galera ahalik eta
azkarren jaisteko.
Ikasketa-tasa
(learning rate)
Gradienteen jaitsierarako algoritmoek gradientea eskalar
batekin biderkatzen dute: ikasketa-tasa (hiperparametroa)

Hasiera Hasiera

Galera Galera
Minimoa
Pasata!

β balioak

Ikasketa-tasa txikia: Ikasketa-tasa handia:


denbora handia errebotea beheko
aldean

https://developers.google.com/machine-learning/crash-course/fitter/graph
Gradiente jaitsiera

• Demagun 10.000 datu-puntu ditugula eta bakoitzeko 10 ezaugarri

• Zenbat SME kalkulu? 10.000 galera kalkulu

• Iterazio bakoitzean 10.000*10= 100.000 konputazio edo β kalkulu

• 1.000 iterazio 100000000 konputazio! GEHIEGI!!


Gradiente jaitsiera
estokastikoa
• Batch: ereduak entrenatzean iterazio batean (gradientearen
eguneratze batean) erabiltzen den adibide multzoa.

• Batch tamaina: batch batean zenbat adibide dauden.

• Batch-ean adibide guztiak: tamaina handia badu, adibide


errepikatuak, denbora asko baina balio iragarle ez oso handia izan
dezake.

• Gradiente jaitsiera estokastikoa (SGD): Batch-ean adibide bakarra


(estokastiko-> ausaz aukeratua)
– Iterazio askorekin badabil baina ez da kontsistentea
• Minibatch SGD: bach osoaren eta SGD arteko oreka (10 eta 1000
ausaz aukeratutako adibide artean)
β = koefizienteak

Ezaugarria β
Clinton jarraitu -3.1
Gutxitan agertzen diren
ezaugarri batzuk, etiketa Trump jarraitu+
bakarraz agertzea posiblea
Bieber jarraitu + 7299302
Futbol liga jarraitu
da (kasualitatez)
“benghazi” 1.4
“benghazi”+
Orokorrean hain gutxitan
sentimendu 3.2
ager daitezke, negatiboa
ausazkotasunaren zarata
handiagoa izan daitekeela “etorkin ilegala” 8.7

Profilean
7.9
“errepublikarra”
Profilean
-3.0
“demokrata”

kokalekua =
-1.7
Berkeley
Erregularizazioa

• Erregularizazioa bai erregresiorako baita


sailkapenerako erabiltzen diren eredu
linealetan erabiltzen da.
Erregularizazioa

Generalizazio kurbak

Galera
Balidatzeko datuak
Entrenamendurako datuak

Iterazioak


Galera jaisten da entrenamendu datuetan baina ez
hainbeste balidatzekoetan gaindoitzea (overfitting)

Erregularizazioa: ez gehiegi fidatu datuez eta eredu
konplexuak penalizatu
Erregularizazioa

Entrenamenduko datuekiko gaindoitzea ekidin: nola?
Erregularizazioa
– Entrenamendua moztu datuek konbergitzen duten
puntuan (kurba gorriaren azpiko puntuan). Zaila.
– Entrenamenduan ereduaren konplexutasuna
zigortu/penalizatu.

Datu zuzenak erabili gehiegi fidatu gabe. Oreka behar dugu
datuen zuzentasunaren eta ereduaren sinpletasunaren
artean.

Minimizatu galera + konplexutasuna doitu: egiturazko
arriskua minimizatu
Ereduaren konplexutasuna
L2 erregularizazioa

Nola neurtu?
– Atributuen pisuen (ponderazioen) funtzioa

– L2 erregularizazioa: atributuen pisuen karratuen batura


(guk β-k erabiltzen ditugu)
– β balio altuak zigortu edo beste modu batean esanda, 0-
ren inguruko β-ak lortu
Sinpletasuna lortzeko
erregularizazioa

Erregularizazioaren eragina definitzeko, bere balioa
λ edo erregularizazio-tasarekin biderkatzen da

● L2 erregularizazioaren eragina:
– Pisuen, β, balioak 0-runtz bideratu (ez zehazki
0ra)
– Pisuen batezbestekoa 0runtz bideratu, distribuzio
normal batekin.
L2 erregularizazioa
(Ridge ere deitua)

λ
Erregularizazio-tasa (λ))
• λ) aukeratzearen helburua: entrenamenduko datuen
doitzearen eta sinpletasunaren arteko oreka lortzea
– λ) altuegia: eredu sinplea baina datuak azpidoitzeko
arriskua (pisuen karratuei balio handiegia ematen
diogu). Ereduak ez du nahikoa ikasiko entrenamenduko
datuekin, baliozko iragarpenak egiteko.
– λ) baxuegia: eredu konplexuagoa baina datuak
gaindoitzeko (overfitting) arriskua. Ereduak
entrenamenduko datuen berezitasunak gehiegi ikasiko
ditu eta ezingo du datu berriekin orokortu.
– λ) ideala: ereduak arazorik gabe orokortzen du datu
berriekin.
– λ) ren balioa datuen dependente da
L1 erregularizazioa
(Lasso ere deitua)

• L1 erregularizazioak garrantzi gutxiko atributuen


pisuak zehazki 0-ra bideratzen ditu (eredutik
kentzen dira).

• L1 erregularizazioa: atributuen pisuen balio


absolutuen baturaren arabera penalizatzen ditu β
pisuak.

• λ -k berriro kontrolatzen du erregularizazioa


L1 (Lasso) vs L2 (Ridge)
• Diferentzia: zigor atalean
λ
• L2 : magnitude koadratikoa
λ
• L1: magnitude absolutua

• Diferentzia: Lassok garrantzi txikieneko


ezaugarrietako koefizienteak 0ra eramaten ditu
ezaugarria ezabatuaz. Honek ezaugarriak
aukeratzeko balio dezake.
Laborategia

• Aztertu erregularizazioa erregresio linealean

• Erregularizazioa aldatzeak nolako eragina du


ondorengoetan:

• Zehaztasuna
• Ezaugarri garrantzitsuetan

You might also like