Professional Documents
Culture Documents
3 MLP
3 MLP
https://www.forbes.com/sites/kevinmurnane/2016/04/01/what-is-deep-learning-and-how-is-it-useful
HPren historia
• Hasiera 1940/1950
• Sintaxi-analisia [Chen and Manning 2014, Dyer et al. 2015, Andor et al.
2016]
• Dialogo agenteak [Sordoni et al. 2015, Vinyals and Lee 2015, Ji et al. 2016]
●
Sarrerako ezaugarrien elkarrekintza ez-
linealak egiten ditu
●
Egitura hierarkikoa antzemateko, geruza
anitz ditu
Problema ez-linealak
Sarrerako Sarrera
atributuak
Sarrerako
atributuak
Eredua lineala da?
Bi ezkutuko
geruza:
Batura
ponderatuen beste
geruza bat
Bai Bai
Emaitza sarreren Emaitza transformazio
konbinazio lineala da linealean sekuentzia
bat da eta hori
konbinazio lineala da.
Problema ez linealak
ebazten ditu?
●
Ez linealtasuna nola sartu?
●
Ezkutuko geruzako nodo bakoitzari
funtzio ez-lineal bat sartu.
●
Funtzio ez-lineala: aktibazio-funtzioa
Normalean transformazio
ez-linealak ez dira
Marrazten
Transformazio ez
Geruza bakoitzak,
aktibazio-funtzio
linealeko geruza:
ezberdina izan dezake aktibazio-funtzioa
Oraindik ez
Sare neuronaletarako
liburutegiak
Erregresio logistikoa
x β
not 1 -0.5
bad 1 -1.7
movie 0 0.3
Gradiente jaitsiera
●
Gradiente jaitsiera: entrenamenduko datuekin pisuen galera-
funtzioaren gradientea (deribatua) kalkulatu eta iterazio
bakoitzean pisuak eguneratu hurrengoan ez hain gaizki
egiteko
●
Gradiente jaitsiera estokastikoa (SGD-Stochastic Gradient
Descend), iterazio bakoitzeko, batch bakoitzeko, adibide bat.
●
Atzeranzko barreiaketa (backpropagation): sare neuronaletan
gradiente jaitsiera egiteko algoritmoa (aurrerago).
Erregresio logistikoa
x β
x1 β1
not 1 -0.5
β2
x2 y
bad 1 -1.7
x3 β3
movie 0 0.3
Sarrera: Irteera:
ezaugarri- probabilitatea
bektorea {0,1}
Geruza anitzeko pertzeptroia
(MLP edo Feed Forward (FFNN))
W V
x1 W1,1
W1,2 h1 V1
W2,1
y
x2 W2,2
V2
W3,1 h2
*Sinplifikatzeko BIAS-a ez
dugu kontuan hartu baina
W3,2
x3 geruza gehienek badutela
suposatuko dugu.
Wi,j: i-tik j-ra pisua
1 x1 -0.5
1.3 h1 4.1
0.4
y 1
1
x2
0.08 -0.9
h2
1.7
0 x3 3.1
x W V y
x1
h1
y
x2
h2
x3
x1
h1
y
x2
h2
x3
x1 β1
β2
x2 y
x3 β3
x1
h1
y
x2
h2
x3
Gogoratu:
σ aktibazio-funtzioa da
W V
x1
h1
y
x2
h2
x3
W V
x1
h1
y
x2
h2
x3
y
x2
h2
x3
https://developers-dot-devsite-v2-prod.appspot.com/machine-learning/crash-course/backprop-scroll/
W V
x1
h1
y
x2
h2
x3
dy dy du
=
dx du dx
●
Sare neuronalak funtzioen serieak direla esan dugu
Katearen erregela
Gradientea= Errorearen
deribatua V pisuekiko
σ (xW)=h
Katearen erregela
A:
d logx = 1
dx x
B: sigmoidearen
deribatua
dσ = σ (1-σ )
dz Aktibazio-funtzioa sigmoidea
denean, V-n errorea kalkulatu
Zertarako? Pisuak eguneratzeko
λ
Sare neuronalak
y 1
x2
h2
x3
y 1
x2
h2
x3
y 0
y 1
x2
h2
x3
y 0
x1
h1
h2
x2
h2 y
h2
x3
h2
x3
Pytorch
_init_ -ek ereduaren
parametro nagusiak
zehazten ditu
forward-ek transformazio
batzuk egiten ditu zeintzuk
sarrera irteeran bihurtzen
duten softmax azken
eragiketa baino lehen (azken
hau galera funtzioko
CrossEntropyLoss galera-
funtzioan egiten da)
●
Erregresio logistikoak sarreraren (xT β) transformazio lineal bat du
eta irteeran softmax eragiketa bat (softmax-ak irteerako klase
posible guztien gaineko normalizazioa egiten du probabilitate
distribuzio batetik abiatuta).
Pytorch
CrossEntropyLoss-en barruan
egiten da ereduaren irteeraren
gaineko softmax-a. Gainera,
CrossEntropyLoss funtzioan
irteerako distribuzioaren (n
klasetarako n iragarritako
probabilitate) eta irteerako
benetako distribuzioaren (urre-
patroieko etiketa errealen)
arteko galera kalkulatzen du.