Professional Documents
Culture Documents
INFERENCIALMLy BIGDATA
INFERENCIALMLy BIGDATA
net/publication/294582217
CITATIONS READS
0 3,916
1 author:
Andres G. Abad
Escuela Superior Politécnica del Litoral (ESPOL)
22 PUBLICATIONS 145 CITATIONS
SEE PROFILE
All content following this page was uploaded by Andres G. Abad on 15 February 2016.
Noviembre 7, 2015
P(D|h)P(h)
P(h|D) =
P(D)
I h: hipótesis
I D: observaciones Figure: Rev. Thomas
Bayes (1701-1761)
Se busca
E[Y|X].
Modelo Lineal
Considere Y ∈ Rn , X ∈ Rn×p , y β ∈ Rp , tal que
Y = Xβ + ε
Distribución Normal
1 1
f (x; µ, Σ) = exp − (x − µ) Σ (x − µ) ,
T −1
Z 2
R
donde Z = Rp exp − 12 (x − µ)T Σ−1 (x − µ) dx.
→ {Mujer, Hombre}
I Elementos de un algoritmo
1. Datos de entrada
2. Procedimientos
3. Salidas
f :X→Y
Según la naturaleza del
conjunto Y tenemos los
siguientes tipos de problemas
Y Tipo de problema
R Regresión
{c1 , . . . , cn } Clasificación
{−1, +1} Clasificación binaria
h:X→Y
= P[h(x) , f (x)].
1 X
= MSE(h) = (f (x) − h(x))2
|X|
x∈X
1 X
= [I(h(x) , f (x))]
|X|
x∈X
1 1
fk (x) = exp − (x − µ k ) Σ
T −1
k (x − µk .
)
(2π)p/2 |Σk |1/2 2
Asumiremos que las clases tienen una matriz de covarianzas
común Σk = Σ para todo k
1
δk (x) = xT Σ−1 µk − µk T Σ−1 µk + log πk
2
a
http://www.predictiveanalyticsworld.com/
T
1X
H(x) = hi (x).
T
t=1
para b = 1, . . . , B.
2. Aprendemos hb utilizando Lb
3. Agregamos hipótesis
1
Fuente: http://www.kdnuggets.com/
Andrés G. Abad - ESPOL 42 / 51
Volumen de Datos en BIG DATA I
¿Cuál ha sido el conjunto de datos más grande que ha
analizado? (N = 459)2
(a) (c)
n
(d)
(b)
BIG DATA
Tamaño de archivos en R
I 1 Millón de registros: facilmente
procesados en R
I Entre 1 y 1000 Millones de registros:
procesados en R con esfuerzo
adicional
I +1000 Millones de registros:
necesarios algoritmos siguiendo
MapReduce
2
Fuente: http://www.kdnuggets.com/
Andrés G. Abad - ESPOL 45 / 51
Paradigma MapReduce I
Def. MapReduce
Paradigma de programación que permite el computo en
paralelo en clusters de computadoras