INFERENCIALMLy BIGDATA

See discussions, stats, and author profiles for this publication at: https://www.researchgate.
net/publication/294582217
Estadística Inferencial, Machine Learning, y Big Data
Presentation · October 2015
CITATIONS READS
0 3,916
1 author:
Andres G. Abad
Escuela Superior Politécnica del Litoral (ESPOL)
22 PUBLICATIONS 145 CITATIONS
SEE PROFILE
All content following this page was uploaded by Andres G. Abad on 15 February 2016.
The user has requested enhancement of the downloaded file.

Estadı́stica Inferencial,
Aprendizaje de Máquina, y BIG DATA
20 años de Ingenierı́a en Estadı́stica
Andrés G. Abad, Ph.D.
ESCUELA SUPERIOR POLITÉCNICA DEL LITORAL
Noviembre 7, 2015
Andrés G. Abad - ESPOL 1 / 51

Agenda
Estadı́stica Inferencial
Introducción
Tres Revoluciones
Aprendizaje de Máquina
Introducción
Formalización del Problema de Aprendizaje
Temas Centrales al Aprendizaje de Máquina
BIG DATA
Introducción
Paradigma MapReduce
BIG DATA en R
Conclusiones
Referencias Bibliográficas

Agenda
Introducción
Tres Revoluciones
Introducción
BIG DATA
Introducción
Paradigma MapReduce
BIG DATA en R
Conclusiones

Introducción a la Estadı́stica Inferencial Paramétrica I
Razonamiento Deductivo Razonamiento Inductivo

Axiomas Datos observados
Conclusión Posibles hipótesis
Def. Estadı́stica Inferencial

Es una rama de la estadı́stica que por medio de la inducción
busca determinar propiedades de la distribución
generadora a partir de un conjunto de datos observados.

Introducción a la Estadı́stica Inferencial Paramétrica II
Conocimiento + Cuantificación de = Conocimiento

incierto incertidumbre útil
Necesariamente para esto utilizamos el

Teorema de Bayes
P(D|h)P(h)
P(h|D) =
P(D)
I h: hipótesis
I D: observaciones Figure: Rev. Thomas
Bayes (1701-1761)

Tres Revoluciones en Estadı́stica Inferencial I
I Primera Revloución (1774-1786): Laplace

I Segunda Revolución (1809-1828): Gauss y Laplace
I Tercera Revolución (1912-1956): Fisher
Probabilidad Probabilidad Función de

Inversa Directa Verosimilitud
P(θ|D) ∝ P(D|θ) ∝ LD (θ)

Primera Revloución (1774-1786): Laplace I
Se busca
E[Y|X].
Modelo Lineal
Considere Y ∈ Rn , X ∈ Rn×p , y β ∈ Rp , tal que
Y = Xβ + ε
donde ε ∈ Rn es considerada aleatoria.
I Esfuerzos por establecer relación entre función de pérdida

y distribución de datos
I Minizar divergencia
I Maximizar probabilidad

Primera Revloución (1774-1786): Laplace II
β̂ = arg maxβ P(Y − Xβ|β) β̂ = arg minβ L (Y − Xβ)
P generalmente rectangular, L generalmente `1 , `2 , `∞

triangular, coseno cuadrático,
semi-circular, exponencial
doble
Distribución Normal aún no descubierta

Segunda Revolución (1809-1828): Gauss y Laplace I
Distribución Normal
1 1

f (x; µ, Σ) = exp − (x − µ) Σ (x − µ) ,
T −1
Z 2
R
donde Z = Rp exp − 12 (x − µ)T Σ−1 (x − µ) dx.
Dos avances gigantes:

1. Distribución normal como distribución de observaciones
I Se establece la optimalidad del método de mı́nimos
cuadrados bajo errores normalmente distribuidos
2. Distribución normal como aproximación a la distribución de
la media muestral (Teorema del Lı́mite Central)

Tercera Revolución (1912-1956): Fisher I
I Se definieron propiedades de los estimadores
I Consistencia
I Eficiencia
I Suficiencia
I Se trabajó en técnicas para evitar el uso de la probabilidad
a priori P(h)
I Propuso que toda la información relevante era contenida
en la función de verosimilitud
Función de Verosimilitud
LD (θ) = P(D|θ) = P({x1 , . . . , xn }|θ)
I Evitando asumir funciones de pérdida arbitrarias

I Evitando asumir una varianza finita

Agenda
Introducción
Tres Revoluciones
Introducción
BIG DATA
Introducción
Paradigma MapReduce
BIG DATA en R
Conclusiones

Introducción al Aprendizaje de Máquina I
Énfasis en entendimiento del sistema o en predicción [Breiman,

2001]
(a) Modelamiento de Datos (b) Modelamiento Algorı́tmico

Introducción al Aprendizaje de Máquina II
Def. Aprendizaje de Máquina [Mitchell, 1997]

Una máquina aprende con respecto a
I una tarea T ,
I una medida de desempeño P, y
I un tipo de experiencia E,
si la máquina confiablemente mejora su
I desempeño P, en la tarea T , siguiendo una experiencia E.

Introducción al Aprendizaje de Máquina III
El Aprendizaje de Máquina es una rama del Inteligencia

Artificial
Def. Inteligencia Artificial (AI)
La Inteligencia Artificial es la ciencia que estudia la
representación de los procesos mentales relacionados a la
inteligencia humana mediante modelos
El aprendizaje es inceustionablemente uno de los principales

procesos del cerebro

Introducción al Aprendizaje de Máquina IV
I Aprendizaje supervisado
I Aprendizaje no supervisado
I Aprendizaje semi-supervisado
→ {Mujer, Hombre}

Introducción al Aprendizaje de Máquina V
Dos acercamientos:
1. Escribir un programa en el cual detallamos procesos para
diferenciar entre un rostro masculino de uno femenino.
I Longitud del cabello, distancia entre ojos, medidas de
nariz, area del rostro, tonalidad de labios, etc
2. Escribir un meta-programa que defina automaticamente un
programa para realizar esta distinción

Introducción al Aprendizaje de Máquina VI
I Elementos de un algoritmo
1. Datos de entrada
2. Procedimientos
3. Salidas
Algoritmos Tradicionales Aprendizaje de Máquina

Entradas Entradas
+ +
Procedimientos Salidas
↓ ↓
Salidas Procedimientos

Formalización del Problema de Aprendizaje I
Considere (x1 , y1 ), . . . , (xm , ym ) donde xi ∈ X ⊆ Rn , yi ∈ Y ⊆ R.

Asumimos que existe una función no conocida
f :X→Y
Según la naturaleza del
conjunto Y tenemos los
siguientes tipos de problemas
Y Tipo de problema
R Regresión
{c1 , . . . , cn } Clasificación
{−1, +1} Clasificación binaria

Formalización del Problema de Aprendizaje II
Buscamos una hipótesis
h:X→Y
que tenga un bajo error de generalización
= P[h(x) , f (x)].
I Para regresión generalmente usamos
1 X
= MSE(h) = (f (x) − h(x))2
|X|
x∈X
I Para clasificación generalmente usamos
1 X
= [I(h(x) , f (x))]
|X|
x∈X

Métodos de clasificación I
Algunos de los principales algoritmos para clasificación binaria

I Clasificador bayesiano ingenuo
I Arboles de clasificación (e.g.,
CART, C4.5)
I Regresión logı́stica
I Máquinas de Soporte Vectorial
I Redes Neuronales Artificiales
Figure: Clasificación Binaria

I Análisis de discriminantes (e.g.,
lineal, cuadrático)

Clasificador bayesiano ingenuo I
Considera el criterio de maximo a posteriori (MAP)
c = arg max P(x1 , . . . , xn |cj )P(cj ).

cj ∈C
Bajo el supuesto de independencia entre variables

n
Y
c = arg max P(cj ) P(xi |cj ).
cj ∈C
i=1
I No considera interacciones entre variables

I No sufre de la maldición de la dimensionalidad
I Si la clase correcta tiene probabilidad alta es robusto al
supuesto de independencia

Árboles de clasificación I
Basado en reglas del tipo: Si A1 ∧ · · · ∧ Am entonces cj
I Generalmente condición Al de la forma xi ≥ θ
I AlgoritmosPID3 [Quinlan, 1986] y C4.5 [Quinlan, 1993] utilizan

H(S) = − x∈X p(x) log p(x)
I Algortimo
PmCART utiliza Impureza Gini:
IG (x) = i=1 xi (1 − xi )
Análisis de discriminante lineal I
Modelamos la densidad de cada clase con una distribución
gaussiana multivariada
1 1

fk (x) = exp − (x − µ k ) Σ
T −1
k (x − µk .
)
(2π)p/2 |Σk |1/2 2
Asumiremos que las clases tienen una matriz de covarianzas
común Σk = Σ para todo k
1
δk (x) = xT Σ−1 µk − µk T Σ−1 µk + log πk
2

Temas Centrales al Aprendizaje de Máquina I
Los siguientes son temas centrales al estudio del Aprendizaje

de Máquina
I El teorema de “Nada Es Gratis” (No Free Lunch)
I Combinando Modelos (Ensembles)
I Sobre-ajuste VS Generalización

El teorema de “Nada Es Gratis” (No Free Lunch) I
Teorema de “Nada Es Gratis” [Wolpert, 1996]
Para cualquier modelo, un desempeño elevado en una clase de
problemas es compensado por un bajo rendimiento en otra
clase (el desempeño promedio de cualquier modelo es igual.)

Combinando Modelos I
En la conferencia Predictive Analytics

World/Toronto (PAW) 2012a
Método Valor Diferencia

Real 362 -
Ganador (persona) 352 10
Promedio (N = 61) 365 3
a
http://www.predictiveanalyticsworld.com/

Combinando Modelos II
Combinando modelos de regresión
T
1X
H(x) = hi (x).
T
t=1
Combinando modelos de clasificación

j
si Ti=1 hi (x) >
( P 1 Pl PT k
cj 2 k =1 i=1 hi (x)
H(x) =
Rechazo si no.

Combinando Modelos III
I Utilizar un conjunto de datos de entrenamiento de alguna

manera diferente
I Seleccionar un subconjunto diferente de variables para
entrenar a la hipótesis
I Manipular las etiquetas de las clases
I Introducir aleatoriedad en el algoritmo

Principales métodos de ensembles I
Principales métodos de ensembles:

I Clasificador Bayesiano Óptimo
I Bagging
I Boosting
I AdaBoost

Clasificador Bayesiano Óptimo I
Consideramos H como el espacio de todas las hipótesis y D
una muestra
X
c = arg max P(cj |hi )P(hi |D)
cj ∈C
hi ∈H
Es el mejor clasificador en promedio considerando H y

conocimiento a priori
Dificultades prácticas
I H generalmente muy grande como para iterar
I Hipótesis h generalmente entregan clase y no
probabilidades P(c|h)
I Calcular probabilidades posterior P(h|D) es generalmente
no trivial
I Necesitamos P(D|h) y P(h)

Bagging I
El Bagging (Bootstrap AGGregatING) fue introducido en Breiman
[1996]
L = {(x1 , y1 ), . . . , (xm , ym )}
1. Utilizando muestreo aleatorio

con reposición y obtenemos
Lb = {(xb1 , yb1 ), . . . , (xbm , ybm )},
para b = 1, . . . , B.
2. Aprendemos hb utilizando Lb
3. Agregamos hipótesis

Boosting I
I En Kearns and Valiant [1989] se plantea la pregunta de si las
clases de complejidad: aprendedores débiles y
aprendedores fuertes, son iguales
responde a esa pregunta, su prueba es
I Schapire [1990]
constructiva: Boosting

Boosting II
Suponga que h1 , . . . , hT son clasificadores débiles utilizados

para aproximar una función f : Rk → {−1, +1}, tal que
ε = P[h(x) , f (x)] = 0.5 − γ para x ∈ X; γ > 0
Figure: Clasificadores Débiles ([Viola and Jones, 2001])

Boosting III
Figure: Esquema del Boosting

Boosting IV
α1 = 0.42, α2 = 0.65, α3 = 0.92

Sobre-ajuste VS Generalización I
Se utilizan modelos de alta complejidad y se evita el

sobre-ajuste durante el entranamiento
I Comúnmente mediante regularización de los parámetros

Regularización I
n o
β̂ = arg min L (Y − Xβ) + λkβkp
β
Casos comunes incluyen p = 1 (regresión LASSO [Tibshirani,

1996])y p = 2 (caso particular de regresión RIDGE [Hoerl and
Kennard, 1970]).

Habilitadores del desarrollo del Aprendizaje de
Máquina I
Habilitadores del desarrollo del Aprendizaje de Máquina

1. Avances en optimización matemática
2. Avances en poder de cómputo
3. Disponbilidad de grandes conjuntos de datos

Agenda
Introducción
Tres Revoluciones
Introducción
BIG DATA
Introducción
Paradigma MapReduce
BIG DATA en R
Conclusiones

Introducción al BIG DATA I
Def. BIG DATA

Un término extenso para denotar colecciones de conjunto de
datos tan grandes y complejos que su procesamiento es
desafiante utilizando técnicas tradicionales.
El desafı́o incluye: visualizar, analizar, capturar, sanar, buscar,

compartir, almacenar, transferir, asignarle una propiedad,
determinar su valor, y proteger su privacidad.
I Estadı́stica y Aprendizaje de Máquina

I Ciencia de la Computación
I Ciencias Sociales

Las 3+1 V’s de BIG DATA I

Variedad de Datos en BIG DATA I
¿Qué tipo/fuente de datos ha analizado en los últimos 12
meses? (N = 264)1
1
Fuente: http://www.kdnuggets.com/
Volumen de Datos en BIG DATA I
¿Cuál ha sido el conjunto de datos más grande que ha
analizado? (N = 459)2

Volumen de Datos en BIG DATA II
p (variables)
(a) (c)
n
(d)
(b)
BIG DATA
I (a) Tabla de datos tradicional

I (b) n p (transacciones)
I (c) p n (imagenes, sonido, genética)
I (d) n y p variables (redes)
Volumen de Datos en BIG DATA III
Tamaño de archivos en R
I 1 Millón de registros: facilmente
procesados en R
I Entre 1 y 1000 Millones de registros:
procesados en R con esfuerzo
adicional
I +1000 Millones de registros:
necesarios algoritmos siguiendo
MapReduce
Tamaño del objeto más grande creado durante el análisis es el

relevante
2
Fuente: http://www.kdnuggets.com/
Paradigma MapReduce I
Def. MapReduce
Paradigma de programación que permite el computo en
paralelo en clusters de computadoras
Basado en funciones map() y reduce()

I Apache Hadoop es una
implementación popular
open-source
I Paquete en R: “RHadoop”
o “hive” Hadoop
InteractiVE

BIG DATA en R I
Algunas estrategias para usar R con BIG DATA

I Muestrear de datos
I Hardware más potente (R en 32-bit direcciona hasta 2 GB
de RAM; en 64-bit hasta 8 TB de RAM)
I Almacenar en disco y analizar por partes (Paquetes “ff”,
“ffbase”, y “bigglm” en R; “scaleR” en Revolution R
Enterprise)
I Integrar con lenguajes de desempeño más eficiente (C++,
Java)
Agenda
Introducción
Tres Revoluciones
Introducción
BIG DATA
Introducción
Paradigma MapReduce
BIG DATA en R
Conclusiones

Conclusiones I
I El Aprendizaje de Máquina puede ser considerado como

una rama de la estadı́stica cercana a la estadı́stica
inferencial
I El énfasis es en predicción
I Los métodos de Aprendizaje de Máquina pueden ser
escalados al BIG DATA
I El BIG DATA ofrece oportunidades y desafı́os
I Existen diversos paquetes en R para aplicar técnicas
relacionadas al BIG DATA

Referencias Bibliográficas I
Breiman, L. (1996). Bagging predictors. Machine Learning, 24(2):123–140.
Breiman, L. (2001). Statistical Modeling: The Two Cultures. Statistical
Science, 16(3):199–215.
Hoerl, A. E. and Kennard, R. W. (1970). Ridge Regression: Biased
Estimation for Nonorthogonal Problems. Technometrics, 12(1):55–67.
Kearns, M. and Valiant, L. (1989). Cryptographic Limitations on Learning
Boolean Formulae and Finite Automata.
Mitchell, T. (1997). Machine Learning. McGraw-Hill Education, New York, 1
edition edition.
Quinlan, J. R. (1986). Induction of Decision Trees. Machine Learning,
1(1):81–106.
Quinlan, J. R. (1993). C4.5: Programs for Machine Learning. Morgan
Kaufmann Publishers Inc., San Francisco, CA, USA.
Schapire, R. E. (1990). The strength of weak learnability. Machine Learning,
5(2):197–227.
Tibshirani, R. (1996). Regression Shrinkage and Selection via the Lasso.
Journal of the Royal Statistical Society. Series B (Methodological),
58(1):267–288.
Referencias Bibliográficas II
Viola, P. and Jones, M. (2001). Rapid object detection using a boosted

cascade of simple features. In Proceedings of the 2001 IEEE Computer
Society Conference on Computer Vision and Pattern Recognition, 2001.
CVPR 2001, volume 1, pages I–511–I–518 vol.1.
Wolpert, D. H. (1996). The Lack of A Priori Distinctions Between Learning
Algorithms. Neural Computation, 8(7):1341–1390.
Andrés G. Abad View publication stats

- ESPOL 51 / 51

INFERENCIALMLy BIGDATA

Uploaded by

Copyright:

Available Formats

You might also like

INFERENCIALMLy BIGDATA

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

INFERENCIALMLy BIGDATA

Uploaded by

Copyright:

Available Formats

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

Estadística Inferencial, Machine Learning, y Big Data

Presentation · October 2015

The user has requested enhancement of the downloaded file.

20 años de Ingenierı́a en Estadı́stica

Andrés G. Abad, Ph.D.

ESCUELA SUPERIOR POLITÉCNICA DEL LITORAL

Andrés G. Abad - ESPOL 1 / 51

Andrés G. Abad - ESPOL 2 / 51

Andrés G. Abad - ESPOL 3 / 51

Razonamiento Deductivo Razonamiento Inductivo

Conclusión Posibles hipótesis

Def. Estadı́stica Inferencial

Andrés G. Abad - ESPOL 4 / 51

Conocimiento + Cuantificación de = Conocimiento

Necesariamente para esto utilizamos el

Andrés G. Abad - ESPOL 5 / 51

I Primera Revloución (1774-1786): Laplace

Probabilidad Probabilidad Función de

P(θ|D) ∝ P(D|θ) ∝ LD (θ)

donde ε ∈ Rn es considerada aleatoria.

I Esfuerzos por establecer relación entre función de pérdida

Andrés G. Abad - ESPOL 7 / 51

P generalmente rectangular, L generalmente `1 , `2 , `∞

Distribución Normal aún no descubierta

Dos avances gigantes:

Andrés G. Abad - ESPOL 9 / 51

LD (θ) = P(D|θ) = P({x1 , . . . , xn }|θ)

I Evitando asumir funciones de pérdida arbitrarias

Andrés G. Abad - ESPOL 10 / 51

Andrés G. Abad - ESPOL 11 / 51

Énfasis en entendimiento del sistema o en predicción [Breiman,

(a) Modelamiento de Datos (b) Modelamiento Algorı́tmico

Andrés G. Abad - ESPOL 12 / 51

Def. Aprendizaje de Máquina [Mitchell, 1997]

Andrés G. Abad - ESPOL 13 / 51

El Aprendizaje de Máquina es una rama del Inteligencia

El aprendizaje es inceustionablemente uno de los principales

Andrés G. Abad - ESPOL 14 / 51

Andrés G. Abad - ESPOL 15 / 51

Andrés G. Abad - ESPOL 16 / 51

Algoritmos Tradicionales Aprendizaje de Máquina

Andrés G. Abad - ESPOL 17 / 51

Considere (x1 , y1 ), . . . , (xm , ym ) donde xi ∈ X ⊆ Rn , yi ∈ Y ⊆ R.

Andrés G. Abad - ESPOL 18 / 51

que tenga un bajo error de generalización

I Para regresión generalmente usamos

I Para clasificación generalmente usamos

Andrés G. Abad - ESPOL 19 / 51

Algunos de los principales algoritmos para clasificación binaria

Figure: Clasificación Binaria

Andrés G. Abad - ESPOL 20 / 51

Considera el criterio de maximo a posteriori (MAP)

c = arg max P(x1 , . . . , xn |cj )P(cj ).

Bajo el supuesto de independencia entre variables

I No considera interacciones entre variables

Andrés G. Abad - ESPOL 21 / 51

I AlgoritmosPID3 [Quinlan, 1986] y C4.5 [Quinlan, 1993] utilizan