Download as pdf or txt
Download as pdf or txt
You are on page 1of 52

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/294582217

Estadística Inferencial, Machine Learning, y Big Data

Presentation · October 2015

CITATIONS READS

0 3,916

1 author:

Andres G. Abad
Escuela Superior Politécnica del Litoral (ESPOL)
22 PUBLICATIONS   145 CITATIONS   

SEE PROFILE

All content following this page was uploaded by Andres G. Abad on 15 February 2016.

The user has requested enhancement of the downloaded file.


Estadı́stica Inferencial,
Aprendizaje de Máquina, y BIG DATA

20 años de Ingenierı́a en Estadı́stica

Andrés G. Abad, Ph.D.

ESCUELA SUPERIOR POLITÉCNICA DEL LITORAL

Noviembre 7, 2015

Andrés G. Abad - ESPOL 1 / 51


Agenda
Estadı́stica Inferencial
Introducción
Tres Revoluciones
Aprendizaje de Máquina
Introducción
Formalización del Problema de Aprendizaje
Temas Centrales al Aprendizaje de Máquina
BIG DATA
Introducción
Paradigma MapReduce
BIG DATA en R
Conclusiones
Referencias Bibliográficas

Andrés G. Abad - ESPOL 2 / 51


Agenda
Estadı́stica Inferencial
Introducción
Tres Revoluciones
Aprendizaje de Máquina
Introducción
Formalización del Problema de Aprendizaje
Temas Centrales al Aprendizaje de Máquina
BIG DATA
Introducción
Paradigma MapReduce
BIG DATA en R
Conclusiones
Referencias Bibliográficas

Andrés G. Abad - ESPOL 3 / 51


Introducción a la Estadı́stica Inferencial Paramétrica I

Razonamiento Deductivo Razonamiento Inductivo


Axiomas Datos observados

Conclusión Posibles hipótesis

Def. Estadı́stica Inferencial


Es una rama de la estadı́stica que por medio de la inducción
busca determinar propiedades de la distribución
generadora a partir de un conjunto de datos observados.

Andrés G. Abad - ESPOL 4 / 51


Introducción a la Estadı́stica Inferencial Paramétrica II

Conocimiento + Cuantificación de = Conocimiento


incierto incertidumbre útil

Necesariamente para esto utilizamos el


Teorema de Bayes

P(D|h)P(h)
P(h|D) =
P(D)

I h: hipótesis
I D: observaciones Figure: Rev. Thomas
Bayes (1701-1761)

Andrés G. Abad - ESPOL 5 / 51


Tres Revoluciones en Estadı́stica Inferencial I

I Primera Revloución (1774-1786): Laplace


I Segunda Revolución (1809-1828): Gauss y Laplace
I Tercera Revolución (1912-1956): Fisher

Probabilidad Probabilidad Función de


Inversa Directa Verosimilitud

P(θ|D) ∝ P(D|θ) ∝ LD (θ)


Andrés G. Abad - ESPOL 6 / 51
Primera Revloución (1774-1786): Laplace I

Se busca
E[Y|X].

Modelo Lineal
Considere Y ∈ Rn , X ∈ Rn×p , y β ∈ Rp , tal que

Y = Xβ + ε

donde ε ∈ Rn es considerada aleatoria.

I Esfuerzos por establecer relación entre función de pérdida


y distribución de datos
I Minizar divergencia
I Maximizar probabilidad

Andrés G. Abad - ESPOL 7 / 51


Primera Revloución (1774-1786): Laplace II
β̂ = arg maxβ P(Y − Xβ|β) β̂ = arg minβ L (Y − Xβ)

P generalmente rectangular, L generalmente `1 , `2 , `∞


triangular, coseno cuadrático,
semi-circular, exponencial
doble

Distribución Normal aún no descubierta


Andrés G. Abad - ESPOL 8 / 51
Segunda Revolución (1809-1828): Gauss y Laplace I

Distribución Normal

1 1
 
f (x; µ, Σ) = exp − (x − µ) Σ (x − µ) ,
T −1
Z 2
R  
donde Z = Rp exp − 12 (x − µ)T Σ−1 (x − µ) dx.

Dos avances gigantes:


1. Distribución normal como distribución de observaciones
I Se establece la optimalidad del método de mı́nimos
cuadrados bajo errores normalmente distribuidos
2. Distribución normal como aproximación a la distribución de
la media muestral (Teorema del Lı́mite Central)

Andrés G. Abad - ESPOL 9 / 51


Tercera Revolución (1912-1956): Fisher I
I Se definieron propiedades de los estimadores
I Consistencia
I Eficiencia
I Suficiencia
I Se trabajó en técnicas para evitar el uso de la probabilidad
a priori P(h)
I Propuso que toda la información relevante era contenida
en la función de verosimilitud
Función de Verosimilitud

LD (θ) = P(D|θ) = P({x1 , . . . , xn }|θ)

I Evitando asumir funciones de pérdida arbitrarias


I Evitando asumir una varianza finita

Andrés G. Abad - ESPOL 10 / 51


Agenda
Estadı́stica Inferencial
Introducción
Tres Revoluciones
Aprendizaje de Máquina
Introducción
Formalización del Problema de Aprendizaje
Temas Centrales al Aprendizaje de Máquina
BIG DATA
Introducción
Paradigma MapReduce
BIG DATA en R
Conclusiones
Referencias Bibliográficas

Andrés G. Abad - ESPOL 11 / 51


Introducción al Aprendizaje de Máquina I

Énfasis en entendimiento del sistema o en predicción [Breiman,


2001]

(a) Modelamiento de Datos (b) Modelamiento Algorı́tmico

Andrés G. Abad - ESPOL 12 / 51


Introducción al Aprendizaje de Máquina II

Def. Aprendizaje de Máquina [Mitchell, 1997]


Una máquina aprende con respecto a
I una tarea T ,
I una medida de desempeño P, y
I un tipo de experiencia E,
si la máquina confiablemente mejora su
I desempeño P, en la tarea T , siguiendo una experiencia E.

Andrés G. Abad - ESPOL 13 / 51


Introducción al Aprendizaje de Máquina III

El Aprendizaje de Máquina es una rama del Inteligencia


Artificial
Def. Inteligencia Artificial (AI)
La Inteligencia Artificial es la ciencia que estudia la
representación de los procesos mentales relacionados a la
inteligencia humana mediante modelos

El aprendizaje es inceustionablemente uno de los principales


procesos del cerebro

Andrés G. Abad - ESPOL 14 / 51


Introducción al Aprendizaje de Máquina IV
I Aprendizaje supervisado
I Aprendizaje no supervisado
I Aprendizaje semi-supervisado

→ {Mujer, Hombre}

Andrés G. Abad - ESPOL 15 / 51


Introducción al Aprendizaje de Máquina V
Dos acercamientos:
1. Escribir un programa en el cual detallamos procesos para
diferenciar entre un rostro masculino de uno femenino.
I Longitud del cabello, distancia entre ojos, medidas de
nariz, area del rostro, tonalidad de labios, etc
2. Escribir un meta-programa que defina automaticamente un
programa para realizar esta distinción

Andrés G. Abad - ESPOL 16 / 51


Introducción al Aprendizaje de Máquina VI

I Elementos de un algoritmo
1. Datos de entrada
2. Procedimientos
3. Salidas

Algoritmos Tradicionales Aprendizaje de Máquina


Entradas Entradas
+ +
Procedimientos Salidas
↓ ↓
Salidas Procedimientos

Andrés G. Abad - ESPOL 17 / 51


Formalización del Problema de Aprendizaje I

Considere (x1 , y1 ), . . . , (xm , ym ) donde xi ∈ X ⊆ Rn , yi ∈ Y ⊆ R.


Asumimos que existe una función no conocida

f :X→Y
Según la naturaleza del
conjunto Y tenemos los
siguientes tipos de problemas

Y Tipo de problema
R Regresión
{c1 , . . . , cn } Clasificación
{−1, +1} Clasificación binaria

Andrés G. Abad - ESPOL 18 / 51


Formalización del Problema de Aprendizaje II
Buscamos una hipótesis

h:X→Y

que tenga un bajo error de generalización

 = P[h(x) , f (x)].

I Para regresión generalmente usamos

1 X
 = MSE(h) = (f (x) − h(x))2
|X|
x∈X

I Para clasificación generalmente usamos

1 X
= [I(h(x) , f (x))]
|X|
x∈X

Andrés G. Abad - ESPOL 19 / 51


Métodos de clasificación I

Algunos de los principales algoritmos para clasificación binaria


I Clasificador bayesiano ingenuo
I Arboles de clasificación (e.g.,
CART, C4.5)
I Regresión logı́stica
I Máquinas de Soporte Vectorial
I Redes Neuronales Artificiales

Figure: Clasificación Binaria


I Análisis de discriminantes (e.g.,
lineal, cuadrático)

Andrés G. Abad - ESPOL 20 / 51


Clasificador bayesiano ingenuo I

Considera el criterio de maximo a posteriori (MAP)

c = arg max P(x1 , . . . , xn |cj )P(cj ).


cj ∈C

Bajo el supuesto de independencia entre variables


n
Y
c = arg max P(cj ) P(xi |cj ).
cj ∈C
i=1

I No considera interacciones entre variables


I No sufre de la maldición de la dimensionalidad
I Si la clase correcta tiene probabilidad alta es robusto al
supuesto de independencia

Andrés G. Abad - ESPOL 21 / 51


Árboles de clasificación I
Basado en reglas del tipo: Si A1 ∧ · · · ∧ Am entonces cj
I Generalmente condición Al de la forma xi ≥ θ

I AlgoritmosPID3 [Quinlan, 1986] y C4.5 [Quinlan, 1993] utilizan


H(S) = − x∈X p(x) log p(x)
I Algortimo
PmCART utiliza Impureza Gini:
IG (x) = i=1 xi (1 − xi )
Andrés G. Abad - ESPOL 22 / 51
Análisis de discriminante lineal I
Modelamos la densidad de cada clase con una distribución
gaussiana multivariada

1 1
 
fk (x) = exp − (x − µ k ) Σ
T −1
k (x − µk .
)
(2π)p/2 |Σk |1/2 2
Asumiremos que las clases tienen una matriz de covarianzas
común Σk = Σ para todo k

1
δk (x) = xT Σ−1 µk − µk T Σ−1 µk + log πk
2

Andrés G. Abad - ESPOL 23 / 51


Temas Centrales al Aprendizaje de Máquina I

Los siguientes son temas centrales al estudio del Aprendizaje


de Máquina
I El teorema de “Nada Es Gratis” (No Free Lunch)
I Combinando Modelos (Ensembles)
I Sobre-ajuste VS Generalización

Andrés G. Abad - ESPOL 24 / 51


El teorema de “Nada Es Gratis” (No Free Lunch) I
Teorema de “Nada Es Gratis” [Wolpert, 1996]
Para cualquier modelo, un desempeño elevado en una clase de
problemas es compensado por un bajo rendimiento en otra
clase (el desempeño promedio de cualquier modelo es igual.)

Andrés G. Abad - ESPOL 25 / 51


Combinando Modelos I

En la conferencia Predictive Analytics


World/Toronto (PAW) 2012a

Método Valor Diferencia


Real 362 -
Ganador (persona) 352 10
Promedio (N = 61) 365 3

a
http://www.predictiveanalyticsworld.com/

Andrés G. Abad - ESPOL 26 / 51


Combinando Modelos II

Combinando modelos de regresión

T
1X
H(x) = hi (x).
T
t=1

Combinando modelos de clasificación


j
si Ti=1 hi (x) >
( P 1 Pl PT k
cj 2 k =1 i=1 hi (x)
H(x) =
Rechazo si no.

Andrés G. Abad - ESPOL 27 / 51


Combinando Modelos III

I Utilizar un conjunto de datos de entrenamiento de alguna


manera diferente
I Seleccionar un subconjunto diferente de variables para
entrenar a la hipótesis
I Manipular las etiquetas de las clases
I Introducir aleatoriedad en el algoritmo

Andrés G. Abad - ESPOL 28 / 51


Principales métodos de ensembles I

Principales métodos de ensembles:


I Clasificador Bayesiano Óptimo
I Bagging
I Boosting
I AdaBoost

Andrés G. Abad - ESPOL 29 / 51


Clasificador Bayesiano Óptimo I
Consideramos H como el espacio de todas las hipótesis y D
una muestra
X
c = arg max P(cj |hi )P(hi |D)
cj ∈C
hi ∈H

Es el mejor clasificador en promedio considerando H y


conocimiento a priori
Dificultades prácticas
I H generalmente muy grande como para iterar
I Hipótesis h generalmente entregan clase y no
probabilidades P(c|h)
I Calcular probabilidades posterior P(h|D) es generalmente
no trivial
I Necesitamos P(D|h) y P(h)

Andrés G. Abad - ESPOL 30 / 51


Bagging I
El Bagging (Bootstrap AGGregatING) fue introducido en Breiman
[1996]
L = {(x1 , y1 ), . . . , (xm , ym )}

1. Utilizando muestreo aleatorio


con reposición y obtenemos

Lb = {(xb1 , yb1 ), . . . , (xbm , ybm )},

para b = 1, . . . , B.
2. Aprendemos hb utilizando Lb
3. Agregamos hipótesis

Andrés G. Abad - ESPOL 31 / 51


Boosting I
I En Kearns and Valiant [1989] se plantea la pregunta de si las
clases de complejidad: aprendedores débiles y
aprendedores fuertes, son iguales
responde a esa pregunta, su prueba es
I Schapire [1990]
constructiva: Boosting

Andrés G. Abad - ESPOL 32 / 51


Boosting II

Suponga que h1 , . . . , hT son clasificadores débiles utilizados


para aproximar una función f : Rk → {−1, +1}, tal que

ε = P[h(x) , f (x)] = 0.5 − γ para x ∈ X; γ > 0

Figure: Clasificadores Débiles ([Viola and Jones, 2001])

Andrés G. Abad - ESPOL 33 / 51


Boosting III

Figure: Esquema del Boosting

Andrés G. Abad - ESPOL 34 / 51


Boosting IV

α1 = 0.42, α2 = 0.65, α3 = 0.92

Andrés G. Abad - ESPOL 35 / 51


Sobre-ajuste VS Generalización I

Se utilizan modelos de alta complejidad y se evita el


sobre-ajuste durante el entranamiento
I Comúnmente mediante regularización de los parámetros

Andrés G. Abad - ESPOL 36 / 51


Regularización I
n o
β̂ = arg min L (Y − Xβ) + λkβkp
β

Casos comunes incluyen p = 1 (regresión LASSO [Tibshirani,


1996])y p = 2 (caso particular de regresión RIDGE [Hoerl and
Kennard, 1970]).

Andrés G. Abad - ESPOL 37 / 51


Habilitadores del desarrollo del Aprendizaje de
Máquina I

Habilitadores del desarrollo del Aprendizaje de Máquina


1. Avances en optimización matemática
2. Avances en poder de cómputo
3. Disponbilidad de grandes conjuntos de datos

Andrés G. Abad - ESPOL 38 / 51


Agenda
Estadı́stica Inferencial
Introducción
Tres Revoluciones
Aprendizaje de Máquina
Introducción
Formalización del Problema de Aprendizaje
Temas Centrales al Aprendizaje de Máquina
BIG DATA
Introducción
Paradigma MapReduce
BIG DATA en R
Conclusiones
Referencias Bibliográficas

Andrés G. Abad - ESPOL 39 / 51


Introducción al BIG DATA I

Def. BIG DATA


Un término extenso para denotar colecciones de conjunto de
datos tan grandes y complejos que su procesamiento es
desafiante utilizando técnicas tradicionales.

El desafı́o incluye: visualizar, analizar, capturar, sanar, buscar,


compartir, almacenar, transferir, asignarle una propiedad,
determinar su valor, y proteger su privacidad.

I Estadı́stica y Aprendizaje de Máquina


I Ciencia de la Computación
I Ciencias Sociales

Andrés G. Abad - ESPOL 40 / 51


Las 3+1 V’s de BIG DATA I

Andrés G. Abad - ESPOL 41 / 51


Variedad de Datos en BIG DATA I
¿Qué tipo/fuente de datos ha analizado en los últimos 12
meses? (N = 264)1

1
Fuente: http://www.kdnuggets.com/
Andrés G. Abad - ESPOL 42 / 51
Volumen de Datos en BIG DATA I
¿Cuál ha sido el conjunto de datos más grande que ha
analizado? (N = 459)2

Andrés G. Abad - ESPOL 43 / 51


Volumen de Datos en BIG DATA II
p (variables)

(a) (c)
n

(d)

(b)
BIG DATA

I (a) Tabla de datos tradicional


I (b) n  p (transacciones)
I (c) p  n (imagenes, sonido, genética)
I (d) n y p variables (redes)
Andrés G. Abad - ESPOL 44 / 51
Volumen de Datos en BIG DATA III

Tamaño de archivos en R
I 1 Millón de registros: facilmente
procesados en R
I Entre 1 y 1000 Millones de registros:
procesados en R con esfuerzo
adicional
I +1000 Millones de registros:
necesarios algoritmos siguiendo
MapReduce

Tamaño del objeto más grande creado durante el análisis es el


relevante

2
Fuente: http://www.kdnuggets.com/
Andrés G. Abad - ESPOL 45 / 51
Paradigma MapReduce I
Def. MapReduce
Paradigma de programación que permite el computo en
paralelo en clusters de computadoras

Basado en funciones map() y reduce()


I Apache Hadoop es una
implementación popular
open-source
I Paquete en R: “RHadoop”
o “hive” Hadoop
InteractiVE

Andrés G. Abad - ESPOL 46 / 51


BIG DATA en R I

Algunas estrategias para usar R con BIG DATA


I Muestrear de datos
I Hardware más potente (R en 32-bit direcciona hasta 2 GB
de RAM; en 64-bit hasta 8 TB de RAM)
I Almacenar en disco y analizar por partes (Paquetes “ff”,
“ffbase”, y “bigglm” en R; “scaleR” en Revolution R
Enterprise)
I Integrar con lenguajes de desempeño más eficiente (C++,
Java)
Andrés G. Abad - ESPOL 47 / 51
Agenda
Estadı́stica Inferencial
Introducción
Tres Revoluciones
Aprendizaje de Máquina
Introducción
Formalización del Problema de Aprendizaje
Temas Centrales al Aprendizaje de Máquina
BIG DATA
Introducción
Paradigma MapReduce
BIG DATA en R
Conclusiones
Referencias Bibliográficas

Andrés G. Abad - ESPOL 48 / 51


Conclusiones I

I El Aprendizaje de Máquina puede ser considerado como


una rama de la estadı́stica cercana a la estadı́stica
inferencial
I El énfasis es en predicción
I Los métodos de Aprendizaje de Máquina pueden ser
escalados al BIG DATA
I El BIG DATA ofrece oportunidades y desafı́os
I Existen diversos paquetes en R para aplicar técnicas
relacionadas al BIG DATA

Andrés G. Abad - ESPOL 49 / 51


Referencias Bibliográficas I
Breiman, L. (1996). Bagging predictors. Machine Learning, 24(2):123–140.
Breiman, L. (2001). Statistical Modeling: The Two Cultures. Statistical
Science, 16(3):199–215.
Hoerl, A. E. and Kennard, R. W. (1970). Ridge Regression: Biased
Estimation for Nonorthogonal Problems. Technometrics, 12(1):55–67.
Kearns, M. and Valiant, L. (1989). Cryptographic Limitations on Learning
Boolean Formulae and Finite Automata.
Mitchell, T. (1997). Machine Learning. McGraw-Hill Education, New York, 1
edition edition.
Quinlan, J. R. (1986). Induction of Decision Trees. Machine Learning,
1(1):81–106.
Quinlan, J. R. (1993). C4.5: Programs for Machine Learning. Morgan
Kaufmann Publishers Inc., San Francisco, CA, USA.
Schapire, R. E. (1990). The strength of weak learnability. Machine Learning,
5(2):197–227.
Tibshirani, R. (1996). Regression Shrinkage and Selection via the Lasso.
Journal of the Royal Statistical Society. Series B (Methodological),
58(1):267–288.
Andrés G. Abad - ESPOL 50 / 51
Referencias Bibliográficas II

Viola, P. and Jones, M. (2001). Rapid object detection using a boosted


cascade of simple features. In Proceedings of the 2001 IEEE Computer
Society Conference on Computer Vision and Pattern Recognition, 2001.
CVPR 2001, volume 1, pages I–511–I–518 vol.1.
Wolpert, D. H. (1996). The Lack of A Priori Distinctions Between Learning
Algorithms. Neural Computation, 8(7):1341–1390.

Andrés G. Abad View publication stats


- ESPOL 51 / 51

You might also like