Download as pdf or txt
Download as pdf or txt
You are on page 1of 12

Reporte de datos

30 de mayo de 2018

1. Compendio gráfico y numérico


De los datos del set de Weekly, se intuyeron algunas posibles relaciones entre ellos. Para evaluar
la veracidad de estas relaciones, se realizaron gráficos de dispersión entre pares de caracteristicas,
sin considerar modelos donde cada una de ellas dependiera de más de dos variables.

Primero, se consideraron los porcentajes de retorno. Éstos están basados en la razón entre la ganan-
cia y la inversión. Aunque a simple vista no parece obvio que haya una relación entre el porcentaje
de retorno de semanas pasadas –los lags– con el correspondiente a la semana actual, serı́a, sin em-
bargo, interesante que tal vez haya algún tipo de ”memoria” en las ganancias actuales sobre las de
semanas pasadas. Se hicieron entonces varios gráficos de dispersión, donde se comparaba el porcen-
taje de retorno de de la semana actual con aquellos de semanas pasadas. Además, se hizo un gráfico
de dispersión adicional con las ganancias con el volumen de acciones negociadas en la semana actual.

15

10

5
Today

−5

−10

−15

−20
−20 −15 −10 −5 0 5 10 15 −20 −15 −10 −5 0 5 10 15 −20 −15 −10 −5 0 5 10 15

Lag1 Lag2 Lag3


15

10

5
Today

−5

−10

−15

−20
−20 −15 −10 −5 0 5 10 15 −20 −15 −10 −5 0 5 10 15 −2 0 2 4 6 8 10

Lag4 Lag5 Volume

Figura 1: Gráfico de dispersión de los porcentajes de ganancia de semanas pasadas–lags–, y el


volumen de acciones negociadas, contra el porcentaje de ganancia de la semana actual.

1
En los gŕaficos de dispersión en la Figura 1, se ve que las relaciones entre las caracterı́sticas previa-
mente mencionadas no presentan ningún patrón evidente. Aunque los datos se presentan en general
agrupados en una sola área del gráfico, no es posible sobre ellos solos construir algún tipo de rela-
ción que describa el comportamiento de una en función de la otra, y que de información significativa.

Se consideraron luego los volúmenes de acciones negociadas por semana –desde 1990–, y los volúme-
nes promedio por año. En la Figura 2 pueden verse éstas gráficas de dispersión. Se ve claramente que
hay una relación directamente proporcional, hasta cierto punto, sin embargo, esto puede modelarse
con una regresión simple polinomial.

10 6

8 5

4
6
Mean volume 3
Volume

4
2
2
1
0 0

−2 −1
0 200 400 600 800 1000 1990 1992 1994 1996 1998 2000 2002 2004 2006 2008 2010
Week Year
a) b)

Figura 2: Volumen de acciones negociadas por semana y volumen medio de acciones negociadas por
año.

Para ambos casos, se hicieron luego regresiones polinomiales hasta grado 4, para ver cuál modelo se
ajustaba mejor. Además, se evaluó la precisión del modelo con el coeficiente r2 [2].

En la Figura 3(a), se encuentran las regresiones polinomiales para los volúmenes de acciones nego-
ciadas por semana. Por otra parte, en la Figura 3(b) se encuentran las regresiones polinomiales para
el promedio de los volúmenes de acciones negociadas por año.

Los coeficientes r2 calculados dan una buena idea de qué tan bueno es el modelo para predecir los
datos. En este caso, se dividieron los datos para entrenaminento y prueba; se escogieron 30 % para
prueba. Puede verse que, en general, los modelos de las regresiones polinomiales se ajustan mejor a
los datos de volúmenes promediados, que a los datos de volúmenes por semana. Éste resultado era
en cierta manera esperado, ya que por obvias razones, el primer conjunto de datos –correspondientes
a la Figura 3(a)– presenta más dispersión.

Además, puede concluirse que el modelo más apropiado para relacionar los volúmenes de acciones
negociadas con por semana y por año es el cuadrático. Para el caso lineal, aunque el coeficiente r2
tiene un valor cercano a uno, de las gráficas puede verse que presenta un sub-ajuste de los datos. Los
modelos cúbicos y de mayor grado tienen un evidente sobre-ajuste para el caso de los volúmenes por

2
Polyfit of degree 1 Polyfit of degree 2
10

6 r2 coef: 0.6939 r2 coef: 0.8392

−2

Polyfit of degree 3 Polyfit of degree 4


10

6 r2 coef: 0.8482 r2 coef: 0.8509

−2
0 200 400 600 800 1000 0 200 400 600 800 1000

(a) Regresiones polonomiales de los volúmenes de acciones negociadas por semana desde 1990.

Polyfit of degree 1 Polyfit of degree 2


6
5
4 r2 coef: 0.6292 r2 coef: 0.8092

3
2
1
0
−1
−2

Polyfit of degree 3 Polyfit of degree 4


6
5
4 r2 coef: 0.8465 r2 coef: 0.7054

3
2
1
0
−1
−2
−10 −5 0 5 10 −10 −5 0 5 10
+2e3 +2e3

(b) Regresiones polinomiales de los volúmenes medios de acciones negiciadas por año.

Figura 3: Regresiones polinomiales. Los puntos azules representan a los datos de entrenamiento,
mientras que los rojos son los datos de prueba.

semana(Figura 3(a)), mientras que para el caso de los volúmenes promedio por año (Figura 3(b)) la
regresión de grado 4 presenta un sub-ajuste. Esto hace al modelo cuadrático el más indicado –claro,

3
tomando en cuenta que esto es una regresión simple.

Como anotación adicional, las regresiones realizadas para los volúmenes de acciones negociadas por
semana son sólo válidas si se toma como ”cero” a la primera semana de 1990.

2. Regresión KNN para las variables cuantitativas del set de


datos
Las variables cuantitativas corresponden a los porcentajes de retorno –Lags y Today–, y el
volúmen de acciones negociadas por semana –Volume. Como los Lags son los porcentajes obte-
nidos en las hasta 5 semanas anteriores a la semana actual–Today–, no es necesario considerarlos,
ya que a excepción de unos dos o tres datos al comienzo de la lista, son exactamente los mismos.
Además, como se dijo en la sección anterior, éstos no muestran tener repercusión alguna en los
porcentajes de retorno de la semana actual. Por lo tanto, sólo se realizó la regresión KNN para los
porcentajes de retorno y los volúmenes de acciones negociadas para cada semana correspondiente.
En la Fiugura 4 se encuentran las series de tiempo para los porcentajes de retorno y el volumen de
acciones negociadas.

15

10
Percentage return

−5

−10

−15

−20

10

6
Volume

−2
200 400 600 800 1000
Week

Figura 4: Series de tiempo del porcentaje de retorno y el volumen de acciones negociadas en cada
semana.

4
Para hacer la regresión KNN, se escogió un peso uniforme para las distancas a los vecinos, y se iteró
la regresión para distintos números de vecinos desde 1 hasta 10.

15
10
Percentage

5
return

0
−5
−10
−15 Neighbors: 1 Neighbors: 6
−20 MSS: 12.9962 MSS: 6.3797
−25
0 200 400 600 800 1000 0 200 400 600 800 1000
15
10
Percentage

5
return

0
−5
−10
−15 Neighbors: 2 Neighbors: 7
−20 MSS: 8.8083 MSS: 6.4738
−25
0 200 400 600 800 1000 0 200 400 600 800 1000
15
10
Percentage

5
return

0
−5
−10
−15 Neighbors: 3 Neighbors: 8
−20 MSS: 7.7786 MSS: 6.5616
−25
0 200 400 600 800 1000 0 200 400 600 800 1000
15
10
Percentage

5
return

0
−5
−10
−15 Neighbors: 4 Neighbors: 9
−20 MSS: 7.0200 MSS: 6.4329
−25
0 200 400 600 800 1000 0 200 400 600 800 1000
15
10
Percentage

5
return

0
−5
−10
−15 Neighbors: 5 Neighbors: 10
−20 MSS: 6.5780 MSS: 6.4000
−25
0 200 400 600 800 1000 0 200 400 600 800 1000
Week Week

Figura 5: Regresión KNN para los porcentajes de retorno.

En las Figuras 5 y 6 se muestran las regresiones KNN realizadas. Para cada regresión de distinto
número de vecinos se calculó el error medio cuadrado, como métrica para la precisión del modelo.

En ambos casos se vió que para las regresiones con pocos números de vecinos, el error era mayor
comparado con los otros. Sin embargo, para el caso de los porcentajes de retorno, el mı́nimo, tal vez

5
10
8
Volume

6 Neighbors: 1 Neighbors: 6
4
MSS: 0.1715 MSS: 0.1651
2
0
−2
0 200 400 600 800 1000 0 200 400 600 800 1000
10
8
Volume

6 Neighbors: 2 Neighbors: 7
4
MSS: 0.1582 MSS: 0.1653
2
0
−2
0 200 400 600 800 1000 0 200 400 600 800 1000
10
8
Volume

6 Neighbors: 3 Neighbors: 8
4
MSS: 0.1540 MSS: 0.1656
2
0
−2
0 200 400 600 800 1000 0 200 400 600 800 1000
10
8
Volume

6 Neighbors: 4 Neighbors: 9
4
MSS: 0.1590 MSS: 0.1648
2
0
−2
0 200 400 600 800 1000 0 200 400 600 800 1000
10
8
Volume

6 Neighbors: 5 Neighbors: 10
4
MSS: 0.1535 MSS: 0.1663
2
0
−2
0 200 400 600 800 1000 0 200 400 600 800 1000
Week Week

Figura 6: Regresión KNN para el volumen de acciones negociadas.

local, de error medio, se dio para un número de 6 vecinos, mientras que para el volúmen de acciones
negociadas, el mı́nimo de error medio cuadrado, también tal vez local, se alcanzó para un número
de 5 vecinos.

Puede verse, además, que los errores calculados para las regresiones del porcentaje de retorno son
mucho más grandes que los calculados para las regresiones de volumen de acciones negociadas. Si
bien no es correcto inferir algo relacionado a estas caracterı́sticas a partir de este hecho, sı́ puede
decirse que esa diferencia en la magnitud de los errores puede deberse a la desviación de los datos;

6
si bien el comportamiento de los porcentajes de retorno en las semanas se ve más lineal que el com-
portamiento del volumen de acciones negociadas, los primeros están mucho más dispersos.

3. Regresión de Ridge
Para el volumen de acciones contra la semana, se hizo una regresión de grado 2, teniendo en
cuenta los resultados de la primera sección. El valor para el hiperparámetro de Ridge escogido fue
α = 0,001.

Se discriminó el conjunto de datos para entrenamiento y prueba. Se tomaron grupos 1000 de datos
de prueba desde el 20 % al 80 %, se calculó el error cuadrático medio para cada regresión, y se eligió
la proporción porcentual que lo minimizara.

En la Figura 7 se encuentran las gráficas del error y la curva de ajuste para los datos del volumen
de acciones negociadas.

0.55

0.50
MSE

0.45

Minimum error at training percentage 0.33


0.40
0.2 0.3 0.4 0.5 0.6 0.7 0.8
Training percentage
(a) Error cuadrático medio vs porcentaje de proporción de
entrenamiento.

5
Volume

0
0 200 400 600 800 1000 1200
Weeks
(b) Lı́nea de ajuste con el método de Ridge, con una regre-
sión polinómica de grado 2.

Figura 7: Regresión de Ridge para el volumen de acciones negociadas.

7
Extrañamente, puede verse en la Figura 7(a), que mientras se tomaba un mayor porcentaje de datos
de entrenamiento, más aumentaba el error cuadrático medio. Sin embargo, en la Figura 7(b) se nota
que la lı́nea de ajuste es parecida a la de la figura 3(a).

6.6

6.4

6.2

6.0
MSE

5.8

5.6

5.4

5.2

5.0 Minimum error at training percentage 0.77


0.2 0.3 0.4 0.5 0.6 0.7 0.8
Training percentage
(a) Error cuadrático medio vs porcentaje de proporción de
entrenamiento.

15

10
Percentage return

−5

−10

−15

−20
0 200 400 600 800 1000 1200
Weeks
(b) Lı́nea de ajuste con el método de Ridge, con una regre-
sión polinómica de grado 1.

Figura 8: Regresión de Ridge para el porcentaje de retorno.

En la Figura 8(a), se ve que la proporcion del porcentaje de entrenamiento para los datos es del
77 %. Aunque puede resultar más lógico que más datos de entremamiento minimicen el error, en la
gráfica se puede ver un salto extraño que resulta justo en el punto mı́nimi de error.
Los resultados obtenidos no parecieron ser demasiado prometedores, pues su comportamiento, y
sobre todo, el comportamiento del error respecto a la proporción del porcentaje de datos de en-
trenamiento, fue bastante extraño. Se pensó que tal vez pudo haber sido debido a la elección del
hiperparámetro, pero al elegir otros valores, el comportamiento permaneció constante. Por lo tanto,
es más probable que la aplicación del método en el código haya sido errónea.

8
4. Regresión logı́stica
Se tomaron como caracterı́sticas para la regresión logı́stica, las cinco lags, además del Volume,
para clasificar los datos de acuerdo a la caracterı́stica Direction. Se dividieron los datos en conjuntos
de prueba–40 %– y entrenamiento–60 %. Como son seis los coeficientes que determinan la clasifica-
ción, el hiperplano que separa las variables es de 6 dimensiones, por lo que no hay manera gráfica
de representarlo.

Parámetro Coeficiente
Lag 1 -0.0258285
Lag 2 0.01112555
Lag 3 -0.00531588
Lag 4 0.01201715
Lag 5 -0.02759017
Volume 0.03695621

Cuadro 1: Valores de los parámetros calculados para la clasificación en la regresión logı́stica.

En la Tabla 1, se encuentran los valores de los parámetros calculados para cada caracterı́stica. De
acá, puede verse que los parámetros que más importaron para la clasificación, son los Lag 1, Lag 5,
y Volume. Sin embargo, el algoritmo de clasificación sólo tuvo un éxito del 57 %, lo cual resulta poco
aceptable.

También se hizo la regresión logı́stica con sólo dos caracterı́sticas, pero con el mismo objetivo. Se
tomaron Volume y Today; como ya se ha mencionado antes, los valores de los Lags corresponden
casi que exactamente a los valores de Today, por lo que no contienen información nueva. Para este
caso, se tomó incluso una mayor proporción de datos de prueba, del 50 %. Los resultados fueron,
además, bastante buenos. La clasificación tuvo una precisión del 99 %. En la Figura 9, se muestran
las regiones de clasificación encontradas por el algoritmo.

10

0
Today

−5

−10

−15

0 2 4 6 8 10 0 2 4 6 8 10
Volume Volume

Figura 9: Grafico de densiad de probabilidad del algoritmo de clasificación por regresión logı́stica.

9
5. SVC
Para comparar el resultado obtenido anteriormente, se hizo la clasificación de la caracterı́stica
Direction tomando como parámetros a Volume y Today.

10

0
Today

−5

−10

−15

0 2 4 6 8 10 0 2 4 6 8 10
Volume Volume

Figura 10: Gráfico de densidad de probabilidad del algoritmo de clasificación por SVM.

Comparando las Figuras 5 y 9, puede verse que hay un cambio significativo en las regiones de pro-
babilidad construidas por cada método. Mientras que la clasificación por regresión logı́stica divide
el espacio de caracterı́sticas en dos, el SVM parece englobar una región de probabilidad de una de
las clases dentro de la otra. Esto puede deberse a que la hipersuperficie generada por el SVM para
separar las clases de datos, no es necesariamente un hiperplano.

Además, similar a como se hizo en la tercera sección, se hizo una gráfica donde se compararon
diferentes proporciones de datos de entrenamiento y prueba, con los errores obtenidos con cada pro-
porción. Se escogieron también proporciones desde 20 % al 80 %.

0.59

0.58

0.57 Maximum accuracy at training percentage 0.80


Accuracy

0.56

0.55

0.54

0.53

0.52
0.2 0.3 0.4 0.5 0.6 0.7 0.8
Training percentage

Figura 11: Precisión de la clasificación con diferentes proporciones de datos de entrenamiento-prueba

10
En la Figura 11 puede verse que la precisión del modelo aumenta a medida que crece el tamaño de los
datos de entrenamiento. Si bien esto parece evidente, también puede verse que hay varios máximos
locales por debajo del 70 %. Sin embargo, la precisión de este modelo en particular es bastante baja
considerando que, teniendo el 80 % de datos de entrenamiento no genera más del 60 % de predic-
ciones acertadas. Si bien esto evita de cierta manera que haya un sobre-ajuste del modelo, como en
el caso de la sección anterior, donde se tomaron sólo dos caracterı́sticas logrando una precisión del
99 %, el modelo está en los lı́mites del sub-ajuste.

Anexo 1: Regresión de Ridge


La regresión de Ridge es un método usado para prevenir el sobre-ajuste de los parámetros a los
datos del modelo. Al ser un método de regularización, éste permite conservar el mismo número de
caracterı́sticas, reduciendo la magnitud de de los parámetros calculados en la regresión, evitando
ası́ una sobre-simplificación del modelo[2]. Éste método es usado cuando hay un gran número de
caracterı́sticas tal que se tiene una gran tendencia al sobre-ajuste del modelo[1].

En Ridge, se lleva a cabo una regularización L2 , donde se adiciona un factor de la suma de los
coeficientes en la función de costo. Considerando el error cuadrático medio (MSE), con el método
de Ridge la función de costo quedarı́a de la forma[1]:

1 2 2
kX · θ − Yk2 − α kθk2
J(θ) = (1)
m
Si bien Ridge es indicado para evitar el sobre-ajuste del modelo, con valores demasiado grandes de
α puede darse un sub-ajuste, lo cual tampoco es desable. Como α es un hiperparámetro, éste no es
automaticamente aprendido por el método; sin embargo, definiendo una métrica de evaluación del
modelo, como la correlación R2 ajustada1 , pueden iterarse varios valores para α, y escoger el que
mejor se comporte.

Anexo 2: SVC
Las SVM –máquinas de vectores de soporte–, se basan en el concepto de planos decisorios que
definen fronteras decisorias. Un plano decisorio es aquel que separa grupos de objetos que pertenecen
a una diferente clase. En los casos donde una labor de clasificación está basada en generar planos –o
hiperplanos– que ayuden a distinguir los diferentes objetos en las distintas clases, son comunmente
utilizadas las SVM [3].

Los métodos de SVM se desempeñan en labores de regressión y de casificación, y pueden trabajar


con múltiples variables contı́nuas y categóricas. Sin embargo, para variables categóricas, se deben
construir pseudo-variables cuyo valor sea 1 o 0.

El clasificador de SVM, también conocida como C-SVM, se basa en la minimización de la siguiente


función de costo:
1 Esta correlación está modificada de forma que sólo incrementa cuando se mejora la precisión del modelo [2].

11
N
1 T X
W W+C ξi (2)
2 i=1

La minimización de la ecuación 2 está sujeta a las siguientes ligaduras:

yi WT φ(xi ) + b ≥ 1 − ξi , i = 1, ..., N


ξi ≥ 0, i = 1, ..., N
Donde C es la constante de capacidad, W es el vector de coeficientes, b es una constante, y ξi repre-
senta parámetros para manipular a los datos no separables linealmente. φ se usa para transformar
los datos desde las entradas al espacio de caracterı́sticas. Entre más grande sea C, más será penali-
zado el error, de manera que éste hiperparámetro debe ser escogido cuidadosamente para evitar el
sobre-ajuste del modelo.

Referencias
[1] Aarshai Jain. A complete tutorial on ridge and lasso regression in python.
[2] Shubham Jain. A comprehensive beginners guide for linear, ridge and lasso regression.
[3] Statsoft. Support vector machines (svm) introductory overview.

12

You might also like