Reporte de Datos: 1. Compendio GR Afico y Num Erico

Reporte de datos
30 de mayo de 2018
1. Compendio gráfico y numérico

De los datos del set de Weekly, se intuyeron algunas posibles relaciones entre ellos. Para evaluar
la veracidad de estas relaciones, se realizaron gráficos de dispersión entre pares de caracteristicas,
sin considerar modelos donde cada una de ellas dependiera de más de dos variables.
Primero, se consideraron los porcentajes de retorno. Éstos están basados en la razón entre la ganan-
cia y la inversión. Aunque a simple vista no parece obvio que haya una relación entre el porcentaje
de retorno de semanas pasadas –los lags– con el correspondiente a la semana actual, serı́a, sin em-
bargo, interesante que tal vez haya algún tipo de ”memoria” en las ganancias actuales sobre las de
semanas pasadas. Se hicieron entonces varios gráficos de dispersión, donde se comparaba el porcen-
taje de retorno de de la semana actual con aquellos de semanas pasadas. Además, se hizo un gráfico
de dispersión adicional con las ganancias con el volumen de acciones negociadas en la semana actual.
15
10
5
Today
−5
−10
−15
−20
−20 −15 −10 −5 0 5 10 15 −20 −15 −10 −5 0 5 10 15 −20 −15 −10 −5 0 5 10 15
Lag1 Lag2 Lag3

15
10
5
Today
−5
−10
−15
−20
−20 −15 −10 −5 0 5 10 15 −20 −15 −10 −5 0 5 10 15 −2 0 2 4 6 8 10
Lag4 Lag5 Volume
Figura 1: Gráfico de dispersión de los porcentajes de ganancia de semanas pasadas–lags–, y el

volumen de acciones negociadas, contra el porcentaje de ganancia de la semana actual.
1
En los gŕaficos de dispersión en la Figura 1, se ve que las relaciones entre las caracterı́sticas previa-
mente mencionadas no presentan ningún patrón evidente. Aunque los datos se presentan en general
agrupados en una sola área del gráfico, no es posible sobre ellos solos construir algún tipo de rela-
ción que describa el comportamiento de una en función de la otra, y que de información significativa.
Se consideraron luego los volúmenes de acciones negociadas por semana –desde 1990–, y los volúme-
nes promedio por año. En la Figura 2 pueden verse éstas gráficas de dispersión. Se ve claramente que
hay una relación directamente proporcional, hasta cierto punto, sin embargo, esto puede modelarse
con una regresión simple polinomial.
10 6
8 5
4
6
Mean volume 3
Volume
4
2
2
1
0 0
−2 −1
0 200 400 600 800 1000 1990 1992 1994 1996 1998 2000 2002 2004 2006 2008 2010
Week Year
a) b)
Figura 2: Volumen de acciones negociadas por semana y volumen medio de acciones negociadas por
año.
Para ambos casos, se hicieron luego regresiones polinomiales hasta grado 4, para ver cuál modelo se
ajustaba mejor. Además, se evaluó la precisión del modelo con el coeficiente r2 [2].
En la Figura 3(a), se encuentran las regresiones polinomiales para los volúmenes de acciones nego-
ciadas por semana. Por otra parte, en la Figura 3(b) se encuentran las regresiones polinomiales para
el promedio de los volúmenes de acciones negociadas por año.
Los coeficientes r2 calculados dan una buena idea de qué tan bueno es el modelo para predecir los
datos. En este caso, se dividieron los datos para entrenaminento y prueba; se escogieron 30 % para
prueba. Puede verse que, en general, los modelos de las regresiones polinomiales se ajustan mejor a
los datos de volúmenes promediados, que a los datos de volúmenes por semana. Éste resultado era
en cierta manera esperado, ya que por obvias razones, el primer conjunto de datos –correspondientes
a la Figura 3(a)– presenta más dispersión.
Además, puede concluirse que el modelo más apropiado para relacionar los volúmenes de acciones
negociadas con por semana y por año es el cuadrático. Para el caso lineal, aunque el coeficiente r2
tiene un valor cercano a uno, de las gráficas puede verse que presenta un sub-ajuste de los datos. Los
modelos cúbicos y de mayor grado tienen un evidente sobre-ajuste para el caso de los volúmenes por
2
Polyfit of degree 1 Polyfit of degree 2
10
6 r2 coef: 0.6939 r2 coef: 0.8392
−2

10
6 r2 coef: 0.8482 r2 coef: 0.8509
−2
0 200 400 600 800 1000 0 200 400 600 800 1000
(a) Regresiones polonomiales de los volúmenes de acciones negociadas por semana desde 1990.

6
5
4 r2 coef: 0.6292 r2 coef: 0.8092
3
2
1
0
−1
−2

6
5
4 r2 coef: 0.8465 r2 coef: 0.7054
3
2
1
0
−1
−2
−10 −5 0 5 10 −10 −5 0 5 10
+2e3 +2e3
(b) Regresiones polinomiales de los volúmenes medios de acciones negiciadas por año.
Figura 3: Regresiones polinomiales. Los puntos azules representan a los datos de entrenamiento,
mientras que los rojos son los datos de prueba.
semana(Figura 3(a)), mientras que para el caso de los volúmenes promedio por año (Figura 3(b)) la
regresión de grado 4 presenta un sub-ajuste. Esto hace al modelo cuadrático el más indicado –claro,
3
tomando en cuenta que esto es una regresión simple.
Como anotación adicional, las regresiones realizadas para los volúmenes de acciones negociadas por
semana son sólo válidas si se toma como ”cero” a la primera semana de 1990.
2. Regresión KNN para las variables cuantitativas del set de

datos
Las variables cuantitativas corresponden a los porcentajes de retorno –Lags y Today–, y el
volúmen de acciones negociadas por semana –Volume. Como los Lags son los porcentajes obte-
nidos en las hasta 5 semanas anteriores a la semana actual–Today–, no es necesario considerarlos,
ya que a excepción de unos dos o tres datos al comienzo de la lista, son exactamente los mismos.
Además, como se dijo en la sección anterior, éstos no muestran tener repercusión alguna en los
porcentajes de retorno de la semana actual. Por lo tanto, sólo se realizó la regresión KNN para los
porcentajes de retorno y los volúmenes de acciones negociadas para cada semana correspondiente.
En la Fiugura 4 se encuentran las series de tiempo para los porcentajes de retorno y el volumen de
acciones negociadas.
15
10
Percentage return
−5
−10
−15
−20
10
6
Volume
−2
200 400 600 800 1000
Week
Figura 4: Series de tiempo del porcentaje de retorno y el volumen de acciones negociadas en cada
semana.
4
Para hacer la regresión KNN, se escogió un peso uniforme para las distancas a los vecinos, y se iteró
la regresión para distintos números de vecinos desde 1 hasta 10.
15
10
Percentage
5
return
0
−5
−10
−15 Neighbors: 1 Neighbors: 6
−20 MSS: 12.9962 MSS: 6.3797
−25
0 200 400 600 800 1000 0 200 400 600 800 1000
15
10
Percentage
5
return
0
−5
−10
−20 MSS: 8.8083 MSS: 6.4738
−25
0 200 400 600 800 1000 0 200 400 600 800 1000
15
10
Percentage
5
return
0
−5
−10
−20 MSS: 7.7786 MSS: 6.5616
−25
0 200 400 600 800 1000 0 200 400 600 800 1000
15
10
Percentage
5
return
0
−5
−10
−20 MSS: 7.0200 MSS: 6.4329
−25
0 200 400 600 800 1000 0 200 400 600 800 1000
15
10
Percentage
5
return
0
−5
−10
−20 MSS: 6.5780 MSS: 6.4000
−25
0 200 400 600 800 1000 0 200 400 600 800 1000
Week Week
Figura 5: Regresión KNN para los porcentajes de retorno.
En las Figuras 5 y 6 se muestran las regresiones KNN realizadas. Para cada regresión de distinto
número de vecinos se calculó el error medio cuadrado, como métrica para la precisión del modelo.
En ambos casos se vió que para las regresiones con pocos números de vecinos, el error era mayor
comparado con los otros. Sin embargo, para el caso de los porcentajes de retorno, el mı́nimo, tal vez
5
10
8
Volume
6 Neighbors: 1 Neighbors: 6
4
MSS: 0.1715 MSS: 0.1651
2
0
−2
0 200 400 600 800 1000 0 200 400 600 800 1000
10
8
Volume
4
MSS: 0.1582 MSS: 0.1653
2
0
−2
0 200 400 600 800 1000 0 200 400 600 800 1000
10
8
Volume
4
MSS: 0.1540 MSS: 0.1656
2
0
−2
0 200 400 600 800 1000 0 200 400 600 800 1000
10
8
Volume
4
MSS: 0.1590 MSS: 0.1648
2
0
−2
0 200 400 600 800 1000 0 200 400 600 800 1000
10
8
Volume
4
MSS: 0.1535 MSS: 0.1663
2
0
−2
0 200 400 600 800 1000 0 200 400 600 800 1000
Week Week
Figura 6: Regresión KNN para el volumen de acciones negociadas.
local, de error medio, se dio para un número de 6 vecinos, mientras que para el volúmen de acciones
negociadas, el mı́nimo de error medio cuadrado, también tal vez local, se alcanzó para un número
de 5 vecinos.
Puede verse, además, que los errores calculados para las regresiones del porcentaje de retorno son
mucho más grandes que los calculados para las regresiones de volumen de acciones negociadas. Si
bien no es correcto inferir algo relacionado a estas caracterı́sticas a partir de este hecho, sı́ puede
decirse que esa diferencia en la magnitud de los errores puede deberse a la desviación de los datos;
6
si bien el comportamiento de los porcentajes de retorno en las semanas se ve más lineal que el com-
portamiento del volumen de acciones negociadas, los primeros están mucho más dispersos.
3. Regresión de Ridge
Para el volumen de acciones contra la semana, se hizo una regresión de grado 2, teniendo en
cuenta los resultados de la primera sección. El valor para el hiperparámetro de Ridge escogido fue
α = 0,001.
Se discriminó el conjunto de datos para entrenamiento y prueba. Se tomaron grupos 1000 de datos
de prueba desde el 20 % al 80 %, se calculó el error cuadrático medio para cada regresión, y se eligió
la proporción porcentual que lo minimizara.
En la Figura 7 se encuentran las gráficas del error y la curva de ajuste para los datos del volumen
de acciones negociadas.
0.55
0.50
MSE
0.45
Minimum error at training percentage 0.33

0.40
0.2 0.3 0.4 0.5 0.6 0.7 0.8
Training percentage
(a) Error cuadrático medio vs porcentaje de proporción de
entrenamiento.
5
Volume
0
0 200 400 600 800 1000 1200
Weeks
(b) Lı́nea de ajuste con el método de Ridge, con una regre-
sión polinómica de grado 2.
Figura 7: Regresión de Ridge para el volumen de acciones negociadas.
7
Extrañamente, puede verse en la Figura 7(a), que mientras se tomaba un mayor porcentaje de datos
de entrenamiento, más aumentaba el error cuadrático medio. Sin embargo, en la Figura 7(b) se nota
que la lı́nea de ajuste es parecida a la de la figura 3(a).
6.6
6.4
6.2
6.0
MSE
5.8
5.6
5.4
5.2
5.0 Minimum error at training percentage 0.77

0.2 0.3 0.4 0.5 0.6 0.7 0.8
Training percentage
(a) Error cuadrático medio vs porcentaje de proporción de
entrenamiento.
15
10
Percentage return
−5
−10
−15
−20
0 200 400 600 800 1000 1200
Weeks
(b) Lı́nea de ajuste con el método de Ridge, con una regre-
sión polinómica de grado 1.
Figura 8: Regresión de Ridge para el porcentaje de retorno.
En la Figura 8(a), se ve que la proporcion del porcentaje de entrenamiento para los datos es del
77 %. Aunque puede resultar más lógico que más datos de entremamiento minimicen el error, en la
gráfica se puede ver un salto extraño que resulta justo en el punto mı́nimi de error.
Los resultados obtenidos no parecieron ser demasiado prometedores, pues su comportamiento, y
sobre todo, el comportamiento del error respecto a la proporción del porcentaje de datos de en-
trenamiento, fue bastante extraño. Se pensó que tal vez pudo haber sido debido a la elección del
hiperparámetro, pero al elegir otros valores, el comportamiento permaneció constante. Por lo tanto,
es más probable que la aplicación del método en el código haya sido errónea.
8
4. Regresión logı́stica
Se tomaron como caracterı́sticas para la regresión logı́stica, las cinco lags, además del Volume,
para clasificar los datos de acuerdo a la caracterı́stica Direction. Se dividieron los datos en conjuntos
de prueba–40 %– y entrenamiento–60 %. Como son seis los coeficientes que determinan la clasifica-
ción, el hiperplano que separa las variables es de 6 dimensiones, por lo que no hay manera gráfica
de representarlo.
Parámetro Coeficiente
Lag 1 -0.0258285
Lag 2 0.01112555
Lag 3 -0.00531588
Lag 4 0.01201715
Lag 5 -0.02759017
Volume 0.03695621
Cuadro 1: Valores de los parámetros calculados para la clasificación en la regresión logı́stica.
En la Tabla 1, se encuentran los valores de los parámetros calculados para cada caracterı́stica. De
acá, puede verse que los parámetros que más importaron para la clasificación, son los Lag 1, Lag 5,
y Volume. Sin embargo, el algoritmo de clasificación sólo tuvo un éxito del 57 %, lo cual resulta poco
aceptable.
También se hizo la regresión logı́stica con sólo dos caracterı́sticas, pero con el mismo objetivo. Se
tomaron Volume y Today; como ya se ha mencionado antes, los valores de los Lags corresponden
casi que exactamente a los valores de Today, por lo que no contienen información nueva. Para este
caso, se tomó incluso una mayor proporción de datos de prueba, del 50 %. Los resultados fueron,
además, bastante buenos. La clasificación tuvo una precisión del 99 %. En la Figura 9, se muestran
las regiones de clasificación encontradas por el algoritmo.
10
0
Today
−5
−10
−15
0 2 4 6 8 10 0 2 4 6 8 10
Volume Volume
Figura 9: Grafico de densiad de probabilidad del algoritmo de clasificación por regresión logı́stica.
9
5. SVC
Para comparar el resultado obtenido anteriormente, se hizo la clasificación de la caracterı́stica
Direction tomando como parámetros a Volume y Today.
10
0
Today
−5
−10
−15
0 2 4 6 8 10 0 2 4 6 8 10
Volume Volume
Figura 10: Gráfico de densidad de probabilidad del algoritmo de clasificación por SVM.
Comparando las Figuras 5 y 9, puede verse que hay un cambio significativo en las regiones de pro-
babilidad construidas por cada método. Mientras que la clasificación por regresión logı́stica divide
el espacio de caracterı́sticas en dos, el SVM parece englobar una región de probabilidad de una de
las clases dentro de la otra. Esto puede deberse a que la hipersuperficie generada por el SVM para
separar las clases de datos, no es necesariamente un hiperplano.
Además, similar a como se hizo en la tercera sección, se hizo una gráfica donde se compararon
diferentes proporciones de datos de entrenamiento y prueba, con los errores obtenidos con cada pro-
porción. Se escogieron también proporciones desde 20 % al 80 %.
0.59
0.58
0.57 Maximum accuracy at training percentage 0.80

Accuracy
0.56
0.55
0.54
0.53
0.52
0.2 0.3 0.4 0.5 0.6 0.7 0.8
Training percentage
Figura 11: Precisión de la clasificación con diferentes proporciones de datos de entrenamiento-prueba
10
En la Figura 11 puede verse que la precisión del modelo aumenta a medida que crece el tamaño de los
datos de entrenamiento. Si bien esto parece evidente, también puede verse que hay varios máximos
locales por debajo del 70 %. Sin embargo, la precisión de este modelo en particular es bastante baja
considerando que, teniendo el 80 % de datos de entrenamiento no genera más del 60 % de predic-
ciones acertadas. Si bien esto evita de cierta manera que haya un sobre-ajuste del modelo, como en
el caso de la sección anterior, donde se tomaron sólo dos caracterı́sticas logrando una precisión del
99 %, el modelo está en los lı́mites del sub-ajuste.
Anexo 1: Regresión de Ridge

La regresión de Ridge es un método usado para prevenir el sobre-ajuste de los parámetros a los
datos del modelo. Al ser un método de regularización, éste permite conservar el mismo número de
caracterı́sticas, reduciendo la magnitud de de los parámetros calculados en la regresión, evitando
ası́ una sobre-simplificación del modelo[2]. Éste método es usado cuando hay un gran número de
caracterı́sticas tal que se tiene una gran tendencia al sobre-ajuste del modelo[1].
En Ridge, se lleva a cabo una regularización L2 , donde se adiciona un factor de la suma de los
coeficientes en la función de costo. Considerando el error cuadrático medio (MSE), con el método
de Ridge la función de costo quedarı́a de la forma[1]:
1 2 2
kX · θ − Yk2 − α kθk2
J(θ) = (1)
m
Si bien Ridge es indicado para evitar el sobre-ajuste del modelo, con valores demasiado grandes de
α puede darse un sub-ajuste, lo cual tampoco es desable. Como α es un hiperparámetro, éste no es
automaticamente aprendido por el método; sin embargo, definiendo una métrica de evaluación del
modelo, como la correlación R2 ajustada1 , pueden iterarse varios valores para α, y escoger el que
mejor se comporte.
Anexo 2: SVC
Las SVM –máquinas de vectores de soporte–, se basan en el concepto de planos decisorios que
definen fronteras decisorias. Un plano decisorio es aquel que separa grupos de objetos que pertenecen
a una diferente clase. En los casos donde una labor de clasificación está basada en generar planos –o
hiperplanos– que ayuden a distinguir los diferentes objetos en las distintas clases, son comunmente
utilizadas las SVM [3].
Los métodos de SVM se desempeñan en labores de regressión y de casificación, y pueden trabajar

con múltiples variables contı́nuas y categóricas. Sin embargo, para variables categóricas, se deben
construir pseudo-variables cuyo valor sea 1 o 0.
El clasificador de SVM, también conocida como C-SVM, se basa en la minimización de la siguiente

función de costo:
1 Esta correlación está modificada de forma que sólo incrementa cuando se mejora la precisión del modelo [2].
11
N
1 T X
W W+C ξi (2)
2 i=1
La minimización de la ecuación 2 está sujeta a las siguientes ligaduras:
yi WT φ(xi ) + b ≥ 1 − ξi , i = 1, ..., N

ξi ≥ 0, i = 1, ..., N
Donde C es la constante de capacidad, W es el vector de coeficientes, b es una constante, y ξi repre-
senta parámetros para manipular a los datos no separables linealmente. φ se usa para transformar
los datos desde las entradas al espacio de caracterı́sticas. Entre más grande sea C, más será penali-
zado el error, de manera que éste hiperparámetro debe ser escogido cuidadosamente para evitar el
sobre-ajuste del modelo.
Referencias
[1] Aarshai Jain. A complete tutorial on ridge and lasso regression in python.
[2] Shubham Jain. A comprehensive beginners guide for linear, ridge and lasso regression.
[3] Statsoft. Support vector machines (svm) introductory overview.
12

Reporte de Datos: 1. Compendio GR Afico y Num Erico

Uploaded by

Document Information

Original Description:

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Reporte de Datos: 1. Compendio GR Afico y Num Erico

Uploaded by

Copyright:

Available Formats

Reporte de datos

1. Compendio gráfico y numérico

Lag1 Lag2 Lag3

Lag4 Lag5 Volume

Figura 1: Gráfico de dispersión de los porcentajes de ganancia de semanas pasadas–lags–, y el

6 r2 coef: 0.6939 r2 coef: 0.8392

Polyfit of degree 3 Polyfit of degree 4

6 r2 coef: 0.8482 r2 coef: 0.8509

Polyfit of degree 1 Polyfit of degree 2

Polyfit of degree 3 Polyfit of degree 4

2. Regresión KNN para las variables cuantitativas del set de

Figura 5: Regresión KNN para los porcentajes de retorno.

Figura 6: Regresión KNN para el volumen de acciones negociadas.

Minimum error at training percentage 0.33

Figura 7: Regresión de Ridge para el volumen de acciones negociadas.

5.0 Minimum error at training percentage 0.77

Figura 8: Regresión de Ridge para el porcentaje de retorno.

Cuadro 1: Valores de los parámetros calculados para la clasificación en la regresión logı́stica.

0.57 Maximum accuracy at training percentage 0.80

Figura 11: Precisión de la clasificación con diferentes proporciones de datos de entrenamiento-prueba

Anexo 1: Regresión de Ridge

Los métodos de SVM se desempeñan en labores de regressión y de casificación, y pueden trabajar

El clasificador de SVM, también conocida como C-SVM, se basa en la minimización de la siguiente

La minimización de la ecuación 2 está sujeta a las siguientes ligaduras:

You might also like