Professional Documents
Culture Documents
Reporte de Datos: 1. Compendio GR Afico y Num Erico
Reporte de Datos: 1. Compendio GR Afico y Num Erico
30 de mayo de 2018
Primero, se consideraron los porcentajes de retorno. Éstos están basados en la razón entre la ganan-
cia y la inversión. Aunque a simple vista no parece obvio que haya una relación entre el porcentaje
de retorno de semanas pasadas –los lags– con el correspondiente a la semana actual, serı́a, sin em-
bargo, interesante que tal vez haya algún tipo de ”memoria” en las ganancias actuales sobre las de
semanas pasadas. Se hicieron entonces varios gráficos de dispersión, donde se comparaba el porcen-
taje de retorno de de la semana actual con aquellos de semanas pasadas. Además, se hizo un gráfico
de dispersión adicional con las ganancias con el volumen de acciones negociadas en la semana actual.
15
10
5
Today
−5
−10
−15
−20
−20 −15 −10 −5 0 5 10 15 −20 −15 −10 −5 0 5 10 15 −20 −15 −10 −5 0 5 10 15
10
5
Today
−5
−10
−15
−20
−20 −15 −10 −5 0 5 10 15 −20 −15 −10 −5 0 5 10 15 −2 0 2 4 6 8 10
1
En los gŕaficos de dispersión en la Figura 1, se ve que las relaciones entre las caracterı́sticas previa-
mente mencionadas no presentan ningún patrón evidente. Aunque los datos se presentan en general
agrupados en una sola área del gráfico, no es posible sobre ellos solos construir algún tipo de rela-
ción que describa el comportamiento de una en función de la otra, y que de información significativa.
Se consideraron luego los volúmenes de acciones negociadas por semana –desde 1990–, y los volúme-
nes promedio por año. En la Figura 2 pueden verse éstas gráficas de dispersión. Se ve claramente que
hay una relación directamente proporcional, hasta cierto punto, sin embargo, esto puede modelarse
con una regresión simple polinomial.
10 6
8 5
4
6
Mean volume 3
Volume
4
2
2
1
0 0
−2 −1
0 200 400 600 800 1000 1990 1992 1994 1996 1998 2000 2002 2004 2006 2008 2010
Week Year
a) b)
Figura 2: Volumen de acciones negociadas por semana y volumen medio de acciones negociadas por
año.
Para ambos casos, se hicieron luego regresiones polinomiales hasta grado 4, para ver cuál modelo se
ajustaba mejor. Además, se evaluó la precisión del modelo con el coeficiente r2 [2].
En la Figura 3(a), se encuentran las regresiones polinomiales para los volúmenes de acciones nego-
ciadas por semana. Por otra parte, en la Figura 3(b) se encuentran las regresiones polinomiales para
el promedio de los volúmenes de acciones negociadas por año.
Los coeficientes r2 calculados dan una buena idea de qué tan bueno es el modelo para predecir los
datos. En este caso, se dividieron los datos para entrenaminento y prueba; se escogieron 30 % para
prueba. Puede verse que, en general, los modelos de las regresiones polinomiales se ajustan mejor a
los datos de volúmenes promediados, que a los datos de volúmenes por semana. Éste resultado era
en cierta manera esperado, ya que por obvias razones, el primer conjunto de datos –correspondientes
a la Figura 3(a)– presenta más dispersión.
Además, puede concluirse que el modelo más apropiado para relacionar los volúmenes de acciones
negociadas con por semana y por año es el cuadrático. Para el caso lineal, aunque el coeficiente r2
tiene un valor cercano a uno, de las gráficas puede verse que presenta un sub-ajuste de los datos. Los
modelos cúbicos y de mayor grado tienen un evidente sobre-ajuste para el caso de los volúmenes por
2
Polyfit of degree 1 Polyfit of degree 2
10
−2
−2
0 200 400 600 800 1000 0 200 400 600 800 1000
(a) Regresiones polonomiales de los volúmenes de acciones negociadas por semana desde 1990.
3
2
1
0
−1
−2
3
2
1
0
−1
−2
−10 −5 0 5 10 −10 −5 0 5 10
+2e3 +2e3
(b) Regresiones polinomiales de los volúmenes medios de acciones negiciadas por año.
Figura 3: Regresiones polinomiales. Los puntos azules representan a los datos de entrenamiento,
mientras que los rojos son los datos de prueba.
semana(Figura 3(a)), mientras que para el caso de los volúmenes promedio por año (Figura 3(b)) la
regresión de grado 4 presenta un sub-ajuste. Esto hace al modelo cuadrático el más indicado –claro,
3
tomando en cuenta que esto es una regresión simple.
Como anotación adicional, las regresiones realizadas para los volúmenes de acciones negociadas por
semana son sólo válidas si se toma como ”cero” a la primera semana de 1990.
15
10
Percentage return
−5
−10
−15
−20
10
6
Volume
−2
200 400 600 800 1000
Week
Figura 4: Series de tiempo del porcentaje de retorno y el volumen de acciones negociadas en cada
semana.
4
Para hacer la regresión KNN, se escogió un peso uniforme para las distancas a los vecinos, y se iteró
la regresión para distintos números de vecinos desde 1 hasta 10.
15
10
Percentage
5
return
0
−5
−10
−15 Neighbors: 1 Neighbors: 6
−20 MSS: 12.9962 MSS: 6.3797
−25
0 200 400 600 800 1000 0 200 400 600 800 1000
15
10
Percentage
5
return
0
−5
−10
−15 Neighbors: 2 Neighbors: 7
−20 MSS: 8.8083 MSS: 6.4738
−25
0 200 400 600 800 1000 0 200 400 600 800 1000
15
10
Percentage
5
return
0
−5
−10
−15 Neighbors: 3 Neighbors: 8
−20 MSS: 7.7786 MSS: 6.5616
−25
0 200 400 600 800 1000 0 200 400 600 800 1000
15
10
Percentage
5
return
0
−5
−10
−15 Neighbors: 4 Neighbors: 9
−20 MSS: 7.0200 MSS: 6.4329
−25
0 200 400 600 800 1000 0 200 400 600 800 1000
15
10
Percentage
5
return
0
−5
−10
−15 Neighbors: 5 Neighbors: 10
−20 MSS: 6.5780 MSS: 6.4000
−25
0 200 400 600 800 1000 0 200 400 600 800 1000
Week Week
En las Figuras 5 y 6 se muestran las regresiones KNN realizadas. Para cada regresión de distinto
número de vecinos se calculó el error medio cuadrado, como métrica para la precisión del modelo.
En ambos casos se vió que para las regresiones con pocos números de vecinos, el error era mayor
comparado con los otros. Sin embargo, para el caso de los porcentajes de retorno, el mı́nimo, tal vez
5
10
8
Volume
6 Neighbors: 1 Neighbors: 6
4
MSS: 0.1715 MSS: 0.1651
2
0
−2
0 200 400 600 800 1000 0 200 400 600 800 1000
10
8
Volume
6 Neighbors: 2 Neighbors: 7
4
MSS: 0.1582 MSS: 0.1653
2
0
−2
0 200 400 600 800 1000 0 200 400 600 800 1000
10
8
Volume
6 Neighbors: 3 Neighbors: 8
4
MSS: 0.1540 MSS: 0.1656
2
0
−2
0 200 400 600 800 1000 0 200 400 600 800 1000
10
8
Volume
6 Neighbors: 4 Neighbors: 9
4
MSS: 0.1590 MSS: 0.1648
2
0
−2
0 200 400 600 800 1000 0 200 400 600 800 1000
10
8
Volume
6 Neighbors: 5 Neighbors: 10
4
MSS: 0.1535 MSS: 0.1663
2
0
−2
0 200 400 600 800 1000 0 200 400 600 800 1000
Week Week
local, de error medio, se dio para un número de 6 vecinos, mientras que para el volúmen de acciones
negociadas, el mı́nimo de error medio cuadrado, también tal vez local, se alcanzó para un número
de 5 vecinos.
Puede verse, además, que los errores calculados para las regresiones del porcentaje de retorno son
mucho más grandes que los calculados para las regresiones de volumen de acciones negociadas. Si
bien no es correcto inferir algo relacionado a estas caracterı́sticas a partir de este hecho, sı́ puede
decirse que esa diferencia en la magnitud de los errores puede deberse a la desviación de los datos;
6
si bien el comportamiento de los porcentajes de retorno en las semanas se ve más lineal que el com-
portamiento del volumen de acciones negociadas, los primeros están mucho más dispersos.
3. Regresión de Ridge
Para el volumen de acciones contra la semana, se hizo una regresión de grado 2, teniendo en
cuenta los resultados de la primera sección. El valor para el hiperparámetro de Ridge escogido fue
α = 0,001.
Se discriminó el conjunto de datos para entrenamiento y prueba. Se tomaron grupos 1000 de datos
de prueba desde el 20 % al 80 %, se calculó el error cuadrático medio para cada regresión, y se eligió
la proporción porcentual que lo minimizara.
En la Figura 7 se encuentran las gráficas del error y la curva de ajuste para los datos del volumen
de acciones negociadas.
0.55
0.50
MSE
0.45
5
Volume
0
0 200 400 600 800 1000 1200
Weeks
(b) Lı́nea de ajuste con el método de Ridge, con una regre-
sión polinómica de grado 2.
7
Extrañamente, puede verse en la Figura 7(a), que mientras se tomaba un mayor porcentaje de datos
de entrenamiento, más aumentaba el error cuadrático medio. Sin embargo, en la Figura 7(b) se nota
que la lı́nea de ajuste es parecida a la de la figura 3(a).
6.6
6.4
6.2
6.0
MSE
5.8
5.6
5.4
5.2
15
10
Percentage return
−5
−10
−15
−20
0 200 400 600 800 1000 1200
Weeks
(b) Lı́nea de ajuste con el método de Ridge, con una regre-
sión polinómica de grado 1.
En la Figura 8(a), se ve que la proporcion del porcentaje de entrenamiento para los datos es del
77 %. Aunque puede resultar más lógico que más datos de entremamiento minimicen el error, en la
gráfica se puede ver un salto extraño que resulta justo en el punto mı́nimi de error.
Los resultados obtenidos no parecieron ser demasiado prometedores, pues su comportamiento, y
sobre todo, el comportamiento del error respecto a la proporción del porcentaje de datos de en-
trenamiento, fue bastante extraño. Se pensó que tal vez pudo haber sido debido a la elección del
hiperparámetro, pero al elegir otros valores, el comportamiento permaneció constante. Por lo tanto,
es más probable que la aplicación del método en el código haya sido errónea.
8
4. Regresión logı́stica
Se tomaron como caracterı́sticas para la regresión logı́stica, las cinco lags, además del Volume,
para clasificar los datos de acuerdo a la caracterı́stica Direction. Se dividieron los datos en conjuntos
de prueba–40 %– y entrenamiento–60 %. Como son seis los coeficientes que determinan la clasifica-
ción, el hiperplano que separa las variables es de 6 dimensiones, por lo que no hay manera gráfica
de representarlo.
Parámetro Coeficiente
Lag 1 -0.0258285
Lag 2 0.01112555
Lag 3 -0.00531588
Lag 4 0.01201715
Lag 5 -0.02759017
Volume 0.03695621
En la Tabla 1, se encuentran los valores de los parámetros calculados para cada caracterı́stica. De
acá, puede verse que los parámetros que más importaron para la clasificación, son los Lag 1, Lag 5,
y Volume. Sin embargo, el algoritmo de clasificación sólo tuvo un éxito del 57 %, lo cual resulta poco
aceptable.
También se hizo la regresión logı́stica con sólo dos caracterı́sticas, pero con el mismo objetivo. Se
tomaron Volume y Today; como ya se ha mencionado antes, los valores de los Lags corresponden
casi que exactamente a los valores de Today, por lo que no contienen información nueva. Para este
caso, se tomó incluso una mayor proporción de datos de prueba, del 50 %. Los resultados fueron,
además, bastante buenos. La clasificación tuvo una precisión del 99 %. En la Figura 9, se muestran
las regiones de clasificación encontradas por el algoritmo.
10
0
Today
−5
−10
−15
0 2 4 6 8 10 0 2 4 6 8 10
Volume Volume
Figura 9: Grafico de densiad de probabilidad del algoritmo de clasificación por regresión logı́stica.
9
5. SVC
Para comparar el resultado obtenido anteriormente, se hizo la clasificación de la caracterı́stica
Direction tomando como parámetros a Volume y Today.
10
0
Today
−5
−10
−15
0 2 4 6 8 10 0 2 4 6 8 10
Volume Volume
Figura 10: Gráfico de densidad de probabilidad del algoritmo de clasificación por SVM.
Comparando las Figuras 5 y 9, puede verse que hay un cambio significativo en las regiones de pro-
babilidad construidas por cada método. Mientras que la clasificación por regresión logı́stica divide
el espacio de caracterı́sticas en dos, el SVM parece englobar una región de probabilidad de una de
las clases dentro de la otra. Esto puede deberse a que la hipersuperficie generada por el SVM para
separar las clases de datos, no es necesariamente un hiperplano.
Además, similar a como se hizo en la tercera sección, se hizo una gráfica donde se compararon
diferentes proporciones de datos de entrenamiento y prueba, con los errores obtenidos con cada pro-
porción. Se escogieron también proporciones desde 20 % al 80 %.
0.59
0.58
0.56
0.55
0.54
0.53
0.52
0.2 0.3 0.4 0.5 0.6 0.7 0.8
Training percentage
10
En la Figura 11 puede verse que la precisión del modelo aumenta a medida que crece el tamaño de los
datos de entrenamiento. Si bien esto parece evidente, también puede verse que hay varios máximos
locales por debajo del 70 %. Sin embargo, la precisión de este modelo en particular es bastante baja
considerando que, teniendo el 80 % de datos de entrenamiento no genera más del 60 % de predic-
ciones acertadas. Si bien esto evita de cierta manera que haya un sobre-ajuste del modelo, como en
el caso de la sección anterior, donde se tomaron sólo dos caracterı́sticas logrando una precisión del
99 %, el modelo está en los lı́mites del sub-ajuste.
En Ridge, se lleva a cabo una regularización L2 , donde se adiciona un factor de la suma de los
coeficientes en la función de costo. Considerando el error cuadrático medio (MSE), con el método
de Ridge la función de costo quedarı́a de la forma[1]:
1 2 2
kX · θ − Yk2 − α kθk2
J(θ) = (1)
m
Si bien Ridge es indicado para evitar el sobre-ajuste del modelo, con valores demasiado grandes de
α puede darse un sub-ajuste, lo cual tampoco es desable. Como α es un hiperparámetro, éste no es
automaticamente aprendido por el método; sin embargo, definiendo una métrica de evaluación del
modelo, como la correlación R2 ajustada1 , pueden iterarse varios valores para α, y escoger el que
mejor se comporte.
Anexo 2: SVC
Las SVM –máquinas de vectores de soporte–, se basan en el concepto de planos decisorios que
definen fronteras decisorias. Un plano decisorio es aquel que separa grupos de objetos que pertenecen
a una diferente clase. En los casos donde una labor de clasificación está basada en generar planos –o
hiperplanos– que ayuden a distinguir los diferentes objetos en las distintas clases, son comunmente
utilizadas las SVM [3].
11
N
1 T X
W W+C ξi (2)
2 i=1
yi WT φ(xi ) + b ≥ 1 − ξi , i = 1, ..., N
ξi ≥ 0, i = 1, ..., N
Donde C es la constante de capacidad, W es el vector de coeficientes, b es una constante, y ξi repre-
senta parámetros para manipular a los datos no separables linealmente. φ se usa para transformar
los datos desde las entradas al espacio de caracterı́sticas. Entre más grande sea C, más será penali-
zado el error, de manera que éste hiperparámetro debe ser escogido cuidadosamente para evitar el
sobre-ajuste del modelo.
Referencias
[1] Aarshai Jain. A complete tutorial on ridge and lasso regression in python.
[2] Shubham Jain. A comprehensive beginners guide for linear, ridge and lasso regression.
[3] Statsoft. Support vector machines (svm) introductory overview.
12