Professional Documents
Culture Documents
AULA POLITÈCNICA 64. Series Temporales
AULA POLITÈCNICA 64. Series Temporales
Series temporales
AULA POLITÈCNICA / ETSEIT
Series temporales
Primera edición: septiembre 2001
Quedan rigurosamente prohibidas, sin la autorización escrita de los titulares del copyright, bajo las san-
ciones establecidas en las leyes, la reproducción total o parcial de esta obra por cualquier medio o pro-
cedimiento, comprendidos la reprografía y el tratamiento informático, y la distribución de ejemplares de
ella mediante alquiler o préstamo públicos.
Índice p9
ÍNDICE
1 Introducción
5 Autocorrelación
5.1 Correlograma..........................................................................................................58
5.2 Interpretación de los correlogramas........................................................................63
7 Otros ejemplos
1 Evaluaciones propuestas
1.1 13.5.98 .................................................................................................................147
1.2 3.5.99 ...................................................................................................................148
1.3 23.6.99 .................................................................................................................149
1.4 12.1.00 .................................................................................................................150
1.5 17.5.00 .................................................................................................................151
2 Evaluaciones resueltas
2.1 13.5.98 .................................................................................................................153
2.2 3.5.99 ...................................................................................................................156
2.3 23.6.99 .................................................................................................................159
2.4 12.1.00 .................................................................................................................161
2.5 17.5.00 ..............................................................................................................164
Series temporales p167
BIBLIOGRAFÍA BÁSICA
n Chatfield, C., The Analysis of Time Series, Chapman & Hall (1996).
n Newbold, P., Estadística para los negocios y la economía, Prentice Hall (1997).
Introducción p11
1 INTRODUCCIÓN
El objetivo del análisis de una serie temporal, de la que se dispone de datos en períodos
regulares de tiempo, es el conocimiento de su patrón de comportamiento para prever la
evolución futura, siempre bajo el supuesto de que las condiciones no cambiarán respecto a
las actuales y pasadas.
I(t)
1,5
1
0,5
0
-0,5
-1
-1,5
0 20 40 60 80 t
Fig. 1.1.- Observaciones de la serie I(t) = cos (0,5t + π/2)
En general, las series de interés llevan asociados fenómenos aleatorios, de forma que el
estudio de su comportamiento pasado sólo permite acercarse a la estructura o modelo
probabilístico para la predicción del futuro. Estos modelos se denominan también procesos
estocásticos. Así, un proceso estocástico es una sucesión de variables aleatorias {Yt}, con
t = 1, 2, ..., n, que evolucionan con el tiempo ( representado éste por el subíndice t).
Como ejemplo puede servir la evolución a lo largo de un año del índice IBEX35, que recoge
los 35 valores de mayor cotización de la bolsa española, representada en la figura 1.2.
Lógicamente, el valor del IBEX35 dependerá del valor alcanzado en los días previos,
además de recoger la influencia de un conjunto de factores sociales, políticos, económicos,
etc., que son continuamente cambiantes en el tiempo y cuya conjunción, en un determinado
instante, configuraría una hipotética distribución de probabilidad del citado índice económico.
En casos como éste, es evidente que puede obtenerse un modelo que explique el
comportamiento de la serie en el período estudiado, pero puede ser muy arriesgada la
utilización de este modelo para hacer previsiones a medio o largo plazo. Así, en todas las
series cronológicas, es necesaria una gran cautela en la previsión a causa de la muy
probable inestabilidad del modelo en un futuro más o menos alejado del último instante del
que se conocen datos.
IBEX35
5
4,5
3,5
3
enero diciembre
Otro ejemplo puede ser el constituido por la sucesión de variables aleatorias {Y1, ...,Yt,...},
tales que Yt = 0,80Yt−1 + ε t , con Y0 = 0 y los ε t distribuidos N(0; 1), independientes para todo
t = 1, 2,...
t
Esta serie puede expresarse también como Yt = ∑i=1
0,8t −i εi y la distribución de
Yt
20
15
10
5
0
-5
-10
0 5 10 15 20 25
Todas las formas de estudio de una serie cronológica, tal como se irá viendo, no conllevan
cálculos complicados, pero sí reiterativos, con gran volumen de datos manipulados y con
abundancia de gráficos; es por ello que para su estudio se hace muy necesario el disponer
de un programa informático que permita su correcta aplicación y la obtención de cuantos
gráficos sean necesarios.
Antes de abordar cualquier estudio analítico de una serie temporal, se impone una
representación gráfica de la misma y la observación detenida de su aspecto evolutivo.
Para estudiar el comportamiento de cualquier serie temporal, y predecir los valores que
puede tomar en un futuro, puede hablarse de distintas metodologías, que denominaremos
modelización por componentes y enfoque Box-Jenkins.
Este método consiste en identificar, en la serie Yt, cuatro componentes teóricas, que no
tienen por qué existir todas, y que son:
̈ Tendencia: Tt.
̈ Estacionalidad: Et.
̈ Ciclos: Ct.
̈ Residuos: Rt.
Cada una de estas componentes es una función del tiempo y el análisis consistirá en la
separación y obtención de cada una de ellas, así como en determinar de qué forma se
conjugan para dar lugar a la serie original. Estas componentes se pueden observar en la
figura 2.1, en donde se ha considerado que actúan de forma aditiva para dar lugar a la serie
cronológica.
La tendencia es la componente general a largo plazo y se suele expresar como una función
del tiempo de tipo polinómico o logarítmico, por ejemplo Tt = α0 + α1 t+ α2 t + …
2
200
175
150 TENDENCIA
125
100
40
20
0 ESTACIONALIDAD
-20
-40
60
30
0
CICLOS
-30
-60
0
RESIDUOS
-3
-5
300
200
SERIE
CRONOLÓGICA
100
Para evaluar las distintas componentes se utilizan técnicas estadísticas tales como modelo
lineal, medias móviles, diferencias finitas, etc.
Admitiendo que el componente aleatorio (residuo) es aditivo, una vez identificadas las otras
componentes surge un nuevo problema que es el cómo conjuntar tendencia, estacionalidad
y ciclos para dar lugar a la serie definitiva.
̈ Modelo aditivo: Y = T + E + C + R
̈ Modelo multiplicativo: Y = T x E x C + R
Para una primera identificación visual del caso, se puede considerar que si el patrón
estacional se mantiene con amplitud constante se tratará de modelo aditivo (figuras 2.1 y
2.2). Cuando dicho patrón se vaya amplificando con el tiempo, será multiplicativo (figura
2.3).
Y 250
200
150
100
50
t
Fig. 2.2.- Serie aditiva
Y 400
300
200
100
0
t
Fig. 2.3.- Serie multiplicativa
Y1 = α0 + α1 × 1 + E1 + R1 = γ1 + α1 × 1 + R1
Y2 = α0 + α1 × 2 + E2 + R2 = γ2 + α1 × 2 + R2
Y3 = α0 + α1 × 3 + E3 + R3 = γ3 + α1 × 3 + R3
Y4 = α0 + α1 × 4 + E4 + R4 = γ4 + α1 × 4 + R4
Y5 = α0 + α1 × 5 + E1 + R5 = γ1 + α1 × 5 + R5
… …. ….
Yt = α0 + α1 × t + Es + Rt = γs + α1 × t + Rt con t = p$ + s; s = 1, …, p
Así pues, cada estación (s) componente del período conforma una recta con ordenada en el
origen distinta para cada caso y pendiente común a todos; es decir, según muestra la figura
2.4, el modelo es un conjunto de rectas paralelas, cada una de ellas asociada a una
estación.
Y 250
200
150
100
50
t
Fig. 2.4.- Interpretación de una serie con modelo aditivo
Prescindiendo de los ciclos, supuesta una tendencia lineal tipo Tt = α0 + α1t y una
estacionalidad de período p, para cualquier t = p$ + s, con s = 1, …, p, resulta
De esta forma, cada una de las p estaciones del período configura una recta distinta, tanto
en lo que se refiere a la ordenada en el origen (γ0s) como a la pendiente (γ1s).
Y 500
400
300
200
100
0
t
Fig. 2.5.- Interpretación de una serie con modelo multiplicativo
Y 200
150
100
50
0
t
Fig. 2.6.- Modelo general
La metodología estadística utilizada en el estudio de una serie temporal por este sistema, se
basa en los siguientes pasos:
En general, se suele asumir que el componente aleatorio, el cual se representa por Z, sigue
una distribución Normal de media cero y variancia σ . Un proceso estocástico en que todos
2
sus componentes son independientes y están constituidos sólo por componente aleatorio se
denomina proceso de ruido blanco, es decir, Yt = Zt con Zt ∼ NINDEP(0; σ ) ∀t.
2
Y 4
3
2
1
0
-1
-2
-3
-4
t
Fig. 2.7.- Proceso de media móvil MA(4)
Cuando a las estructuras de autorregresión y media móvil se une una dependencia con el
tiempo se llega a un ARIMA(p, r, q), donde p es el orden del AR, q el del MA y r el del
proceso integrado, o, lo que es lo mismo, el grado del polinomio que representa la función
del tiempo. En la figura 2.9 se presenta un proceso ARIMA(2,1,3).
Y 4
3
2
1
0
-1
-2
-3
-4
t
Y 90
80
70
60
50
40
30
20
10
0
t
Y = φ(t) + ε
exponencial: φ(t) = α0 t α1
La observación de la figura 3.1, permite pensar en una tendencia lineal creciente y una
estacionalidad clara, cuyo patrón se repite anualmente, es decir, cada 4 valores del tiempo
(trimestres). Esto se puede interpretar como una tendencia sostenida de un aumento de las
ventas en esta superficie comercial, unida a un comportamiento distinto para cada uno de
los cuatro trimestres; debido, posiblemente, a que el precio del material deportivo es muy
distinto según sea el adecuado para una estación concreta (material de esquí frente a
entretenimiento de playa, por ejemplo). Por otra parte, el patrón estacional se mantiene con
una amplitud aproximadamente constante, lo que conduce a la utilización de un modelo
aditivo.
Y 130
100
70
40
0 4 8 12 16 20 24 t
En este ejemplo se ha identificado un patrón estacional compuesto por los cuatro trimestres
y que se repite de año en año, además de una tendencia aparentemente lineal. Si se
decidiese ajustar el modelo de tendencia directamente sobre los datos, se obtendrían los
resultados de la tabla 3.II.
nu S. C. C. M. F p-val
Regresión 1 1901,300 1901,300 2,677 0,116
Residuos 22 15623,686 710,168
Total 23 17524,985
R^2 = 0,10849
Tabla 3.II.- Modelo de tendencia ajustado sobre todos los datos: Y = α0 + α1t + ε
El modelo presenta un coeficiente de determinación (R^2) tan sólo del 10,8% y no resulta
estadísticamente significativo, ya que el nivel de significación (p-val), tanto del ajuste como
de la pendiente de la recta de tendencia, son claramente superiores a un riesgo de primera
especie del 5%. Así, se demuestra que este procedimiento no es válido ya que incluye en el
residuo todo el componente estacional, lo cual produce una inflación de la suma de
cuadrados residual que desvirtúa el modelo y cualquier prueba de significación de la
regresión y de sus coeficientes.
Ya t (años) Ya t (años)
67,4925 1 75,0900 4
67,1550 2 80,7425 5
71,1875 3 79,7725 6
R^2 = 0,91318
Hay que destacar que con esta estabilización se ha conseguido un modelo de tendencia
significativo; sin embargo, ¿es aceptable este procedimiento? La respuesta sería no, ya que
este sistema tiene el inconveniente de la gran pérdida de información, pues de los 24 datos
iniciales, se ha acabado estimando el modelo con sólo 6 puntos. Este inconveniente queda
paliado desestacionalizando la serie con las medias móviles.
Ya 85
80
75
70
65
0 1 2 3 4 5 6 7
t(años)
Con este método se consiguen suavizar tanto las oscilaciones periódicas de una serie como
las aleatorias. Su aplicación requiere decidir, previamente, el período en que se repite cierto
patrón de comportamiento, que pueda atribuirse a variaciones estacionales; la observación
de la evolución gráfica de la serie puede ayudar a tomar la decisión.
Una vez fijado el período p, se calculan las medias de los valores de la serie tomados de p
en p, sucesivamente desde el inicio. Asociando cada una de estas medias al valor del
tiempo del punto central del período estudiado, se obtiene una nueva serie de valores
mucho más estables, debido, por una parte, a la reducción de la variabilidad ocasionada al
promediar y, por otra, a que, si el período escogido es el correcto, al pasar de una media
móvil a la siguiente, el nuevo dato incorporado es del mismo comportamiento que el dato
saliente.
p +1
∑Y i
Y1 + Y2 + A + Yp
t = ⇔ Y(p+1) / 2 = i=1
=
2 p p
p+ 1
p + 3
∑Y i
Y2 + Y3 + A + Yp+ 1
t = ⇔ Y(p + 3) / 2 = i= 2
=
2 p p
•••
p + 2 Y(p+ 1) / 2 + Y(p+ 3) / 2
t = ⇔ Y(p+ 2) / 2 =
2 2
p + 4 Y(p+ 3) / 2 + Y(p+ 5) / 2
t = ⇔ Y(p + 4) / 2 =
2 2
•••
Uno de los inconvenientes de este sistema es la pérdida de valores en los dos extremos de
la serie, tanto mayor cuanto mayor es p. En ocasiones, se propone como alternativa a este
problema la sustitución de los valores extremos de las medias móviles por los resultantes de
una extrapolación lineal de los observados; sin embargo, si el número de datos disponibles
es grande, la pérdida de información es negligible.
En la tabla 3.V se detalla el cálculo de los primeros valores de la nueva serie, y la tabla 3.VI
resume la totalidad de los mismos.
t Y Y t
1 40,22
2 54,89
3 67,4925 3
63,51 68,3337
4 69,1750 4
5 111,35
5
… 46,95 …
t Y t Y t Y t Y
3 68,3337 8 67,4725 13 72,9325 18 80,3812
4 68,7662 9 69,5300 14 74,1300 19 79,3075
5 68,1025 10 70,5325 15 76,8450 20 78,5175
6 67,5012 11 72,6825 16 78,1900 21 79,2037
7 66,4588 12 73,4363 17 78,9000 22 79,5088
Los resultados del modelo lineal, Y = α 0 + α 1t+ ε para el cálculo de la tendencia constan en
la tabla 3.VII.
Trabajando sobre 19 puntos, los 19 valores de las medias móviles, se ha obtenido un buen
ajuste, con un coeficiente de determinación del 90,5 %. En consecuencia, el modelo de
tendencia resultante es
T = 63,0065 + 0,8311 t
130
100
70
40
0 4 8 12 16 20 24 t
3.2 Estacionalidad
Para calcular los valores de los índices estacionales hay que seguir la siguiente sistemática:
n Calcular las medias móviles, Yt , sobre los datos, Yt , de la serie original, tomando el
período de agrupación, p, que se considere oportuno.
n Separar la parte explicada por la tendencia. Supuesto el modelo aditivo, esto equivale a
calcular Wt = Yt − Yt ; si fuese multiplicativo, en lugar de diferencias serían cocientes, es
decir, Wt = Yt / Yt . Hay que destacar que en Wt están incluidas las componentes
asociadas a la estacionalidad, los ciclos y los residuos.
n Asumiendo que los residuos son variables aleatorias de media nula y que la
componente cíclica, caso de existir, es de período suficientemente largo como para no
ser recogida por los datos, se procede a evaluar la estacionalidad asociada a cada
componente del período, a cada trimestre en el caso del ejemplo. Para ello se calculan
Wt ∑
t = s + p&
los promedios de los Wt de la misma estación E*s = s = 1, …, p
ns
donde s representa el índice estacional y ns el número de valores asociados a este
índice que se promedian.
Ya que los índices estacionales miden discrepancias respecto a la media, ésta se
necesita como valor de referencia; por tanto es necesario calcular la media general:
∑E
s=1
*
s
E =
p
Es = E*s − E
© L o s a u t o r e s , 2 0 0 1 ; ©
p28 Series temporales
p
Es obvio destacar que la suma de estos índices es cero: ∑E
s =1
s = 0.
En la tabla 3.VIII se detallan los cálculos del caso de modelo aditivo de las ventas de
material deportivo. Por ejemplo, para el tercer trimestre (s = 3), el promedio de las Wt, cuyos
valores del tiempo correspondiesen al tercer trimestre, por ser múltiplos de 4 más 3 (t = 3, 7,
11, 15, 19), sería:
t Yt Yt Wt Estación: s
1 40,22 --- --- 1
2 54,89 --- --- 2
3 63,51 68,3337 -4,8237 3
4 111,35 68,7662 42,5838 4
5 46,95 68,1025 -21,1525 1
6 51,62 67,5012 -15,8812 2
7 61,47 66,4588 -4,9888 3
8 108,58 67,4725 41,1075 4
9 41,38 69,5300 -28,1500 1
10 65,30 70,5325 -5,2325 2
11 64,25 72,6825 -8,4325 3
12 113,82 73,4363 40,3837 4
13 53,34 72,9325 -19,5925 1
14 59,37 74,1300 -14,7600 2
15 66,15 76,8450 -10,6950 3
16 121,5 78,1900 43,3100 4
17 67,38 78,9000 -11,5200 1
18 56,09 80,3812 -24,2912 2
19 75,11 79,3075 -4,1975 3
20 124,39 78,5175 45,8725 4
21 55,90 79,2037 -23,3037 1
22 61,25 79,5088 -18,2588 2
23 75,44 --- --- 3
24 126,5 --- --- 4
∑E
s =1
*
s
La media general es: E = = − 0,101125
4
y los índices estacionales, resultan
Los valores de los índices estacionales recién obtenidos se interpretan de la siguiente forma:
respecto a la media, el primer trimestre tiene una venta inferior en 20,6426 unidades; el
segundo está 15,5836 unidades por debajo de la media; el tercero 6,5264; mientras que el
cuarto supera a la media en 42,7526 unidades de venta.
130
100
Y
70
40
84
79
T 74
69
64
50
30
E 10
-10
-30
130
100
T
+
E
70
40
11
R 0
-11
t
Fig. 3.4.- Descomposición de la serie de ventas de material deportivo por medias móviles
Tendencia: #
Año t Estación: s Estacionalidad: E Previsión: Y
T = 63,0065+0,8311 t
1996 25 1 83,7840 –20,6426 63,1414
26 2 84,6151 –15,5836 69,0315
27 3 85,4462 –6,5264 78,9198
28 4 86,2773 42,7526 129,0299
1997 29 1 87,1084 –20,6426 66,4658
30 2 87,9395 –15,5836 72,3559
31 3 88,7706 –6,5264 82,2442
32 4 89,6017 42,7526 132,3543
Tabla 3. IX.- Previsiones para 1996 y 1997, según el modelo de descomposición clásica
Y 140
90
40
0 4 8 12 16 20 24 28 32 t
La tabla 3.X presenta las temperaturas medias mensuales registradas en una ciudad del
hemisferio sur, en el período de tiempo que abarca desde enero de 1986 a diciembre de
1995. Interesa estudiar el modelo de comportamiento y realizar una previsión de las
temperaturas de la década siguiente.
Año
Mes 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995
I 26,8 27,1 26,9 26,8 26,3 27,1 26,8 27,1 26,3 27,0
II 27,2 27,5 26,3 26,9 27,1 27,1 27,1 27,5 26,7 27,4
III 27,1 27,4 25,7 26,7 26,2 27,4 27,4 26,2 26,6 27,0
IV 26,3 26,4 25,7 26,1 25,7 26,8 26,4 28,2 25,8 26,3
V 25,4 24,8 24,8 26,2 25,5 25,4 25,5 27,1 25,2 25,9
VI 23,9 24,3 24,0 24,7 24,9 24,8 24,7 25,4 25,1 24,6
VII 23,8 23,4 23,4 23,9 24,2 23,6 24,3 25,6 23,3 24,1
VIII 23,6 23,4 23,5 23,7 24,6 23,9 24,4 24,5 23,8 24,3
IX 25,3 24,6 24,8 24,7 25,5 25,0 24,8 24,7 25,2 25,2
X 25,8 25,4 25,6 25,8 25,9 25,9 26,2 26,0 25,5 26,3
XI 26,4 25,8 26,2 26,1 26,4 26,3 26,3 26,5 26,4 26,4
XII 26,9 26,7 26,5 26,5 26,9 26,6 27,0 26,8 26,7 26,7
El cálculo de las medias móviles, con p = 12, y su representación gráfica (figura 3.7)
confirman la estacionalidad, por la estabilización conseguida en la serie, pero ponen en
entredicho la ausencia de tendencia.
La observación del gráfico hace recomendable ajustar un modelo de tendencia, que se hará
posteriormente y que ya se ha representado en esta figura.
Y 30
28
26
24
22
0 24 48 72 96 120 t
Y 30
28
26
24
22
0 24 48 72 96 120 t
Para evaluar la estacionalidad es necesario calcular los índices estacionales, tal como se ha
detallado en el apartado 3.2. Los resultados obtenidos se encuentran en la tabla 3.XI, y se
presentan gráficamente en la figura 3.8.
La interpretación de los índices es simple: desde octubre (X) a abril (IV), la temperatura está
por encima de la media anual; mientras que de mayo (V) a septiembre (IX) está por debajo
de la media. No olvidemos que los datos corresponden a una ciudad del hemisferio sur; por
tanto, de octubre a abril son los meses cálidos, y los demás son los fríos. Es de destacar
que la oscilación térmica media, del mes más cálido al más frío, es relativamente pequeña
(1,31 + 1,80 = 3,01°C). Esto, unido a los valores medios mensuales, que oscilan entre 23 y
29°C permite afirmar que el estudio se está haciendo sobre una ciudad de clima muy suave
y casi permanentemente primaveral.
T 2
-1
-2
0 4 8 12 s
R^2 = 0,295735
A pesar del valor del coeficiente de determinación del ajuste, (29,57 %), la explicación del
modelo es significativa. Así, se puede deducir que parece existir una tendencia muy ligera a
un incremento de la temperatura, que se ha estimado en un aumento de 0,00456 grados
mensuales en promedio.
La evolución del modelo, junto con los datos reales, se presentan en la figura 3.9. Para su
obtención, hay que tener en cuenta que, conocidos los índices estacionales y el modelo de
tendencia, la suma mes a mes de los dichos valores darán lugar al modelo propuesto, es
decir:
# = 25,4733 + 0,00456 t + E
Y con t = 12$ + s s = 1, … , 12
t s
Y 30
28
26
24
22
0 24 48 72 96 120 t
Solamente hay que destacar la buena concordancia entre ambos, a pesar de que hay
algunos puntos que parecen presentar mayores discrepancias.
Esto ocurre, principalmente, desde abril hasta julio de 1993 que como, puede observarse, ya
en los datos iniciales presentaron unas temperaturas medias bastante superiores a las de
los demás años (es decir hizo un otoño especialmente cálido).
R 2
-1
-2
0 24 48 72 96 120 t
Comparando los datos reales con las previsiones, se ve en estas últimas la ausencia del
componente aleatorio. Se está haciendo una previsión de temperaturas medias, pero el azar
meteorológico se unirá a la previsión alterándola en aquellos períodos de tiempo en los que
las temperaturas sean distintas a las de la tónica general: inviernos muy fríos o muy suaves,
veranos más extremos, etc.
Año
Mes 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005
I 27,1 27,2 27,2 27,3 27,3 27,4 27,4 27,5 27,5 27,6
II 27,3 27,4 27,5 27,5 27,6 27,6 27,7 27,7 27,8 27,8
III 27,0 27,1 27,1 27,2 27,2 27,3 27,3 27,4 27,5 27,5
IV 26,7 26,7 26,8 26,8 26,9 26,9 27,0 27,0 27,1 27,2
V 25,9 25,9 26,0 26,1 26,1 26,2 26,2 26,3 26,3 26,4
VI 25,0 25,0 25,1 25,1 25,2 25,2 25,3 25,3 25,4 25,5
VII 24,3 24,3 24,4 24,4 24,5 24,5 24,6 24,7 24,7 24,8
VIII 24,3 24,3 24,4 24,4 24,5 24,5 24,6 24,6 24,7 24,8
IX 25,3 25,3 25,4 25,5 25,5 25,6 25,6 25,7 25,7 25,8
X 26,1 26,2 26,2 26,3 26,3 26,4 26,5 26,5 26,6 26,6
XI 26,6 26,7 26,7 26,8 26,8 26,9 26,9 27,0 27,0 27,1
XII 27,1 27,1 27,2 27,2 27,3 27,3 27,4 27,5 27,5 27,6
Tabla 3.XIII.- Temperatura prevista para los 10 años siguientes a la recogida de datos
30
28
26
24
22
0 48 96 144 192 240 t
Fig. 3.11.- Datos desde 1986 a 1995 ( • ) y previsiones desde 1996 a 2005 ( 1 )
Año
Mes 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995
I 90 111 127 142 146 164 175 176 208 199 207 219
II 88 115 107 139 155 151 161 194 189 190 198 206
III 109 129 141 145 182 180 179 197 232 228 251 229
IV 103 121 135 162 165 164 195 211 226 220 231 223
V 103 112 133 144 165 184 189 191 222 222 234 231
VI 122 125 154 176 191 206 208 235 245 233 251 266
VII 134 164 175 192 195 198 227 248 252 303 316 290
VIII 132 158 174 190 205 235 249 273 242 253 285 294
IX 115 133 158 160 182 197 224 202 229 253 250 258
X 101 127 139 151 165 163 193 189 202 223 232 214
XI 91 110 112 134 138 148 170 167 192 191 190 206
XII 112 120 140 140 155 163 166 168 198 185 201 199
Y 320
240
160
80
0 24 48 72 96 120 144 t
̈ Hay una estacionalidad manifiesta que se repite anualmente. Ya que los datos son
mensuales, su período será igual a 12.
̈ El patrón de estacionalidad tiene una forma constante pero presenta una amplificación
continua en el tiempo. Esta situación es la que indica que el modelo subyacente es
multiplicativo.
320
240
160
80
0 24 48 72 96 120 144 t
R^2 = 0,9974
Yt
b) Separar la tendencia, es decir, calcular Wt = .
Yt
c) Asumiendo que los ciclos, caso de existir, son de período suficientemente largo como
para no ser recogidos por los datos, calcular los promedios de las Wt de cada estación y la
media general. s es el indicador de la estación (mes, en el ejemplo), y ns el número de
valores de W que se promedian en la citada estación
∑
t = s + p$
Wt ∑E *
s
s =1
E*s = s = 1, ..., p y E =
ns p
E*s
Es = × 100
E
En la tabla 3.XVI se muestran los valores de las componentes estacionales del presente
ejemplo, y se representan gráficamente en la figura 3.14.
E 130
120
110
100
90
80
0 4 8 12 t
La interpretación de los índices podría ser en el sentido de que, por ejemplo, los usuarios de
los meses de julio y agosto son del orden de un 121% superior a la media, mientras que en
noviembre se está en un 81% de la media. Ello podría aconsejar una promoción en los
meses de noviembre, diciembre, enero y febrero, con el fin de conseguir una mayor
ocupación de las plazas disponibles.
# =
Yt (100,4749 + 1,4326 t − 0,00297 t2 ) Es
100
s = 1, ..., 12 t = s + 12$
320
240
160
80
0 24 48 72 96 120 144 t
Observando la figura 3.15 se puede destacar que hay unos desajustes más acusados en
ciertos meses de julio o agosto, en concreto, los de los años 1989, 90, 91, 93 y 94, por lo
que es posible afirmar que en los casos citados ha habido un comportamiento
sustancialmente distinto del esperado en los mismos meses de otros años; en principio,
sería discutible afirmar la presencia de un cambio en los hábitos de utilización de este
transporte, ya que ni el año 1993 ni el 1995, pertenecientes al período en cuestión,
presentan semejantes discrepancias.
A pesar de todo, en este caso, sería prudente tomar con ciertas precauciones las
previsiones para años venideros, mientras no se confirme la consolidación en el futuro de un
cambio o de una permanencia de comportamiento. También podría ser interesante intentar
averiguar qué ocurrió en estos meses (quizás una campaña publicitaria, quizás una
disminución de alternativas de la competencia,...).
La figura 3.16 muestra la evolución de los residuos entre los datos experimentales y el
modelo ajustado, Rt = Yt − Y
# . Se observa que, en la mayoría de los casos, oscilan entre ±16,
t
aunque en algún caso la discrepancia se aproxima a 30 unidades.
Asumiendo que se mantiene el mismo modelo, la previsión de usuarios hasta el año 2000 se
presenta en la figura 3.17. Hay que tener en cuenta, para realizar correctamente los
cálculos, que el último valor de t para el que se dispone de datos, diciembre de 1995, es
144; por tanto, para las predicciones, que abarcan el período de los próximos 60 meses, los
valores de t irán desde 145 hasta 204.
R 32
16
-16
-32
0 24 48 72 96 120 144 t
Fig. 3.16.- Residuos del modelo ajustado
330
280
230
180
130
80
0 24 48 72 96 120 144 168 192 t
Datos Previsiones
Cada estación debe estar ligada biunívocamente a una variable categórica. Dicha variable
es un indicador que toma el valor 1 en la estación a la que está asociada y 0 en todas las
demás, excepto para la primera estación, en que todas toman el valor 0. Ésta es la razón
por la cual con p-1 variables categóricas es suficiente para estudiar una serie de período p.
Las variables categóricas, Q, quedan, pues, definidas como
Qj = 0 j ≠ s
con s = 1, 2 , @ , p y j = 2 , @ , p
Qj = 1 j = s
recoger la tendencia o evolución general, a largo plazo, de los datos con el tiempo. Los
p
términos del grupo ∑ β Q indican los cambios que las distintas estaciones, componentes
j= 2
j j
del período estacional, introducen en la ordenada en el origen del modelo, parte aditiva
p
según el sistema clásico. Mientras que los del grupo ∑γ Q t
j= 2
j j representan la influencia de la
estacionalidad sobre la función del tiempo, lo que en el método clásico se interpreta como
parte multiplicativa.
Para desarrollar la metodología de las variables categóricas sobre un ejemplo, se van a utilizar
los datos relativos a las ventas de material deportivo estudiados por el método clásico, con el
fin de poder comparar posteriormente los resultados obtenidos. En la tabla 4.I se vuelven a
reproducir los datos de la serie cronológica, junto a los valores de las variables categóricas. La
representación gráfica de los mismos ya se presentó en la figura 3.1, cuya observación
condujo a pensar en una tendencia lineal creciente y una estacionalidad de período p = 4.
A fin de no confundir los dos efectos, procede la creación de variables categóricas que
identifiquen cada una de las cuatro estaciones, que en este ejemplo constituyen el período
de repetición del patrón estacional. Por otra parte, suponiendo que hubiese ciclos, el
intervalo de tiempo de recogida de datos es totalmente insuficiente para tomarlos, por lo que
su posible existencia quedará enmascarada en los residuos.
En la tabla 4.I están las variables categóricas Q2, Q3 y Q4, cuya conjunción representa de
forma unívoca cada trimestre. Se insiste en que no es necesaria una Q1, puesto que el
primer trimestre es el que toma como referencia Q2 = Q3 = Q4 = 0, y son los demás que, a
través del indicador, aportarán la parte del efecto estacional correspondiente.
Y = α0 + α1 t + β2 Q2 + β3 Q3 + β4 Q4+ γ 2 Q2 +t γ 3 Q3 +t γ 4 Q4+ t ε
Los resultados del modelo lineal general evidencian que todos los términos del tipo Qjt no
son estadísticamente significativos, (p-val < 0,05), por tanto procede recalcular el modelo
prescindiendo de ellos.
Cabe destacar que este hecho manifiesta que la estacionalidad no modifica la pendiente de
la recta del tiempo, es decir, el incremento de las ventas es el mismo para cada trimestre.
Esto simplifica el caso al corresponder a un modelo aditivo puro, que puede ser,
alternativamente, estudiado por la metodología de la descomposición clásica, tal como se ha
hecho en el capítulo 3. Si alguno de esos términos hubiese resultado significativo, el sistema
clásico proporcionaría un modelo bastante precario.
R^2 = 0,9796
La tabla 4.III contiene los resultados del ajuste del modelo definitivo, es decir, de
Y = α0 + α1t + β2 Q 2 + β3 Q3 + β4 Q 4 + ε
R^2 = 0,97373
Res Res
0 0
4 7 0 4 8
Ŷ t
%P 9
0
Res
Para un tiempo correspondiente a un segundo trimestre, las variables categóricas toman los
valores Q2 = 1 y Q3 = Q4 = 0 y el modelo es
Para un tiempo de tercer trimestre, las variables categóricas toman los valores Q3 = 1 y Q2 =
Q4 = 0 y el modelo es
Y, en el caso del cuarto trimestre, las variables categóricas toman los valores Q4 = 1 y
Q2 = Q3 = 0; el modelo es
Así, para cada trimestre (estación del período), se obtiene un modelo del mismo tipo,
rectilíneo con igual pendiente, en este caso, pero con distinta ordenada en el origen.
Esto se puede interpretar como que, tomando siempre como referencia el primer trimestre,
en el segundo el volumen de ventas añade a la función del tiempo 6,4674 unidades, en el
tercero el incremento es de 15,2782 y en el cuarto de 64,5555 unidades. Estos valores son,
evidentemente, los coeficientes de las variables categóricas.
Para evaluar la bondad del modelo, en la figura 4.2 se muestra la comparación de los
valores medidos con los estimados a partir del modelo ajustado; se observa la buena
concordancia entre ambos.
La modelización tiene como objetivo principal el poder hacer previsiones para un futuro
próximo. En este caso se procede a calcular las previsiones para los próximos 2 años, a
base de sustituir los valores del tiempo y de las variables categóricas en el modelo obtenido.
Los resultados se muestran en la tabla 4.IV y en la figura 4.3.
Y 130
100
70
40
0 4 8 12 16 20 24 t
Fig. 4.2.- Datos reales ( • ) y modelo ajustado ( )
Aquí se detecta la coherencia de la previsión con los datos históricos, siempre que no
cambie el modelo de comportamiento de la serie en el período previsto. Esto podría ocurrir,
por ejemplo, si hubiese una recesión económica, la apertura de otro comercio de similares
características en las inmediaciones, un cambio de hábitos en la población, una campaña
propagandística con éxito de la competencia, etc.
Año t Q2 Q3 Q4 #
Y t
1996 25 0 0 0 61,4680
26 1 0 0 68,6930
27 0 1 0 78,2613
28 0 0 1 128,2963
1997 29 0 0 0 64,4984
30 1 0 0 71,7234
31 0 1 0 81,2917
32 0 0 1 131,3267
Y
140
90
40
0 4 8 12 16 20 24 32 t 28
1990 1995 1996 1997
← datos →← previsiones →
Fig. 4.3.- Datos, modelo y previsiones para los dos años siguientes
Se han expuesto dos métodos para la descomposición de la serie y ambos se han aplicado
a un caso de modelo aditivo puro, es decir, en el que la estacionalidad no afecta a la
pendiente de la recta de tendencia. El de variables categóricas es más simple en cuanto a
manipulación y cálculos, aunque, si el período tiene muchas componentes, adquiere mayor
aparatosidad por el número de variables categóricas que se manejan. El clásico, que
identifica los componentes del modelo por medio del uso de medias móviles, conduce a
resultados similares, en un caso en que se insiste que es aditivo puro; en casos más
generales la descomposición clásica no sería capaz de conseguir un buen modelo.
En las tablas 3.IX y 4.IV se han presentado las previsiones de ventas del material deportivo
para los ocho trimestres siguientes a la recogida de información, es decir, para los años
1996 y 1997, siempre bajo el supuesto que el comportamiento de la serie no va a cambiar
en este período de tiempo. La figura 4.6 da idea de la casi coincidencia de las previsiones
para las dos formas de análisis estudiadas.
130
Valores modelizados
100
70
40
0 4 8 12 16 20 24 t
15
10
R(categóricas) 5
-5
-10
-10 -5 0 5 10 15
R(descomp. clásica)
Fig. 4.5.- Residuos de la descomposición frente a los del modelo en variables categóricas
Ya que el objetivo del sistema clásico es descomponer la serie como un modelo aditivo, o
multiplicativo si fuese el caso, de tendencia, estacionalidad, ciclos y residuos, es necesario
identificar cada componente.
140
115
Previsiones
90
65
40
24 28 32
t
Fig. 4.6.- Previsiones para los dos años siguientes según la descomposición clásica ( • )
y las variables categóricas ( » )
q p
Yt = α 0 + ∑α
i =1
i
i
t + ∑
j=2
β j Qj
© L o s a u t o r e s , 2 0 0 1 ; © E d i c i o n s U P C , 2 0 0 1 .
p50 Series temporales
a otro con sus componentes aisladas. Considerando el modelo aditivo, y suponiendo que los
ciclos, caso de existir, no sean identificables con los datos disponibles, tendremos
Yt =Tt + Et
q
Tt = a0 + ∑α
i=1
i ti
Debido a que es posible tener dos contadores del tiempo, uno asociado al momento de toma
de datos y otro que identifica la estación a la que pertenece el dato, cualquier instante t
puede escribirse como t = s + k p = s + p$ , con k = 0, 1, 2, y s = 1, 2,..., p, es decir, t
es un múltiplo del período, p, más el indicador de la estación, s. Así, resulta
q
Yt = Tt + Et = a0 + ∑α
i=1
i ti + Es
p
donde ∑E
s =1
s = 0 ya que se ha definido cada componente estacional como la diferencia
Se asume que, en caso de modelo aditivo puro, los coeficientes asociados a las potencias
del tiempo deben ser los mismos, sea cual sea el procedimiento empleado para su estudio;
en consecuencia, las posibles discrepancias entre los valores estimados por ambos
métodos serán muy pequeñas.
Desarrollando las ecuaciones del modelo clásico y del de variables categóricas para s = 1,. .
. , p, igualándolas para cada s se obtiene
q q
Yt=1+ p$ = α0 + ∑ α i ti
i=1
= a0 + ∑αi=1
i ti + E1
q q
Yt= 2+ p$ = α0 + ∑α
i=1
i ti + β 2= a0 + ∑α
i=1
i ti + E2
A
q q
Yt=p+ p$ = α0 + ∑α
i=1
i ti + βp = a0 + ∑α
i=1
i ti + Ep
p ∑ βj
p α0 + ∑ β j = p a0 ⇒ a0 = α0 + j= 2
j= 2 p
∑ βj q
Tt = α0 + ∑α
j= 2
+ i ti
p i=1
∑β
j= 2
j
Es = β s −
p
Para el caso del ejemplo del material deportivo, p = 4, con variables categóricas se obtuvo el
modelo
∑
j= 2
βj
del cual resulta = 21,57525 . A partir de este modelo la ecuación pura de la tendencia,
4
o esqueleto de la serie, es
p
∑ βj q
Tt = α0 + ∑α
j= 2
+ i ti = 42,5280 + 21,57525 + 0,7576 t = 64,10325 + 0,7576 t
p i=1
Tt = 63,0065 + 0,8311 t
E1 = 0 – 21,57525 = –21,57525
E2 = 6,46475 – 21,57525 = –15,10785
E3 = 15,2781 – 21,57525 = – 6,29715
E4 = 64,5555 – 21,57525 = 42,98025
4
Se comprueba que ∑ Es = 0 .
s =1
Estos valores, como era de esperar, son muy similares a los obtenidos por la
descomposición clásica (capítulo 3), que resultaron ser −20,6426; −15,5836; −6,5264 y
42,7526, respectivamente.
Como resumen, se puede reiterar la gran similitud de valores de los coeficientes del modelo
de tendencia y de los índices estacionales obtenidos por los dos métodos desarrollados.
Esta concordancia es buena para un caso como el que se acaba de estudiar, que se podría
etiquetar como modelo aditivo puro. Si se hubiera dado la circunstancia de una serie donde
la estacionalidad hubiese afectado a la tendencia de distinta forma en cada componente del
período, es decir, variando ya la pendiente, ya la ordenada en el origen, la descomposición
clásica no hubiese conseguido modelizarla correctamente.
Es por todo ello que se puede afirmar que la modelización global con variables categóricas
es un procedimiento mucho más general para el estudio del comportamiento de una serie
temporal y la realización de previsiones.
t Y t Y t Y t Y
1 99,30 16 117,66 31 127,52 46 149,66
2 65,27 17 52,67 32 30,42 47 34,13
3 48,27 18 63,96 33 92,71 48 118,31
4 20,58 19 40,85 34 60,22 49 64,06
5 75,17 20 76,12 35 88,61 50 106,09
6 104,76 21 116,48 36 136,60 51 150,28
7 58,96 22 52,86 37 32,16 52 25,74
8 67,18 23 79,80 38 104,76 53 114,62
9 28,44 24 44,25 39 60,62 54 74,64
10 83,71 25 88,39 40 93,53 55 106,34
11 121,13 26 125,34 41 142,92 56 149,02
12 51,52 27 46,45 42 33,34 57 29,06
13 64,30 28 80,05 43 103,53 58 121,42
14 25,60 29 50,67 44 68,86 59 76,33
15 76,50 30 94,03 45 92,50 60 114,29
Y 160
120
80
40
0
0 20 40 60 t
Fig. 4.7.- Evolución cronológica de la demanda
La figura 4.8 presenta el modelo ajustado junto a los datos, y la figura 4.9 los residuos del
modelo. Se observa que la mayoría de los valores están en el intervalo ± 4 unidades, y sólo
en algún caso la discrepancias alcanza 10 unidades; ello confirma el buen ajuste.
Y
200
160
120
80
40
0
0 20 40 60 t
R 12
-4
-8
-12
0 20 40 60 t
#
Fig. 4.9.- Residuos del modelo: R = Y − Y
En la figura 4.10, se puede observar cada una de las cinco rectas que componen el modelo,
sobre el fondo de los datos experimentales. Cada recta, a la derecha del gráfico, lleva el
indicador estacional que le corresponde (lunes: s =1; martes: s = 2… ). De la ecuación del
modelo general y del estudio de este gráfico se puede concluir que el lunes y el jueves
tienen la misma tendencia (las rectas 1 y 4 son paralelas); sin embargo el lunes tiene,
sistemáticamente, un mayor número de usuarios que el jueves. Esta discrepancia constante
es la diferencia de ordenadas de ambas rectas, o sea el coeficiente de Q4, que en este caso
es igual a −80,11. La tendencia común indica un aumento sostenido de usuarios que se
evalúa en un incremento de 0,99 usuarios al día (coeficiente de t en las rectas 1 y 4).
Y 160
1
3
120
5
80 4
40
2
0
0 20 40 60
t
En cuanto a los miércoles y viernes (rectas 3 y 5), se puede decir que tienen un
comportamiento similar. En los primeros días había algo más de usuarios el viernes que el
miércoles; sin embargo, dicho número ha aumentado en ambos, pero con mayor velocidad
el miércoles, de forma que actualmente éste ya supera al viernes.
Especial atención merece el martes (recta 2), ya que inicialmente tenía un número de
usuarios situado más o menos en el promedio de los otros días, pero ha sufrido un
decrecimiento progresivo que actualmente lo sitúa en un valor muy inferior a los demás días
de la semana, los cuales, en mayor o menor grado, han presentado un incremento de
demanda del servicio.
Está claro que, en la práctica, una situación como ésta requeriría de un estudio en
profundidad de las causas que han conducido a esta situación: quizás la persona que
atiende la línea no es la misma, o hay mayores dificultades para establecer comunicación y
el público deja de llamar los martes,...
La obtención del modelo tiene como principal objetivo el poder hacer previsiones del
comportamiento de la demanda del servicio durante los próximos días, a fin de programar un
aumento del número de líneas telefónicas, del número de personas que atienden a los
usuarios, plantearse una redistribución en el tiempo, etc.
La tabla 4.IX muestra las previsiones para las dos semanas próximas, junto a los valores del
tiempo y de las variables categóricas, necesarios para ser sustituidos en el modelo general.
t Q2 Q3 Q4 Q5 Y prevista
61 0 0 0 0 160,686
62 1 0 0 0 20,129
63 0 1 0 0 131,312
64 0 0 1 0 83,557
65 0 0 0 1 112,478
66 0 0 0 0 165,655
67 1 0 0 0 16,654
68 0 1 0 0 137,938
69 0 0 1 0 88,526
70 0 0 0 1 115,741
En la figura 4.11 se pueden observar los valores de las previsiones como extrapolación del
modelo ajustado sobre los datos disponibles, constatándose la gran disminución del número
de usuarios del martes.
Y180
150
120
90
60
30
0
0 10 20 30 40 50 60 70 t
Fig. 4.11. - Datos ( • ), modelo ( --- ) y previsiones (1)
5 AUTOCORRELACIÓN
El coeficiente de correlación entre ambas series, es decir, de las parejas citadas, se denota
por ρk y recibe el nombre de coeficiente de autocorrelación de orden k; el desplazamiento k
también se denomina retardo, y representando gráficamente ρk en función del retardo k, se
obtiene el autocorrelograma de la serie. De la estructura del planteamiento se deduce que
ρk=ρ−k.
5.1 Correlograma
Sea que se dispone de una serie cronológica de datos y1, y2,..., yt,..., yN, para elaborar el
correlograma o gráfico de la función de autocorrelación. Se estiman las siguientes
características:
∑ yi
̈ Media: m̂ = y = i=1
N− k
∑
i =1
(yi − y) (yi+ k − y)
̈ Autocovariancia: γˆ k = k = 0, 1,..., N–1
N
γˆ k
̈ Autocorrelación: ρˆ k = rk =
γˆ 0
Para poder estimar la autocovariancia, γk, el número de componentes de la serie debe ser tal
que N > k+1, y es recomendable N ≥ 50 y k ≤ N/4.
K −1
1
V(rk ) ≅
N
∑
−(K −1)
ρi2 ∀k≥K
al sustituir ρi por su estimador, ri, y, dado que ρ0 = 1 y ρi = ρ−i, resulta que la estimación de la
variancia de rk es igual a
1
V(rk ) ≅ k ≥ K K =1
1 K −1
N
V̂(rk ) ≅
N
∑ ri 2
⇒
1 K −1
− (K −1) V(rk ) ≅ 1 + 2 ∑r i
2
k ≥ K K > 1
N 1
1 ρ1 ρ2 . . . . . ρN - 1
ρ1 1 ρ1 . . . . . ρN - 2
PN = ρ 2 ρ1 1 . . . . . ρN - 3
... ... ... ..... ...
ρ 1
N - 1 ρN - 2 ρN - 3 .....
t Y t Y t Y t Y t Y t Y
1 304 19 278 37 282 55 273 73 291 91 282
2 303 20 277 38 283 56 272 74 288 92 286
3 307 21 279 39 279 57 273 75 288 93 286
4 299 22 278 40 280 58 271 76 290 94 287
5 296 23 270 41 280 59 272 77 293 95 284
6 293 24 268 42 279 60 271 78 288 96 283
7 301 25 272 43 278 61 273 79 289 97 286
8 293 26 273 44 283 62 277 80 291 98 282
9 301 27 279 45 278 63 274 81 293 99 287
10 295 28 279 46 270 64 274 82 293 100 286
11 284 29 280 47 275 65 272 83 290 101 287
12 286 30 275 48 273 66 280 84 288 102 292
13 286 31 271 49 273 67 282 85 287 103 292
14 287 32 277 50 272 68 292 86 289 104 294
15 284 33 278 51 275 69 295 87 292 105 291
16 282 34 279 52 273 70 295 88 288 106 288
17 278 35 283 53 273 71 294 89 288 107 289
18 281 36 284 54 272 72 290 90 285
Y
310
300
290
280
270
260
0 40 80 120 t
En la tabla 5.II se presenta el detalle del cálculo de las autocorrelaciones para los casos de
k =1 y k = 2, de los valores de la tabla 5.I. En primer lugar es necesario calcular la media de
todos los datos
1
m̂ = y = ( 304 + . . . + 295 ) = 299,2
10
1 107
20,442 + ... + 5,442
γˆ0 =
107
∑ (y
1
i
- y )2 =
107
= 74,695
1 107
19,44 × 20,44 + ... + 5,44 × 4,44
γˆ1 =
107
∑ (y
2
i
- y ) ( y i - 1 - y )=
107
= 66,123
γˆ1 66,123
r1 = ρˆ1 = = = 0,885
γˆ0 74,695
1 107
23,44 × 20,44 + ... + 5,44 × 7,44
γˆ2 =
107
∑ (y3
i
- y ) ( y i - 2 - y )=
107
= 59,775
γˆ2 59,775
r2 = ρˆ2 = = = 0,800
γˆ0 74,695
etc.
1 1
S(r1) = = = 0,097
N 107
1 + 2 × 0,8852
S(r2 ) =
1
N
(1 + 2 r12 ) = 107
= 0,155
etc.
Y los intervalos ± 2 S(rk) son, respectivamente, ± 0,194 y ± 0,310 para k=1 y k=2. En
consecuencia, con un riesgo del 5%, ρ1 y ρ2 pueden ser significativamente distintos de cero.
Analizando los 107 valores de la serie completa para k = 1, 2,..., 10, se obtienen los valores
mostrados en la tabla 5.III y presentados en la figura 5.2. De estos resultados, se verifica
que a partir de k = 7 ya se puede considerar ρk como nulo, es decir, no es admisible hacer
previsiones separadas en más de 7 unidades de tiempo del último momento de recogida de
datos.
k 1 2 3 4 5 6 7 8 9 10
rk 0,89 0,80 0,70 0,63 0,58 0,55 0,48 0,40 0,31 0,23
S(rk) 0,10 0,15 0,19 0,21 0,23 0,24 0,25 0,26 0,27 0,27
rk 1
0,5
0
k
-0,5
-1
Con los valores de la tabla 5.III, se puede escribir la matriz de autocorrelaciones que, para k
=3, adquiere la siguiente forma:
© L o s a u t o r e s , 2 0
Autocorrelación p63
En la figura 5.3 se muestran los correlogramas de las series analizadas hasta ahora.
El primero, que corresponde a los datos de la figura 1.2 de la evolución del índice IBEX35,
muestra que sólo son significativos los tres primeros coeficientes de autocorrelación; por
tanto, las previsiones dejan de ser válidas a partir de tres unidades de tiempo después del
último dato. Es decir, lo que ocurra en un instante se transmite hasta tres unidades de
tiempo más adelante.
El segundo, de los datos de la tabla 3.I y de la figura 3.1 sobre las ventas trimestrales de
material deportivo, confirma la estacionalidad de período cuatro, ya que cada cuatro barras
de autocorrelación se repite la misma estructura de comportamiento. En este caso es
posible hacer previsiones a cuatro trimestres vista, ya que para k = 4 el coeficiente de
autocorrelación es significativamente distinto de cero, aunque no lo sean los de k = 1, 2 y 3.
Este hecho se puede interpretar como que la información de un trimestre se transmite
directamente hasta una distancia temporal de cuatro trimestres, sin que afecte el
comportamiento de los tres trimestres intermedios. Así, por ejemplo, una vez conocidas las
ventas de invierno, se puede hacer la previsión para el invierno próximo puesto que lo que
ocurra en primavera, verano y otoño no afectará al invierno siguiente.
IBEX DEPORTE
rk 1 rk 1,0
0,5 0,5
0 0,0
-0,5 -0,5
-1 -1,0
k k
0,5 0,5
0 0,0
-0,5 -0,5
-1 -1,0
k k
USUARIOS TELÉFONO
rk
1
0,5
-0,5
-1
k
Sin embargo, son frecuentes las situaciones en que la tendencia, caso de existir, puede ser
difícil modelizarla a través de un simple modelo polinómico de menor o mayor grado. Podría
entonces pensarse en un modelo de evolución que cambiase a lo largo del tiempo; en estos
casos las técnicas asociadas a la metodología de la ponderación exponencial son útiles para
hacer previsiones sobre la evolución futura.
Para que la serie suavizada quede definida, es necesario concretar los valores de S0, que
generalmente se considera igual a Y1, y el del coeficiente de ponderación λ. En la selección
del valor de λ se pueden emplear distintos criterios de minimización de errores, que se
expondrán a continuación.
t + 1 = St .
#
El valor de St es la previsión para el tiempo siguiente, es decir, Y
El análisis de la expresión anterior permite interpretar este tipo de suavizado, de forma que
el valor de Y previsto para el período t+1, es decir St, se obtenga como promedio ponderado
de los valores reales que ha presentado la serie cronológica desde el inicio de la recogida
de información. La discrepancia entre los valores obtenidos y los previstos, Yt+1 − St, es
atribuible en parte al componente aleatorio y, posiblemente, a cambios bruscos en el
comportamiento de la serie.
El coeficiente de ponderación λ juega el siguiente papel: cuanto mayor sea su valor, tanto
más peso se dará a los valores recientes, en detrimento de los antiguos; mientras que
valores de λ próximos a cero dan gran peso a la historia y poca importancia a los valores
próximos.
Así, si la serie se mantiene estable, serán interesantes valores pequeños del coeficiente de
ponderación ya que amortiguarán fuertemente la oscilación aleatoria, mientras que si la
serie presentara cambios bruscos, la serie suavizada tardaría mucho en detectarlos si su λ
fuese pequeña, mientras que respondería prontamente a ellos con valores altos del
coeficiente λ.
Analizando la expresión del valor suavizado, para distintos valores de λ, se puede escribir,
por ejemplo,
Es decir, con un valor del factor de ponderación de 0,10, la previsión para t = 5 está
constituida por un 10% del valor observado en t = 4, un 9% del de t = 3, un 8,1% del de t = 2
y un 72,9 % del de t = 1; o sea, con un valor pequeño de λ, la previsión está constituida
mayoritariamente por el valor más antiguo.
Cuando λ es igual a 0,50, los pesos aplicados a cada valor recogido están más
uniformemente repartidos y, cuando λ es grande, por ejemplo 0,90, el mayor componente de
la previsión es el último valor observado; los demás tendrán un valor de ponderación tanto
más pequeño cuanto más alejados estén en el tiempo.
El suavizado exponencial puede verse como un método alternativo a las medias móviles,
con sus ventajas e inconvenientes.
Entre las primeras hay que citar que con la ponderación exponencial no se pierde ninguna
información, al contrario que con las medias móviles, pues cuanto mayor era la longitud del
período a promediar, tanta más información se perdía, en el inicio y en el fin de la serie.
Además una serie con cambios de tendencia, más o menos bruscos, se puede modelizar
por suavizado exponencial y no podría hacerse ni por descomposición ni por variables
categóricas. Por el contrario, si la serie presenta estacionalidad con las medias móviles,
siempre que se escoja correctamente el período, ésta desaparece totalmente y da lugar a
una serie estabilizada que permite modelizar directamente la tendencia, hecho que no
ocurre con la ponderación exponencial simple, que no es capaz de suavizar la oscilación
debida a la estacionalidad.
Tal como se ha expuesto, en función del valor de λ, se puede dar mayor o menor peso a la
historia, y detectar con más o menos rapidez cambios bruscos en la serie; es por ello que la
selección del valor más adecuado para el factor de ponderación es crucial en el éxito de la
modelización de la serie y la previsión de valores futuros.
Todos los métodos utilizados para esta selección se basan en minimizar alguna función de
los errores de ponderación.
n Error medio: promedio de los errores de previsión; atendiendo a que para hacer
previsiones hay que disponer de datos, el primer valor previsto posible será el de t = 2:
n
∑( Y t - St )
ME= t=2
n -1
∑(
2
Y t - St )
MSE= t=2
n -1
n Error absoluto medio: promedio de los valores absolutos de los errores de previsión:
n
∑ Y t - St
M AE= t=2
n -1
n Media del porcentaje del error: promedio de los porcentajes de los errores relativos de
previsión:
n
Yt − Y%
∑t=2 Yt
t
× 100
MPE =
n -1
n Media del porcentaje de error absoluto: promedio de los porcentajes de los valores
absolutos de los errores de previsión relativos:
n
Yt - Y
%t
∑ Yt
x 100
M APE = t=2
n -1
Hay que insistir en que en una serie en la que el tiempo es t = 1, 2,..., n, el suavizado
exponencial no ofrece ninguna previsión para t = 1, y, por tanto, no existe error de previsión
en este punto; consecuentemente, en este caso los errores siempre son promedios de n −1
valores.
De los errores expuestos, aquellos que no toman valor absoluto, ME y MPE, tienen poco
interés ya que, a causa de la compensación de valores positivos y negativos, pueden dar
valores de los promedios muy próximos a cero aun cuando existan errores de previsión muy
grandes. En general, se selecciona aquel valor de λ para el cual los valores del error
absoluto medio y del cuadrático medio, MAE y MSE, alcancen los valores más bajos.
Como ejemplo consideremos los datos de la tabla 6.I, serie cronológica de 50 valores, cuya
representación gráfica puede verse en la figura 6.1.
t Yt t Yt t Yt t Yt t Yt
1 9,958 11 16,510 21 26,267 31 25,217 41 28,448
2 10,096 12 12,674 22 20,401 32 24,653 42 35,726
3 11,552 13 17,504 23 18,748 33 28,062 43 30,602
4 9,113 14 13,462 24 20,800 34 27,317 44 31,011
5 13,898 15 16,945 25 21,683 35 26,122 45 31,732
6 11,487 16 18,653 26 27,069 36 29,837 46 31,538
7 11,114 17 18,942 27 23,728 37 28,854 47 32,175
8 9,505 18 15,084 28 24,890 38 27,129 48 35,543
9 17,934 19 16,568 29 26,132 39 30,194 49 35,534
10 12,339 20 20,733 30 24,663 40 34,104 50 37,336
Y 40
30
20
10
0
0 10 20 30 40 50 t
rk 1,0
0,5
0,0
-0,5
-1,0
k
Aplicando la ponderación exponencial a estos datos, en función del valor de λ, los errores
evolucionan según muestra la tabla 6.II.
Para entender mejor lo que representa la selección de uno u otro valor de λ, en la figura 6.3
se pueden comparar las evoluciones de las series ponderadas respecto a los datos
cronológicos para distintos valores del parámetro de ponderación.
λ=0,10 λ=0,30
40 40
30 30
20 20
10 10
0 0
0 10 20 30 40 50 60 t 0 10 20 30 40 50 60 t
λ=0,45 λ=0,95
40 40
30 30
20 20
10 10
0 0
0 10 20 30 40 50 60 t 0 10 20 30 40 50 60 t
) para distintas λ.
Fig. 6.3.- Serie original (•) y suavizada (
Directamente se observa que, en este caso, para valores pequeños de λ la serie suavizada
va por detrás de la real, es decir, tarda mucho en responder a la evolución. Sin embargo,
cuando λ = 0,95, la suavizada está totalmente ligada a la oscilación aleatoria de la serie, es
decir, la previsión para el tiempo inmediato siguiente es prácticamente igual al último valor
medido. Cuando λ = 0,45, valor para el que ha resultado un error cuadrático medio mínimo,
la serie suavizada exponencialmente, sigue más claramente el esqueleto de la serie
cronológica y queda amortiguada la oscilación aleatoria.
observa que para λ = 0,10 la mayoría de los residuos son positivos, es decir, la previsión va
por detrás del valor real, mientras que para λ = 0,45 están, casi siempre, entre los de λ =
0,10 y los de λ = 0,90, es decir, son más próximos a cero, y por tanto, más pequeños.
R 12
-6
0 10 20 30 40 50 t
Para el valor del coeficiente de ponderación seleccionado (λ = 0,45), se calculan los valores
de la serie suavizada, (St = 0,45 × Yt + 0,55 × St-1), las previsiones ( Y
# = S ) y los residuos
t t-1
La estimación para cualquier otro valor de t superior a éste, se tendrá que hacer tomando
como Yt el valor de la previsión, ya que no se dispone de datos reales. Así
es decir, con este sistema la previsión es idéntica para cualquier tiempo futuro, tal como se
aprecia en las últimas filas de la tabla 6.III. Ello evidencia que la previsión no concuerda con
la evolución cronológica presente (figura 6.5), aunque dentro del período estudiado la serie
suavizada sigue de forma muy razonable a los datos disponibles.
t Yt St #
Y Rt
t
1 9,958 9,958 − −
2 10,096 10,020 9,958 0,138
3 11,552 10,709 10,020 1,532
…… …… …… …… ……
48 35,543 33,498 31,825 3,718
49 35,534 34,414 33,498 2,036
50 37,336 35,729 34,414 2,922
51 − 35,729 35,729 −
52 − 35,729 35,729 −
53 − 35,729 35,729 −
40
30
20
10
0
0 5 10 15 20 25 30 35 40 45 50 55 t
Yt = a + b t + ε
que puede interpretarse como un componente aleatorio (ε) unido a un modelo o previsión
# = a + b t.
# ), es decir, Y
(Y t
t−1
St = λ∑ (1− λ)i Yt−i + (1− λ)t S0
i=0
y sustituyendo en ella Yt-i por su expresión de tendencia, Yt-i = a + b (t−i), se obtiene
t−1
St = λ∑ (1− λ)i [a + b(t − i)] + (1− λ)t S0 =
i=0
t −1 t −1
= λ (a + bt) ∑i=0
(1− λ)i − λb∑ i (1− λ)i + (1− λ)t S0
i=0
t −1
1 t −1
1 − λ
∑ (1 − λ )i → ∑ i (1 − λ )i → y (1 − λ ) t → 0
i= 0 λ i= 0 λ2
En consecuencia,
1− λ 1− λ
St = (a + bt) − λb = Y
%−
t b
λ2 λ
Se observa que la serie ponderada de unos datos cronológicos con tendencia lineal es una
1- λ
recta paralela a los datos con un desplazamiento igual a − b.
λ
S(2)
t = λ St + (1 − λ ) S(2)
t −1
que, por desarrollo análogo con el del primer suavizado, se puede expresar como
1 − λ 1 − λ
S(2)
t = St − b = Y
%
t − 2 b
λ λ
En la ecuación anterior Y % hace las veces de ordenada cuando se toma como origen del
t
tiempo el valor t, es decir, equivale a ât .
Como consecuencia, a partir de los datos disponibles hasta un cierto instante se puede
predecir el inmediato siguiente. De esta manera la serie cronológica formada por las
previsiones (estimaciones) de Y, según el modelo lineal suavizado, estará constituida por los
valores
# = â
Y + bˆ− × 1 = â − + bˆ−
t − t 1 t 1 t 1 t 1
Rt = Yt − #
Y t
#
Y t+ T = aˆt + bˆt T
Como ejemplo, se va a aplicar esta metodología a los datos de la tabla 6.I. Para ello hay que
dar valores a λ y, para cada valor de t, calcular St , S(2) ˆ ˆ # y Rt . La evolución
t , a t , bt , Yt
de los errores en función de λ se muestra en la figura 6.6.
MSE
30
λ MSE MAE
0,10 7,164 1,995
0,15 6,563 2,004
0,20 6,848 2,094 20
0,30 7,979 2,266
0,40 9,466 2,443
0,50 11,325 2,683
0,60 13,684 2,956 10
0,70 16,752 3,258
0,80 20,879 3,577
0,90 26,643 4,047 0
0 0,2 0,4 0,6 0,8 1
λ
Las previsiones desde t = 51 hasta t = 55, (T = 1,..., 4), que son las aceptables según indicó
el correlograma de la figura 6.2, se obtienen a partir de la expresión de las previsiones, es
decir,
#
Y t+ T = aˆt + bˆt T = 35,794 + 0,549 × T
La evolución gráfica de las series suavizada y prevista se muestran en la figura 6.7, donde
se observa una muy buena concordancia entre los datos reales y los suavizados, y se
aprecia que la previsión sigue la tendencia marcada por la serie cronológica real.
t Yt St S(2)
t ât bˆt #
Y t
... ... ... ... ... ... ...
48 35,543 31,216 28,526 33,906 0,475 33,278
49 35,534 31,864 29,027 34,701 0,501 34,381
50 37,336 32,685 29,576 35,794 0,549 35,202
40
30
20
10
0
0 20 40 60 t
Fig. 6.7.- Suavizado exponencial de Brown (•) y previsión (1), con λ = 0,15
R 8
6
4
2
0
-2
-4 t
Fig. 6.8.- Residuos
7 OTROS EJEMPLOS
En este capítulo se van a desarrollar algunos casos prácticos de aplicación de las técnicas
propuestas anteriormente.
La tabla 7.I contiene las ventas mensuales de papel de impresión, en cientos de francos.
(Forecasting. Methods and Applications.; Makridakis, Wheelwright, McGee; página 433.)
En todos los ejemplos desarrollados hasta ahora, se disponía de unos datos, se procedía a
su modelización y a hacer previsiones, pero en ningún caso se han podido contrastar dichas
previsiones. De los 120 valores disponibles en el presente ejemplo se van a hacer dos
grupos, los 108 primeros, 9 años, serán utilizados para modelizar la serie y hacer
previsiones y los últimos 12 datos, un año, se utilizarán para validar las previsiones
efectuadas
t Y t Y t Y t Y t Y
1 562,674 25 646,783 49 747,636 73 843,038 97 895,217
2 599,000 26 658,442 50 773,392 74 847,000 98 856,075
3 668,516 27 712,906 51 813,788 75 941,952 99 893,268
4 597,798 28 687,714 52 766,713 76 804,309 100 875,000
5 579,889 29 723,916 53 728,875 77 840,307 101 835,088
6 668,233 30 707,183 54 749,197 78 871,528 102 934,595
7 499,232 31 629,000 55 680,954 79 656,330 103 832,500
8 215,187 32 237,530 56 241,424 80 370,508 104 300,000
9 555,813 33 613,296 57 680,234 81 742,000 105 791,443
10 586,935 34 730,444 58 708,326 82 847,152 106 900,000
11 546,136 35 734,925 59 694,238 83 731,675 107 781,729
12 571,111 36 651,812 60 772,071 84 898,527 108 880,000
13 634,712 37 676,155 61 795,337 85 778,139 109 875,024
14 639,283 38 748,183 62 788,421 86 856,075 110 992,968
15 712,182 39 810,681 63 889,968 87 938,833 111 976,804
16 621,557 40 729,363 64 797,393 88 813,023 112 968,697
17 621,000 41 701,108 65 751,000 89 783,417 113 871,675
18 675,989 42 790,079 66 821,255 90 828,110 114 1006,852
19 501,322 43 594,621 67 691,605 91 657,311 115 832,037
20 220,286 44 230,716 68 290,655 92 310,032 116 345,587
21 560,727 45 617,189 69 727,147 93 780,000 117 849,528
22 602,530 46 691,389 70 868,355 94 860,000 118 913,871
23 626,379 47 701,067 71 812,390 95 780,000 119 868,746
24 605,508 48 705,777 72 799,556 96 807,993 120 993,733
Las figuras 7.1 y 7.2 muestran, respectivamente, la evolución cronológica de los datos y el
correlograma. De ellas se deduce la existencia de una estacionalidad de período 12,
naturalmente ligada a la evolución mensual de los datos, y una tendencia creciente en los
primeros años y más estables en los últimos; esto hace pensar en la posibilidad de un
modelo parabólico. Las previsiones, según el correlograma, son aceptables a tres años
vista.
Y 1000
800
600
400
200
0
0 24 48 72 96 120 t
0,5
-0,5
-1
k
Dada la generalidad del método, para tratar modelos aditivos, multiplicativos o mixtos, se
optará por la modelización con variables categóricas.
Inicialmente se plantea el modelo que incluye el término lineal y el cuadrático del tiempo, las
11 variables categóricas y su conjunción con el tiempo, es decir:
Y = α0 + α1 t + α2 t + β2 Q2 + β3 Q3 + β4 Q4 + β5 Q5 + β6 Q6 + β7 Q7 + β8 Q8
2
+γ6 Q6 t +γ7 Q7 t +γ8 Q8 t +γ9 Q9 t +γ10 Q10 t +γ11 Q11 t +γ12 Q12 t + ε
El modelo definitivo es
R^2 = 0,9559
La figura 7.3. muestra el ajuste del modelo obtenido sobre los datos reales de los nueve
años estudiados, y la 7.4 los residuos, diferencia entre el valor real y el modelizado,
observándose un buen ajuste general a todos los puntos. En la figura 7.3, a través de los
triángulos de los valores modelizados, se ve claramente la homogeneidad de
comportamiento de un conjunto de meses, frente a la disparidad de los otros
1000
900
800
700
600
500
400
300
200
100
0
0 20 40 60 80 100 120 t
R 100
75
50
25
0
-25
-50
-75
-100
0 20 40 60 80 100 120 t
Con el modelo disponible se puede proceder a hacer previsiones, por ejemplo para los
próximos doce meses. En la tabla 7.III se presentan los valores previstos junto a los que
realmente se obtuvieron en estos meses y que han sido separados y guardados a la hora de
hacer la modelización anterior; también se han calculado las diferencias entre ellas y el
porcentaje de error de previsión sobre el valor real. Hay que resaltar que las pequeñas
discrepancias entre la previsión y el valor real, en parte, deben ser atribuidas al componente
aleatorio, cuya presencia en cada momento no hay que olvidar. La figura 7.5 muestra ambos
conjuntos de datos, de los que sólo hay que comentar la gran concordancia entre la
previsión y la realidad, lo cual valida lo precedente de la aplicación de la metodología del
análisis mediante variables categóricas.
t Y Previsión Diferencia %
109 875,024 884,998 -9,974 -1,14
110 992,968 886,645 106,323 10,71
111 976,804 968,430 8,374 0,86
112 968,697 889,872 78,825 8,14
113 871,675 891,451 -19,776 -2,27
114 1006,852 893,008 113,844 11,31
115 832,037 780,882 51,155 6,15
116 345,587 316,626 28,961 8,38
117 849,528 814,283 35,245 4,15
118 913,871 899,010 14,861 1,63
119 868,746 802,041 66,705 7,68
120 993,733 901,876 91,857 9,24
1200
1000
800
600
400
200
108 110 112 114 116 118 120 122 t
t Y t Y t Y t Y
1 144,58 25 164,33 49 196,37 73 209,69
2 137,3 26 147,08 50 162,73 74 186,35
3 140,06 27 155,48 51 169,16 75 182,85
4 132,14 28 146,22 52 156,85 76 169,96
5 137,75 29 153,23 53 169,33 77 178,07
6 145,52 30 162,44 54 180,79 78 186,68
7 147,85 31 176,82 55 198,92 79 202,25
8 162,82 32 179,72 56 196,09 80 204,85
9 147,36 33 155,22 57 176,26 81 180,75
10 143,74 34 154,94 58 166,39 82 179,71
11 143,87 35 152,79 59 167,07 83 177,5
12 154,35 36 169,35 60 184,21 84 188,71
13 157,24 37 178,31 61 197,83 85 200
14 142,46 38 156,67 62 173,5 86 188,72
15 150,02 39 164,16 63 173,19 87 187,47
16 142,02 40 153,15 64 159,74 88 168,72
17 153,49 41 157,35 65 175,24 89 175,73
18 156,13 42 173,36 66 188,31 90 189,43
19 177,91 43 186,41 67 202,68 91 216,78
20 173,81 44 186,38 68 206,41 92 215,39
21 152,16 45 164,97 69 185,57 93 191,48
22 151,87 46 163,63 70 175,8 94 178,56
23 149,73 47 168,99 71 176,17 95 178,55
24 159,6 48 183,09 72 191,87 96 195,59
Las figuras 7.6 y 7.7 corresponden, respectivamente, a la evolución cronológica de los datos
de los siete años utilizados en la modelización, y su correlograma. Al ser los datos
mensuales, parece que de haber alguna estacionalidad, ésta debería ser de período 12, es
decir anual, sin embargo no es esta la situación del caso estudiado. El correlograma
muestra de forma inequívoca que existe una estacionalidad de período 6, la cual, aunque
menos evidente, también se detecta en la evolución cronológica. Intentando buscar una
explicación a dicha periodicidad, quizás sería posible pensar que el consumo eléctrico, y por
tanto la electricidad generada por las centrales, tiene similar comportamiento en los meses
cálidos que en los fríos como consecuencia del consumo por los aires acondicionados,
mientras que la parte del consumo atribuible a la industria en general, no tiene porque
presentar distinto comportamiento de un mes a otro. En cuanto a la tendencia, es posible
que sea cuadrática, tal como se detecta en la evolución cronológica de los datos.
Y 220
200
180
160
140
120
100
0 12 24 36 48 60 72 84 t
rk 1
0,5
-0,5
-1
k
Fig.7.7.- Correlograma
Y = α0 + α1 t + α2 t2 + β2 Q2 + β3 Q3 + β4 Q4 + β5 Q5 + β6 Q6
+ γ2 Q2 t + γ3 Q3 t +γ4 Q4 t +γ5 Q5 t + γ6 Q6 t + ε
R^2 = 0,8664
Tabla 7.V.- Modelo resultante
En consecuencia, el modelo es
Y 240
220
200
180
160
140
120
0 12 24 36 48 60 72 84 t
La figura 7.9 contiene el gráfico del modelo ajustado sobre los datos iniciales, y la 7.10 los
residuos. En ambas se puede apreciar la buena adecuación del modelo a los datos. Quizás
se podría destacar que en el inicio de los datos (figura 7.9), hay algunos valores reales de
producción de energía eléctrica claramente distintos, en cuanto a su comportamiento del
resto. Esto incide en un mayor valor del residuo, y si no es posible conocer las causas de
estas producciones más altas que lo previsto deberían atribuirse al azar.
Y 240
220
200
180
160
140
120
100
0 12 24 36 48 60 72 84 t
R 20
15
10
5
0
-5
-10
-15
-20
0 12 24 36 48 60 72 84 t
Con el modelo resultante, se pueden hacer previsiones para un período no superior al año,
según evidencia el correlograma. Esto es suficiente para comprobar la adecuación de la
previsión, según el modelo obtenido, con los 12 datos reales de los que se dispone y que
han sido reservados en la modelización para comprobar la fiabilidad de las predicciones. La
tabla 7.VI contiene los valores reales las previsiones según el modelo obtenido y el error
respecto al valor medido, salvo el primero, los demás presentan una buena aproximación
t Y Previsión Diferencia %
85 200 220,95 -20,95 -10,48
86 188,72 204,30 -15,58 -8,25
87 187,47 187,50 -0,03 -0,02
88 168,72 179,67 -10,95 -6,49
89 175,73 181,86 -6,13 -3,49
90 189,43 201,12 -11,69 -6,17
91 216,78 226,40 -9,62 -4,44
92 215,39 208,52 6,87 3,19
93 191,48 190,51 0,97 0,50
94 178,56 182,70 -4,14 -2,32
95 178,55 184,00 -5,45 -3,05
96 195,59 204,31 -8,72 -4,46
Y 230
220
210
200
190
180
170
160
84 86 88 90 92 94 96 t
Y 240
220
200
180
160
84 86 88 90 92 94 96 t
En este texto se presentan un conjunto de cuatro prácticas realizadas sobre unos archivos
de datos disponibles en formato Excel.
Desde Excel se debe recuperar el archivo que contiene los datos objeto de la práctica, y que
se encuentran en el directorio habitual de la red. Para ello, se debe seguir la secuencia
(figura 1.1):
Archivo 6 Abrir
Fig. 1.1
Una vez tenemos el archivo abierto, observamos que consta de una hoja llamada Datos
donde figuran 3 columnas de 72 valores cada una, con la estructura mostrada parcialmente
en la figura 1.2. En cada columna hay 72 valores, es decir, cada columna comienza en la fila
1 (con el título) y acaba en la 73.
Fig. 1.2
En primer lugar, se debe preparar una nueva hoja donde es situarán los sucesivos gráficos,
y que se denominará Gráficos. Para ello, al hacer doble clic en la pestaña Hoja2 (figura
1.3), esta palabra quedará en vídeo inverso y permitirá escribir Gráficos.
Fig. 1.3
Situados en la hoja Datos, es necesario crear una columna con los valores consecutivos del
tiempo y, para mayor facilidad al hacer los gráficos, es bueno que esta columna preceda a la
de los valores de las ventas (Y). Hacer clic sobre la letra C del encabezado de la columna
que quedará toda negra; pulsando el botón derecho, seleccionar Insertar (figura 1.4). En
este momento la columna de los datos se habrá desplazado a la D y habrá dejado la C
vacía; aquí es donde se introducirán los valores correlativos del tiempo. En C1 escribir
tiempo, hacer C2 = 1 y arrastrar (tecleando también Ctrl) desde C2+ hasta C73; aquí
aparecerá el valor 72 (página 108 de esta práctica).
Para obtener el gráfico de la evolución de las ventas frente al tiempo, se selecciona desde
C1 hasta C73 (tiempo), y desde D1 hasta D73 (ventas =Y) y se pincha el icono de gráficos
Entonces surge el Asistente para Gráficos (figura 1.5), donde se debe seleccionar
XY (Dispersión)
y, entonces la opción (3; 1), es decir, Dispersión con puntos conectados por líneas y
Siguiente.
Fig. 1.4
Fig. 1.5
Fig. 1.6
En la pestaña Leyenda
eliminar la marca Z de Mostrar leyenda, pinchando sobre la misma, para dejar sólo ̊.
Siguiente
El paso 4 (figura 1.7), permite situar el gráfico donde se desee, para ello se marca
¿ Como objeto en
Finalmente
Terminar
Fig. 1.7
Con el gráfico seleccionado (de forma que se muestre recuadrado externamente con las
marcas ̈ en el entorno), se puede situar en el lugar adecuado y darle el tamaño que sea
necesario.
Si se quiere editar el gráfico y, por ejemplo, eliminar el fondo gris del mismo:
Para cambiar la escala del eje vertical y aprovechar toda la superficie de la figura:
Fig. 1.8
Si se quiere cambiar la escala del tiempo, por ejemplo para que vaya de 6 en 6 unidades,
que son los valores que forman una semana, hay que situar el cursor sobre el eje de
abscisas (Eje de valores (X)) y con el botón derecho seguir los mismos pasos que antes,
para dejar un mínimo de 1, un máximo de 78, la unidad mayor a 6 y la menor a 1.
Para poder modelizar la serie, en primer lugar se debe estabilizar calculando las medias
móviles de período p; en el caso del ejemplo p=6.
como eso no lo podemos hacer en la hoja de cálculo optamos por empezar en la casilla 5.
Situados entonces en E5, hacemos
Arrastramos hasta E71, que contendrá la media de los 6 últimos valores de la serie
(Promedio(D68:D73)), en este caso 5256,33.
Al ser de período par debemos volver a la media de 2 en 2: la primera media móvil ocupará
el cuarto valor (5ª fila), y la última el 69º (70ª fila), ya que en total se pierden 3 valores al inicio
y 3 al final. Situados en F5 escribiremos
Arrastramos hasta F70, que contendrá la media de los 2 últimos valores de la columna
anterior (Promedio(E70:E71)), en este caso 5262,33.
Seleccionar, manteniendo presionada la tecla Control, desde C2 hasta C73, (tiempo), desde
D2 hasta D73, (Y) y desde F2 hasta F73, (Y móvil).
Paso 2: Siguiente
Paso 3: Poner los títulos, por ejemplo medias móviles (p=6), sacar la leyenda y
Siguiente
Es aconsejable editar el gráfico, tal como se ha hecho con el anterior, para que la escala de
ordenadas vaya de cero a doce mil; también se puede cambiar la escala de tiempo como
antes. El resultado es el gráfico de la página 111.
Conclusiones: Se detecta una tendencia decreciente, casi seguramente lineal, pero ¿podría
ser cuadrática? Se deberá estudiar en el momento oportuno.
1.4 Estacionalidad
Este cálculo es muy cómodo hacerlo con una tabla dinámica. En primer lugar se deben
obtener los valores de W, que son las diferencias entre los valores de la serie (Y, columna
C) y las medias móviles (Y móvil, columna E). Estos valores se situarán en la columna G.
= D5 – F5 (Y – Y móvil)
En la barra de herramientas
Fig. 1.9
Fig. 1.10
A B C D
80 Promedio de W
81 día Total
82 lunes -2331,37
83 martes -939,924
84 miércoles -1963,33
85 jueves 304,7803
86 viernes 3098,348
87 sábado 1898,394
88 Total general 11,14899
Los valores de las casillas C82 – C87 son, respectivamente, E*1, E*2, …, E*6; la casilla C88
(llamada Total general en B88) es la media de las anteriores, o sea, E * .
Para calcular los índices estacionales, en la casilla E81 se escribe Ind. Est. como título, y se
define E82 con la expresión
̈ Gráfico de la estacionalidad
Seleccionar los valores de los índices estacionales, casillas E82 hasta E87 (o también desde
H2 hasta H7).
Paso 1: Líneas6
6 Línea con marcadores (2, 1) de la figura 1.11 Siguiente
Fig. 1.11
Paso 2: Siguiente
Paso 3: Poner los títulos, por ejemplo Índices estacionales, quitar la leyenda y
Siguiente
Si se quiere que los valores del eje de abscisas queden fuera del gráfico, situar el cursor
sobre el eje de ordenadas (Eje de valores), y haciendo doble clic sale la pantalla Formato
de ejes (figura 1.12). En la pestaña Escala se debe entrar al Eje de categorías (X) cruza
en:
y cambiar el 0 por −3000
Fig. 1.12
Seleccionar, manteniendo presionada la tecla Ctrl, desde C2 hasta C73 (Tiempo), y desde
F2 hasta F73 (Y móvil) de la hoja Datos.
Paso 2: Siguiente
Paso 3: Poner los títulos, por ejemplo Media móvil (tendencia), sacar la leyenda y
Siguiente
Es necesario editar el gráfico, tal como se ha hecho con el anterior, para que la escala de
ordenadas vaya desde cinco mil hasta siete mil. El resultado es el gráfico de la página 112.
Con la nueva escala parece bastante claro que puede haber una tendencia cuadrática, por
eso, se ha de proceder a ajustar un modelo parabólico con el bien entendido de que si el
término cuadrático no fuese significativo ya se detectaría en el análisis de los resultados, y
se procedería en consecuencia; es decir, se debería ajustar un nuevo modelo sin el término
que ha resultado no significativo.
En primer lugar copiaremos todo lo que nos haga falta de la hoja Datos. Situados aquí:
−C73, D1−
Seleccionar las columnas Tiempo, Y, Y móvil y Ind. Est., es decir, C1− −D73, (y
−F73 y H1−
manteniendo presionada la tecla Ctrl) F1− −H73
Edición 6 Copiar
En este momento están ocupadas las columnas A, B, C y D. Para poder hacer el ajuste
mínimo cuadrático para la tendencia, mediante un modelo parabólico, se debe disponer de
una columna con los valores del tiempo al cuadrado, que necesariamente ha de estar
situada al lado de la columna del tiempo; por eso tendremos que insertarla entre las
columnas A y B.
Hacer clic sobre la letra B del encabezado de la columna, que quedará toda negra;
presionar el botón derecho para seleccionar Insertar (figura 1.4). La columna de los datos
se ha desplazado a la C y ha dejado la B vacía; aquí se introducirán los valores del tiempo
al cuadrado.
En B1 escribir Tiempo^2
Arrastrar hasta B73; aquí habrá el valor 5184, que es el cuadrado de 72. En las páginas 109
y 110, se puede ver la disposición de los valores.
Opciones de salida:
Fig. 1.13
A B C D E F G
92
93 Resumen
94
95 stad st cos
96 R 0,92513
97 R^2 0,85587
98 R^2 ajust 0,85130
99 Error típico 114,20021
100 n 66
101
102 ANOVA
103 u S de C C ao p
104 Regresión 2 4879153,47 2439576,7 187,059889 3,1646E-27
105 Residuos 63 821626,351 13041,688
106 Total 65 5700779,82
107
108 Coefs o t p co t Va o p
109 Ord. Origen 6311,5139 51,8296 121,7743 1,7087E-76
110 Tiempo -27,3032 3,2473 -8,4079 6,9185E-12
111 Tiempo^2 0,1832 0,0433 4,2298 7,7177E-05
112
113
Fig. 1.14
Una vez obtenida la ecuación de la tendencia, podemos calcular su valor para los diferentes
tiempos de los que se dispone de información. Para ello crearemos una nueva columna.
Para ver la bondad del ajuste, se puede hacer un gráfico que compare los valores de las
medias móviles y los de la tendencia ajustada. Por eso seleccionar, presionando la tecla
Ctrl, desde A1 hasta A73, desde D1 hasta D73 y desde F1 hasta F73
Paso 2: Siguiente
Paso 3: Poner los títulos, por ejemplo Tendencia, sacar la leyenda y Siguiente
Es necesario editar el gráfico, tal como se ha hecho con el anterior, para que la escala de
ordenadas vaya desde cinco mil hasta a siete mil.
Si se quiere, situados sobre uno de los puntos de la Serie “tendencia”, con el botón
derecho seleccionar
Formato de punto de datos
Marcador ¿ Ninguno
Los residuos son la diferencia entre los valores originales, Y, y el modelo, Y mod.
En H2 la expresión = C2 − G2 (Y − Y mod)
Para hacer la representación gráfica del modelo ajustado en comparación con los valores
−Modelo, los valores del tiempo, de la
originales, se debe seleccionar, de la hoja Tendencia−
Y y de la Y modelizada, o sea, A1−−A73, C1− −C73 y G1−
−G73.
Paso 2: Siguiente
Paso 3: Poner los títulos, por ejemplo Modelo ajustado, sacar la leyenda y
Siguiente
Si se desea dejar con puntos la serie original y con línea la del modelo ajustado, hay que
situarse sobre uno de los puntos de la Serie “Y”, y con el botón derecho del ratón
seleccionar:
Formato de punto de datos
Línea ¿ Ninguna
Situarse, luego, sobre un punto de la Serie “Y mod”, y con el botón derecho seleccionar
Para hacer la representación gráfica de los residuos en función del tiempo, seleccionar, de
la hoja Tendencia− −Modelo, los valores del tiempo y de los residuos, o sea, A1− −A73 y
H1−−H73.
Paso 2: Siguiente
Paso 3: Poner los títulos, por ejemplo Residuos, sacar la leyenda y Siguiente
Editar el gráfico para, entre otras cosas, sacar los valores del eje de abscisas fuera del
mismo, para ello se sitúa el cursor sobre el eje de ordenadas, Eje de valores (Y), y
haciendo doble clic sale la pantalla Formato de ejes.
Mínimo: −800
Eje de Valores (X) cruza en: −800
1.7 Previsiones
Si se quieren conocer las previsiones de las ventas del supermercado que estamos
estudiando, a lo largo de las tres próximas semanas (18 días) en la hoja
Tendencia− −Modelo prolongar las columnas del tiempo, la tendencia, la estacionalidad y
crear una nueva columna para las previsiones.
Para la columna A, Tiempo, arrastrar presionando la tecla Ctrl desde la casilla A73 hasta la
A91, donde ha de aparecer el valor 90.
−A91,
El gráfico de las previsiones, junto con la serie original, se obtendrá seleccionando A1−
C1−−C91 y I1−−I91 de la hoja Tendencia− −Modelo.
Paso 2: Siguiente
Paso 3: Poner los títulos, por ejemplo Serie y previsiones, tiempo y ventas, sacar
la leyenda y Siguiente
Puede ser necesario editar el gráfico por que la escala de abscisas vaya desde cero hasta
ochenta, y también modificar los tipos de líneas y puntos de la serie Y y de la serie
previsiones, para destacar claramente los dos grupos de puntos.
Conclusiones: Las previsiones siguen el mismo tipo de comportamiento que los datos
originales y, dada la bondad del modelo, pueden considerarse lo suficientemente fiables.
1.8 Resultados
A B C D E F G H
1 Semana Dia Tiempo Y Y(p=6) Y móvil W Ind. Est
2 1 lunes 1 3968 -2342,52
3 1 martes 2 4572 -951,07
4 1 miércoles 3 3964 -1974,48
5 1 jueves 4 6326 6135,00 6103,75 222,25 293,63
6 1 viernes 5 9673 6072,50 6138,75 3534,25 3087,20
7 1 sábado 6 8307 6205,00 6188,25 2118,75 1887,24
8 2 lunes 7 3593 6171,50 6202,92 -2609,92 -2342,52
9 2 martes 8 5367 6234,33 6218,67 -851,67 -951,07
10 2 miércoles 9 3763 6203,00 6194,67 -2431,67 -1974,48
11 2 jueves 10 6703 6186,33 6196,67 506,33 293,63
12 2 viernes 11 9485 6207,00 6152,42 3332,58 3087,20
13 2 sábado 12 8207 6097,83 6079,08 2127,92 1887,24
14 3 lunes 13 3717 6060,33 5981,58 -2264,58 -2342,52
15 3 martes 14 4712 5902,83 5871,75 -1159,75 -951,07
16 3 miércoles 15 3538 5840,67 5781,83 -2243,83 -1974,48
17 3 jueves 16 5758 5723,00 5672,25 85,75 293,63
18 3 viernes 17 9112 5621,50 5626,42 3485,58 3087,20
19 3 sábado 18 7501 5631,33 5640,08 1860,92 1887,24
20 4 lunes 19 3108 5648,83 5720,33 -2612,33 -2342,52
21 4 martes 20 4771 5791,83 5774,75 -1003,75 -951,07
22 4 miércoles 21 3643 5757,67 5798,67 -2155,67 -1974,48
23 4 jueves 22 6616 5839,67 5882,17 733,83 293,63
24 4 viernes 23 8907 5924,67 5896,00 3011,00 3087,20
25 4 sábado 24 7993 5867,33 5923,25 2069,75 1887,24
26 5 lunes 25 3618 5979,17 5895,83 -2277,83 -2342,52
27 5 martes 26 4427 5812,50 5801,75 -1374,75 -951,07
28 5 miércoles 27 4314 5791,00 5735,08 -1421,08 -1974,48
29 5 jueves 28 5616 5679,17 5619,25 -3,25 293,63
30 5 viernes 29 8778 5559,33 5600,25 3177,75 3087,20
31 5 sábado 30 7322 5641,17 5633,83 1688,17 1887,24
32 6 lunes 31 2899 5626,50 5660,58 -2761,58 -2342,52
33 6 martes 32 4918 5694,67 5689,17 -771,17 -951,07
34 6 miércoles 33 4226 5683,67 5713,92 -1487,92 -1974,48
35 6 jueves 34 6025 5744,17 5786,58 238,42 293,63
36 6 viernes 35 8712 5829,00 5824,92 2887,08 3087,20
37 6 sábado 36 7685 5820,83 5767,75 1917,25 1887,24
38 7 lunes 37 3408 5714,67 5665,67 -2257,67 -2342,52
39 7 martes 38 4869 5616,67 5577,25 -708,25 -951,07
40 7 miércoles 39 3589 5537,83 5510,75 -1921,75 -1974,48
41 7 jueves 40 5437 5483,67 5442,58 -5,58 293,63
42 7 viernes 41 8239 5401,50 5348,83 2890,17 3087,20
43 7 sábado 42 7360 5296,17 5303,67 2056,33 1887,24
44 8 lunes 43 2915 5311,17 5363,08 -2448,08 -2342,52
45 8 martes 44 4237 5415,00 5458,00 -1221,00 -951,07
46 8 miércoles 45 3679 5501,00 5510,58 -1831,58 -1974,48
47 8 jueves 46 6060 5520,17 5525,50 534,50 293,63
48 8 viernes 47 8755 5530,83 5508,67 3246,33 3087,20
49 8 sábado 48 7475 5486,50 5454,17 2020,83 1887,24
50 9 lunes 49 2979 5421,83 5361,50 -2382,50 -2342,52
Hoja: Datos
A B C D E F G H
51 9 martes 50 3971 5301,17 5270,92 -1299,92 -951,07
52 9 miércoles 51 3291 5240,67 5183,58 -1892,58 -1974,48
53 9 jueves 52 5336 5126,50 5173,17 162,83 293,63
54 9 viernes 53 8392 5219,83 5280,08 3111,92 3087,20
55 9 sábado 54 6790 5340,33 5326,08 1463,92 1887,24
56 10 lunes 55 3539 5311,83 5369,33 -1830,33 -2342,52
57 10 martes 56 4694 5426,83 5376,83 -682,83 -951,07
58 10 miércoles 57 3120 5326,83 5368,83 -2248,83 -1974,48
59 10 jueves 58 6026 5410,83 5387,08 638,92 293,63
60 10 viernes 59 7792 5363,33 5365,92 2426,08 3087,20
61 10 sábado 60 7294 5368,50 5377,42 1916,58 1887,24
62 11 lunes 61 3254 5386,33 5349,83 -2095,83 -2342,52
63 11 martes 62 4725 5313,33 5357,33 -632,33 -951,07
64 11 miércoles 63 3227 5401,33 5376,42 -2149,42 -1974,48
65 11 jueves 64 5588 5351,50 5349,42 238,58 293,63
66 11 viernes 65 8320 5347,33 5340,92 2979,08 3087,20
67 11 sábado 66 6995 5334,50 5353,08 1641,92 1887,24
68 12 lunes 67 3229 5371,67 5333,42 -2104,42 -2342,52
69 12 martes 68 4648 5295,17 5281,75 -633,75 -951,07
70 12 miércoles 69 3450 5268,33 5262,33 -1812,33 -1974,48
71 12 jueves 70 5129 5256,33 293,63
72 12 viernes 71 8159 3087,20
73 12 sábado 72 6923 1887,24
74
75
76
77
78
79
80 Promedio de W
81 dia Total Ind. Est
82 lunes -2331,37 -2342,5202
83 martes -939,924 -951,07323
84 miércoles -1963,33 -1974,4823
85 jueves 304,7803 293,631313
86 viernes 3098,348 3087,19949
87 sábado 1898,394 1887,24495
88 Total general 11,14899
89
90
A B C D E F G H I
1 Tiempo Tiempo^2 Y Y móvil Ind. Est Tendencia Y mod Residuos Previsiones
2 1 1 3968 -2342,52 6284,39 3941,87 26,13
3 2 4 4572 -951,07 6257,63 5306,56 -734,56
4 3 9 3964 -1974,48 6231,23 4256,75 -292,75
5 4 16 6326 6103,75 293,63 6205,19 6498,82 -172,82
6 5 25 9673 6138,75 3087,20 6179,51 9266,71 406,29
7 6 36 8307 6188,25 1887,24 6154,19 8041,43 265,57
8 7 49 3593 6202,92 -2342,52 6129,23 3786,71 -193,71
9 8 64 5367 6218,67 -951,07 6104,63 5153,56 213,44
10 9 81 3763 6194,67 -1974,48 6080,39 4105,91 -342,91
11 10 100 6703 6196,67 293,63 6056,51 6350,14 352,86
12 11 121 9485 6152,42 3087,20 6032,99 9120,19 364,81
13 12 144 8207 6079,08 1887,24 6009,83 7897,07 309,93
14 13 169 3717 5981,58 -2342,52 5987,03 3644,51 72,49
15 14 196 4712 5871,75 -951,07 5964,59 5013,52 -301,52
16 15 225 3538 5781,83 -1974,48 5942,51 3968,03 -430,03
17 16 256 5758 5672,25 293,63 5920,79 6214,42 -456,42
18 17 289 9112 5626,42 3087,20 5899,43 8986,63 125,37
19 18 324 7501 5640,08 1887,24 5878,43 7765,67 -264,67
20 19 361 3108 5720,33 -2342,52 5857,79 3515,27 -407,27
21 20 400 4771 5774,75 -951,07 5837,51 4886,44 -115,44
22 21 441 3643 5798,67 -1974,48 5817,59 3843,11 -200,11
23 22 484 6616 5882,17 293,63 5798,03 6091,66 524,34
24 23 529 8907 5896,00 3087,20 5778,83 8866,03 40,97
25 24 576 7993 5923,25 1887,24 5759,99 7647,23 345,77
26 25 625 3618 5895,83 -2342,52 5741,51 3398,99 219,01
27 26 676 4427 5801,75 -951,07 5723,39 4772,32 -345,32
28 27 729 4314 5735,08 -1974,48 5705,63 3731,15 582,85
29 28 784 5616 5619,25 293,63 5688,23 5981,86 -365,86
30 29 841 8778 5600,25 3087,20 5671,19 8758,39 19,61
31 30 900 7322 5633,83 1887,24 5654,51 7541,75 -219,75
32 31 961 2899 5660,58 -2342,52 5638,19 3295,67 -396,67
33 32 1024 4918 5689,17 -951,07 5622,23 4671,16 246,84
34 33 1089 4226 5713,92 -1974,48 5606,63 3632,15 593,85
35 34 1156 6025 5786,58 293,63 5591,39 5885,02 139,98
36 35 1225 8712 5824,92 3087,20 5576,51 8663,71 48,29
37 36 1296 7685 5767,75 1887,24 5561,99 7449,23 235,77
38 37 1369 3408 5665,67 -2342,52 5547,83 3205,31 202,69
39 38 1444 4869 5577,25 -951,07 5534,03 4582,96 286,04
40 39 1521 3589 5510,75 -1974,48 5520,59 3546,11 42,89
41 40 1600 5437 5442,58 293,63 5507,51 5801,14 -364,14
42 41 1681 8239 5348,83 3087,20 5494,79 8581,99 -342,99
43 42 1764 7360 5303,67 1887,24 5482,43 7369,67 -9,67
44 43 1849 2915 5363,08 -2342,52 5470,43 3127,91 -212,91
45 44 1936 4237 5458,00 -951,07 5458,79 4507,72 -270,72
46 45 2025 3679 5510,58 -1974,48 5447,51 3473,03 205,97
47 46 2116 6060 5525,50 293,63 5436,59 5730,22 329,78
48 47 2209 8755 5508,67 3087,20 5426,03 8513,23 241,77
49 48 2304 7475 5454,17 1887,24 5415,83 7303,07 171,93
50 49 2401 2979 5361,50 -2342,52 5405,99 3063,47 -84,47
Hoja: Tendencia−Modelo
A B C D E F G H I
51 50 2500 3971 5270,92 -951,07 5396,51 4445,44 -474,44
52 51 2601 3291 5183,58 -1974,48 5387,39 3412,91 -121,91
53 52 2704 5336 5173,17 293,63 5378,63 5672,26 -336,26
54 53 2809 8392 5280,08 3087,20 5370,23 8457,43 -65,43
55 54 2916 6790 5326,08 1887,24 5362,19 7249,43 -459,43
56 55 3025 3539 5369,33 -2342,52 5354,51 3011,99 527,01
57 56 3136 4694 5376,83 -951,07 5347,19 4396,12 297,88
58 57 3249 3120 5368,83 -1974,48 5340,23 3365,75 -245,75
59 58 3364 6026 5387,08 293,63 5333,63 5627,26 398,74
60 59 3481 7792 5365,92 3087,20 5327,39 8414,59 -622,59
61 60 3600 7294 5377,42 1887,24 5321,51 7208,75 85,25
62 61 3721 3254 5349,83 -2342,52 5315,99 2973,47 280,53
63 62 3844 4725 5357,33 -951,07 5310,83 4359,76 365,24
64 63 3969 3227 5376,42 -1974,48 5306,03 3331,55 -104,55
65 64 4096 5588 5349,42 293,63 5301,59 5595,22 -7,22
66 65 4225 8320 5340,92 3087,20 5297,51 8384,71 -64,71
67 66 4356 6995 5353,08 1887,24 5293,79 7181,03 -186,03
68 67 4489 3229 5333,42 -2342,52 5290,43 2947,91 281,09
69 68 4624 4648 5281,75 -951,07 5287,43 4336,36 311,64
70 69 4761 3450 5262,33 -1974,48 5284,79 3310,31 139,69
71 70 4900 5129 293,63 5282,51 5576,14 -447,14
72 71 5041 8159 3087,20 5280,59 8367,79 -208,79
73 72 5184 6923 1887,24 5279,03 7166,27 -243,27
74 73 -2342,52 5277,83 2935,31
75 74 -951,07 5276,99 4325,92
76 75 -1974,48 5276,51 3302,03
77 76 293,63 5276,39 5570,02
78 77 3087,20 5276,63 8363,83
79 78 1887,24 5277,23 7164,47
80 79 -2342,52 5278,19 2935,67
81 80 -951,07 5279,51 4328,44
82 81 -1974,48 5281,19 3306,71
83 82 293,63 5283,23 5576,86
84 83 3087,20 5285,63 8372,83
85 84 1887,24 5288,39 7175,63
86 85 -2342,52 5291,51 2948,99
87 86 -951,07 5294,99 4343,92
88 87 -1974,48 5298,83 3324,35
89 88 293,63 5303,03 5596,66
90 89 3087,20 5307,59 8394,79
91 90 1887,24 5312,51 7199,75
92
93 Resumen
94
95 stad st cos
96 R 0,92513
97 R^2 0,85587
98 R^2 ajust 0,85130
99 Error típico 114,20021
100 n 66
101
102 ANOVA
103 u S de C C Va o p
104 Regresión 2 4879153,47 2439576,7 187,059889 3,1646E-27
105 Residuos 63 821626,351 13041,688
106 Total 65 5700779,82
107
108 Coefs o t p co t Va o p
109 Ord. Origen 6311,5139 51,8296 121,7743 1,7087E-76
110 Tiempo -27,3032 3,2473 -8,4079 6,9185E-12
111 Tiempo^2 0,1832 0,0433 4,2298 7,7177E-05
112
Hoja: Tendencia−Modelo (continuación)
Evolución cronológica
12000
V
e 8000
n
t
a 4000
s
0
0 12 24 36 48 60 72
tiempo
12000
8000
4000
0
0 12 24 36 48 60 72
Tiempo
Hoja: Gráficos
7000
6000
5000
0 12 24 36 48 60 72
tiempo
Tendencia
7000
6000
5000
0 12 24 36 48 60 72
tiempo
Índices estacionales
4000
3000
2000
1000
0
-1000
-2000
-3000
1 2 3 4 5 6
Modelo ajustado
12000
V 8000
e
n
t 4000
a
s
0
0 12 24 36 48 60 72
tiempo
Residuos
800
400
-400
-800
0 12 24 36 48 60 72
tiempo
Serie y previsiones
12000
10000
8000
V
e
6000
n
t
4000
a
s 2000
0
0 30 60 90
tiempo
OBJETIVO: Con los datos del valor diario de la caja, resultado de las ventas de un
supermercado a lo largo de 12 semanas, que han sido analizados en la práctica anterior, se
han de calcular los coeficientes de autocorrelación, estudiar su significación estadística y
obtener el correlograma; el objetivo final es ver hasta qué valor del tiempo se pueden hacer
previsiones.
Desde Excel hay que recuperar el archivo que contiene los datos objeto de la práctica, y que
se encuentra en el directorio habitual de la red, siguiendo la secuencia,
Archivo 6 Abrir
Una vez tenemos el archivo abierto, observamos que consta de una hoja llamada Datos
donde figuran 3 columnas de 72 valores cada una. En cada columna hay 72 valores, es
decir, empieza en la fila 1 (con el título) y acaba en la 73. Recordemos que son los mismos
valores de la práctica 1.
N−k N
N N
= C2 - PROMEDIO(C$2:C$73)
Aquí se ha utilizado VARP en lugar de VAR para que el divisor sea N y no N−1 como sería
en el otro caso.
Fig. 2.1
En el cuadro siguiente (figura 2.2), especificaremos los valores que vamos a utilizar,
teniendo cuidado de fijar las posiciones inamovibles ($2 del primer vector y $73 por el
segundo), ya que, como se ha comentado, el primer vector siempre empieza en el primer
valor de la Y centrada, eso es, D2, mientras que el segundo siempre acaba en el último
valor de Y centrada, o sea, D73. Así el primer vector va de D$2 hasta D72 y el segundo de
D3 hasta D$73. Una vez se presiona la tecla Aceptar, en la ventana superior queda escrita
la expresión = SUMAPRODUCTO(D$2... D$73): dicha expresión hay que ponerla entre
paréntesis y dividirla por el número total de observaciones (72 en este caso) a fin de obtener
la autocovariancia para k=1. En la figura 2.3 se muestra cómo finalmente queda definida la
casilla G9.
Fig. 2.2
Fig. 2.3
Esta expresión se debe arrastrar hasta G26 y, de momento, no hacer caso de lo que
resulte. Ahora hay que cambiar la posición final del segundo elemento de la fórmula en cada
casilla de esta columna. Así
En H9, escribir la expresión del coeficiente de autocorrelación, eso es: = G9/G$2, y arrastrar
hasta H26, donde figurará =G26/G$2.
La columna I tiene los cuadrados de los coeficientes de autocorrelación; para ello hay que
hacer I9 =H9*H9 y extenderlo hasta I26.
Hacer J9 = 1/72
J10 = (1+2*SUMA(I$9:I9))/72
y arrastrar hasta J26 donde habrá la expresión =(1+2*SUMA(I$9:I25))/72. Los extremos del
intervalo de no significación, ± 2S(r_k), estarán en las columnas K y L.
K9 = −2*RAIZ(J9)
L9 = 2*RAIZ(J9)
Arrastrar estas expresiones hasta K26 y L26. La tabla completa de resultados está en las
páginas 120 y 121.
2.3 Autocorrelograma
Paso 1: Siguiente
Paso 2: Siguiente
Paso 3: Poner los títulos, por ejemplo Autocorrelograma, quitar la leyenda y
Siguiente
Situar el gráfico en la posición y el tamaño deseado, y editarlo para que presente el aspecto
habitual de un correlograma.
Seleccionando un punto de la Serie 1, y haciendo clic con el botón derecho del ratón, sale el
cuadro de la figura 2.4. Seleccionar:
Fig. 2.4
Carpeta Tramas:
Si es necesario, se pueden quitar decimales del eje de ordenadas; para eso tendremos que
situarnos sobre el Eje de valores, y entonces, con doble clic, o presionando el botón
derecho del ratón, seguir la secuencia
Formato de ejes
Carpeta Número Posiciones decimales
y para quitar los valores de k de dentro del gráfico, en el Eje de categorías, eje de abscisas,
Formato de ejes
Carpeta Tramas Rótulos de marca de graduación ¿ Ninguno
2.4 Resultados
A B C D E F G H I J K L
1 Seman Dia Y Y-Ybar gamma_0
2 1 lunes 3968 -1653,36 4003801
3 1 martes 4572 -1049,36
4 1 miércoles 3964 -1657,36
5 1 jueves 6326 704,639
6 1 viernes 9673 4051,64
7 1 sábado 8307 2685,64
8 2 lunes 3593 -2028,36 k gamma_k r_k r_k^2 V(r_k) - 2S(r_k) + 2S(r_k)
9 2 martes 5367 -254,361 1 1089260,8 0,2721 0,0740 0,0139 -0,2357 0,2357
10 2 miércoles 3763 -1858,36 2 -1528643 -0,3818 0,1458 0,0159 -0,2525 0,2525
11 2 jueves 6703 1081,64 3 -2302898 -0,5752 0,3308 0,0200 -0,2828 0,2828
12 2 viernes 9485 3863,64 4 -1654914 -0,4133 0,1708 0,0292 -0,3417 0,3417
13 2 sábado 8207 2585,64 5 873463,57 0,2182 0,0476 0,0339 -0,3684 0,3684
14 3 lunes 3717 -1904,36 6 3551137,5 0,8869 0,7867 0,0353 -0,3755 0,3755
15 3 martes 4712 -909,361 7 978459,2 0,2444 0,0597 0,0571 -0,4779 0,4779
16 3 miércoles 3538 -2083,36 8 -1429667 -0,3571 0,1275 0,0588 -0,4848 0,4848
17 3 jueves 5758 136,639 9 -2118164 -0,5290 0,2799 0,0623 -0,4992 0,4992
18 3 viernes 9112 3490,64 10 -1510880 -0,3774 0,1424 0,0701 -0,5294 0,5294
19 3 sábado 7501 1879,64 11 775336,95 0,1937 0,0375 0,0740 -0,5442 0,5442
20 4 lunes 3108 -2513,36 12 3213971,1 0,8027 0,6444 0,0751 -0,5480 0,5480
21 4 martes 4771 -850,361 13 902365,54 0,2254 0,0508 0,0930 -0,6098 0,6098
22 4 miércoles 3643 -1978,36 14 -1276624 -0,3189 0,1017 0,0944 -0,6144 0,6144
23 4 jueves 6616 994,639 15 -1892155 -0,4726 0,2233 0,0972 -0,6236 0,6236
24 4 viernes 8907 3285,64 16 -1373896 -0,3431 0,1178 0,1034 -0,6432 0,6432
25 4 sábado 7993 2371,64 17 700396,45 0,1749 0,0306 0,1067 -0,6533 0,6533
26 5 lunes 3618 -2003,36 18 2879249,8 0,7191 0,5171 0,1075 -0,6559 0,6559
27 5 martes 4427 -1194,36
28 5 miércoles 4314 -1307,36
29 5 jueves 5616 -5,36111
30 5 viernes 8778 3156,64
31 5 sábado 7322 1700,64
32 6 lunes 2899 -2722,36
33 6 martes 4918 -703,361
34 6 miércoles 4226 -1395,36
35 6 jueves 6025 403,639
36 6 viernes 8712 3090,64
37 6 sábado 7685 2063,64
38 7 lunes 3408 -2213,36
39 7 martes 4869 -752,361
40 7 miércoles 3589 -2032,36
41 7 jueves 5437 -184,361
42 7 viernes 8239 2617,64
43 7 sábado 7360 1738,64
44 8 lunes 2915 -2706,36
45 8 martes 4237 -1384,36
46 8 miércoles 3679 -1942,36
47 8 jueves 6060 438,639
48 8 viernes 8755 3133,64
49 8 sábado 7475 1853,64
50 9 lunes 2979 -2642,36
51 9 martes 3971 -1650,36
Hoja: Datos
A B C D E F G H I J K L
52 9 miércoles 3291 -2330,36
53 9 jueves 5336 -285,361
54 9 viernes 8392 2770,64
55 9 sábado 6790 1168,64
56 10 lunes 3539 -2082,36
57 10 martes 4694 -927,361
58 10 miércoles 3120 -2501,36
59 10 jueves 6026 404,639
60 10 viernes 7792 2170,64
61 10 sábado 7294 1672,64
62 11 lunes 3254 -2367,36
63 11 martes 4725 -896,361
64 11 miércoles 3227 -2394,36
65 11 jueves 5588 -33,3611
66 11 viernes 8320 2698,64
67 11 sábado 6995 1373,64
68 12 lunes 3229 -2392,36
69 12 martes 4648 -973,361
70 12 miércoles 3450 -2171,36
71 12 jueves 5129 -492,361
72 12 viernes 8159 2537,64
73 12 sábado 6923 1301,64
74
75
76
AUTOCORRELOGRAMA
1,0
0,5
0,0
-0,5
-1,0
Desde Excel recuperar el archivo que contiene los datos objeto de la práctica, y que se
encuentran en el directorio habitual de la red. Por esto hemos de seguir la secuencia (figura
3.1):
Archivo 6 Abrir
Fig. 3.1
Una vez tenemos el archivo abierto, observamos que consta de una hoja denominada Datos
donde figuran 2 columnas de 62 valores cada una, con la estructura mostrada parcialmente
en la figura 3.2. En cada columna hay 62 valores, es decir, se empieza en la fila 1 (con el
título) y se acaba en la 63.
Fig. 3.2
En primer lugar, hemos de analizar la evolución de la serie, cosa que ya hemos hecho en la
práctica nº1, pero es suficientemente rápido como para hacerlo de nuevo. Se selecciona
Fig. 3.3
Y = α0 + α1 t + α2 t2 + β2 Q2 + β3 Q3 + β4 Q4 + β5 Q2 t + β6 Q3 t + β7 Q4 t + ε
Para poder modelizar la serie, en primer lugar hemos de crear las variables categóricas, o
indicatrices, teniendo en cuenta que, en el caso de la práctica, el período p es igual a 4.
Para ello, se preparan los títulos de las columnas que contendrán los valores de las
variables categóricas. Recordando que las representamos por Q y que sus índices van
desde 2 hasta p (teoría de series temporales), en las casillas C1, D1 y E1 escribiremos Q2,
Q3, y Q4, tal como muestra la figura 3.4.
A continuación rellenaremos cada variable categórica con sus valores. Al ser el período igual
a 4, hay 4 combinaciones diferentes de ceros y unos, una para cada componente del
período, y sabiendo que Qi vale la unidad si el orden del tiempo asociado es igual a i, y vale
cero en cualquier otro caso, el conjunto de valores es el que se muestra en el bloque C2−
E5, de la figura 3.4.
Una vez lleno el bloque anterior, sólo hemos de seleccionarlo y con Cortar y Pegar, llenar
todas las casillas C ... E hasta la fila 63, o bien arrastrar el bloque presionando
simultáneamente el Ctrl (página 130).
Además, para estudiar el modelo, es necesario disponer de las columnas con los valores
tQ2, tQ3 y tQ4, tiempo (t) y tiempo al cuadrado (t^2). Estos valores están en las columnas F,
... J. Para llenar estas columnas, es ya evidente que lo que debemos hacer es definirlas
como
F2 = A2*C2, G2 = A2*D2, H2 = A2*E2, I2 =A2 y H2 = A2*A2.
Después arrastrar hasta la fila 63. En la figura 3.4 se puede ver la estructura que toman
estas columnas, y en la página 130 todos los valores.
Es una exigencia de Excel que todas las columnas de los términos que constituyen el
modelo hayan de ser consecutivas y contiguas.
Fig. 3.4
ˆ = αˆ + αˆt + α ˆ
2 t + β2 Q2 + β3 Q3 + β4 Q4 + β5 Q2 t + β6 Q3 t + β7 Q4 t
Y 2 ˆ ˆ ˆ ˆ ˆ ˆ
0 1
En este momento aparece la pantalla de la figura 3.5, donde debemos rellenar los campos
siguientes
Z Rótulos
Los resultados se pueden ver en la página 133, con el título • Primer paso
Fig. 3.5
̈ Seleccionar con el ratón desde B1 hasta J63, presionar el botón derecho y hacer
Copiar.
̈ Situarse, por ejemplo, en la casilla S1 (fila a partir de la cual todo está vacío) y
desplegar el menú Insertar (figura 3.6).
Fig. 3.6
Fig. 3.7
̈ Ahora eliminar la columna asociada a Q2 (la T en el caso del ejemplo): para ello se
pincha sobre la letra T distintiva de la columna, que quedará enmarcada por una línea
que parpadea; entonces se presiona el botón derecho y se selecciona Eliminar. De
esta manera las columnas siguientes avanzan un lugar y vuelven a estar todas juntas,
es decir, empiezan en la S (valores de Y) y acaban en la Z (valores de t^2)
Los resultados se pueden ver en la página 133 con el título • Segundo paso
• Analizar y comentar los valores de los coeficientes del modelo, su significación y el valor
del coeficiente de determinación (R^2) del ajuste.
̈ Valores estimados
Una vez establecido el modelo tenemos que examinar el ajuste entre los datos y los valores
estimados según el modelo ajustado.
Por eso, en primer lugar cogemos un bloque con los términos y los coeficientes del modelo
definitivamente obtenido y hacemos un Cortar y Pegar en L2; en L1 escribimos Modelo:
resultarán las casillas destacadas en azul en la página 131.
= M$2+M$3*D2+M$4*E2+M$5*F2+M$6*G2+M$7*H2+M$8*I2+M$9*J2
Debemos destacar la exigencia de fijar las celdas que contienen los coeficientes del modelo,
para que al arrastrar la fórmula se mantengan constantes.
Es necesario seleccionar desde B2 hasta B63 y, presionando la tecla Ctrl, desde N2 hasta
̈ Gráfico de residuos
En primer lugar debemos calcular los residuos; para esto es prepara la columna con el
título y se calculan los valores:
3.5 Previsiones
Atendiendo a que, según el correlograma (página 132), se pueden hacer previsiones para
los próximos 5 valores del tiempo, es necesario ampliar las columnas de las variables
categóricas y del tiempo con los 5 valores nuevos, del 63 hasta el 67. Estos valores se han
de incorporar al final de la columna A, es decir desde A64 hasta A68 (página 130).
El primer valor para el que hay que hacer previsiones corresponde a t = 63, que es un
múltiple de 4 (15×4 = 60) más 3. Por tanto, la variable categórica Q3 valdrá 1 y las demás 0.
Situados en C64 podemos copiar el bloque C4 – E8, que es el de las categóricas que se
inicia en una tercera estación. Ahora seleccionaremos con el ratón desde F63 hasta J63 y
arrastraremos hasta llenar la fila 68, que corresponde a la última previsión (página 130).
K1 = Y Prev (título)
=M$2+M$3*D64+M$4*E64+M$5*F64+M$6*G64+M$7*H64+M$8*I64+M$9*J64
Para hacer el gráfico se selecciona desde B2 hasta B68 y, presionando el Ctrl, desde K2
3.6 Resultados
A B C D E F G H I J
1 t Y Q2 Q3 Q4 tQ2 tQ3 tQ4 t t^2
2 1 105,86 0 0 0 0 0 0 1 1
3 2 97,79 1 0 0 2 0 0 2 4
4 3 96,1 0 1 0 0 3 0 3 9
5 4 127,44 0 0 1 0 0 4 4 16
6 5 108,78 0 0 0 0 0 0 5 25
7 6 112,61 1 0 0 6 0 0 6 36
8 7 111,43 0 1 0 0 7 0 7 49
9 8 145,71 0 0 1 0 0 8 8 64
10 9 118,37 0 0 0 0 0 0 9 81
11 10 121,89 1 0 0 10 0 0 10 100
12 11 124,25 0 1 0 0 11 0 11 121
13 12 159,55 0 0 1 0 0 12 12 144
14 13 125,41 0 0 0 0 0 0 13 169
15 14 135,4 1 0 0 14 0 0 14 196
16 15 137,86 0 1 0 0 15 0 15 225
17 16 171,44 0 0 1 0 0 16 16 256
18 17 132,38 0 0 0 0 0 0 17 289
19 18 147,59 1 0 0 18 0 0 18 324
20 19 153,92 0 1 0 0 19 0 19 361
A B C D E F G H I J
50 49 232,76 0 0 0 0 0 0 49 2401
51 50 256,84 1 0 0 50 0 0 50 2500
52 51 271,36 0 1 0 0 51 0 51 2601
53 52 311,42 0 0 1 0 0 52 52 2704
54 53 243,9 0 0 0 0 0 0 53 2809
55 54 268,42 1 0 0 54 0 0 54 2916
56 55 291,25 0 1 0 0 55 0 55 3025
57 56 331,96 0 0 1 0 0 56 56 3136
58 57 255,46 0 0 0 0 0 0 57 3249
59 58 283,53 1 0 0 58 0 0 58 3364
60 59 307,82 0 1 0 0 59 0 59 3481
61 60 354,72 0 0 1 0 0 60 60 3600
62 61 276,58 0 0 0 0 0 0 61 3721
63 62 304,72 1 0 0 62 0 0 62 3844
64 63 0 1 0 0 63 0 63 3969
65 64 0 0 1 0 0 64 64 4096
66 65 0 0 0 0 0 0 65 4225
67 66 1 0 0 66 0 0 66 4356
68 67 0 1 0 0 67 0 67 4489
Hoja: Datos
K L M N O
1 Y Prev Modelo Y est Res
2 Ord. Origen 97,8112 99,856 6,004
3 Q3 -7,7472 102,701 -4,911
4 Q4 20,5667 98,828 -2,728
5 tQ2 0,3863 130,677 -3,237
6 tQ3 0,8484 108,319 0,461
7 tQ4 0,9877 112,823 -0,213
8 t 2,0302 110,913 0,517
9 t^2 0,0143 143,433 2,277
10 117,238 1,132
11 123,402 -1,512
12 123,454 0,796
13 156,645 2,905
14 126,613 -1,203
15 134,437 0,963
16 136,451 1,409
17 170,314 1,126
18 136,445 -4,065
19 145,928 1,662
20 149,905 4,015
K L M N O
50 231,526 1,234
51 254,283 2,557
52 273,960 -2,600
53 313,863 -2,443
54 245,464 -1,564
55 269,881 -1,461
56 291,520 -0,270
57 332,095 -0,135
58 259,859 -4,399
59 285,935 -2,405
60 309,537 -1,717
61 350,782 3,938
62 274,710 1,870
63 302,445 2,275
64 328,010
65 369,926
66 290,018
67 319,412
68 346,939
A B C D E F G H I J K
1 t Y Y-Ybar gamma_0
2 1 105,86 -94,918 4277,898
3 2 97,79 -102,988
4 3 96,1 -104,678
5 4 127,44 -73,338 k gamma_k r_k r_k^2 V(r_k) - 2S(r_k) + 2S(r_k)
6 5 108,78 -91,998 1 3562,405 0,833 0,693 0,016 -0,254 0,254
7 6 112,61 -88,168 2 3408,788 0,797 0,635 0,038 -0,392 0,392
8 7 111,43 -89,348 3 3149,145 0,736 0,542 0,059 -0,486 0,486
9 8 145,71 -55,068 4 3466,645 0,810 0,657 0,076 -0,553 0,553
10 9 118,37 -82,408 5 2791,202 0,652 0,426 0,098 -0,625 0,625
11 10 121,89 -78,888 6 2671,875 0,625 0,390 0,111 -0,667 0,667
12 11 124,25 -76,528 7 2435,804 0,569 0,324 0,124 -0,704 0,704
13 12 159,55 -41,228 8 2711,854 0,634 0,402 0,134 -0,733 0,733
14 13 125,41 -75,368 9 2076,334 0,485 0,236 0,147 -0,768 0,768
15 14 135,4 -65,378 10 1964,898 0,459 0,211 0,155 -0,787 0,787
16 15 137,86 -62,918 11 1745,883 0,408 0,167 0,162 -0,804 0,804
17 16 171,44 -29,338 12 1990,675 0,465 0,217 0,167 -0,818 0,818
18 17 132,38 -68,398 13 1385,336 0,324 0,105 0,174 -0,835 0,835
19 18 147,59 -53,188 14 1281,548 0,300 0,090 0,178 -0,843 0,843
20 19 153,92 -46,858 15 1082,582 0,253 0,064 0,180 -0,850 0,850
21 20 179,39 -21,388 16 1282,895 0,300 0,090 0,182 -0,854 0,854
22 21 141,59 -59,188 17 717,469 0,168 0,028 0,185 -0,861 0,861
23 22 159,6 -41,178 18 636,614 0,149 0,022 0,186 -0,863 0,863
24 23 163,23 -37,548
25 24 205,54 4,762
26 25 161,71 -39,068
27 26 172,24 -28,538
28 27 173,17 -27,608
AUTOCORRELOGRAMA
1,0
0,5
0,0
-0,5
-1,0
Hoja: Correl
̈ Resultados de la regresión
Primer paso
Coef. de determinación
R^2 0,99803327
ANÁLISIS DE VARIANZA
nu S.C. C.M. F p-val
Regresión 8 264708,064 33088,508 3361,908 7,37E-69
Residuos 53 521,636 9,842
Total 61 265229,699
Segundo paso
Coef. de determinación
R^2 0,99799121
ANÁLISIS DE VARIANZA
nu S.C. C.M. F p-val
Regresión 7 264696,908 37813,844 3832,546 2,00E-70
Residuos 54 532,791 9,867
Total 61 265229,699
Serie1
Real Model
Serie2
Y 370
330
290
250
210
170
130
90
0 8 16 24 32 40 48 56 64 t
Residuos
R 10
-5
-10
0 8 16 24 32 40 48 56 64 t
Serie1
Real Serie2
Model Serie3
Prev
Y 410
370
330
290
250
210
170
130
90
0 8 16 24 32 40 48 56 64 72 t
Desde Excel recuperar el archivo que contiene los datos objeto de la práctica, y que se
encuentran en el directorio habitual de la red. Para ello, debemos seguir la secuencia (figura
4.1)
Archivo 6 Abrir
Fig. 4.1
Una vez está abierto el archivo, observamos que consta de una hoja denominada Datos con
2 columnas de 31 valores cada una y la estructura mostrada en la figura 4.2.
La columna A, llamada Tiempo, contiene valores de 1 a 31 y la B, llamada Y, contiene los
valores del índice económico que se está estudiando.
Fig. 4.2
En primer lugar, hay que analizar la evolución de la serie: para ello se selecciona desde B1
Fig. 4.3
Y ahora la opción (2; 1), es decir, Línea con marcadores en cada valor de datos y
Terminar.
Para modelizar una serie con este procedimiento hemos de seleccionar un valor del
parámetro λ y calcular la serie suavizada, la doble suavizada, la ordenada en el origen, la
pendiente, el valor de la serie estimada, el error en cada instante y el error cuadrático medio.
Cambiando el valor de λ se repite el proceso y se selecciona, como parámetro de
modelización, el que minimice el error cuadrático medio.
̈ Selección de λ
En la casilla A40 escribimos el valor inicial de λ, λ = 0,1 para empezar, y etiquetamos las
columnas según el contenido que tenemos destinado. Así:
A B C D E F G H I
1 Tiempo Y S S(2) a^ b^ Y est Error Y prevista
2
casilla Expresión
S1 = Y1 C2 = B2
St = λ Yt + ( 1 - λ) St−1 C3 −$A$40)*C2
= $A$40*B3+(1− arrastrar hasta C32
(2)
S 1 = Y1 D2 = B2
St = λ St + ( 1 - λ) S −$A$40)*D2
(2) (2)
t−1 D3 = $A$40*C3+(1− arrastrar hasta D32
aˆt = 2St − S(2)
t E2 −D2
= 2*C2− arrastrar hasta E32
λ
bˆt = (S − S(2)
t ) −$A$40))*(C2−
−D2)
1− λ F2 = ($A$40/(1− arrastrar hasta F32
ˆ = aˆ − + bˆ−
Y G3 = E2+F2 arrastrar hasta G32
t t 1 t 1
Rt = et = Yt − Y
ˆ
t H3 −G3
= B3− arrastrar hasta H32
Se deben guardar los valores de cada λ y su ECM, a fin de escoger la óptima. En casillas
vacías preparamos una tabla como la que muestra la figura 4.4, donde etiquetamos C40
como Lambda y D40 como E.C.M. A continuación escribimos en C41 el valor 0,1 ( λ
utilizada en los cálculos) y en D41 7,777, valor resultante de ECM según ha salido en la
casilla H34. (Esto lo podemos hacer manualmente o con Cortar y Pegar sólo valores).
Sustituyendo el valor de λ de la casilla A40 por 0,2, automáticamente cambiarán todos los
valores de los cálculos de las columnas C − H. Ahora anotamos 0,2 en C42 y el valor de
H34 (2,679 en este caso) en D42.
Sucesivamente se van cambiando los valores de λ (A40) por 0,3,… 0,9, y anotando junto
con sus ECM, desde C43− −D43 hasta C49− −D49. Con los datos actuales, se detecta que el
óptimo estará entre 0,4 y 0,5; por tanto, ponemos 0,45 en A40 y lo pasamos a C50
juntamente con su ECM (H34), que en este caso es igual a 1,822 y que anotamos en D50.
A B C D E F G H
39
40 0,45 Lambda E.C.M. ECM
8
41 0,1 7,777
42 0,2 2,679
6
43 0,3 1,989
44 0,4 1,836
4
45 0,5 1,833
46 0,6 1,917
47 0,7 2,077 2
48 0,8 2,321
49 0,9 2,669 0
Fig. 4.4
̈ Previsiones
Una vez escogida la λ de trabajo, se puede pasar a calcular los valores previstos para los
próximos tres días, según se ha deducido del correlograma. Por eso prolongamos la
columna A con los tres nuevos valores del tiempo (A33 = 32; A34 =33; A35 = 34).
t + T = a t + bt
#
Y ˆ ˆ T
y arrastrarla hasta I35. Así acabamos de calcular los valores previstos para los próximos tres
días del índice económico estudiado. Todos los resultados se muestran en la página 141.
Para ello se selecciona, presionando la tecla Ctrl, desde B1 hasta B32 (valores de Y), desde
G1 hasta G32 (valores de Y estimada) y desde I1 hasta I35 (valores de Y prevista), y se
XY (Dispersión)
Terminar
Para obtener el gráfico de los errores se procede seleccionando desde H1 hasta H32
(valores de los errores) y exactamente igual que en el gráfico anterior. El resultado es el
gráfico de la página 143.
Conclusiones: Las previsiones siguen muy bien todos los datos, a lo largo del tiempo de
recogida de información. Los errores no muestran ninguna particularidad destacable.
4.4 Resultados
A B C D E F G H I
1 Tiempo Y S S(2) a^ b^ Y est Error Y prevista
2 1 9,51 9,51 9,51 9,51 0,00
3 2 7,71 8,70 9,15 8,25 -0,36 9,51 -1,800
4 3 6,39 7,66 8,48 6,84 -0,67 7,89 -1,500
5 4 6,67 7,21 7,91 6,52 -0,57 6,18 0,494
6 5 9,14 8,08 7,99 8,18 0,08 5,95 3,188
7 6 7,66 7,89 7,94 7,84 -0,04 8,25 -0,593
8 7 7,74 7,82 7,89 7,76 -0,05 7,80 -0,057
9 8 9,36 8,51 8,17 8,86 0,28 7,70 1,657
10 9 10,03 9,20 8,63 9,76 0,46 9,14 0,890
11 10 8,38 8,83 8,72 8,94 0,09 10,22 -1,842
12 11 7,12 8,06 8,42 7,70 -0,30 9,03 -1,906
13 12 9,06 8,51 8,46 8,56 0,04 7,40 1,661
14 13 9,6 9,00 8,70 9,30 0,24 8,60 1,004
15 14 11,44 10,10 9,33 10,86 0,63 9,54 1,901
16 15 10,93 10,47 9,85 11,10 0,51 11,49 -0,562
17 16 13,1 11,65 10,66 12,65 0,81 11,61 1,487
18 17 13,51 12,49 11,48 13,50 0,82 13,46 0,045
19 18 13,93 13,14 12,23 14,05 0,74 14,32 -0,390
20 19 13,54 13,32 12,72 13,92 0,49 14,79 -1,253
21 20 15,65 14,37 13,46 15,27 0,74 14,41 1,240
22 21 15,13 14,71 14,02 15,40 0,56 16,02 -0,887
23 22 17,06 15,77 14,81 16,73 0,79 15,96 1,099
24 23 19,03 17,24 15,90 18,57 1,09 17,51 1,517
25 24 21,38 19,10 17,34 20,86 1,44 19,66 1,717
26 25 22,82 20,77 18,89 22,66 1,55 22,30 0,519
27 26 22,76 21,67 20,14 23,20 1,25 24,21 -1,448
28 27 23,02 22,28 21,10 23,45 0,96 24,45 -1,430
29 28 23,62 22,88 21,90 23,86 0,80 24,41 -0,795
30 29 23,45 23,14 22,46 23,82 0,56 24,66 -1,212
31 30 24,57 23,78 23,05 24,51 0,60 24,37 0,197
32 31 24,17 23,96 23,46 24,45 0,41 25,11 -0,936
33 32 ECM = 1,822 24,86
34 33 25,27
35 34 25,67
36
37
38
39
40 0,45 Lambda E.C.M. ECM
8
41 0,1 7,777
42 0,2 2,679
6
43 0,3 1,989
44 0,4 1,836
4
45 0,5 1,833
46 0,6 1,917
47 0,7 2,077 2
48 0,8 2,321
49 0,9 2,669 0
50 0,45 1,822 0 0,5 1λ
51
Hoja: Datos
Evolución cronológica
Y
30
20
10
0
0 10 20 30 40
Tiempo
Y Y est Y prevista
30
20
10
0
0 10 20 30 40
Tiempo
Errores
4
3
2
1
0
-1
-2
-3
0 10 20 30 40
Tiempo
A B C D E F G H I J K
1 Tiempo Y Y - Ybar gamma_0
2 1 9,51 -4,602 37,975
3 2 7,71 -6,402
4 3 6,39 -7,722
5 4 6,67 -7,442
6 5 9,14 -4,972
7 6 7,66 -6,452
8 7 7,74 -6,372 k gamma_k r_k r_k^2 V(r_k) -2S(r_k) +2S(r_k)
9 8 9,36 -4,752 1 35,107 0,924 0,855 0,032 -0,359 0,359
10 9 10,03 -4,082 2 31,592 0,832 0,692 0,087 -0,591 0,591
11 10 8,38 -5,732 3 28,034 0,738 0,545 0,132 -0,727 0,727
12 11 7,12 -6,992 4 24,355 0,641 0,411 0,167 -0,818 0,818
13 12 9,06 -5,052 5 20,478 0,539 0,291 0,194 -0,880 0,880
14 13 9,6 -4,512 6 16,437 0,433 0,187 0,213 -0,922 0,922
15 14 11,44 -2,672 7 12,353 0,325 0,106 0,225 -0,948 0,948
16 15 10,93 -3,182 8 8,665 0,228 0,052 0,231 -0,962 0,962
17 16 13,1 -1,012 9 5,129 0,135 0,018 0,235 -0,969 0,969
18 17 13,51 -0,602 10 1,730 0,046 0,002 0,236 -0,972 0,972
19 18 13,93 -0,182
20 19 13,54 -0,572
21 20 15,65 1,538
22 21 15,13 1,018
23 22 17,06 2,948
24 23 19,03 4,918
25 24 21,38 7,268
26 25 22,82 8,708
27 26 22,76 8,648
28 27 23,02 8,908
29 28 23,62 9,508
30 29 23,45 9,338
31 30 24,57 10,458
32 31 24,17 10,058
33
Hoja: Correl
Autocorrelograma
1,0
0,5
0,0
-0,5
-1,0
ÍNDICE TEMÁTICO
1. DESCOMPOSICIÓN CLÁSICA
13.5.98................................................................... 1 − 2 − 3 − 4
3.5.99..................................................................... 1 − 2 − 3
23.6.99................................................................... 1 − 2 − 6
12.1.00................................................................... 1 − 2 − 3
17.5.00................................................................... 1 − 2 − 10
13.5.98................................................................... 7 − 8 − 9
3.5.99..................................................................... 4 − 5 − 6
23.6.99................................................................... 3 − 4
12.1.00................................................................... 4 − 5
17.5.00................................................................... 3 − 4 − 5
3. AUTOCORRELACIÓN
13.5.98................................................................... 5 − 10
3.5.99..................................................................... 7
23.6.99................................................................... 7
12.1.00................................................................... 6 − 7
17.5.00................................................................... 6 − 7
4. SUAVIZADO EXPONENCIAL
13.5.98................................................................... 6
3.5.99..................................................................... 8 − 9 − 10
23.6.99................................................................... 5 − 8
12.1.00................................................................... 8 − 9
17.5.00................................................................... 8 − 9
1 EVALUACIONES PROPUESTAS
? 1. El modelo de tendencia ha sido T = 76,23 + 0,54 t − 0,02 t2. Los respectivos niveles de
2
significación de los términos t y t han sido 0,002 y 0,423. El modelo definitivo es
2
76,23+0,54t−0,02t ̊ 76,23+0,54t ̊ Hay que recalcularlo ̊ ….……………. ̊
13.5.98
? 1 Los valores disponibles de una serie temporal son: 11,2; 13,4; 9,9; 11,9; 14,2; 11,0; 13,1; 14,8;
12,2; 14,1; 16,3; .... Se trata de un modelo:
multiplicativo ̊ tendencia rectilínea ̊ estacionalidad de p=2 ̊
aditivo ̊ tendencia parabólica ̊ estacionalidad de p=3 ̊
.......... ̊ ninguna tendencia ̊ estacionalidad de p=4 ̊
................ ̊ ................. ̊
?3 Los primeros datos de una serie multiplicativa p = 4 son: 32; 26; 22; 45; 52; 42; 29; ... El valor
de la media móvil asociada a t = 4 es:
31,25 ̊ 36,25 ̊ 38,25 ̊ 40,25 ̊ .......... ̊
?4 En una serie multiplicativa de p = 4, E1* = 43.4 E*2 = 37.9 E3* = 52.5 E*4 = 66.2 ; ¿cuál es el
valor de E3?
2.5 ̊ 44.6 ̊ 52.5 ̊ 105 ̊ ..........̊
? 5. Sobre 106 valores, la tendencia estimada es 254,9 + 0,25 t ; los índices estacionales son E1 =
35,5; E2 = 72,8; E3 = –60,7 y E4 = –47,6 y el último coeficiente de autocorrelación significativo es ρ3.
El valor más alejado que se puede prever de la serie es:
317,65 ̊ 282,15 ̊ 221,45 ̊ 194,95 ̊ . ........ ̊
? 9. En la serie de la pregunta anterior, el último valor observado ha sido y = 81,5 para t = 49. ¿Qué
valor tiene el residuo?
–13,2 ̊ 0 ̊ 1,2 ̊ 9,4 ̊ ........... ̊
? 10 Con 252 datos se han obtenido los coeficientes de autocorrelación: r1= 0,983; r2= 0,537;
r3= 0,684; r4= 0,322; ... ¿En qué intervalo de valores se puede considerar nulo ρ3?
±0,266 ̊ ±0,236 ̊ ±0,299 ̊ ±0,225 ̊ ........... ̊
3.5.99
???Se dispone de 100 valores de una serie siendo los 6 últimos 53,0; 89,3; 66,6; 29,1; 194,8 y
61,2. Se detecta que tiene una estacionalidad de periodo 5 y que es de tipo multiplicativo.
? 1. El valor de la última media móvil es:
74,02 ̊ 86,56 ̊ 88,2 ̊ 87,38 ̊ ...................... ̊
2
Modelo T=a+bt T=a+bt+ct
Coeficientes a = 65,24 b = 0,79 a = 65,62 b = 0,68 c= 0,0050
−value
p− − 0,0000 − 0,0221 0,6943
2
R 0,893 0,900
??? Una serie de la que tenemos 92 valores se ha modelizado con variables categóricas
obteniéndose Ŷ = 250,83 + 1,27t − 0,006t2 + 5,35Q2 − 8,27Q3 − 10,2Q4 + 15,60Q5
? 4. ¿Cuál es la longitud de la estacionalidad (p)?
3̊ 4̊ 5̊ 6̊ no se sabe ̊ ..............................̊
? 7. En una serie de 100 datos, los coeficientes de autocorrelación calculados son r1 = 0,952 r2 =
0,741 r3 = 0,583 r4 = 0,492. ρ4 será considerado nulo si r4 , en valor absoluto, es menor que
0,2792 ̊ 0,4050 ̊ 0,4285 ̊ 0,5412 ̊ ..............................̊
? 10. Los valores de una serie son 67,38; 56,09; 75,11; 55,90 y 61,25 y los estimados según el
modelo resultante del análisis han sido 56,44; 62,29; 72,13; 59,60; y 65,45.¿Cuál es el valor
del error cuadrático medio (MSE)?
42,931 ̊ 40,697 ̊ 40,374 ̊ 39,667 ̊ ............................... ̊
23.6.99
????? Los primeros valores de una serie, de la que se dispone de 141 observaciones, son: 225;
219; 196; 197; 235; 208; 191; 212; 216; .... Se trata de un modelo aditivo con estacionalidad de
período 4. Por el sistema clásico se ha obtenido como tendencia Tt = 200 + 0,10 t y como índices
estacionales E1 = 0,73; E2 = 0,87 y E3 = –0,4.
2
? 6. En la modelización de una serie multiplicativa de p = 3, se ha obtenido Tt = 50 + 0,2 t + 0,1 t ; E1
= 150; E2 = 50 y para t=3 el residuo ha sido R3 = 0,8. ¿Cuál es el valor de Y3?
72,10 ̊ 61,80 ̊ 55,75 ̊ 46,35 ̊ 52,30 ̊ ............... ̊
50 49
? 7. Con los 50 valores de una serie se ha obtenido ∑ (y
i=1
i − y)2 = 4 ; ∑ (y − y)
i=1
i (yi+1 − y) = 3,6 ;
48 47
∑ (y − y)
i=1
i (yi+ 2 − y) = − 3,2 y ∑ (y − y)
i=1
i (yi+ 3 − y) = −2,8 ¿Qué valor tiene la variancia de r3?
? 8. Los valores de una serie sin estacionalidad y con tendencia rectilínea son 7,3; 7,8; 8,1; 8,5; 8,8;
9,0; .... Con λ = 0,4, ¿cuál es el valor modelizado para t=3?
7,700 ̊ 7,380 ̊ 7,004 ̊ 7,540 ̊ 7,860 ̊ ............... ̊
12.1.00
2
?? Unos datos cronológicos trimestrales han dado lugar a una tendencia T=120+1,4 t−0,2 t y a
una estacionalidad E1 = −10; E2 = −8; E3 = 15 y E4 = 3.
? 1. ¿Qué diferencia existirá entre los valores estimados del primer trimestre del primer año
y el segundo del año siguiente?
−2 ̊ −25 ̊ −13 ̊ −4 ̊ 18 ̊ ……… ̊
?3. En una serie aditiva de p= 7, los pares de valores (t, Yt) son (1; 15), (2; 19), (3; 17),… , (6;25), (7;
28), (8; 32), (9; 35), ... La media móvil para t = 4 es igual a 26. ¿Qué vale la de t = 5?
faltan datos ̊ 28,86 ̊ 28,43 ̊ 29,52 ̊ ……… ̊
?? Un modelo en variables categóricas, con ordenada en el origen igual a 500, ajustado sobre una
serie de período p=3, ha evidenciado que la serie crece 0,5 unidades por unidad de tiempo y que
la segunda estación supera a la primera en 20 unidades, mientras que la tercera está 30 unidades
por debajo de la segunda.
? 5. La previsión para t = 53 es
528 ̊ 529,5 ̊ 546,5 ̊ 548 ̊ 549,5 ̊ … .…… ̊
100 100 97
? 6. En una serie de 100 valores se ha obtenido ∑y
i=1
i = 0; ∑y
i=1
2
i
= 125 y ∑y
i=1
i yi+ 3 = 120 .
? 7. En una serie con 80 datos se ha obtenido r1 = 0,90; r2 = 0,80; r3 = 0,70; r4 = 0,60. ¿Cuál es el
valor absoluto límite de r5 para ser considerado distinto de cero?
0,43 ̊ 0,50 ̊ 0,53 ̊ 0,61 ̊ 0,64 ̊ ……… . ̊
? 8. Los valores de una serie son 16,4; 16,9; 18,1; 18,5; 19,3; 19,8;… en un suavizado exponencial
con λ = 0,6. ¿Cuál es el error de previsión para t = 4?
0,805 ̊ 0,925 ̊ 0,960 ̊ 1,115 ̊ 1,300 ̊ ...…… . ̊
? 9. En la misma serie del apartado anterior y con igual factor de ponderación, ¿cuál sería el valor
estimado para t = 4 ( Ŷ4 ) utilizando el método de Brown?
17,920 ̊ 19,076 ̊ 18,672 ̊ 19,137 ̊ …………… ̊
17.5.00
? 4. Si el último valor disponible es Y106 = 250,27, ¿ qué vale el residuo de este punto?
−9,77 ̊ −30,27 ̊ 5,73 ̊ 2,23 ̊ ........................... ̊
94 100
?? Con 100 datos se ha obtenido ∑
i=1
(yi − y ) (yi+ 6 − y ) = −483,22 y ∑ (y − y)
i=1
i
2
= 793,42
? 8. Se dispone de los valores 23,87; 15,22; 42,75; 54,23 y 50,80. En una ponderación exponencial
simple con λ = 0,8, ¿qué vale el error cuadrático medio?
410,17 ̊ 350,72 ̊ 254,34 ̊ 180,69 ̊ ........................... ̊
? 9. En un suavizado exponencial por Brown, con λ = 0,7, sobre 50 datos, ha resultado Y50 = 55,87;
S50 = 49,32; S(2)
50 = 47,54. ¿Cuál es la previsión para t = 52?
70,25 ̊ 59,41 ̊ 40,23 ̊ 36,44 ̊ ........................... ̊
? 10. En una serie multiplicativa de período p = 3, se ha obtenido E1* = 15,25; E*2 = 30,50 y
E*3 = 45,75. ¿Cuál es el valor del primer índice estacional?
25 ̊ 50 ̊ 100 ̊ 150 ̊ 200 ̊ ............̊
2 EVALUACIONES RESUELTAS
Puesto que Σ di = 5 es un valor entero, coincidente con el número de valores propios, necesa-
riamente se trabaja con variables estandarizadas y se ha diagonalizado la matriz de correla-
ciones. Entonces,
© L o s a u t o r e s , 2 0 0 1 ; © E d i c i
p124 Estadística industrial
17.3.99
En una tabla de correspondencias la 3ª columna es 13; 23; 17 y 20, y los totales de les colum-
nas son 100; 97; 73; 133 y 152.
n• j
∑ ni j
i=1
f• j = = p
n
∑ n• j
i=1
n• 2 97
f• 2 = = = 0,175
∑ n• j 555
n• 3 73
f• 3 = = = 0,132
n 555
Dado que Σ di = 5, un valor entero coincidente con el nombre de valores propios, necesaria-
mente se trabaja con variables estandardizadas y se ha diagonalizado la matriz de correlacio-
nes. Entonces
La proporción acumulada que representan los valores propios (variancias de los componentes
principales) con relación al total es: 2,78/5 = 0,556 (2,78 + 2)/5 = 0,956 etc. Entonces los
dos primeros ya son suficientes ya que explican el 95,6% del total.
l 8. Al estudiar los componentes principales ha resultado tg1 = {0,48 0,32 0,47 0,48 0,46},
p
g2= {0,40 0,21 0,8 –0,28 0,26} y Q = diag{4 9 6,25 7,75 8}. ¿Qué vale ∑ di ?
t
i=1
∑
i=1
di = 35
19.4.99
En una tabla de correspondencias les 3ª y 4ª filas son {47; 65; 78; 35} y {82; 42; 76; 23};
Además, las masas de las filas son {0,134; 0,268; 0,225; 0,223; 0,150}
l 1. ¿Cuál es la suma total, n?
225 ¨ 223 ¨ 777 ¨ 1000 n ............................................... ¨
n3 • 225
Resulta n = = = 1000
f3 • 0,225
Al estudiar los componentes principales ha resultado tg1 = {0,47 0,32 0,48 0,46 0,48}, tg2 =
{0,40 –0,28 0,8 0,21 0,26} y Q = diag{4 9 6,25 7,75 3,8}
l 4. Si los dos primeros componentes expliquen un 95% de la variabilidad total, ¿qué vale d1+d2?
27 ¨ 32 ¨ 64 ¨ 25,65 n ...................................................... ¨
p p
d1 + d2
Dado que ∑
i=1
di = ∑
i=1
si2 = 27 y que
∑ di
= 0,95 resulta
i
l 5. Si la primera fila de la matriz RXY es (0,942 0,265 0,202 –0,011 0,004), ¿qué porcentaje
de la variabilidad de X1 es explicado por los tres primeros componentes?.
1¨ 0,5236 ¨ 0,9984 n 0,9763 ¨ ....................................... ¨
3
La explicación es ∑ ri2j = 0,9422 + 0,2652 + 0,2022 = 0,9984
j=1
© L o s a u t o r e s ,
Evaluaciones p127
5.11.99
p
l 1. Habiendo diagonalizado la matriz de variancias-covariancias, ¿qué vale ∑ri22 ?
i=1
Si máx |ρ| = 0,307, las correlaciones entre las variables son muy reducidas, la información
redundante es prácticamente nula y se requeriría un número muy elevado de componentes
para explicar razonablemente la variabilidad total. Por todo ello los componentes principales
son inútiles.
1 1 1 1
1 −1 −1 1
Si D = diag(3,24 0,7 0,045 0,015) y G = 0,5
−1 −1 1 1
−1 1 −1 1
Teniendo en cuenta que la matriz D, de valores propios, así como la matriz G, de vectores
propios, son de orden 4×4, se trata de un análisis de p=4 variables y como la suma de los va-
lores di es cuatro, se ha diagonalizado la matriz de correlaciones y
Dado que las matrices D y G son de orden 4×4, sólo hay cuatro variables y, por tanto, el nú-
mero de Componentes Principales es, también, 4 y no existe Y5.
20.3.00
l 1. Una fila de una tabla de correspondencias es {13 26 39 22}, ¿cuál es el tercer elemento
de su perfil?
Falta n ¨ 0,39 n 39 ¨ 1¨ ……………...............................………… ¨
El tercer elemento de su perfil es
fi3 n ni3 39
= i3 = = = 0,39
fi• ni• ∑ j nij 13 + 26 + 39 + 22
l 2. Si el perfil de la 3ª fila es {0,31 0,60 0,74 0,26} y n3• = 500, ¿qué vale el tercer elemento
de esa fila?
Hay un error n 370 ¨ 0,025 ¨ 0,01 ¨ .................…………..….....……. ¨
Hay un error ya que si fuese un perfil la suma de sus elementos sería 1 y aquí, obviamente, no
se cumple este requisito.
l 3. Si hay 14 puntos fila y 23 puntos columna, ¿cuántos valores propios nulos hay en total?
1¨ 0¨ 10 n 13 ¨ ……………........................…………….….... ¨
Los valores propios no triviales (distintos de cero) son mín(p–1, q–1) = 13, por lo que los nulos
son
máx(p; q) – mín(p–1; q–1) = 23 – 13 = 10.
l 4. Si n13 = 24, n1• = 100, n•3 = 90 y n = 900, ¿qué vale el elemento correspondiente de la ma-
triz Z para el estudio de las distancias de χ2 entre las columnas?
0,99 ¨ 0,95 ¨ 0,05 ¨ 0,8 n ………….......………….....….……… ¨
El elemento de la matriz Z será
l 6. Con Q = diag(2 4 1600 725), D = diag(3,5 0,4 0,07 0,03), si r12 = 0,87, ¿cuál es la parte
de V(X1) explicada por el segundo componente?
Falta g12 ¨ 0,87 ¨ 0,4 ¨ 0,7569 n …………….....…….….………… ¨
La matriz Q muestra que las variancias Si2 son harto heterogéneas, por lo que se ha estandar-
dizado (Opción B), circunstancia corroborada por el hecho de que traza D = p = 4, y la parte
de V(X1) = 1 explicada por el segundo componente principal coincide con la proporción, es
decir
r122 = 0,872 = 0,7569.
l 9. U32 = 24, U23 = 32, U = t(9 12 16 8 14) y Q = diag(12 14 16 8 13), ¿qué vale X32?
4¨ 6¨ 12 n 16 ¨ …………….............…………..……....…...… ¨
Teniendo en cuenta que, como muestra la matriz Q, las variancias son del mismo orden de
magnitud, sólo se requiere centrar y
X32 = U32 – U2 = 24 – 12 = 12
nulos.