Download as pdf or txt
Download as pdf or txt
You are on page 1of 66

Estadística I

Tema 3: Medidas de Síntesis

3.1. Medidas de posición central y de localización.


3.2. Medidas de dispersión absolutas y relativas.
3.3. Medias de forma: Asimetría y Curtosis.
3.4. Diagrama de cajas (BoxPlot) y Análisis de casos atípicos.
3.5. Transformaciones lineales: Estandarización

Carmen Muñoz Vaquer y Fco Javier Sierra Martínez


3. Medidas de Síntesis:

Una vez ordenados los datos en una distribución de frecuencias se definen una serie de medidas de
síntesis que permiten resumir esta información, éstas se pueden agrupar en medidas de posición
(de tendencia central y de localización), de dispersión y de forma.

 3.1. Medidas de posición:

Las medidas de posición pueden ser:

a. Posición central.
b. Posición no central o de localización.

3.1.1. Las medidas de posición central

Una medida de posición central es un valor de la distribución (un valor de la variable) que representa al conjunto de
observaciones de la distribución. Representa la parte central de la distribución, entorno a esta medida se distribuyen el resto
de valores. Las medidas de posición o tendencia central habituales son:

a. La media.
b. La mediana.
c. La moda.

Estas medidas se calculan para variables cuantitativas. Para las variables cualitativas solamente se puede calcular la moda.
a. La Media ( 𝑿 ): Es la medida de posición central más utilizada para datos cuantitativos. Para su cálculo debemos diferenciar
dos situaciones:

a. Cuando los valores de la variable se presentan de forma individual.


b. La variable se presenta en una distribución de frecuencias.

a. Cálculo de la media para valores individuales: Se define como el cociente entre la suma de los valores de la variable
observados en los elementos de la muestra y el tamaño de ésta.
𝑛
1 1
𝑋= 𝑋𝑖 = (𝑋 + 𝑋2 + ⋯ + 𝑋𝑛 )
𝑛 𝑛 1
𝑖=1

Ejemplo 1: El número de tv inteligentes vendidos por una conocida cadena de aparatos electrónicos en los últimos 10 días
han sido: 10,12,15,8,7,11,17,10,13,20.
𝑛
1 1 1 123
𝑋= 𝑋𝑖 = (𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 ) = 10 + 12 + 15 + 8 + 7 + 11 + 17 + 10 + 13 + 20 = = 12,3 𝑢𝑛𝑖𝑑𝑎𝑑𝑒𝑠
𝑛 𝑛 10 10
𝑖=1

Interpretación: Por término medio (en promedio) cada día se han vendido 12,3 tv inteligentes.

Importante: La media aritmética se expresa en las mismas unidades que la variable original.
Ejemplo 2: La siguiente variable recoge retraso (en minutos) de 8 trenes de cercanías: 5,10,8,7,15,6,5,12. Vamos a calcular
el retraso medio de los ocho trenes:

𝑛
1 1 1 68
𝑋= 𝑋𝑖 = (𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 ) = 5 + 10 + 8 + 7 + 15 + 6 + 5 + 12 = = 8,5 𝑚𝑖𝑛𝑢𝑡𝑜𝑠
𝑛 𝑛 8 8
𝑖=1

b. Cálculo de la media cuando la variable se presenta en una distribución de frecuencias: Si los valores de la variable
vienen recogidos en una tabla de frecuencias debemos de ponderar cada valor de la variable por su frecuencia absoluta o
relativa. La media se calcula mediante:
𝑘
1 1
𝑋= 𝑋𝑖 𝑛𝑖 = (𝑋 𝑛 + 𝑋2 𝑛2 + ⋯ + 𝑋𝑘 𝑛𝑘 )
𝑛 𝑛 1 1
𝑖=1
o
𝑘

𝑋= 𝑋𝑖 𝑓𝑖 = 𝑋1 𝑓1 + 𝑋2 𝑓2 + ⋯ + 𝑋𝑘 𝑓𝑘
𝑖=1

Importante: Si la variable es continua y tenemos una tabla de frecuencias por intervalos, los
valores Xi de la variable serán las correspondientes marcas de clase.
Ejemplo 1: “X=Nº de automóviles vendidos” en 55 concesionarios.

X ni fi 𝑘
1 1 1 1
1 1 0,0182 𝑋= 𝑋𝑖 𝑛𝑖 = (𝑋1 𝑛1 + 𝑋2 𝑛2 + ⋯ + 𝑋𝑘 𝑛𝑘 ) = 1 · 1 + 2 · 2 + 3 · 18 + 4 · 17 + 5 · 11 + 6 · 5 + 7 · 1 = 219 = 3,98
𝑛 𝑛 55 55
2 2 0,0364 𝑖=1
𝑜
3 18 0,3273 𝑘
4 17 0,3091 𝑋= 𝑋𝑖 𝑓𝑖 = 𝑋1 𝑓1 + 𝑋2 𝑓2 + ⋯ + 𝑋𝑘 𝑓𝑘 = 1 · 0,0182 + 2 · 0,0364 + 3·0,3273+4·0,3091 + 5 · 0,2 + 6 · 0,0909 + 7 · 0,0182 = 3,98
5 11 0,2 𝑖=1
6 5 0,0909
7 1 0,0182
55 1

También podríamos obtener la media introduciendo en la tabla de frecuencias las columnas necesarias para su cálculo.

X ni fi xini xifi
𝑘
1 1 0,0182 1 0,018 1 1
2 2 0,0364 4 0,073 𝑋= 𝑋𝑖 𝑛𝑖 = 219 = 3,98
𝑛 55
3 18 0,3273 54 0,982 𝑖=1
4 17 0,3091 68 1,236 𝑜
𝑘
5 11 0,2 55 1,000
6 5 0,0909 30 0,545 𝑋= 𝑋𝑖 𝑓𝑖 = 3,98
7 𝑖=1
1 0,0182 7 0,127
Sumas (𝞢 ) 55 1 219 3,98
Ejemplo 2: Se ha observado la variable “X=Días que se ha ido al cine en el último año” en 100 jóvenes entre 18 y 25 años.
Vamos a calcular el número de días que por témino medio han ido al cine estos 100 jóvenes.

X ni fi
1 2 0,02 𝑘
2 3 0,03 1 1 1 1
𝑋= 𝑋𝑖 𝑛𝑖 = (𝑋1 𝑛1 + 𝑋2 𝑛2 + ⋯ + 𝑋𝑘 𝑛𝑘 ) = 1 · 2 + 2 · 3 + 3 · 8 + 4 · 17 + 5 · 36 + 6 · 24 + 7 · 10 = 494 = 4,94
3 8 0,08 𝑛 𝑛 100 100
𝑖=1
4 17 0,17 𝑜
𝑘
5 36 0,36
𝑋= 𝑋𝑖 𝑓𝑖 = 𝑋1 𝑓1 + 𝑋2 𝑓2 + ⋯ + 𝑋𝑘 𝑓𝑘 = 1 · 0,02 + 2 · 0,03 + 3·0,08+4·0,17 + 5 · 0,36 + 6 · 0,24 + 7 · 0,1 = 4,94
6 24 0,24
𝑖=1
7 10 0,1
100 1

X ni fi xini xifi
1 2 0,02 2 0,020 𝑘
2 3 0,03 6 0,060 1 1
𝑋= 𝑋𝑖 𝑛𝑖 = 494 = 4,94
3 8 0,08 24 0,240 𝑛 100
4 17 0,17 68 0,680 𝑖=1
5 36 0,36
𝑜
180 1,800 𝑘
6 24 0,24 144 1,440
7 10 0,1 70 0,700 𝑋= 𝑋𝑖 𝑓𝑖 = 4,94
100 1 494 4,94 𝑖=1
Ejemplo 3: Sea la variable “X: retraso en minutos” de 200 vuelos. Vamos a calcular el retraso medio de estos 200 vuelos.

Intervalos xi ni fi 𝑘
1 1 1
(0,10] 5 27 0,135 𝑋= 𝑋𝑖 𝑛𝑖 = (𝑋1 𝑛1 + 𝑋2 𝑛2 + ⋯ + 𝑋𝑘 𝑛𝑘 ) = (5 · 27 + 15 · 31 + 25 · 43 + 35 · 37 + 45 · +55 · 29 =
𝑛 𝑛 200
(10,20] 15 31 0,155 𝑖=1
(20,30] 25 43 0,215 1
= 6050 = 30,25
(30,40] 35 37 0,185 200
𝑘
(40,50] 45 33 0,165
𝑋= 𝑋𝑖 𝑓𝑖 = 𝑋1 𝑓1 + 𝑋2 𝑓2 + ⋯ + 𝑋𝑘 𝑓𝑘 = 5 · 0,135 + 15 · 0,155 + 25·0,215+35·0,185 + 45 · 0,165 +
(50,60] 55 29 0,145
𝑖=1
200 1 + 55 · 0,145=30,25

Intervalos xi ni fi xini xifi 𝑘


(0,10] 5 27 0,135 135 0,675 1 1
(10,20] 15 31 0,155 465 2,325 𝑋= 𝑋𝑖 𝑛𝑖 = 6050 = 30,25
𝑛 200
(20,30] 25 43 0,215 1075 5,375 𝑖=1
(30,40] 35 37 0,185 1295 6,475 𝑜
𝑘
(40,50] 45 33 0,165 1485 7,425
(50,60] 55 29 0,145 1595 7,975 𝑋= 𝑋𝑖 𝑓𝑖 = 30,25
200 1 6050 30,25 𝑖=1
Ejemplo 4: La siguiente tabla recoge la variable “X: Saldo en Cuenta Corriente” de 270 jóvenes. Vamos a calcular el saldo medio.

Intervalos xi ni fi 𝑘
1 1 1
(50,70] 60 40 0,1481 𝑋= 𝑋𝑖 𝑛𝑖 = (𝑋1 𝑛1 + 𝑋2 𝑛2 + ⋯ + 𝑋𝑘 𝑛𝑘 ) = (60 · 40 + 80 · 48 + 100 · 53 + 120 · 68 + 140 · 38 +
𝑛 𝑛 270
𝑖=1
(70,90] 80 48 0,1778 1
(90,110] 100 53 0,1963 +160 · 12 + 180 · 11) = 28920 = 107,10
270
(110,130] 120 68 0,2519 𝑘

(130,150] 140 38 0,1407 𝑋= 𝑋𝑖 𝑓𝑖 = 𝑋1 𝑓1 + 𝑋2 𝑓2 + ⋯ + 𝑋𝑘 𝑓𝑘 = 60 · 0,1481 + 80 · 0,1778 + 100·0,1963+120·0,2519 + 140 · 0,1407 +


𝑖=1
(150,170] 160 12 0,0444 +160 · 0,0444+180·0,0407=107,10
(170,190] 180 11 0,0407
270 1

Intervalos xi ni fi xini xifi


(50,70] 60 40 0,1481 2400 8,886 𝑘
(70,90] 80 48 0,1778 3840 14,224 1 1
𝑋= 𝑋𝑖 𝑛𝑖 = 28920 = 107,10
(90,110] 100 53 0,1963 5300 19,630 𝑛 270
𝑖=1
(110,130] 120 68 0,2519 8160 30,228 𝑜
(130,150] 140 38 0,1407 5320 19,698 𝑘
(150,170] 160 12 0,0444 1920 7,104 𝑋= 𝑋𝑖 𝑓𝑖 = 107,10
(170,190] 180 11 0,0407 1980 7,326
𝑖=1
270 1 28920 107,10
b. La Mediana ( Me ): La mediana es una medida (estadístico) de posición central que divide a la distribución en dos partes
iguales, es decir, es un valor de la variable que deja el 50% de las observaciones por debajo de él y el otro 50% de las
observaciones por encima:

𝑋1 , 𝑋2 , 𝑋3 , … , 𝑋𝑚−1 , 𝑋𝑚 , 𝑋𝑚+1 , 𝑋𝑚+2 , 𝑋𝑚+3 , … , 𝑋𝑛

50% 50%
Valor mediana

Para el cálculo de la medina debemos de tener presente si:

a. Cuando los valores de la variable se presentan de forma individual.


b. La variable se presenta en una distribución de frecuencias.
c. La distribución se presenta en un diagrama de tallo y hojas (Stem and leaf)

a1. Cálculo de la mediana para valores individuales y n impar: Para obtener la mediana debemos de ordenar las
observaciones de forma creciente y posteriormente buscar la posición que ocupa la mediana mediante la siguiente
expresión:

𝑛+1
𝑃𝑜𝑠𝑖𝑐𝑖ó𝑛 𝑚𝑒𝑑𝑖𝑎𝑛𝑎 = siendo n el tamaño de la muestra.
2

La mediana será el valor de la distribución que ocupe la posición hallada.


Ejemplo 1: El número de tv inteligentes vendidos por una conocida cadena de aparatos electrónicos en los últimos 11 días han
sido: 10,12,15,8,7,11,17,10,13,20,14. El cálculo de la mediana es el siguiente:

a. Ordenamos los datos de forma creciente: 7,8,10,10,11,12,13,14,15,17,20


b. Obtenemos la posición de la mediana mediante la expresión:
𝑛 + 1 11 + 1
𝑃𝑜𝑠𝑖𝑐𝑖ó𝑛 𝑚𝑒𝑑𝑖𝑎𝑛𝑎 = = =6
2 2
c. Buscamos la observación que ocupa la posición número 6
Posición= 1 2 3 4 5 6 7 8 9 10 11
Observaciones=7 , 8 , 10 , 10 , 11 , 12 , 13 , 14 , 15 , 17 , 20

Valor de la mediana=12

Ejemplo 2: La siguiente variable recoge retraso (en minutos) de 9 trenes de cercanías: 5,10,8,7,15,6,5,12,9. Vamos a calcular
el retraso mediano de los nueve trenes:
a. Ordenamos los datos de forma creciente: 5,5,6,7,8,9,10,12,15
b. Obtenemos la posición de la mediana mediante la expresión:
𝑛+1 9+1
𝑃𝑜𝑠𝑖𝑐𝑖ó𝑛 𝑚𝑒𝑑𝑖𝑎𝑛𝑎 = = =5
c. Buscamos la observación que ocupa la posición número 6 2 2
Posición= 1 2 3 4 5 6 7 8 9
Observaciones= 5 , 5 , 6 , 7 , 8 , 9 , 10 , 12 , 15

Valor de la mediana
a2. Cálculo de la mediana para valores individuales y n par: Para obtener la mediana debemos de ordenar las observaciones de forma
creciente y posteriormente buscar la posición que ocupa la mediana. Si el número de observaciones es par, la mediana se calcula como el
promedio de los valores de la variable correspondiente a los dos elementos centrales.
Ejemplo 3: El número de tv inteligentes vendidos por una conocida cadena de aparatos electrónicos en los últimos 10 días han sido:
10,12,15,8,7,11,17,10,13,20. El cálculo de la mediana es el siguiente:
a. Ordenamos los datos de forma creciente: 7,8,10,10,11,12,13,15,17,20
b. Obtenemos la posición de la mediana mediante la expresión:
10 + 1 11
𝑃𝑜𝑠𝑖𝑐𝑖ó𝑛 𝑚𝑒𝑑𝑖𝑎𝑛𝑎 = = = 5,5
2 2
c. Buscamos la observación que ocupa la posición número 6
Posición= 1 2 3 4 5 5,5 6 7 8 9 10
Observaciones=7 , 8 , 10 , 10 , 11 , 12 , 13 , 15 , 17 , 20

11+12
Mediana= = 11,5
2
Ejemplo 4: La siguiente variable recoge retraso (en minutos) de 8 trenes de cercanías: 5,10,8,7,15,6,5,12. Vamos a calcular el retraso mediano
de los ocho trenes:
a. Ordenamos los datos de forma creciente: 5,5,6,7,8,10,12,15
b. Obtenemos la posición de la mediana mediante la expresión:
𝑛+1 8+1
𝑃𝑜𝑠𝑖𝑐𝑖ó𝑛 𝑚𝑒𝑑𝑖𝑎𝑛𝑎 = = = 4,5
2 2
c. Buscamos la observación que ocupa la posición número 6
Posición= 1 2 3 4 4,5 5 6 7 8
Observaciones= 5 , 5 , 6 , 7 , 8 , 10 , 12 , 15
7+8
Mediana= = 7,5
2
b1. La variable se presenta en una distribución de frecuencias simple: La mediana es el valor de la distribución al que
corresponde la primera frecuencia absoluta acumulada mayor o igual que n/2.
Ejemplo 1: “X=Nº de automóviles vendidos” en 55 concesionarios.

X ni fi Ni Fi
1 1 0,0182 1 0,0182
𝑛 55
2 2 0,0364 3 0,0545 Para obtener la mediana calculamos en primer lugar 2 = 2 =
3 18 0,3273 21 0,3818
4
27,5. Buscamos cuál es la primera frecuencia absoluta acumulada igual
17 0,3091 38 0,6909
5 11 0,2 49 0,8909 o mayor a 27,5. La frecuencia acumulada que cumple tal criterio es 38,
6 5 0,0909 54 0,9818 que corresponde al valor 4 de la distribución. Por tanto, 4 es la mediana.
7 1 0,0182 55 1
55 1

Ejemplo 2: Se ha observado la variable “X=Días que se ha ido al cine en el último año” en 100 jóvenes entre 18 y 25 años.

X ni fi Ni Fi
1 2 0.02 2 0.02 𝑛 100
2 3 0.03 5 0.05 Para obtener la mediana calculamos en primer lugar = =
2 2
3 8 0.08 13 0.13 50. Buscamos cuál es la primera frecuencia absoluta acumulada igual o
4 17 0.17 30 0.3 mayor a 50. La frecuencia acumulada que cumple tal criterio es 66, que
5 36 0.36 66 0.66 corresponde al valor 5 de la distribución. Por tanto, 5 es la mediana.
6 24 0.24 90 0.9
7 10 0.10 100 1
100 1.00
b2. La variable se presenta en una distribución de frecuencias por intervalo: Cuando los valores de la variable se agrupan
en intervalos, el intervalo que contiene a la mediana es el primero que presenta una frecuencia absoluta acumulada igual o
superior a n/2 . Una vez localizado el intervalo mediano, el valor de la mediana se aproxima mediante la siguiente fórmula
basada en el supuesto de que la frecuencia correspondiente a cada intervalo se distribuye uniformemente dentro de éste.
0,5𝑛 − 𝑁𝑖−1
𝑀𝑒 = 𝐿𝑖−1 + 𝑎𝑖
Donde: 𝑛𝑖
Li-1 = El límite inferior del intervalo que contiene a la mediana.
n = Tamaño de la muestra.
Ni-1 = Frecuencia absoluta acumulada del intervalo anterior al que contiene a la
mediana.
ni = Frecuencia absoluta del intervalo mediano.
ai = Amplitud del intervalo mediano.
Ejemplo 3: Sea la variable “X: retraso en minutos” de 200 vuelos. Vamos a calcular el retraso mediano de
estos 200 vuelos.

Intervalos xi ni fi Ni Fi di Para obtener la mediana primero obtenemos el intervalo donde se


𝑛 200
(0,10] 5 27 0,135 27 0,135 0,0135 ubica la mediana (intervalo mediano) haciendo 2 = 2 = 100. El
(10,20] 15 31 0,155 58 0,29 0,0155
intervalo mediano es el intervalo que iguale o supere 100 casos
(20,30] 25 43 0,215 101 0,505 0,0215
(30,40] 35 37 0,185 138 0,69 0,0185 acumulados, es decir, (20-30]. Aplicamos la fórmula anterior:
(40,50] 45 33 0,165 171 0,855 0,0165
(50,60] 55 29 0,145 200 1 0,0145 0,5𝑛 − 𝑁𝑖−1 0,5 200 − 58
𝑀𝑒 = 𝐿𝑖−1 + 𝑎𝑖 = 20 + 10 = 29,77
200 1 0,1 𝑛𝑖 43
Ejemplo 4: “X: Saldo en Cuenta Corriente en €” de 270 jóvenes. Calculamos el saldo mediano

Intervalos x n f N F d Para obtener la mediana primero obtenemos el intervalo donde se


(50,70] 60 40 0,1481 40 0,1481 0,0074 𝑛 270
(70,90] 80 48 0,1778 88 0,3259 0,0089 ubica la mediana (intervalo mediano) haciendo 2 = 2 = 135. El
(90,110] 100 53 0,1963 141 0,5222 0,0098 intervalo mediano es el intervalo que iguale o supere 135 casos
(110,130] 120 68 0,2519 209 0,7741 0,0126 acumulados, es decir, (90-110]. Aplicamos la fórmula anterior:
(130,150] 140 38 0,1407 247 0,9148 0,007
(150,170] 160 12 0,0444 259 0,9593 0,0022
0,5𝑛 − 𝑁𝑖−1 0,5 270 − 88
(170,190] 180 11 0,0407 270 1 0,002 𝑀𝑒 = 𝐿𝑖−1 + 𝑎𝑖 = 90 + 20 = 107,73
270 1 0,05 𝑛𝑖 53
c. La distribución se presenta en un diagrama de tallo y hojas (Stem and leaf): Con la ordenación de los elementos de la muestra
proporcionada por el diagrama Stem and leaf, la mediana es el valor de la variable correspondiente a la posición que deja tantas
𝑛+1
observaciones por debajo como por encima. Si el número de observaciones es n la posición central es 2 y la mediana es el
valor que ocupa dicha posición. Si el número de observaciones es par, la mediana se calcula como el promedio de los valores de
la variable correspondiente a los dos elementos centrales.
Ejemplo 1: X= Retraso en minutos de 200 vuelos:
Para obtener la mediana primero buscamos la posición que
1 | 2: represents 12 𝑛+1 200+1
ocupará, es decir, 2 = 2 = 100,5. Buscamos dónde se
leaf unit: 1
n: 200 acumula 100,5 o más de frecuencia y obtenemos que
10 0* | 1112233444 corresponde a dos valores idénticos, 0 y 0 (por se n par). La
26 0. | 5667777778888899 mediana será:
36 1* | 0112333444
54 1. | 555666666777888999 0+0
75 2* | 000011111222233333334 𝑀𝑒 = =0
2
95 2. | 55555556777777888889
(23) 3* | 00000011222222223334444 Es decir, la mediana será igual a 30 minutos.
82 3. | 55556666677788899999
62 4* | 11122223333344444
45 4. | 555556667777799 Observar que en un Steam-Leaf la mediana siempre se ubicará en
30 5* | 011222233344444444 la fila que la frecuencia absoluta sale en paréntesis, en este caso
12 5. | 5566667789 (23).
2 6* | 00
Ejemplo 2: El siguiente gráfico recoge la variable“ X: Ingresos de 100 trabajadores”.
1 | 2: represents 1200
leaf unit: 100 Para obtener la mediana primero buscamos la posición que
𝑛+1 100+1
n: 100 ocupará, es decir, 2 = 2 = 50,5. Buscamos dónde se
4 f | 4555 acumula 50,5 o más de frecuencia y obtenemos que corresponde
12 s | 66666677 a dos valores idénticos, 7 y 7 (por se n par). La mediana será:
20 0. | 88888999
31 1* | 00000001111 7+7
40 t | 222333333 𝑀𝑒 = =7
2
46 f | 445555
(9) s | 667777777
Es decir, la mediana será igual a 1700.
45 1. | 8899999
38 2* | 00001111111
Observar que en un Steam-Leaf la mediana siempre se ubicará en
27 t | 222233
21 f | 44444445555
la fila que la frecuencia absoluta sale en paréntesis, en este caso
10 s | 6666677 (9).
HI: 4000 5000 6000
Ejemplo 3. El precio del metro cuadrado (en €) de suelo urbano en las 49 provincias españolas en 2015 fue:

Para obtener la mediana primero buscamos la posición que ocupará, es


𝑛+1 49+1
decir, 2 = 2 = 25. Buscamos dónde se acumula 25 o más de
frecuencia y obtenemos que corresponde al valor 2 (n impar).

Es decir, la mediana será igual a 110.

Observar que en un Steam-Leaf la mediana siempre se ubicará en la fila


que la frecuencia absoluta sale en paréntesis, en este caso (6)
La moda
La moda es el valor de la variable que más veces se repite en la muestra. Para localizar la moda se busca la frecuencia
(absoluta o relativa) máxima, el valor de la variable correspondiente a dicha frecuencia es la moda.

Si los valores de la variable se agrupan en intervalos, el intervalo modal es aquel al que le corresponde la frecuencia máxima.
En tal caso puede tomarse la marca de clase del intervalo modal como valor aproximado de la moda.
Ejemplo 1: El número de tv inteligentes vendidos por una conocida cadena de aparatos electrónicos en los últimos 11
días han sido: 10,12,15,8,7,11,17,10,13,20,14. La moda es igual a 10 ya que es el valor que más se repite (2 veces):
Mo=10.
Ejemplo 2: La siguiente variable recoge retraso (en minutos) de 8 trenes de cercanías: 5,10,8,7,15,6,5,12. Vamos a calcular el
retraso modal de los ocho trenes: La moda es igual a 5 ya que es el valor de la variable que más se repite (2 veces): Mo=5
Ejemplo 3: “X=Nº de automóviles vendidos” en 55 concesionarios. Calculmos la moda (valor modal).
X ni fi Ni Fi
1 1 0,0182 1 0,0182
2 2 0,0364 3 0,0545
3 18 0,3273 21 0,3818
La moda es igual a 3 ya que es el valor que la variable que tiene
4 17 0,3091 38 0,6909 una frecuencia absoluta más elevada, 18, es decir, el valor 3 se
5 11 0,2 49 0,8909 repite 18 veces. También lo podemos observar mediante la
6 5 0,0909 54 0,9818 frecuencia relativa.
7 1 0,0182 55 1
55 1
Ejemplo 4: Se ha observado la variable “X=Días que se ha ido al cine en el último año” en 100 jóvenes entre 18 y 25 años.
El valor de la moda es igual a:
X ni fi Ni Fi
1 2 0.02 2 0.02
2 3 0.03 5 0.05 La moda es igual a 5 ya que es el valor que la variable que tiene
3 8 0.08 13 0.13 una frecuencia absoluta más elevada, 36, es decir, el valor 5 se
4 17 0.17 30 0.3
repite 36 veces. También lo podemos observar mediante la
5 36 0.36 66 0.66
6 24 0.24 90 0.9
frecuencia relativa.
7 10 0.10 100 1
100 1.00

Ejemplo 5: Sea la variable “X: retraso en minutos” de 200 vuelos. Vamos a obtener el intervalo modal.

Intervalos xi ni fi Ni Fi
(0,10] 5 27 0,135 27 0,135
El intervalo modal es el intervalo que más se repite, en
(10,20] 15 31 0,155 58 0,29
este caso es el intervalo (20,30], con una frecuencia
(20,30] 25 43 0,215 101 0,505
absoluta de 43 y una frecuencia relativa de 0,215. Por
(30,40] 35 37 0,185 138 0,69 tanto, el retraso más frecuente está en este intervalo. Un
(40,50] 45 33 0,165 171 0,855 aproximación sería coger el valor de la marca de clase
(50,60] 55 29 0,145 200 1 como valor modal, es decir, 25 minutos.
200 1
Ejemplo 6: “X: Saldo en Cuenta Corriente en €” de 270 jóvenes. Calculamos el intervalo modal del saldo

Intervalos x n f N F d
(50,70] 60 40 0,1481 40 0,1481 0,0074
(70,90] 80 48 0,1778 88 0,3259 0,0089
El intervalo modal es el intervalo que más se repite, en
(90,110] 100 53 0,1963 141 0,5222 0,0098 este caso es el intervalo (110,130], con una frecuencia
(110,130] 120 68 0,2519 209 0,7741 0,0126 absoluta de 68 y una frecuencia relativa de 0,2519. Por
(130,150] 140 38 0,1407 247 0,9148 0,007 tanto, el saldo más frecuente está en este intervalo. Un
(150,170] 160 12 0,0444 259 0,9593 0,0022 aproximación sería coger el valor de la marca de clase
(170,190] 180 11 0,0407 270 1 0,002 como valor modal, es decir, 120€.
270 1 0,05
Características de las medidas de posición central
Media Mediana Moda
 La media siempre toma un valor comprendido entre • La mediana se expresa en las mismas unidades • La moda se expresa en las unidades de medida
los valores de X mínimo y máximo observados. de medida de la variable. de la variable.
 La media aritmética es el punto de equilibrio o
• Los cambios de origen y de escala modifican la • La moda es la única medida de posición que
centro de gravedad de la distribución, es decir, la
mediana. sintetiza la distribución de frecuencias de una
suma de las desviaciones de todos los valores de la
característica categórica nominal.
variable con respecto a la media es igual a cero. • La mediana puede ser una medida de tendencia
 En el cálculo de la media se utiliza toda la central más representativa que la media cuando la
información contenida en la distribución de variable presenta valores extremos.
frecuencias.
 La media de una constante es la misma constante.
 Si a todas las observaciones de la variable, X, se le
aplica una transformación del tipo X’=a±bX, la media
de la variable transformada se puede calcular en
función de la media de X, siendo:

𝑋 ′ = 𝑎 ± 𝑏𝑋

Inconvenientes Inconvenientes Inconvenientes


• Sólo se puede obtener si la característica observada es • Sólo se puede obtener si la característica • Una distribución de frecuencias puede tener
cuantitativa. observada es ordinal. más de una moda.
• La media es muy sensible a la presencia de • En el cálculo de la mediana no se tiene en • Para determinar la moda no se tiene en cuenta
observaciones extremas, tendiendo a desplazarse hacia cuenta toda la información contenida en la toda la información contenida en la distribución
éstas. Cuando esto ocurre la media no sintetiza distribución de frecuencias. de frecuencias.
adecuadamente la distribución de la variable. En estos
casos puede calcularse la MEDIA RECORTADA.
Problema 1. Los beneficios (en millones de €) antes de impuestos obtenidos por un conjunto de empresas de la construcción
vienen recogidos en la siguiente tabla de frecuencias:
1. El beneficio medio antes de impuestos de este conjunto de empresas es igual a:
Intervalos xi ni a. 1015000€.
(6,4-7,15] 6,775 6 b. 2320950€.
(7,15-7,90] 7,525 29 c. 8996000€.
(7,90-8,65] 8,275 63 d. 9400000€.
(8,65-9,40] 9,025 75
(9,40-10,15] 9,775 51 2. El beneficio mediano antes de impuestos de este conjunto de empresas es igual
(10,15-10,90] 10,525 26 a:
(10,90-11,65] 11,275 6 a. 8960000€.
(11,65-12,40] 12,025 2 b. 1280000€.
c. 9025000€.
d. 1090000€.

3. Si los impuestos sobre los beneficios es de un 4. Se desea establecer una rebaja fiscal para el 38% de las empresas
15% sobre los beneficios obtenidos ¿cuál es el que menos beneficio antes de impuestos ¿cuál debe ser el importe
beneficio medio después de impuestos? máximo de beneficios para poder beneficiarse de esta rebaja fiscal?

a. 7646600€. a. 6850000€.
b. 1349400€. b. 9400000€.
c. 6850000€. c. 7900000€.
d. 2505000€. d. 8650000€.
Problema 2. La distribución de frecuencias de la variable X="importe IBI (en €)" observada en una muestra de pisos de una
localidad es:

El importe medio del IBI en esta muestra es:


a) 794
b) 397
c) 300
d) 264,7

Problema 3. Suponga la siguiente distribución de salarios mensuales de una empresa:

Plantilla Salario El salario medio es:


Operarios 15 1500 a) 580
Administrativos 4 1800 b) 1868
Técnicos 3 2200 c) 3677
Jefes Sección 2 3200 d) 2117
Director 1 4000
Problema 4. Con el programa R Commander se han obtenido los siguientes resúmenes numéricos de la variable X=“Horas
de trabajo semanal” observada en empresas que operan en los siguientes mercados:

La media de las Horas de trabajo semanal para el conjunto de los cuatro mercados es:

a) 36,1225 horas a la semana


b) 35,48 horas a la semana
c) 35,25 horas a la semana
d) 36,88 horas a la semana
Problema 5. La distribución de frecuencias de las líneas de autobús que utilizan un grupo de alumnos en su desplazamiento a
la facultad es:
La medida de posición adecuada para resumir esta distribución es:
Xi : 7 33 54 60 67 68 74 75
ni : 12 8 5 16 4 3 25 2 a) La mediana, es decir, la línea número 60
b) La moda o la línea número 74
c) La media aritmética, es decir, la línea número 54
d) Ninguna de las anteriores.
3.1.2. Las medidas de posición no central o de localización: Los cuantiles

Si se ordenan los elementos de la muestra desde el que tiene el menor valor de la variable hasta el que tiene el mayor valor,
los cuantiles son los valores de la variable que dividen a la distribución en un cierto número de partes con igual número de
elementos. Los cuantiles se expresan en las mismas unidades de medida de la variable y le afectan los cambios de origen y
cambios de escala. Los cuantiles más utilizados son los cuartiles, los deciles y los centiles o percentiles.

a. Los Cuartiles Qk.

Son los tres valores de la variable, Q1, Q2, Q3 que dividen la distribución en cuatro partes con igual número de observaciones.

El primer cuartil, Q1, es el valor de la variable que deja por debajo el 25% del total de observaciones. El segundo cuartil, Q2, es
el valor de la variable que deja por debajo el 50% de las observaciones y, por tanto, coincide con la mediana. El tercer cuartil,
Q3, es el valor de la variable que deja por debajo el 75% del total de observaciones. Entre dos cuartiles consecutivos se
encuentra el 25% del total de observaciones.

Minimo Máximo
Q1 Q2 Q3

25% 25% 25% 25%


b. Los Deciles Dk.

Los decíles son los nueve valores de la variable, D1, D2, …., D8, D9 que dividen la distribución en diez partes con igual número de observaciones.
El primer decil, D1, es el valor de la variable que deja por debajo el 10% del total de observaciones; el segundo decil, D2, es el valor de la
variable que deja por debajo el 20% de las observaciones y así sucesivamente. El quinto decil, D5, coincide con la mediana.
Entre dos deciles consecutivos se encuentra el 10% del total de observaciones.

Minimo ..................................... Máximo


D1 D2 D3 D7 D8 D9

10% 10% 10% 10% 10% 10%

C. Los Percentiles Pk.

Los Centiles o Percentiles son los noventa y nueve valores de la variable, P1, P2, …., P98, P99 que dividen la distribución en cien partes con igual
número de observaciones. El primer centil, P1, es el valor de la variable que deja por debajo el 1% del total de observaciones; el segundo centil,
P2, es el valor de la variable que deja por debajo el 2% de las observaciones y así sucesivamente. El quincuagésimo centil, P50, coincide con la
mediana. Entre dos centiles consecutivos se encuentra el 1% del total de observaciones.

Minimo P1 P2 .............................................................................................. P98 P99 Máximo

1% 1% 1% 1%
 Para calcular los cuantiles debemos de tener presente el tipo de distribución de frecuencias que tenemos:

a1. La variable se presenta en una distribución de frecuencias simple: Calculamos los cuantiles de la distribución

 El cuartil es el valor de la variable al que le corresponde la primera frecuencia absoluta acumulada mayor o igual que kn dónde k= 0,25 para
Q1; k=0,5 para Q2 y k= 0,75 para Q3 y n es el tamaño de la muestra.
Ejemplo 1: “X=Nº de automóviles vendidos” en 55 concesionarios:

Para obtener los cuartiles hacemos kn:


X ni fi Ni Fi
1 1 0,0182 1 0,0182
Q1⇒ kn=0,25(55)=13,75. Ahora buscamos en la tabla donde acumulamos 13,75 casos
2 2 0,0364 3 0,0545
o más y esto se consigue en la frecuencia acumulada igual a 21. Esta frecuencia
Q1=3 18 0,3273 21 0,3818 corresponde al valor 3 de la distribución, por tanto, 3 es el valor del primer cuartil.
Q2=4 17 0,3091 38 0,6909
Q3=5 11 0,2 49 0,8909 Q2⇒ kn=0,50(55)=27,5. Observamos que acumulamos 27,5 casos o más en el valor 38
6 5 0,0909 54 0,9818 de la columna de frecuencias acumuladas. Esta frecuencia acumulada se consigue
7 1 0,0182 55 1
cuando x= 4, por tanto, 4 es el segundo cuartil. Observar que coincide con la mediana.
55 1
Q3⇒ kn=0,75(55)=41,25. Observamos que acumulamos 41,25 casos o más en el valor
49 de la columna de frecuencias acumuladas. Esta frecuencia acumulada se consigue
cuando x= 5, por tanto, 5 es el segundo cuartil.

1 7
Q1=3 Q2=4 Q3=5

25% 25% 25% 25%


 Los deciles es el valor de la variable al que le corresponde la primera frecuencia absoluta acumulada mayor o igual que kn dónde k= 0,10
para D1; k=0,20 para D2 y así de forma sucesiva hasta k= 0,90 para D9 y n es el tamaño de la muestra.

X ni fi Ni Fi Para obtener los deciles hacemos kn (calculamos D1, D2, D5, y D9):
1 1 0,0182 1 0,0182
2 2 0,0364 3 0,0545 D1⇒ kn=0,10(55)=5,5. Ahora buscamos en la tabla donde acumulamos 5,5 casos o
3 18 0,3273 21 0,3818 más y esto se consigue en la frecuencia acumulada igual a 21. Esta frecuencia
4 17 0,3091 38 0,6909 corresponde al valor 3 de la distribución, por tanto, 3 es el valor del primer decil.
5 11 0,2 49 0,8909
6 5 0,0909 54 0,9818 D2⇒ kn=0,20(55)=11. Observamos que acumulamos 11 casos o más en el valor 21 de
7 1 0,0182 55 1 la columna de frecuencias acumuladas. Esta frecuencia acumulada se consigue cuando
55 1 x= 3, por tanto, 3 es el segundo decil.

D5⇒ kn=0,50(55)=27,50. Observamos que acumulamos 27,50 casos o más en el valor


38 de la columna de frecuencias acumuladas. Esta frecuencia acumulada se consigue
cuando x= 4, por tanto, 4 es el quinto decil. Observar que coincide con la mediana.

D9⇒ kn=0,90(55)=49,50. Observamos que acumulamos 49,50 casos o más en el valor


54 de la columna de frecuencias acumuladas. Esta frecuencia acumulada se consigue
cuando x= 6, por tanto,6 es el noveno decil.
 Los percentiles es el valor de la variable al que le corresponde la primera frecuencia absoluta acumulada mayor o igual que kn dónde k=
0,01 para P1; k=0,02 para P2 y así de forma sucesiva hasta k= 0,99 para P99 y n es el tamaño de la muestra.

X ni fi Ni Fi Para obtener los deciles hacemos kn (calculamos P1, P2, P50, y P99):
1 1 0,0182 1 0,0182
2 2 0,0364 3 0,0545 P1⇒ kn=0,010(55)=0,55. Ahora buscamos en la tabla donde acumulamos 0,55 casos o
3 18 0,3273 21 0,3818 más y esto se consigue en la frecuencia acumulada igual a 1. Esta frecuencia
4 17 0,3091 38 0,6909 corresponde al valor 1 de la distribución, por tanto, 1 es el valor del primer percentil.
5 11 0,2 49 0,8909
6 5 0,0909 54 0,9818 P2⇒ kn=0,020(55)=1,10. Observamos que acumulamos 1,10 casos o más en el valor 3
7 1 0,0182 55 1 de la columna de frecuencias acumuladas. Esta frecuencia acumulada se consigue
55 1 cuando x= 2, por tanto, 2 es el segundo percentil.

P50⇒ kn=0,50(55)=27,50. Observamos que acumulamos 27,50 casos o más en el valor


38 de la columna de frecuencias acumuladas. Esta frecuencia acumulada se consigue
cuando x= 4, por tanto, 4 es el quinto decil. Observar que coincide con la mediana.

P99⇒ kn=0,90(55)=54,45. Observamos que acumulamos 54,45 casos o más en el valor


55 de la columna de frecuencias acumuladas. Esta frecuencia acumulada se consigue
cuando x= 7, por tanto,7 es el percentil 99.
Ejemplo 2: Se ha observado la variable “X=Días que se ha ido al cine en el último año” en 100 jóvenes entre 18 y 25 años. Calculamos los
cuantiles.

X ni fi Ni Fi
1 2 0.02 2 0.02
2 3 0.03 5 0.05
3 8 0.08 13 0.13 Para obtener los cuantiles hacemos kn:
4 17 0.17 30 0.3
5 36 0.36 66 0.66  Cuartiles
6 24 0.24 90 0.9
7 10 0.10 100 1 Q1⇒ kn=0,25(100)=25 entonces Q1=4
100 1.00 Q2⇒ kn=0,50(100)=50 entonces Q2=5
Q3⇒ kn=0,75(100)=75 entonces Q3=6

 Deciles (Obtenemos D2,D6 y D8)

D2⇒ kn=0,20(100)=20 entonces D2=4


D6⇒ kn=0,60(100)=60 entonces D6=5
D8 ⇒ kn=0,80(100)=80 entonces D8=6

 Percentiles (Obtenemos P45,P65 y P85)

P45⇒ kn=0,45(100)=45 entonces P45=5


P65⇒ kn=0,65(100)=65 entonces P65=5
P85 ⇒ kn=0,85(100)=85 entonces P85=6
a2. La variable se presenta en una distribución de frecuencias por intervalo:
Si los valores de la variable se agrupan en intervalos, el intervalo que contiene al cuantil es aquel cuya frecuencia absoluta
acumulada es la primera mayor o igual que kn. Una vez localizado el intervalo que lo contiene, el valor de Ci se aproxima
mediante la siguiente fórmula basada en el supuesto de que la frecuencia correspondiente a cada intervalo se distribuye
uniformemente dentro de éste:
0,5𝑛 − 𝑁𝑖−1
𝐶𝑘 = 𝐿𝑖−1 + 𝑎𝑖
𝑛𝑖
Dependiendo del valor de k tendremos cuartiles, deciles o percentiles:

 Si k=0,25;0,50;0,75 ⇒ Cuartiles.
 Si k=0,10;0,20;0,30;...;0,90 ⇒ Deciles.
 Si k=0,01;0,02;0,03;...;0,99 ⇒ Percentiles.
Ejemplo 1: Sea la variable “X: retraso en minutos” de 200 vuelos. Vamos a obtener cuartiles, deciles y percentiles.

Intervalos xi ni fi Ni Fi  Cuartiles
(0,10] 5 27 0,135 27 0,135 Q1⇒ kn=0,25(200)=50 entonces Q1 se encuentra en el intervalo (10-20].
(10,20] 15 31 0,155 58 0,29 Aplicamos la fórmula:
(20,30] 25 43 0,215 101 0,505 0,25𝑛 − 𝑁𝑖−1 0,25 200 − 27
(30,40] 35 37 0,185 138 0,69
𝑸𝟏 = 𝐿𝑖−1 + 𝑎𝑖 = 10 + 10 = 14,74
𝑛𝑖 31
(40,50] 45 33 0,165 171 0,855
Q2⇒ kn=0,50(200)=100 entonces Q2 se encuentra en el intervalo (20-30].
(50,60] 55 29 0,145 200 1
Aplicamos la fórmula:
200 1
0,50𝑛 − 𝑁𝑖−1 0,50 200 − 58
 Deciles 𝑸𝟐 = 𝐿𝑖−1 + 𝑎𝑖 = 20 + 10 = 29,78
𝑛𝑖 43
D1⇒ kn=0,10(200)=20 entonces D1 se encuentra en el intervalo
(0-10]. Aplicamos la fórmula: Q3⇒ kn=0,75(200)=150 entonces Q3 se encuentra en el intervalo (40-50].
0,10𝑛−𝑁𝑖−1 0,10 200 −0
Aplicamos la fórmula:
𝑫𝟏 = 𝐿𝑖−1 + 𝑎𝑖 =0+ 10 =7,41
𝑛𝑖 27
0,75𝑛 − 𝑁𝑖−1 0,75 200 − 138
𝑸𝟑 = 𝐿𝑖−1 + 𝑎𝑖 = 40 + 10 = 43,64
D4⇒kn=0,40(200)=80 entonces D4 se encuentra en el intervalo 𝑛𝑖 33
(20-30]. Aplicamos la fórmula:
0,40𝑛−𝑁𝑖−1 0,40 200 −58  Percentiles
𝑫𝟒 = 𝐿𝑖−1 + 𝑎𝑖 = 20 + 10 =25,12 P35⇒ kn=0,35(200)=70 entonces P1 se encuentra en el intervalo (20-30].
𝑛𝑖 43
Aplicamos la fórmula:
D7⇒kn=0,7(200)=140 entonces D7 se encuentra en el intervalo 0,35𝑛 − 𝑁𝑖−1 0,35 200 − 58
(40-50]. Aplicamos la fórmula: 𝑃35 = 𝐿𝑖−1 + 𝑎𝑖 = 20 + 10 = 22,80
𝑛𝑖 43
0,70𝑛 − 𝑁𝑖−1 0,70 200 − 138
𝑫𝟕 = 𝐿𝑖−1 + 𝑎𝑖 = 40 + 10 = 40,61
𝑛𝑖 33
Ejemplo 2: “X: Saldo en Cuenta Corriente en €” de 270 jóvenes. Calculamos algunos cuantiles

Intervalos x n f N F  Cuartiles
(50,70] 60 40 0,1481 40 0,1481 Q1⇒ kn=0,25(270)=67,5 entonces Q1 se encuentra en el intervalo (70-90].
(70,90] 80 48 0,1778 88 0,3259 Aplicamos la fórmula:
(90,110] 100 53 0,1963 141 0,5222
(110,130] 120 68 0,2519 209 0,7741 0,25𝑛 − 𝑁𝑖−1 0,25 270 − 40
𝑸𝟏 = 𝐿𝑖−1 + 𝑎𝑖 = 70 + 20 = 81,45
(130,150] 140 38 0,1407 247 0,9148 𝑛𝑖 48
(150,170] 160 12 0,0444 259 0,9593
(170,190] 180 11 0,0407 270 1
Q2⇒ kn=0,50(270)=135 entonces Q2 se encuentra en el intervalo (90-110].
270 1 Aplicamos la fórmula:
0,50𝑛 − 𝑁𝑖−1 0,50 270 − 88
 Deciles 𝑸𝟐 = 𝐿𝑖−1 + 𝑎𝑖 = 90 + 20 = 98,87
𝑛𝑖 53
D3⇒ kn=0,30(270)=81 entonces D3 se encuentra en el intervalo
(70-90]. Aplicamos la fórmula: Q3⇒ kn=0,75(270)=202,5 entonces Q3 se encuentra en el intervalo (110-
0,30𝑛 − 𝑁𝑖−1 0,30 270 − 40
130]. Aplicamos la fórmula:
𝑫𝟑 = 𝐿𝑖−1 + 𝑎𝑖 = 70 + 20 = 87,08
𝑛𝑖 48 0,75𝑛 − 𝑁𝑖−1 0,75 270 − 141
𝑸𝟑 = 𝐿𝑖−1 + 𝑎𝑖 = 110 + 20 = 128,08
D6⇒kn=0,60(270)=162 entonces D6 se encuentra en el 𝑛𝑖 68
intervalo (110-130]. Aplicamos la fórmula:
0,60𝑛−𝑁𝑖−1 0,6 270 −141  Percentiles
𝑫𝟔 = 𝐿𝑖−1 + 𝑎𝑖 = 110 + 20 =116,18 P65⇒ kn=0,65(200)=175,5 entonces P65se encuentra en el intervalo (110-
𝑛𝑖 68
130]. Aplicamos la fórmula:
D9⇒kn=0,9(270)=243 entonces D9 se encuentra en el intervalo 0,65𝑛 − 𝑁𝑖−1 0,65 270 − 141
(130-150]. Aplicamos la fórmula: 𝑃65 = 𝐿𝑖−1 + 𝑎𝑖 = 110 + 10 = 115,07
𝑛𝑖 68
0,9𝑛 − 𝑁𝑖−1 0,9 270 − 209
𝑫9 = 𝐿𝑖−1 + 𝑎𝑖 = 130 + 20 = 147,89
𝑛𝑖 38
Problema 1: La distribución de X="antigüedad (en años)" de un grupo de trabajadores es:

Indique cuál de las siguientes afirmaciones es cierta:

a) La antigüedad máxima de un trabajador que está entre el 12% de los menos


veteranos es 21 años.
b) La antigüedad mínima de un trabajador que está entre el 3% de los más
veteranos es 25 años.
c) La antigüedad máxima de un trabajador que está entre el 40% de los menos
veteranos es 21 años.
d) La antigüedad mínima de un trabajador que está entre el 40% de los más
veteranos es 22 años.

Problema 2: La siguiente información se refiere a la situación de una muestra de 100 hospitales:


Nº de camas 0-100 100-200 200-300 300-400 400-500
Nº hospitales 11 25 32 10 22

El número mínimo de camas que debe tener un hospital para beneficiarse de una ayuda especial destinada únicamente al 30% de los
hospitales con mayor capacidad es:

a) 345
b) 176
c) 130
d) 320
Problema 3: La variable X="puntos obtenidos" en una prueba se ha observado en n individuos resultando la siguiente
distribución de frecuencias acumuladas:

Es FALSO que:

a) El decil 9 es 38
b) La mediana de la distribución es 27,5
c) El tercer cuartil es 35,14
d) El percentil 15 es 30

Problema 4: El siguiente diagrama stem and leaf recoge la distribución de frecuencias de la variable X="viajeros por autobús"
en el transporte urbano de n poblaciones de Cataluña:

El primer cuartil, la mediana y el tercer cuartil de esta


distribución son,
respectivamente:

a) 4; 6, y 12 viajeros/autobús
b) 0,4; 0,6 y 1,2 viajeros/autobús
c) 40; 65 y 120 viajeros/autobús
d) 4; 6,5 y 12 poblaciones
Problema 5: El siguiente cuadro contiene algunos de los resultados del análisis descriptivo de la distribución de X="tiempo
(en mn)" observada en una muestra de 197 participantes de una carrera:

Es CIERTO que:
a) El 80% de los participantes con mejor tiempo registrado no han superado los 57
minutos.
b) El 80% de los mejores tiempos han sido registrados por 57 participantes.
c) El tiempo máximo del 75% de los participantes ha sido 44 minutos.
d) El tiempo máximo del 50% de los participantes ha sido 47,47 minutos.

Problema 6: El precio en € del litro de diesel en agosto de 2015 en un grupo de países presentaba los siguientes valores:

Es CIERTO que:

a) El precio mínimo en el 35% de los países más caros es 11,5 €


b) El precio del diésel es inferior a 1,10 € en algo más del 35% de estos
países.
c) El precio del diésel es superior a 12,2 € en 5 países
d) El tercer decil de esta distribución es 1,08
Problema 7: El consumo de agua (m3 por habitante) en las comarcas de Catalunya en 2014 fue:

En el Tarragonès el consumo fue 49,32 m3. ¿Entre qué cuartiles está?

a) Entre el valor mínimo y Q1


b) Entre Q1 y Me
c) Entre Me y Q3
d) Entre Q3 y el valor máximo
 3.2. Medidas de dispersión absolutas y relativas.

La dispersión o variabilidad de una distribución de frecuencias indica hasta que punto ésta es homogénea. Así, cuando los
valores de la variable difieren poco entre sí, el grado de homogeneidad es elevado y las medidas de posición central (media)
representan adecuadamente el orden de magnitud de los valores de la variable. Por el contrario, cuando entre los valores de
la variable hay grandes diferencias, la distribución es heterogénea y, en consecuencia, las medidas de posición central
(media) pueden ser poco representativas. Las medidas de dispersión que vamos a considerar en este punto son:

1. Absolutas: Mínimo, Máximo, Rango, Rango Intercuartílico, Varianza y Desviación Estándar


2. Relativas: Coeficiente de Variación.
3. Gráficos: Box-plot y Análisis de Valores Atípicos.
4. Transformaciones: Estandarización.

 Mínimo: El mínimo de una distribución es el valor más pequeño que toma la variable X, se denota por min(X).
 Máximo: El máximo de una distribución es el valor más grande que toma la variable X, se denota por max(X).
 Rango: El rango de una variable es la diferencia entre el valor máximo y el mínimo, es decir, R(X)=max(X)-min(X).
 Rango Intercuartílico: Es la diferencia entre el tercer y primer cuartil: RQ(X)=Q3-Q1 .

Estas medidas de dispersión tienen las mismas unidades que la variable.


 La Varianza S2 :Es una medida de dispersión respecto a la media aritmética. Para su cálculo debemos de tener presente si
la variable se presenta de forma individual o en tablas de frecuencias:
1. Varianza para datos individuales:
2 𝑛 𝑛 2 2
− 𝑋 ) 𝑖=1(𝑋𝑖
𝑖=1 𝑋𝑖 − 𝑛𝑋
𝑆2 = =
𝑛−1 𝑛−1
Ejemplo 1: El número de tv inteligentes vendidos por una conocida cadena de aparatos electrónicos en los últimos 10 días han
sido: 10, 12, 15, 8, 7, 11, 17, 10, 13, 20.

• Para obtener la varianza necesitamos calcular en primer lugar la media de la variable:

1 𝑛 1 1 123
𝑋=𝑛 𝑖=1 𝑋𝑖 = 𝑛 (𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 ) = 10 10 + 12 + 15 + 8 + 7 + 11 + 17 + 10 + 13 + 20 = = 12,3 𝑢𝑛𝑖𝑑𝑎𝑑𝑒𝑠
10

La varianza la podemos calcular de dos formas:


𝑛 2
𝑖=1(𝑋𝑖 −𝑋) (10−12,3)2 +(12−12,3)2 +(15−12,3)2 +(8−12,3)2 +(7−12,3)2 +(11−12,3)2 +(17−12,3)2 +(13−12,3)2 +(20−12,3)2 148,1
a.𝑆2 = = = =
𝑛−1 10−1 9
16,46𝑈𝑛𝑖𝑑𝑎𝑑𝑒𝑠 2
𝑛 2 2
𝑖=1 𝑋𝑖 −𝑛𝑋 (10)2 +(12)2 +(15)2 +(8)2 +(7)2 +(11)2 +(17)2 +(13)2 +(20)2 +(12)2 −10·(12,3)2 1661−1512,9
b.𝑆 2 = = = = 16,46𝑈𝑛𝑖𝑑𝑎𝑑𝑒𝑠 2
𝑛−1 10−1 9

Observar que las unidades de la varianza están elevadas al cuadrado


Ejemplo 2: La siguiente variable recoge retraso (en minutos) de 8 trenes de cercanías: 5,10,8,7,15,6,5,12. Obtenemos la
media para calcular la varianza:

• Para obtener la varianza necesitamos calcular en primer lugar la media de la variable:


𝑛
1 1 1 68
𝑋= 𝑋𝑖 = (𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 ) = 5 + 10 + 8 + 7 + 15 + 6 + 5 + 12 = = 8,5 𝑚𝑖𝑛𝑢𝑡𝑜𝑠
𝑛 𝑛 8 8
𝑖=1

La varianza la podemos calcular de dos formas:


𝑛 2
2 𝑖=1(𝑋𝑖 −𝑋) (5−8,5)2 +(10−8,5)2 +(8−8,5)2 +(7−8,5)2 +(15−8,5)2 +(6−8,5)2 +(5−8,5)2 +(12−8,5)2 90
a. 𝑆 = = = = 12,86𝑚𝑖𝑛𝑢𝑡𝑜𝑠 2
𝑛−1 8−1 7

𝑛 2 2
2 𝑖=1 𝑋𝑖 −𝑛𝑋 (5)2 +(10)2 +(8)2 +(7)2 +(15)2 +(6)2 +(5)2 +(12)2 −8·(8,5)2 668−578
b.𝑆 = = = = 12,86𝑚𝑖𝑛𝑢𝑡𝑜𝑠 2
𝑛−1 8−1 7

2. Varianza para datos en tablas de frecuencias:

𝑘 𝑘 2
− 𝑋)2 𝑛𝑖
𝑖=1(𝑋𝑖 − 𝑛𝑋 2
𝑖=1 𝑋𝑖 𝑛𝑖
𝑆2 = =
𝑛−1 𝑛−1
Ejemplo 3: “X=Nº de automóviles vendidos” en 55 concesionarios. Calculamos la varianza:
La varianza la podemos calcular de dos formas: (𝑋 = 3,9818)
X ni fi Ni Fi
k 2
1 1 0,0182 1 0,0182 i=1(Xi −X) ni
a. S2 = =
2 2 0,0364 3 0,0545 n−1
(1−3,9818)2 ·1+(2−3,9818)2 ·2+(3−3,9818)2 ·18+(4−3,9818)2 ·17+(5−3,9818)2 ·11+(6−3,9818)2 ·5+ 7−3,9818 2 ·1
3 18 0,3273 21 0,3818 =
55−1
4 17 0,3091 38 0,6909 74,98 2
= = 1,389 Unidades
5 11 0,2 49 0,8909 54
6 5 0,0909 54 0,9818
𝑘 2 2
7 i=1 Xi ni −nX (1)2 ·1+(2)2 ·2+(3)2 ·18+(4)2 ·17+(5)2 ·11+(6)2 ·5+(7)2 ·1−55(3,9818)2 947−872,01
1 0,0182 55 1 b. = = =
n−1 55−1 54
55 1 = 1,389 Unidades 2

Otra forma podría ser realizando los cálculos en forma de columna en la tabla de frecuencias:

X ni fi Ni Fi (𝑿𝒊 − 𝑿)𝟐 𝒏𝒊 𝑿𝒊 𝟐 𝒏𝒊
𝑘
1 1 0,0182 1 0,0182 8,89 1
2
− X)2 ni
i=1(X i 74,98
2 2 0,0364 3 0,0545 7,86 8 𝑎. S = = = 1,389 Unidades 2
n−1 55 − 1
3 18 0,3273 21 0,3818 17,35 162
4 17 0,3091 38 0,6909 0,01 272 𝑘 2
2
− nX 2 947 − 872,02
i=1 X i ni
5 11 0,2 49 0,8909 11,40 275 𝑏. S = = = 1,389 Unidades 2
6 5 0,0909 54 0,9818 20,37 180 n−1 55 − 1
7 1 0,0182 55 1 9,11 49
55 1 74,98 947
Ejemplo 4: Se ha observado la variable “X=Días que se ha ido al cine en el último año” en 100 jóvenes entre 18 y 25 años. Calculamos la
varianza de diferentes formes:
(𝑋 = 4,94)
X ni fi Ni Fi
1 2 0.02 2 0.02 k 2
i=1(Xi −X) ni (1−4,94)2 ·2+(2−4,94)2 ·3+(3−4,94)2 ·8+(4−4,94)2 ·17+(5−4,94)2 ·36+(6−4,94)2 ·24+ 7−4,94 2 ·10
2 3 0.03 5 0.05 a. S2 = n−1
=
100−1
=
171,64 2
3 8 0.08 13 0.13 = = 1,734 dias
99
4 17 0.17 30 0.3
5 36 0.36 66 0.66 𝑘 2 2 (1)2 ·1+(2)2 ·3+(3)2 ·8+(4)2 ·17+(5)2 ·36+(6)2 ·24+(7)2 ·10−100 4,94 2
i=1 Xi ni −nX 2612−2440,36
6 24 0.24 90 0.9 b. = = = 1,734 𝑑𝑖𝑎𝑠 2
n−1 55−1 54
7 10 0.10 100 1
100 1.00

Otra forma podría ser realizando los cálculos en forma de columna en la tabla de frecuencias:

X ni fi Ni Fi (𝑿𝒊 − 𝑿)𝟐 𝒏𝒊 𝑿𝒊 𝟐 𝒏𝒊
1 2 0.02 2 0.02 31,05 2 𝑘
− X)2 ni
2 i=1(X i 171,64
2 3 0.03 5 0.05 25,93 12 a. S = = = 1,734 dias 2
n−1 100 − 1
3 8 0.08 13 0.13 30,11 72
4 17 0.17 30 0.3 15,02 272 𝑘 2
5 36 0.36 66 0.66 0,13 900 2
− nX 2 2612 − 2440,36
i=1 X i ni
b. S = = = 1,734 𝑑𝑖𝑎𝑠 2
6 24 0.24 90 0.9 26,97 864 n−1 54
7 10 0.10 100 1 42,44 490
100 1.00 171,64 2612
Ejemplo 5: Sea la variable “X: retraso en minutos” de 200 vuelos. Vamos a obtener la varianza.
Intervalos xi ni fi Ni Fi
(0,10] 5 27 0,135 27 0,135
(10,20] 15 31 0,155 58 0,29
(20,30]
Como se trata de una distribución por intervalos los valores de xi serán las
25 43 0,215 101 0,505
correspondientes marcas de clase. La media de esta distribución es 30,25 minutos.
(30,40] 35 37 0,185 138 0,69
(40,50] 45 33 0,165 171 0,855
(50,60] 55 29 0,145 200 1
200 1
k 2
2 i=1(Xi −X) ni (5−30,25)2 ·27+(15−30,25)2 ·31+(25−30,25)2 ·43+(35−30,25)2 ·37+(45−30,25)2 ·33+(55−30,25)2 ·29 51387,50
a. S = = = = 258,229 minutos 2
n−1 200−1 199

𝑘 2 2
i=1 Xi ni −nX (5)2 ·27+(15)2 ·31+(25)2 ·43+(35)2 ·37+(45)2 ·33+(55)2 ·29−200 30,25 2 234400−183012,50
b. = = = 258,229 minutos 2
n−1 200−1 199
Otra forma podría ser realizando los cálculos en forma de columna en la tabla de frecuencias:

Intervalos xi ni fi Ni Fi (𝑿𝒊 − 𝑿)𝟐 𝒏𝒊 𝑿𝒊 𝟐 𝒏𝒊 k


2
− X)2 ni 51387,50
i=1(X i
(0,10] 5 27 0,135 27 0,135 17214,19 675 a. S = = = 258,229 minutos2
(10,20] 15 31 0,155 58 0,29 7209,44 6975 n−1 199
(20,30] 25 43 0,215 101 0,505 1185,19 26875 k 2
2
− nX 2 234400 − 183012,50
i=1 X i ni
(30,40] 35 37 0,185 138 0,69 834,81 45325 b. S = = = 258,229 minutos 2
(40,50] 45 33 0,165 171 0,855 7179,56 66825 n−1 199
(50,60] 55 29 0,145 200 1 17764,31 87725
200 1 51387,50 234400
Ejemplo 6: “X: Saldo en Cuenta Corriente en €” de 270 jóvenes. Calculamos la varianza de la distribución:
Intervalos x n f N F
(50,70] 60 40 0,1481 40 0,1481
(70,90] 80 48 0,1778 88 0,3259
(90,110] 100 53 0,1963 141 0,5222 Como se trata de una distribución por intervalos los valores de xi serán las
(110,130] 120 68 0,2519 209 0,7741 correspondientes marcas de clase. La media de esta distribución es 107,10€.
(130,150] 140 38 0,1407 247 0,9148
(150,170] 160 12 0,0444 259 0,9593
(170,190] 180 11 0,0407 270 1
270 1
n 2
2 i=1(Xi −X) ni (60−107,10)2 ·40+(80−107,10)2 ·48+(100−107,10)2 ·53+(120−107,10)2 ·68+(140−107,10)2 ·38+(160−107,10)2 ·12+(180−107,10)2 ·11
a. S = n−1
=
270−1
=
271146,70 2
= 1007,98€
269
n 2 2
i=1 Xi ni −nX (60)2 ·40+(80)2 ·48+(100)2 ·53+(120)2 ·68+(140)2 ·38+(160)2 ·12+(180)2 ·11−270 107,10 2 3368800−3097653,33
b. = = = 1007,98€2
n−1 200−1 269

Otra forma podría ser realizando los cálculos en forma de columna en la tabla de frecuencias:
Intervalos x n f N F (𝑿𝒊 − 𝑿)𝟐 𝒏𝒊 𝑿𝒊 𝟐 𝒏𝒊
n
(50,70] 2
− X)2 ni 271146,70
i=1(X i
60 40 0,1481 40 0,1481 88736,40 144000 a. S = = = 1007,98€2
(70,90] 80 48 0,1778 88 0,3259 35251,68 307200 n−1 269
(90,110] 100 53 0,1963 141 0,5222 2671,73 530000
(110,130] n 2 2
120 68 0,2519 209 0,7741 11315,88 979200 i=1 Xi ni −nX 3368800−3097653,33
b. S2 = = = 1007,98€2
(130,150] n−1 269
140 38 0,1407 247 0,9148 41131,58 744800
(150,170] 160 12 0,0444 259 0,9593 33580,92 307200
(170,190] 180 11 0,0407 270 1 58458,51 356400
270 1 271146,70 3368800
La varianza complementa la información proporcionada por la media. Indica si es representativa de la distribución.
Propiedades de la varianza Inconvenientes
 La varianza siempre toma valores no negativos.  No presenta la misma unidad de medida que la
 Si todos los valores de la distribución son iguales, la varianza es 0. variable.
 La varianza no cambia cuando se suma una misma cantidad a todos  Depende de los cambios de la unidad de medida.
los valores observados, es decir, cuando se realiza un cambio de  No está acotada.
origen.
 La varianza se modifica si se multiplican todas las observaciones de la
distribución por la misma constante, es decir, cuando se realiza un
cambio de escala o cambio de unidades de medida.
 En general, si a todas las observaciones de la variable, X, se le aplica
una transformación del tipo X’=a+bX, la varianza de la variable
transformada se puede calcular en función de la varianza de X,
siendo:
SX2 '  b2 SX2
 La desviación estándar S :Se define como la raíz cuadrada positiva de la varianza.

𝑆 = + 𝑆2
Presenta la misma unidad de medida que la variable y que la media aritmética. La desviación estándar presenta las mismas
propiedades que la varianza.

Del ejemplo 1 de la varianza tenemos que S2 = 16,46 unidades2 ⇒ 𝑆 = + 16,46 = 4,08 𝑢𝑛𝑖𝑑𝑎𝑑𝑒𝑠
Del ejemplo 2 de la varianza tenemos que S2 = 12,86 minutos2 ⇒ 𝑆 = + 12,86 = 3,59 minutos
Del ejemplo 6 de la varianza tenemos que S2 = 1007,98 €2 ⇒ 𝑆 = + 1007,98 = 31,75€

 Coeficiente de Variación: Es el cociente entre la desviación estándar y el valor absoluto de la media y expresa la desviación
estándar como porcentaje de la media.
𝑆𝑋
𝐶𝑉 = 100
𝑋

Es una medida de dispersión relativa, no tiene unidades de medida. Permite comparar la dispersión entre diferentes
distribuciones aunque no tengan las mismas unidades de medida o medias aritméticas diferentes. No le afectan los cambios de
escala. Cuanto más bajo sea el coeficiente más homogénea es la distribución (menor dispersión relativa). El coeficiente de
variación no está acotado superiormente:

0 ≤ 𝐶𝑉 < ∞
De los ejemplos de la varianza tenemos los siguientes resultados:
Ejemplo 𝑿 S2 S CV
1 12,3 16,46 4,06 33,00%
2 8,5 12,86 3,59 42,23%
3 3,9818 1,389 1,18 29,63%
4 4,94 1,734 1,32 26,72%
5 31,25 258,229 16,07 51,42%
6 107,10 1007,98 31,75 29,64%

4,06 1,32
𝐶𝑉𝐸𝑗𝑒𝑚𝑝𝑙𝑜 1 = 100 = 33,00% 𝐶𝑉𝐸𝑗𝑒𝑚𝑝𝑙𝑜 4 = 100 = 26,72%
12,3 4,94
3,59 16,07
𝐶𝑉𝐸𝑗𝑒𝑚𝑝𝑙𝑜 2 = 100 = 42,23% 𝐶𝑉𝐸𝑗𝑒𝑚𝑝𝑙𝑜 5 = 100 = 51,42%
8,5 31,25
1,18 31,75
𝐶𝑉𝐸𝑗𝑒𝑚𝑝𝑙𝑜 3 = 100 = 29,63% 𝐶𝑉𝐸𝑗𝑒𝑚𝑝𝑙𝑜 6 = 100 = 29,64%
3,9818 107,10

La distribución del ejemplo 4 es la que presenta una distribución más homogénea, o dicho de otra forma, en esta
distribución la media es más representativa que el resto de ejemplos.
Problema 1 . Con el programa R Commander se han obtenido los siguientes resúmenes numéricos de la variable X=“Horas de
trabajo semanal” observada en empresas que operan en los siguientes mercados:

La media aritmética de X es menos representativa en las empresas que operan en el


mercado:
a) Mundial 0,24
b) Nacional 0,23
c) Unión Europea 0,14
0,29
d) Regional
Problema 2. ¿En qué muestra NO es representativa la media
aritmética?
a) 0, 1, 3, 4, 8, 9, 10, 65
b) 2, 2, 3, 4, 5, 6, 7, 9
c) -3, -3, -3, 4, 5, 8, 9, 10
d) 22, 22, 23, 24, 25, 26, 27
 3.3. Medias de forma: Asimetría y Curtosis.
Asimetría: Una distribución de frecuencias es simétrica si su representación gráfica (diagrama de barras o histograma), tiene
un eje de simetría perpendicular al eje de abscisas tal que la parte de la distribución que queda a un lado del eje es la
imagen especular de la parte que queda al otro lado del eje. En caso contrario, la distribución es asimétrica.

Distribución Simétrica. El Coeficiente Distribución Asimétrica positiva o a Distribución Asimétrica negativa o a


de Asimetría (Skewness) es igual a 0. la derecha. El Coeficiente de la izquierda. El Coeficiente de
Asimetría (Skewness) es >0. Asimetría (Skewness) es <0.
Curtosis

La curtosis mide el grado de apuntamiento de una distribución de frecuencias por comparación con una distribución teórica
(distribución de probabilidad) de una variable continua, que recibe el nombre de distribución Normal, que se toma como
modelo de referencia. Este modelo tiene forma de campana simétrica y unimodal.

Distribución Mesocúrtica. El Distribución leptocúrtica. El Distribución platicútica. El


Coeficiente de curtosis (Kurtosis) es Coeficiente de curtosis (Kurtosis) es Coeficiente de curtosis (Kurtosis) es
igual a 0. >0. <0.
 3.4. Box-plot y Análisis de Valores Atípicos.

Un Box-Plot o Diagrama de Cajas es un gráfico de dispersión y para su construcción se necesitan 5 valores de la distribución.
Estos valores son: Mínimo (Min), Primer Cuartil (Q1), Segundo Cuartil o Mediana (Q2=Me), El tercer Cuartil (Q3) y el Máximo
(Max)
Se compone de una caja central de longitud igual al recorrido intercuartíllico y unos
segmentos laterales o bigotes que abarcan el recorrido o rango de la distribución.

•Muestra la asimetría de la distribución.

•Permite comparar la dispersión y los valores centrales de varias distribuciones.

•Señala como puntos separados los valores extremos u outliers. Estos valores se
clasifican en:

 ATÍPICOS, si distan del primer o tercer cuartíl en más de 1,5 veces el recorrido
intercuartílico o
superan los límites:
LI = Q1-1,5RQ y LS = Q3+1,5RQ

 EXTREMOS, si distan del primer o tercer cuartíl en más de 3 veces el recorrido


intercuartílico o superan los límites:
LI = Q1-3RQ y LS = Q3+3RQ
Ejemplo 1: Se ha observado la variable “X=Días que se ha ido al cine en el último año” en 100 jóvenes entre 18 y 25 años.
Obtenemos el Box-Plot y analizamos la existencia de valores atípicos y/o extremos.
X ni fi Ni Fi
1 2 0.02 2 0.02 Conocemos los siguientes
2 3 0.03 5 0.05 resultados:
3 8 0.08 13 0.13 Min=1
4 17 0.17 30 0.3 Max=7
5 36 0.36 66 0.66
Q1=4
6 24 0.24 90 0.9
7 10 0.10 100 1 Q2=5
100 1.00 Q3=6
RQ=6-4=2
Analizamos la existencia de Valores Atípicos y/o Extremos.

 Atípicos Inferiores: LI = Q1-1,5RQ = 4 – 1,5·(2)=1. Como en la variable no hay ningún valor inferior a 1 no hay atípicos
inferiores. Lógicamente tampoco existen extremos inferiores.
 Atípicos Superiores: LS = Q3+1,5RQ =6+1,5(2)=9. Como en la variable no hay ningún valor superior a 9 no hay atípicos
superiores. Lógicamente tampoco existen extremos superiores.
Ejemplo 2: De una variable X que recoge el número de días de absentismo laboral de un conjunto de trabajadores se sabe
que: Min=10, Max=35, Q1=20, Q2=22 y Q3=23. Obtenemos el Box-Plot y analizamos la existencia de valores atípicos y/o
extremos.

 Atípicos Inferiores: LI = Q1-1,5RQ = 20 – 1,5·(3)=15,5. Como en la variable hay como mínimo


un valor inferior a 15,5 (el mínimo), vamos a ver si puede ser extremos.
 Extremos Inferiores: LI = Q1-3RQ = 20 – 3·(3)=11, como este valor el mayor que el mínimo
podemos concluir que el valor 10 es un Extremo Inferior.
 Atípicos Superiores: LS = Q3+1,5RQ =23+1,5(3)=27,5 Como en la variable hay como mínimo
un valor superior a 27,5 (el máximo), vamos a ver si puede ser extremo.
 Extremo Superior: LS = Q3+3RQ=23+3(3)=32 como este valor el menor que el máximo
podemos concluir que el valor 35 es un Extremo superior.
Problema 1. Los cuartiles de la distribución de frecuencias de una variable son: Q1 = 20 Q2 = 24 y Q3 = 30. En el boxplot de los
datos de esta muestra se considera valores atípicos aquellos que sean:

a) Inferiores a 5 o superiores a 45
b) Inferiores a -5 o superiores a 35
c) Inferiores a 15 o superiores a 35
d) Depende del número total de observaciones.

Problema 2. El box plot de la distribución de frecuencias de X=”Comisión diaria (en €)” observada sobre 80 vendedores de una
empresa es:

Señale la afirmación correcta:


a) 40 vendedores han cobrado menos de 20€.
b) 20 vendedores han cobrado exactamente 20€.
c) La distribución de X es ligeramente asimétrica a la derecha
d) Menos de 40 vendedores cobran menos de 30€.
Problema 3. La Variable X recoge “el precio en miles de € de 63 automóviles”.

mean sd skewness kurtosis 0% 25% 50% 75% 100% data:n

1. 0,23 A 20.92 4.22 -0.021 -2.759 16.257 17.194 20.972 24.808 25.332 6
0,43 F 13.55 5.78 1.031 0.421 6.551 9.264 11.869 16.350 28.199 35
0,43 I 13.84 5.86 1.119 0.625 7.200 9.894 11.569 16.593 28.848 22
Responder a las siguientes cuestiones:

1) ¿Qué distribución es más homogéna? A


2) Analizar la existencia de valores atípicos y/o extremos de la variable precio para cada nacionalidad.
3) Confeccionar el diagrama de cajas de la variable precio para cada nacionalidad.
4) ¿Cuál es el precio medio de los 63 automóviles? 12.631,20€
Problema 4. En una encuesta realizada a 15 usuarios de Bicing se les ha pedido que valoraran el servicio de 0 a 10. El box
plot de la distribución de frecuencias de X=”Valoración del servicio Bicing” observada es:

Es CIERTO que:

a)La distribución es asimétrica a la derecha y el 50% de las valoraciones son superiores a 4.


b)La distribución es asimétrica a la izquierda y en el 25% de las valoraciones son inferiores a 2.
c)La distribución es asimétrica a la derecha y el porcentaje de usuarios con unas valoraciones entre 2 y 4 es inferior al
porcentaje de usuarios con una valoración entre 5 y 9.
d)La distribución es simétrica y el 50% de las valoraciones son superiores 5.
Problema 5. Dado el siguiente diagrama de caja (Box-Plot) de la variable X=”Unidades producidas por semana” observada
en un centro de producción durante 45 semanas elegidas al azar.

Es CIERTO que:

a)La distribución es asimétrica a la derecha y el 25% de las semanas la producción es superior a 3000 unidades.
b)La distribución es simétrica y el 50% de las unidades producidas es superior a 2000.
c)La distribución es asimétrica a la izquierda y en el 25% de las semanas se ha producido más de 3000 unidades.
d)El porcentaje de semanas con producción entre 2000 y 3000 unidades es superior al porcentaje de semanas con
producción entre 1000 y 2000 unidades.
3.5. Transformaciones lineales: Estandarización

 Transformaciones lineales

Cuando sumamos (restamos) y/o multiplicamos (dividimos) los datos originales obtenemos unas nuevas observaciones
obteniendo una nueva variable, pudiendo calcular sobre esta nueva variable las medidas de síntesis vistas en este tema. Sin
embargo no hace falta realizar todos los cálculos de nuevo dado que existe una relación, que viene dada por el tipo de
transformación que se aplique, entre la variable original y la transformada.

 Tipos de transformaciones:

i. Cambio de origen: a todas las observaciones de la variable X se les suma (resta) una constante cualquiera (a). La nueva
variable será X’=X+a
ii. Cambio de escala: todas las observaciones se multiplican (dividen) por una constante cualquiera (b). La nueva variable será
X’= bX
iii. Cambio de origen y de escala: todas las observaciones se multiplican por una constante (b) y se les suma otra constante
(a). La nueva variable será X’= a+bX
Tipos de transformación y relación de las medidas de síntesis entre la nueva y la variable transformada.

a. Medidas de posición

Transformación Media Mediana Moda


aritmética
X’=X+a X '  X +a Me(X’)=Me(X) +a Mo(X’)=Mo(X) +a
X’=bX X'  bX Me(X’)= b Me(X) Mo(X’)= b Mo(X)
X’=a+bX X'  a  bX Me(X’)= a+b Me(X) Mo(X’)= a+b Mo(X)
b. Medidas de dispersión

Transformación Varianza Desviación Coeficiente


estándar Variación
X’=X+a S2X'=S2X SX'=SX CVX '  CVX
X’=bX S2X'=b2 S2X SX'= b SX CVX '  CVX
X’=a+bX S2X'=b2 S2X SX'= b SX CVX '  CVX
Ejemplo 1: Cambio de origen.

Supongamos que en el ejemplo de los retrasos de cercanías se ha producido una incidencia y el tiempo de retraso aumenta
en 15 minutos en todos los trenes. Vamos a calcular el retraso medio, la varianza, la desviación estándar de la nueva
variable (variable original más los 15 minutos de retraso). La nueva variable viene dada por: X’=X+15 y sabemos que la
media y la varianza de la variable original son 8,5 minutos y 12,86 𝑚𝑖𝑛𝑢𝑡𝑜𝑠 2 respectivamente.

a. Nueva media: 𝑋 ′ = 𝑋 + 15 = 8,5 + 15 = 23,5 minutos


2
b. Nueva varianza 𝑆𝑋′ = 𝑆𝑋2 = 12,86𝑚𝑖𝑛𝑢𝑡𝑜𝑠 2 ⇒ 𝑆𝑋′ = 𝑆𝑋

Por tanto, a la varianza y a la desviación estándar NO les afectan los cambios DE ORIGEN.

Ejemplo 2: Cambio de escala.

Ahora supongamos que cada tren incrementa su retraso en un 15% ¿cuál será la nueva media y varianza de los retrasos? La
nueva variable viene dada por: X’=1,15X

a. Nueva media: 𝑋 ′ = 1,15𝑋 = 1,15(8,5) = 9,78 minutos


2
b. Nueva varianza: 𝑆𝑋′ = 𝑏2 𝑆𝑋2 = (1,15)2 12,86𝑚𝑖𝑛𝑢𝑡𝑜𝑠 2 = 17,01𝑚𝑖𝑛𝑢𝑡𝑜𝑠 2 ⇒ 𝑆𝑋 ′ = 17,01 = 4,12minutos

Por tanto, a la varianza y a la desviación estándar SI les afectan los cambios de ESCALA.
Ejemplo 3: Cambio de origen y de escala.

Una nueva mejora en el sistema de tránsito de los trenes permite reducir en 5 minutos el retraso de todos los trenes y un 10%
el retraso de cada uno de ellos. La nueva variable que recoge el nuevo retraso de cada tren viene dada por: X’=0,90X-5

a. Nueva media: 𝑋 ′ = 𝑏𝑋 − 𝑎 = 0,90 8,5 − 5 = 2,65 minutos


2
b. Nueva varianza: 𝑆𝑋′ = 𝑏2 𝑆𝑋2 = (0,90)2 12,86𝑚𝑖𝑛𝑢𝑡𝑜𝑠 2 = 10,42𝑚𝑖𝑛𝑢𝑡𝑜𝑠 2 ⇒ 𝑆𝑋 ′ = 10,42 = 3,23minutos

Problema 1. Las máquinas expendedoras de café suministran en promedio 175 cc por taza. Para evitar que se
pierda parte del café suministrado se ajusta la máquina de forma que la cantidad se reduce un 15% y a la
cantidad resultante se le añade 1,25 cc. La media de la nueva cantidad de café suministrada es, respectivamente:

a) 145
b) 165
c) 150
d) 130
Problema 2. Durante la negociación de un convenio colectivo se valoran las tres alternativas siguientes para rebajar las
bonificaciones salariales. Alternativa 1: Reducir un 5% las bonificaciones de todos los trabajadores. Alternativa 2: Restar 50 €
a todas las bonificaciones. Alternativa 3: Reducirlas un 6% y al resultado sumarle 15 €. ¿Cuál de las tres alternativas reduce la
dispersión relativa de la distribución de frecuencias de las bonificaciones?
a) Alternativa 1
b) Alternativa 2
c) Alternativa 3
d) Con la información disponible no se puede saber.

Problema 3. En un edificio con 50 viviendas se ha observado la variable X=”número de plazas de parking por vivienda”
obteniéndose una media de 2,8 y un coeficiente de variación de 0,55. Si los valores de Y=”gasto anual de parking por
vivienda” se calculan a partir de una cantidad fija de 400€ por vivienda más 250 por plaza de parking, es CIERTO que:

a) 𝑌 =1.100 y CV(Y)= 0,287


b) 𝑌 =1370 y CV(Y)=0,35
c) 𝑌 =1370 y CV(Y)= 0,287
d) 𝑌 =1.100 y CV(Y)= 0,35
 Estandarización

Es un caso particular de cambio de origen y escala. El valor estandarizado, Zi, indican el número de desviaciones estándar
que el valor particular Xi está por encima (si Z es positivo) o por debajo (si Z es negativo) de la media .

𝑋𝑖 − 𝑋
𝑍𝑖 =
𝑆𝑥
Los valores estandarizados son puntuaciones adimensionales que permiten efectuar comparaciones en términos relativos
de la posición de un elemento o de un valor en dos o más distribuciones.

Propiedades:

• Su media aritmética es cero: =0


• Su desviación estándar es uno: SZ=1
• Es una variable sin unidades de medida (adimensional)
Problema 1. Un atleta que se entrena para diferentes pruebas de salto está considerando dedicarse a una única disciplina.
Sus mejores marcas han sido: en salto de Longitud 7,234 metros, en Triple salto 14,865 y en salto de Altura 1,951. Las marcas
conseguidas por los atletas del centro donde entrena se han resumido con las siguientes medidas estadísticas:

0.25
0.2
0,15

En base a esta información, ¿qué disciplina debería elegir este atleta?


a) Longitud b) Triple salto c) Altura d) Longitud o Altura

Problema 2.En los cuatro talleres de la empresa DENDREX (1, 2, 3 y 4) se ha observado la variable X=”Número diario de
unidades producidas” en una muestra de 30 días elegidos al azar, obteniendo los siguientes resultados:

Si un día se han fabricado 2712, 2650, 2748 y 2882 en los talleres 1, 2, 3 y 4, respectivamente, ¿qué taller presenta mejor
posición relativa este día?
a) X1; b) X2 ; c) X3 ; d) X4
Problema 3. La siguiente tabla recoge el número de empresas, los beneficios medios durante 2016, en miles de euros, y la
varianza de las empresas que una multinacional posee en 3 continentes:
Nº empresas Beneficio medio Varianza
Europa 150 350 2025
-0,09
América 30 400 4900
Asia 20 250 676

El mayor beneficio de 2016 (en miles de euros), ha correspondido en Europa a una empresa con 380, en América a una
empresa con 420 y en Asia a una empresa con 262. ¿Qué empresa ha obtenido mayores beneficios en términos relativos?
a) La de Asia
b) La de América
c) La de Europa
d) Las de Asia y América presentan la misma posición relativa

You might also like