Download as pdf or txt
Download as pdf or txt
You are on page 1of 7

Departamento de

UniversidadeVigo Estatı́stica e IO Estatı́stica. Curso 2016-2017 1

Boletı́n 1. Estatı́stica descritiva e regresión

Exercicio 1 Nun estudo de control de calidade para mellorar unha liña de produción medı́ronse os pesos (en
g) de 15 lotes de deterxente. Os resultados son os seguintes:
499 501 501 482 499 512 501 495 496 499 489 506 502 486 507

a) Calcula a media mostral e a mediana mostral. Compara os seus valores.


b) Calcula a desviación tı́pica mostral e o rango.
c) Os lotes cun peso inferior a 490 g non poden ser postos á venta. A partir dos datos anteriores, ¿cal será
a porcentaxe estimada de lotes que non chegan aos 490 g?

Exercicio 2 A corrosión do aceiro de reforzo é un problema grave nas estruturas de cemento situadas en lugares
expostos a condicións metereolóxicas severas. Por esta razón, un grupo de enxeñeiros están investigando o uso
de barras de reforzo feitas cun material composto con fibra de vidro. Para analizar as ventaxas deste produto,
recolléronse as 48 observacións sobre a resistencia da mistura que figuran no ficheiro corrosion1 .

a) Resume estes datos nunha táboa de frecuencias.


b) Realiza un gráfico axeitado para estes datos.

c) Calcula a media mostral e a mediana mostral destes datos. ¿Que medida resumo resulta máis axeitada
neste caso? ¿Por que?
d) Calcula os cuartı́s mostrais dos datos anteriores. Interpreta os resultados.

Exercicio 3 As compañı́as enerxérticas recompilan información sobre o consumo dos seus aboados para realizar
boas predicións da demanda. No ficheiro consumo-gas recóllense os datos da variable “consumo axustado” de
90 fogares ao longo dun determinado periodo. O consumo axustado defı́nese da seguinte maneira:
consumo
consumo axustado =
(temperatura media diaria)(superficie da casa)

a) Resume estes datos nunha táboa de frecuencias e nun histograma.


b) ¿Que porcentaxe de fogares presenta un consumo axustado maior de 10?

c) ¿A partir de que consumo axustado se sitúan o 25% dos fogares con maior consumo? ¿Ata que valor do
consumo axustado se sitúan o 5% dos fogares que menos consumen?
d) ¿Con que medida de posición resumirı́as estes datos? ¿Por que?

Exercicio 4 A concentración de sólidos en suspensión na auga dos rı́os é unha caracterı́stica medioambiental
relevante. Os datos do ficheiro auga foron publicados nun artigo sobre a calidade da auga de regadı́o agrı́cola
nunha determinada zona. As medidas están dadas en partes por millón (ppm).

a) Realizar unha táboa de frecuencias para resumir estes datos. Realizar un gráfico axeitado para resumir
estes datos.

b) ¿Que porcentaxe de observacións presenta unha concentración por debaixo de 50 ppm? ¿E por debaixo
de 60?
c) ¿A partir de que valor de concentración se sitúan o 25% das observacións con maiores valores? ¿E o 10%?
d) ¿Con que medida de posición resumirı́as estes datos? ¿Por que?

1 Algúns exercicios deste boletı́n fan referencia a conxuntos de datos que se atopan no documento Excel “datos-boletin1.xlsx.”
Departamento de
UniversidadeVigo Estatı́stica e IO Estatı́stica. Curso 2016-2017 2

Exercicio 5 Relaciona de forma razoada cada histograma co diagrama de caixas que representa o mesmo
conxunto de datos.

(a) (b) (c) (d)

(1) (2) (3) (4)

Exercicio 6 Unha empresa envasa un produto en latas de tres tamaños. Para cada tamaño emprégase
unha liña de produción distinta. Aı́nda que a meirande parte das latas cumpre as especificacións requeridas,
inevitablemente ocorren fallos no proceso de fabricación que provocan que algunhas latas sexan defectuosas. O
enxeñeiro encargado do control de calidade identificou os seguintes defectos: (a) malformación na lata; (b) rotura
da lata; (c) colocación incorrecta do tirador de apertura; (d) falta do tirador de apertura; (e) outras causas.
En cada unha das liñas de produción seleccionouse unha mostra de latas que non cumpren as especificacións
requeridas. As observacións foron clasificadas segundo a seguinte táboa de frecuencias absolutas de dobre
entrada, en función da liña de produción e do tipo de fallo:
Tipo de fallo
(a) (b) (c) (d) (e) total
Liña de 1 34 65 17 21 13 150
produción 2 23 52 25 19 6 125
3 32 28 16 14 10 100
total 89 145 58 54 29 375

a) Do total de latas analizadas, ¿cal é a porcentaxe de latas que non foron válidas debido ao fallo (c)? Tendo
en conta unicamente as latas fabricadas na liña 2, ¿cal é a porcentaxe de latas non válidas pola causa (c)?
¿Son similares estas frecuencias relativas?
b) ¿En que liña se produciron máis fallos de tipo (e) en termos absolutos? ¿E en termos relativos?
c) Calcula as táboa de frecuencias relativas asociadas á liña de produción 1.
d) Calcula a táboa de frecuencias relativas asociadas ao fallo de tipo (d).

Exercicio 7 Cada un dos gráficos correspóndese cunha das caracterı́sticas descritas máis abaixo. Relaciónaos,
e razoa a resposta.
Departamento de
UniversidadeVigo Estatı́stica e IO Estatı́stica. Curso 2016-2017 3

30
Gráfico 1 Gráfico 2 Gráfico 3

30

30
● ●



● ● ●
25

25

25
● ● ● ● ●
● ●

● ● ●●
● ● ● ●
● ●
● ● ●
● ●
● ●
● ●
20

20

20
● ● ●
y

y
● ●
● ● ● ● ● ● ●
● ● ● ●

● ● ●

● ● ●
● ● ● ●
● ● ●
● ● ● ●●
● ● ● ● ●
● ●
15

15

15
● ●
● ● ● ●● ● ● ● ●
● ●
● ●
● ●
● ●
● ● ● ● ● ●

10

10

10

1.0 1.5 2.0 2.5 3.0 1.0 1.5 2.0 2.5 3.0 1.0 1.5 2.0 2.5 3.0

x x x

(a) A recta de regresión de Y sobre X é Y = 6.38X + 6.42, con R2 = 0.87


(b) sxy /s2x = 6.21 e R2 = 0.44
Pn
(c) X̄ = 2.02, Ȳ = 17.72, n1 i=1 Xi Yi = 33.76

Exercicio 8 Deséxase estudar a posible relación entre os gastos en alimentación (Y ) dunha familia e os seus
ingresos globais (X), en miles de euros, a través dunha recta do tipo Y = α0 + α1 X. Para isto tomáronse datos
de n = 62 familias obténdose os seguintes resultados
62 62 62 62 62
X X X X 1 X
Xi = 91.11, Xi2 = 195.71, Yi = 24.47, Yi2 = 12.25, sxy = (Xi − X̄)(Yi − Ȳ ) = 0.19
i=1 i=1 i=1 i=1
62 i=1

Calcula a recta de regresión da variable Gasto (Y ) fronte á variable Ingreso (X) e dá a correspondente medida
de bondade de axustamento. ¿Que gasto se espera para unha familia que ingresa 1800 euros?

Exercicio 9 O peso do barro empregado nos ladrillos ten implicacións no deseño estrutural, acústico e térmico
dos edificios. A través dun estudo obtivéronse datos sobre a argamasa empregada na fabricación de ladrillos.
As variables observadas son X =“contido en aire” (en %) e Y =“densidade en seco” (en g/cm3 ). Os datos son
os seguintes (tamén están dispoñibles na folla de cálculo ladrillos):

X 5.7 6.8 9.6 10.0 10.7 12.6 14.4 15.0 15.3 16.2 17.8 18.7 19.7 20.6 25.0
Y 2.10 2.14 2.09 2.19 1.98 2.01 1.98 2.03 1.97 1.89 1.92 1.90 1.96 1.88 1.85

a) Contrúe un gráfico de dispersión destes datos para comprobar a posible relación entre as variables. ¿Dirı́as
que existe unha relación linear forte entre X e Y ? ¿Por que? ¿Cal é a caracterı́stica principal desa posible
dependencia? Calcula o coeficiente de correlación mostral entre X e Y .
b) Calcula a recta de regresión de Y sobre X, e avalı́a a súa bondade de axuste a través do coeficiente de
determinación.
c) Realiza predicións dos valores da variable Y para os valores 5, 10, 15, 20, e 25 da variable X.

Exercicio 10 As variables bidimensionais aparecen con frecuencia cando se empregan dúas técnicas diferentes
para medir a mesma cantidade. Como exemplo, na folla de cálculo hidróxeno temos datos de observacións de
dúas variables: X =“concentración de hidróxeno (ppm2 ) empregando un método de cromatografı́a gaseosa” e
Y =“concentración de hidróxeno empregando un novo método”.

a) Contrúe un gráfico de dispersión destes datos para comprobar a posible relación entre as variables. ¿Dirı́as
que existe unha relación linear forte entre X e Y ? ¿Por que? Calcula o coeficiente de correlación mostral
entre X e Y .
b) Calcula a recta de regresión de Y sobre X, e avalı́a a súa bondade de axuste a través do coeficiente de
determinación.
c) ¿Dirı́as que os dous métodos están medindo aproximadamente as mesmas cantidades? ¿Por que?
2 ppm = partes por millón
Departamento de
UniversidadeVigo Estatı́stica e IO Estatı́stica. Curso 2016-2017 4

Exercicio 11 Defı́nese a eficacia dun especime de aceiro sumerxido nun tanque cunha solución de fosfatos
como o peso da cobertura de fosfato dividido pola perda de metal. Un estudo cientı́fico proporciona os datos
que aparecen na folla de cálculo aceiro. As variables son a temperatura do tanque (“temperatura”, en graos
Fahrenheit) e a eficacia do especime de aceiro (“eficacia”).

a) Realiza unha breve análise descritiva das variables “temperatura” e “eficacia”.

b) ¿Está o valor da variable “eficacia” completamente determinado pola temperatura do tanque? Explica a
túa resposta.
c) Constrúe un gráfico de dispersión deste conxunto de datos. ¿Paréceche que a eficacia do aceiro pode ser
predicida de xeito preciso a partir do valor da temperatura? ¿Por que?
d) Calcula a recta de regresión da variable “eficacia” sobre a variable “temperatura”. Calcula o coeficiente
de determinación.
e) Segundo a recta de regresión, ¿que valores da eficacia do aceiro se esperan para valores da temperatura
170, 175, 180 e 185?

Exercicio 12 Unha folla de datos Excel contén información sobre as variables


X=“consumo de combustible” (en litros por 100 km) e Y =“emisión de CO2 ”
(en g por km percorrido) de 50 coches. A modo ilustrativo, na táboa da dereita
aparecen algúns dos datos segundo a disposición que terı́an nunha folla Excel.

a) ¿Que tipo de variable é a variable X? ¿Con que tipo de gráfico a resu- A B


mirı́as? ¿Por que? Explica brevemente como se constrúe este gráfico. 1 X Y
b) Se se pretende estudar a posible relación de dependencia que poderı́a 2 5.3 141
existir entre as variables X e Y , ¿que tipo de gráfico empregarı́as? ¿Como 3 4.9 128
se constrúe? 4 6.8 179
5 5.9 152
c) Facendo uso das funcións de Excel calculáronse as seguintes medidas re- 6 7.2 179
sumo das variables X e Y : ··· ··· ···
- número de observacións: 50 47 5.0 142
- media mostral de X: 6.05 48 5.5 134
- media mostral de Y : 153.6 49 5.1 127
- varianza mostral de X: 0.7837 50 6.1 149
- varianza mostral de Y : 480.7600 51 7.2 190
- covarianza mostral entre X e Y : 18.7040
Tendo en conta esta información, calcula a recta de regresión que explica
o comportamento da variable Y en función da variable X.
d) Segundo a recta de regresión calculada no apartado anterior, ¿que canti-
dade de emisión de CO2 se prevé para un coche cun consumo de 6 litros
por cada 100 km?

Exercicio 13 Unha folla de datos Excel contén información sobre 30 pisos de Vigo. As variables consideradas
son: superficie = “superficie do piso”(en m2 ) e prezo = “prezo do aluguer mensual” (en euros). A seguinte
figura amosa a folla Excel cos datos e algunhas medidas descritivas e gráficos. As medidas descritivas foron
calculadas coas seguintes fórmulas de Excel:

(1) =PROMEDIO(A2:A31) (4) =MEDIANA(B2:B31) (7) =COVAR(A2:A31;B2:B31)


(2) =PROMEDIO(B2:B31) (5) =VARP(A2:A31)
(3) =MEDIANA(A2:A31) (6) =VARP(B2:B31) (8) =COEF.DE.CORREL(A2:A31;B2:B31)
Departamento de
UniversidadeVigo Estatı́stica e IO Estatı́stica. Curso 2016-2017 5

a) Se se desexase estudar a posible asimetrı́a da distribución da variable “prezo”, ¿que gráfico serı́a axeitado,
o gráfico A ou o gráfico B? ¿Como se chama este gráfico?
b) ¿Cal é a porcentaxe de pisos que teñen un aluguer de 600 euros ou menos?

c) ¿Cal é a recta de regresión que explica o comportamento da variable “prezo” en función da variable
“superficie”? ¿Como se interpreta a pendente a recta de regresión neste caso?
d) Calcula unha medida da bondade do axuste do modelo de regresión anterior. ¿Como se interpreta o seu
valor?
e) Segundo o modelo de regresión anterior, ¿cal é o prezo medio do aluguer dun piso de 65 m2 ?

Exercicio 14 En varios modelos de coches, observáronse os datos correspondentes á potencia do motor en CV


(X), e a aceleración en número de segundos necesarios para acelerar de 0 a 100 km/h (Y ). A seguinte táboa
recolle os valores obtidos:
X 50 75 90 100 120 150
Y 15 12 10.5 10 9 8

a) Estima, mediante o modelo de regresión lineal simple, os coeficientes da recta de regresión que explica a
aceleración en función da potencia do motor.
b) Interpreta con detalle os coeficientes obtidos no apartado anterior.
c) Calcula o coeficiente de correlación lineal e unha medida da bondade de axuste. Interprétaos.

d) ¿Cal será a aceleración estimada dun coche de 130 CV?


Departamento de
UniversidadeVigo Estatı́stica e IO Estatı́stica. Curso 2016-2017 6

NOTA: varianza mostral de X: 1014.583; varianza mostral de Y : 5.146; covarianza mostral entre X e Y :
−68.958.

Exercicio 15 Deséxase determinar a lonxitude Y (en cm) que alcanza un tipo de resorte cando del se suspende
un peso X (en kg). Para isto, experiméntase cunha mostra de n = 40 pesos diferentes que teñen media mostral
30 kg desviación tı́pica mostral 9 kg, obténdose unha media mostral das lonxitudes que alcanza o resorte de 16
cm e unha desviación tı́pica mostral de 2 cm. Ası́ mesmo, entre pesada e pesada mı́dese a lonxitude do resorte
sen ningún peso, obténdose unha media de â = 10 cm. Pı́dese:

a) Estimar unha recta de regresión por mı́nimos cadrados que modelice a lonxitude do resorte en función do
peso suspendido.
b) Obter unha medida de bondade do axuste para o modelo lineal estimado e interpretala.
c) Determinar a variación media na lonxitude do resorte por cada kilogramo adicional que se suspende do
mesmo.
d) Estimar a lonxitude media que terá o resorte se se suspende do mesmo un peso de 60 kg.

Exercicio 16 A partir dun estudo do Instituto Nacional de Estatı́stica obtı́vose a seguinte información resumida
do relativa a 8 comunidades autónomas españolas para as variables Y =“consumo de auga (en litros por
habitante e dı́a)” e X =“prezo do m3 de auga (en céntimos de euro)”:
P8 P8 P8 2
P8 2
P8
i=1 Xi = 680; i=1 Yi = 1275; i=1 Xi = 72796; i=1 Yi = 209221; i=1 Xi Yi = 99828

En base aos datos anteriores:

a) Estima, mediante o modelo de regresión lineal simple, os coeficientes da recta de regresión que explica o
consumo da auga en función do seu prezo.
b) Interpreta con detalle os coeficientes obtidos no apartado anterior. Existe relación entre o consumo de
agua e o prezo? De que tipo?
c) Calcula unha medida de bondade de axuste para o modelo de regresión e interprétaa.
d) Cal será o consumo estimado de auga nunha comunidade na que se establece un prezo de 50 céntimos de
euro por cada m3 ?

Exercicio 17 Ás veces, ao realizar o gráfico de dispersión dun par de variables comprobamos que a relación
entre elas non é linear, senón dalgún outro tipo. Nalgunhas situacións, o problema pode resolverse case coma
se se tratara dunha recta de regresión sen máis que facer unha transformación nos datos.
O ficheiro de datos oxidos contén 20 observacións do par de variables “cantidade de óxido de cromo (en
porcentaxe molar)”, X, e o “coeficiente de actividade”, Y .

a) Realiza un gráfico de dispersión destes datos. ¿Revela este gráfico unha relación clara entre as dúas
variables? ¿É esta relación de tipo linear?
b) Calcula a recta de regresión de Y sobre X e obtén o coeficiente de determinación.

Parece que a recta de regresión non é un bo modelo para explicar a relación entre X e Y . Máis ben poderiamos
pensar unha relación do tipo
Y = a exp{bX} (1)
Se na ecuación anterior calculamos logaritmos a ambos os dous lados, entón obteremos a relación

log(Y ) = log(a) + bX,

é dicir, temos unha relación linear entre X e a variable transformada T = log(Y ). Entón, para comprobar se o
modelo (1) é axeitado para os nosos datos simplemente temos que facer o gráfico de dispersión do par (X, T ) e
comprobar se a relación entre estas variables transformadas é linear.

c) Calcula unha nova variable, T , que conteña os logaritmos dos valores da variable Y (emprega a función
de Excel =LN()). Realiza o gráfico de dispersión desta nova variable en relación con X. ¿Temos agora
unha relación linear?
Departamento de
UniversidadeVigo Estatı́stica e IO Estatı́stica. Curso 2016-2017 7

d) Calcula a recta de regresión da variable T en función da variable X e obtén o correspondente coeficiente


de determinación. ¿Mellorou o axuste?
e) Facendo as transformacións necesarias nas fórmulas, obtén predicións da variable Y para valores X =
2, 4, 5, 6, 10.

Este tipo de procedementos englóbanse na regresión non linear. En concreto, o modelo (1) chámase modelo
exponencial. Outras transformacións dos datos, tanto na variable X coma na Y , dan lugar a outros modelos
de regresión non lineares.

You might also like