Download as pdf
Download as pdf
You are on page 1of 6
gp onky UNIVERSIDAD FRANCISCO DE PAULA SANTANDER DEPARTAMENTO DE MATEMATICAS Y ESTADISTICA REGRESION LINEAL Un analisis de Regresién lineal permite determinar si en realidad existe relacién entre dos variables, por ejemplo se puede estudiar las siguientes relaciones; produccién y consumo, ingresos y gastos, peso y estatura, horas trabajadas y accidentes de trabajo, horas de estudio y rendimiento académico, entre otras lineal es: ¥ = bx +e El Modelo matemitico que describe la regres mn de otra variable (x) supuestamente conocida, se le llama también Y; Es la variable que se va a estimar en fir variable dependiente, explicada o predictando. X; es la variable cuyo valor que supuestamente se conoce, se le denomina variable independiente, predictor 0 cexplicativa bj es la pendiente, la que nos determina el angulo de inclinacién de la recta, también se le conoce como coeficiente angular, que nos permite cuantificar la cantidad que aumenta 0 decrece ¥ por cada valor que toma la variable independiente (x) 0 explicativa En la practica la dificultad radica en determinar el criterio que nos sirva para definir el “mejor ajuste”, es decir la mejor linea que representa el conjunto de puntos, para ello el procedimiento mas indicado es el método de los MINIMOS CUADRADOS, es un método por el cual las cantidades a estimar son determinados, minimizando la suma de los cuadrados de las diferencias entre los valores observados (y,) y los valores estimados ¥, Yer=L(yi- Vi)=minimo, donde ¢ es el error que se puede cometer en la estimacion. 1. PROCEDIMIENTO PARA CALCULAR LOS COEFICIENTES DE REGRESION b yc py be BEE EY) 2) be _RE XY AY aL, -TE SAR 3) Ly,- bx, ace Y-bx n EJEMPLO 1: En la realizacin de una investigaci6n por muestreo aleatorio a JO empresas que producen un determinado producto, en cuanto al valor de la produccion (miles de millones $ amvales) y el costo del mismo (miles de millones de $), los resultados fueron los siguientes: Produccion Costo wiles de millones 4) | {mites de millones $) Escaneado con CamScanner “hnllar‘el modelo de Regresi6n Lineal, de estas dos variables: % % % vi %, e=9 [0 [K=O 10 a 400 9 30 NA AB 52,44 18 5 324 2 20. 26 | __ 884 42 2 144 16 a8 36 3384 16. 5 256 25 80 -26 14 D4 22 8 484 64 176 04 024 36 iz 1296 144 432. 44 64.24 30 40 900 400 300, 24 20,64 32. 14 1024 196. AaB 5A 67 Ba Ps 12 676 144 312 4A 24 t a 144 EK 36 46 43,24 214 76 5348 732, 1952 0 325.6 Promedio en X igual a 21,4 Promedio en Y igual a 7,6 Modelo de Regresién Lineal ¥ = bx + ¢ 0,4237x — 1,4672 Conclusién: Se podria decir que una de las finalidades al establecer la funcién que representa adecuadamente el conjunto de pares de observaciones que se han tomado para el anilisis, es el de poder realizar interpolaciones, ya que no es indicado para hacer extrapolaciones. Lo anterior significa, que si se va a predecir o a estimar el valor de Y, se requiere que cl valor de x (variable independiente) deba tomar un valor que se encuentre en el rango de dicha variable y no un valor que sea superior o inferior a los limites que tenga el rango poblacional, Ejemplo 2: {Cual seria el costo estimado en miles de millones de pesos para una fabrica que desea tener una produccién x un valor de 24 miles de millones de $2. ¥ = 0,4237x— 1,4672 P= 0,4237(24) — 1,4672 = 8,7 Escaneado con CamScanner UNIVERSIDAD FRANCISCO DE PAULA SANTANDER UNIDAD 1. REGRESION LINEAL 1. VARIANZA RESIDUAL. También se le conoce con el nombre de varianza no explicada o la suma de los cuadrados del error, permite calcular el grado de variacién 0 de dispersion que presenta el conjunto w observaciones que no quedaron explicadas por la recta de regresién, en otras palabras la dispersion de aquellos valores que no quedan dentro de la recta establecida para el conjunto de observaciones. La varianza residual se define como la media aritmética del cuadrado de las diferencias entre los valores observados y los valores esti 2. ERROR ESTANDAR DE ESTIMACION, Es una estimacién de la variacién que probablemente acompafiard a las predicciones realizadas por medio de la ecuacién de regresién, Se define como la raiz cuadrada de la varianza residual Sx= S4yx 3. INTERVALO DE PREDICCION O DE ESTIMACION. También se le conoce como limites de confianza para un valor estimado (¥), consiste en establecer dos puntos pani el estimador, dentro del cual debe estar contenido el parimetro 0 valor estadistico de Ia poblacién. Se consideran dos formas de calcular estos intervalos, segiin se vaya a estimar: {@)_Un valor de a Variable. Cuando la variable independiente (X) se le da un valor que debe,estar dentro del recorrido de la variable poblacional, y se desea estimar la variable dependiente (¥), la formula que se debe aplicar en este caso es: Escaneado con CamScanner EJERCICIO: Suponiendo que se quiere establecer los limites de confianza del 95%, en el ejercicio en el que se desea estimar cual debe ser el costo en funcién de la produccién, cuando x=24(valores dados en miles de millones de pesos), para las 10 empresas seleccionadas en la muestra. ©) Un Valor Promedio. Cuando el valor de x se establece como promedio, se utilizara la siguiente formula. 4, VARIANZA EXPLICADA. (VE) Simbolizada por $*y, La varianza explicada es una medida que nos permite calcular el grado de dispersién de aquellos valores que quedaron explicados por la recta de regresién, es decir, la dispersién de aquellos puntos en la grifica que se confunden con los puntos de la recta o valores estimados. Se define como la media aritmética, de los cuadrados de las diferencias entre los valores estimados y la media aritmética de esa variable. Su formula es: 5. VARIANZA TOTAL. Es igual a la suma de la Varianza residual més la varianza explicada: VT = VR+ VE, entonces VE = VT - VR La interpretacion que se les da a la Varianza total, Residual y Explicada es : La primera determina la dispersién de todos los puntos o pares de observaciones representados en la grifica o diagrama de dispersion; la residual ser reduce a determinar la dispersién en los puntos o pares de observaciones que no quedan sobre la linea de regresién, elaborada con los valores estimados y la varianza explicada solo toma en cuenta, los puntos u observaciones que quedan ubicados sobre la recta de regresién. | VT = Varianza Total VR = Varlanza Residual ‘VE=Varlanza Explicada Escaneado con CamScanner TABLA II DISTRIBUCION “t” DE STUDENT Le primera columna sanala ol némaro de grtdos de ibertad (US. El encabezade de Is ot ° 020 010 005 002 001 0005 0002 0001 1 3.078 6.314 12.706 91.83 127321 316.309 626.619 2 1906 2920 4303 6966 (gg 22327 31599 3 1638 2382 3.182 4541 Sea 7.453 10.215 12924 ‘ 4533 2192 2776 3.747 460d S598 7.173 8.610 6 1476 2018 2571 3265 4032 4.773 5992 6.869 6 N4ao 1949 2447 3.143 3.707 4317 5208 5.959 7 1415 1895 2365 2998 3409 4.079 4705 5.408 8 1397 1860 2308 2096 3.365 3893 4501 5.081 9 yaaa 1929 2262 2821 3260 2690 4207 4.70 10 1372 1812 2228 2.764 3.1609 3se1 4t4a 4587 u 1.263 1.796 2.201 2.718 3.4105 9497 4.025 4437 2 1356 1782 2179 2601 3055 3428 3.900 4.318 3 1350 41771 2460 2650 3012 3372 3052 4221 4 V761 2148 2624 2977 3326 3787 4.140 8 1753 2131 2602 2987 3.286 3.733 4073 16 1337 1,746 2170 2583 2971 3252 3.686 4015, 7 1392 1740 2.10 2567 2099 9222 3.616 3965, 18 1320 172 2401 2582 2878 3197 3610 3922 19 1328 1729 2003 7539 28651 3178 3578 7 1325 1725 2006 7528 2885 3:53 3.552 2 1373 1721 2080 2518 2821 3135 3527 2 432) 1717 2074 2508 2819 3.119 3.508 2 4319 1714 2069 2500 2807 3108 3.495 2 1318 1711 2068 2492 2797 3001 3.467 3 1316 1708 2.00 2.485 2787 3078 3.450 6 1318 1708 2056 7479 2779 3.067 3.435 27 1304 1702 2052 2473 2771 3057 3.428 28 1313 1701 2008 2467 2763 3047 3.408 2 1311 1699 2005 2462 2758 3028 3.396 30 1310 1697 2082 2487 2750 3030 3.385 x 1309 1696 2000 2453 2784 3072 3.75 2 1209 1694 2037 2449 2700 3.015 2.265 2 4208 1692 2035 2445 2733 3.008 ry 1307 1691 2032 2441 2728 3002 8 1306 1690 2.090 2438 2724 2996 26 1306 1688 2078 2436 2719 2.990 ” 1305 1687 2026 2431 2715 2085 3 4300 686 2024 2429 2712 2.980 29 va06 1586 2023 2476 2708 2576 40 1303 168 2021 24732708 2971 2 1a0z 1602 2018 2418 2690 2903 “ 1301 1690 2018 2414 2692 2.956 . 46 1300 1679 20139 7410 2687 2.989 “|e 1209 1677 2011 2407 2632 2983 50 0873 1299 1676 2009 2403 2678 2937 52 0679 1.298 1675 2007 2400 26™ 2.932 340679 1297 1.674 2.005 2397 2070 2927 86 0679 1.297 1.673 2.003 2309 2.607 2923 68 0679 1.296 1.672 2002 2202 2003 7010 6 0679 1206 1.671 2000 2390 2.600 2915 62 0678 1.205 1670 1900 2200 2.687 2011 6 = 0878 1.205 1.609 1900 2.306 2.095 2.000 8 ©0670 1295 1.600 1.007 2.204 2.052 2.008 |x 067 1204 1.608 1.008 2.202 2.050 2.002 70 ©0670 1.294 1.007 1.008 2.201 2.00 2.000 . 72 067 1.203 1.600 1.009 2.70 2.040 2000 74 087% 1.203 11606 1.909 2370 2.008 2u04 7% 0678 1203 1606 1.902 2.976 2001 7 067 1202 1608 1.001 2.376 2.000 2 ©0678 1292 1664 1.000 2.374 2.007 99 ©0077 4201 1.602 1.007 2.300, 20m hoo = 0.677 1200 1.090 1.908 2.06 20 20 ©0677 1.200 1.069 1.900 2.360 2.860 40 0676 1203 105 1.077 2.388 2.062 hs0 076 1207 1654 1.978 2.380 2006 . leo ‘0.676 1.206 683 1.973 2.347 2009 2.082 000.876 1206 1.082 1972 2345 2601 2.890 = (0.6745 1.2016 16449 1.9600 23269 2.6759 2.070 [cee Cea eee Escaneado con CamScanner UNIVERSIDAD FRANCISCO DE PAULA SANTANDER DEPARTAMENTO DE MATEMATICAS Y ESTADISTICA COEFICIENTE DE CORRELACION O DE PEARSON (R)=r El Coeficicnte de correlacién es una medida de interdependencia de dos variables aleatorias, en primer lugar nos referimos al calculo del COEFICIENTE DE CORRELACION AL CUADRADO denominado también como COEFICIENTE DE DETERMINACION, simbolizado por R? Las formulas para el cilculo de este coeficiente son variadas, obteniéndose un resultado igual por cualquiera de los métodos que se utilice. Re sis Donde VE ¢s la varianza explicada y VT es la varianza total El COEFICIENTE DE CORRELACION AL CUADRADO debe ser un valor tal, que cumpla con Ia siguiente condicién Os_R®< 1. Cuando el R® es igual a 1, decimos que hay una correlacién perfecta, ya que los valores observados son exactamente iguales 2 los estimados.en otras palabras, los puntos en una grafica (nube de puntos) se confunden con los de la recta; se dice en este caso que la Varianza explicada (Say) es igual ala Varianza total (S*y). A medida que el Coeficiente de Correlacién al cuadrado disminuye, se aleja de uno, se dice también, que la recta representa cada ver menos a ese ‘conjunto de observaciones. Se_concluye entonces que El COEFICIENTE DE CORRELACION AL CUADRADO O COEFICIENTE DE DETERMINACION mide la proporcién de la varianza que queda explicada por la ecuacién de regresién, que describe 1a relacién establecida entre las dos variables, Se podria decir, que indica el porcentaje de las variaciones de la variable ependiente atribuible ala influencia de la variable independiente. En segundo lugar nos referimos al célculo del COEFICIENTE DE CORRELACION, simbolizado por (R), se define como {a raiz cuadrada del Coeficiente de detrminacién y debe ser un valor comprendido entre -1 y 1 por lo tanto se dira: sIZRS1, CLASIFICACION DEL GRADO DE CORRELACION: * CORRELACION PERFECTA; cuando r= 1 * CORRELACION EXCELENTE, cuando r es mayor de 0,90y menorde 1 (-1

You might also like