Download as pdf
Download as pdf
You are on page 1of 332
ELEMENTOS DE MUESTREO Sc as a SCHEAFFER MENDENHALL Ott Grupo Editorial Iberoamérica Ge TEMES Fe ELEMENTOS DE MUESTREO RICHARD L. SCHEAFFER University of Florida WILLIAM MENDENHALL LYMAN OTT Merrell Research Center Traductores: Dr. GILBERTO RENDON SANCHEZ Dr. JOSE ROBERTO GOMEZ AGUILAR Colegio de Postgraduados Centro de Estadistica y Calculo - Seccién de Muestreo Chapingo, México Revisor Técnico y Consultor Editorial: M. en C. SERGIO VARGAS GALINDO Instituto Tecnolégico Auténomo de México (ITAM) - México Grupo Editorial Iberoamérica Rio Alora 32+ ofgo Masia, DE ~ Tarra B ELBVENTOS DE MUESTRED \Versicn en espafol de la obra Elementary Suroey Sampling - Third Baliion, por Richard L. Scheaffer, Willian Mendenhall & Lyman Ow Edicién original en inglés publicada por PWS Publisher, ‘Copyright ©1986, en Estados Unidos de América, ISBN 0-87180-943-1 D. R. ©1987 por Grupo FuitorialIberoamériea, S.A. de CV. y/o ‘Wadsworth Internacional/Iberoaméries, Helmont, California 94002, inguna parte de este libro puede ser reproducida, archivada o transmitida en forma alguna © mediante alyin sistema, ya sea electrOnico, meefnico, de fotorreproduecién, de ulmacenamiento en memoria o cualquier otro, sinel previo yexpreso permiso por escritode Grupo Editorial Mheroamética y/o Wadsworth Interacionsl/Mberoamérics, division de Wadsworth, Ine ISBN 968-7210-20-9 Impresoen México Eton: Nicolts OrepeP. Productor: Oovalde Oris Re Cubierta: Bie Kaiser Pinture de bs cubieria: "Vstatin"® por Michal Lasuchin, D.R. Reproducida con ausornacin del artista. Grupo Editorial Tberoamérica, S.A. de C.V. Rfo Atoyac No. 32 - Col. Cuauhtémoe - 06500 México, DF, Apdo, 5-192 - Tels. 2113128, 5530798 Reg. CNIEM 1382 PROLOGO La obra Klementos de Muestreo es un texto introductorio sobre el disefio y an deencuestas por muestreo, dirigidoa estudiantes de administracién, cienciassocialesy ciencias biolégicas. El nico requisito es haber tomado un curso elemental de estadistica. La gran cantidad de ejemplos, con soluciones, lo hace también adecuado para usarse como un texto adicional para cursos de mayor nivel. Ya que el texto esta dirigido a estudiantes con limitada preparacién en matem: ticas, se hace hincapié en los aspectos practicos de los problemas de las encuestas. Cada capitulo presenta un disefio de muestreo de encuestas 0 un método viable de esti- macién, mediante la descripeién de un problema practico pertinente, y luego explica Ia de la metodologia propuesta. Esta introduceién va seguida de un pro- cedimiento de estimacién apropiado y de una presentaci6n resumida de las formulas, para luego resolver un problema prictico. La naturaleza de este texto no es en su tota- lidad un recetario de cocina. Se presentan explicacionesque apelan a la intuicién de Jos estudiantes para justificar muchas de las férmulas y para fundamentar la eleccién de un disefio de muestreo particular. Se han seleccionado ejemplos y ejetcicios de muchos campos de aplicacién. Las respuestas, dadas para algunos ejercicios selecciona- dos, pueden estar sujetas a pequefios errores de redondeo debido a la complejidad de algunas de las formulas. Las secciones de " Experiencias con datos reales”, que se encuentran al final de la mayoria de los capitulos, sugieren maneras de cémo puede el estudiante resolver problemas de muestreo reales. Los proyectos de estos problemas pueden ser grandeso pequefios; algunos requieren célculos por computadora. Hemos visto que son expe: riencias de aprendizaje valiosas para estudiantes que toman un curso de muestreo: £1 trabajo en proyectos reales obliga al estudiante a considerartodos los aspectos de laren== Ve convenient PROLOGO cuesta y le motiy: de texto, no son ta El texto incluye una revisi6n de conceptos elementales (Capitulos 1 y 2) y una descripcidn de términos relacionados con muestreo de encuestas, aunado a un andiisis de los diseftos de'cuestionarios y métodos de recoleccién de datos (Capitulo 8), Los Capftulos 4, 5, 7 y8 presentan los cuatro disefios de muestreo de encuestas més comu- hes —es decir, muestreo irrestricto aleatorio, muestreo aleatorio estratificado, muestreo sistematico y muestreo por conglomerados, respectivamente—. El Capitulo 6 presenta la estimacion de razn y de regresi6n. Los capitulos restantes tratan de muestreo por conglomeradosen dos etapas, muestreode poblaciones animales y otros problemas especializados que ocurren en muestreo de encuestas. La tercera edicion de este texto destaca los aspectos pricticos en la realizacionde encuestas por muestreo, con nuevas secciones sobre fuentes de error en las encuestas, wos y sugerencias en la planea- cin de encuestas. Casi todos los capitulos contienen ahora mis ejemplos de eémo los diversos disefios de muestreo son usados en la préetica. Se han incluido en tres capftulos muchas aplicaciones précticas de encuestas que emplean muestreo con pro- babilidades proporcionalesa los tamafios y discusiones de este método. Otros temas nuevos en Ia tercera edicidn incluyen estratificacién después de la seleccién de la muestra, determinacién del tamaito de muestra en muestreo por conglomerados en dos etapas y un estudio mas amplio sobre la estimacién de tamarios de poblacién. Se han afiadido ejercicios nuevos ahora un conjunto de eje del andlisis apropiado. Estos ejercicios pueden servir como una revisiGn de los métodos principales presentados en el libro. Se incluye en el Apéndice gran cantidad de datos reales que sirven de base a muchos ejercicios. Se tiene en preparacién un manual de soluciones. El Apéndice incluye también las deducciones matematicas de muchos de los re- sultados principales del texto. El entendimiento de muchas de estas deducciones requiere un conocimiento a buen nivel de la teorfa elemental de probabilidad. Deseamos expresar nuestrosincero reconocimiento a muchas de las personas que han ayudadoen la preparacién de esta obra. En parti los revisores por su: agradece también al profesor A. Hald por su amable autorizaci6n para usar la tabi de reas de la curva normal que se reproduce en el Apéndice. Estamos también pro- fundamente agradecidos con las mecandgrafas que dedicaron gran parte de su tiempo en la preparacién del original:Judith Donnelley, MaryJuckson, Catherine Kennedy y Shirley Morley. Finalmente, agradecemos a nuestras familias su asistencia y estimulo durante la realizacién de esta obra. percatarse de que ciertosconceptos que parecen simplesen el libro féiciles de Hevar a cabo en la prictica. métodos de recoleccién de datos, disefio de cuestion casi todos los capitulos, y el Capitulo 12 tiene ios que puede requerir ateni cular queremos dar las gracias a atinados comentarios, que fueron de mucha ayuda en esta labor. Se Richard L. Scheaffer William Mendenhall Lyman Ott PROLOGO LA EDICION EN ESPANOL preparadosen la estadistica matemaética, con amplio dominio de los aspectos tedricos y con una gran intuicidn derivada de la préctica y experiencia profesionales. Sin embar- go, la correcta utilizacién de las técnicas del muestreose ha hecho indispensable para los profesionales de | es, la administraci6n, las ciencias biol6gicas y otras en donde cada dia aumenta la necesidad de diversificar y profundizar los estu: dios, y donde el muestreo juega un papel de gran importancia y utilidad por su car & — ter de rapidez y economia. Este libro es un intento afortunado de proporcionar una conexién entre el anali- sis de la informacién estadistica para la toma de decisiones y el problema prictico de Ia obtenci6n de datos, al que necesariamentese enfrenta el estudiante yel investigador en las diversas areas del conocimiento. E! lector quedard convencidode la importancia de la correcta aplic: diferentes técnicas del muestreo probabilistico para obtener los datos necesarios para hacer inferencias estadisticas correctas, es decir, con una validez, cientifica sélida, Los autores presentan las técnicas y los problemas del muestreo con ejemplos y aplicaciones en una gran variedad de disciplinas, lo cual estimula al estudiante y le _—_proporciona una idea clara sobre qué hacer en la vida real para llegar a soluciones Dricticas, econémicas y eficientes. El libro es entonces un valioso complemento de consulta para otros que tratan el muestreocon mayor profundidad y formalidad te6rica La presenta ‘ido, con poca profundidad matemitica, es clara y hace el mayor énfasis en los aspectos pricticos que se deben resolver en las encvestas _ por muestreo. El tratamiento de los temas es gradual; inicia con los conceptos elemen~ = tales, contimia con la presentacién de los diferentes disefios generales del muestrea: el cin de las. j6n del conte viii PROLOGO A LAEDICION ENESPARIOL irrestricto aleatorio, el estratificado, el sistemitico, el de conglomerados, y una buena exposici6n acerca de los estimadoresde razn yde regresion. Otra virtud del libro es la de incluir algunas téenicas desarrolladasrecientemente, como la de respuestaaleatori- zada y la descripciGn de otros disefios relativamentecomplejos. Alfinal presenta un re- sumen que resulta de gran utilidad, pues revisa tanto las técnicas como las estrategias para Ia selecci6n del método adecuado a cada caso. La obra es motivante para el estudiante y para el investigador; invita a dejar a un lado elmauestreo no probabilistico al contar con la opci6n de los diferentes diseiios probabillsticos que producen resultados cuya precisién puede ser medida estadts- ticamente. Grupo Editorial Iberoamérica, al publicar este libro en espaiiol, contribuye ala difusion eficaz del conocimiento del muestreo entre los clentificos sociales y admi- nistradores y, por lo tanto, a la solucién eficiente de muchos problemas que se presen- tan en la vida diaria profesional La publicacién ha sido posible gracias a la dedicaci6n y esfuerzo de los doctores Gilberto Rendon y Roberto Gémez, quienes han hecho un trabajo de traducci6n de excepcional calidad. E! dominio del lenguaje, para la correccién del estilo, a cargo de la maestra Ana Marfa Varela, ha sido definitivo para la presentacién de las ideas de la manera mas clara y comprensible. Para mf ha sido un privilegioy una gran satisfacci6n participar en la producci6n de esta obra Sergio Vargas Galindo Consultor Editorial 21 22 2.8 24 25 2.6 3.1 3.2 3.3 34 3.5 3.6 3.7 3.8 CONTENIDO Prélogo Alestudiante INTRODUCCION REVISION DE CONCEPTOS BASICOS. Introduceién Resumen de la informaciénen poblaciones y muestras Distribucionesde muestreo Covarianzay correlacién Estimacion Resumen Ejercicios ELEMENTOS DEL PROBLEMA DE MUESTRED Introduccién Términostécnicos Cémo seleccionar la muestra: el diseno de la encuesta pormuestreo Fuentes de error en las encuestas Métodos de recoleccidn de datos Disefio de un cuestionario Planeaciénde una encuesta Resumen, Bjercicios xiv wang «a 13 14 16 16 19 19 20 ESSASSER ‘CONTENDO 4 41 42 43 44 45 46 47 5.1 52 53 54 55 5.6 37 5.8 59 5.10 5.11 641 6.2 6.3 6.4 65 6.6 MUESTREO IRRESTRICTO ALEATORIO Introduccién Como seleccionar una muestra irrestricta aleatoria Estimacion de una media y un total poblacionales Seleccién del tamafio de muestra para la estimaci6n de las medias y totales poblacionales Estimaci6n de una proporcién poblacional “Muestreo con probabilidades proporcionales al tamaiio Resumen Ejercicios Experiencias con datos reales MUESTREO ALEATORIO ESTRATIFICADO Introduecién Como seleccionar una muestra aleatoria estratificada Estimacién de una media y un total poblacionales Seleccién del tamafo de muestra para estimar las medias y totales poblacionales Asignacién de la muestra Estimaci6n de una proporeién poblacional Selecci6n del tamaiio de muestra y asignacion de la muestra para asignar proporciones Comentarios adicionales sobre muestreoestratificado Una regla 6ptima para formar losestratos Estratificacion después de seleccionarla muestra Resumen Ejercicios Experienciascon datos reales ESTIMACIONDE RAZON, REGRESION Y DIFERENCIA Introduccion Encuestas que requieren el uso de estimadores de razon Estimacisn de razén usando muestreo irrestricto aleatorio Seleccién del tamaiio de la muestra Cuando usar est inde razén Estimacion de raz6nen muestreo aleatorioestratificado 39 40 42 43 52 55 60 66 67 4 7 78 82 85 88 96 98 108 107 109 mm iz 118 123 124. 125 127 135 143 144 I | 6.7 6.8 6.9 71 7.2 Fa 74 75 7.6 a 8.1 8.2 8.3 8.4 8.5 8.6 8.7 8.8 8.9 a1 9.2 CONTENIDO Estimacionde regresion Estimacién de diferencia Resumen Ejercicios Experienciascon datos reales MUESTREO SISTEMATICO Introduccién C6mo seleccionar una muestra sistematica Estimacion de una media y un total poblacionales EstimaciGnde una proporcién poblacional Seleccién del tamafio de muestra Muestreo sistematicoreplicado Resumen Ejercicios Experienciascon datos reales MUESTREO POR CONGLOMERADOS Tntroducei Como seleccionar una muestra por conglomerados Estimacinde una media y un total poblacionales Seleccion del tamafio de muestra para la estimacién de medias y totales poblacionales Estimaciénde una proporcion poblacional Seleccion del tamafio de muestra para la estimacién de proporciones n Muestreo por conglomeradoscombinado con estratificacion Muestreo por conglomerados con probabilidades proporcionales al tamaiio Resumen Ejercicios Experienciascon datos reales MUESTREO POR CONGLOMERADOS EN DOS: ETAPAS Introduccién Como seleccionar una muestra por conglomeradosen dos etapas, x 147 150 153 155 163 167 168 171 172 178 180 182 186 187 193 195 196 198 200 217 221 229 231 282 a CONTENDO 93 94 95 9.6 9.7 9.8 410 10.1 10.2 10.3 10.4 10.5 10.6 10.7 44 1d 112 11.3 114 115 11.6 12 12.1 12.2 Estimaci6n insesgada de una media y un total poblacionales 234 nde raz6n de una media poblacional 238 Estimacién de una proporcién poblacional 240 Selecci6n de tamafios de muestra 243, Muestreo por conglomerados en dos etapas con probabilidades proporcionales al tamaiio 245 Resumen 248 Ejercicios 249 Experienciascon datos reales 253 ESTIMACION DEL TAMANO DE LA POBLACION 255 Introducci6n 256 Estimacién del tamafio de la poblacién usando muestreo directo 257 Estimacisn del tamajio de la poblacion usando muestreo inverso 259 Seleccién de tamafios de muestra para muestreo directo y para muestreo inverso 260 Estimacién de la densidad y el tamafio de la poblacion usando muestreo por cuadros 264 Estimacién de la densidad y el tamaiio de la poblacién usando cuadros cargados 267 Resumen 269 Ejercicios 270 Experiencias con datos reales 273, TEMAS COMPLEMENTARIOS 275 Introduccién 275 ‘Submuestras interpenetrantes 278 Estimacion de medias y totales en subpoblaciones 278 Modelo de respuesta aleatorizada 282 Seleccion del nimero de reentrevistas 284 Resumen 286 Ejercicios 287 Experienciascon datos reales 289 RESUMEN 294 Resumen de los disefios y métodos 291 Comparaci6n entre los disefios y métodos 298 Ejercicios 294 APENDICE Bibliografia Tablas Deduccién de algunos resultadosimportantes Respuestas seleccionadas INDICE CONTENDS xii 303 303 305 312 318 320 AL ESTUDIANTE Grupo Editorial Iberoamérica en su esfuerzo perma: nente por producir cada vez mejores textos, pone en tus manos esta nueva obra en la que se ha puesto ta mds alta calidad en los aspectos tebrico y didéctico, ast como en di- seito y presentacién, con el objetivo de proporcionarte la mejor herramienta, no sélo para facilitarte el aprendizaje sino también para hacerlo més estimulanie Este, como cualquiera de nuestros libros, ha sido cui- dadosamente seleccionado para que encuentres en él un pi- lar de tu preparacién, y un complemento ideal a la ense fianza del maestro, Lo didactico de la presentacién de sus temas hace que lo consideres el mejor auxiliar, y el que lle: vas a todas partes Lo anterior es parte de nuestro propdsito de ser parti- cipes en una mejor preparacion de profesionales, contribu- yendo asia la urgente necesidad de un mayor desarrollo de nuestros pases hispanohablanies. Sabemos que esta obra serd fundamental en tu biblio teca, y tal vez la mds inmediata y permanente fuente de consulta. Como uno de nuestros intereses principales es hacer mejores libros en equipo con profesores y estudiantes, agra- deceremos tus comentarios y sugerencias 0 cualquier obser vacién que contribuya al enriquecimiento de nuestras pu blicaciones. Grupo Editorial Iberoamérica «+ presente en tu formacién profesional xiv 4 INTRODUCCION Los cursos introductorios enfatizan que Ia estadistica moderna es una teoria de Ta in- formacién con Ia inferencia como su objetivo. El objetivo de nuestra curiosidades un n, que de hecho existe o que puede ser generada conjunto de mediciones, una poblaci por experimentacion repetida, El medio para la inferencia es la muestra, la cual es un subconjunto de mediciones seleccionadas de la poblacién. Deseamos hacer una inte rencia acerca de la poblacién sobre la base de las caracteristicasde la muestra —0, equivalentemente, la informacién contenida en la muestra—. Por ejemplo, supéngase que una cadena de tiendas mantiene un registro de las cuentas de sus clientes, La cantidad que se adeuda a la compafifa va a variar dia a dia, conformese efectien nuevos cargos y se paguen algunas cuentas. Ciertamente, el con. junto de cantidades que se deben a la compafifa en un determinado dia representan una poblacién de mediciones de considerable interés para la gerencia. La caracteristi- ca poblacional de interés es el total de todas las medicionesen la poblacién 0, equiva- lentemente, la carga total de crédito diario. El mantener actualizados los créditos totales diarios asociados con las cuentas, puede ser una tarea simple para una computadora electrénica, Sin embargo, los datos deben ser actualizados diariamente y esta actividad consume tiempo. Un método mas sencillo para determinar la carga total de crédito asociada con ta es mues- trear aleatoriamente la poblacién de cuentas en un determinado dia, estim porte promedioadeudado por cada cuenta y multiplicar por el mimero de cuentas. En otras palabras, empleamos un estimador estadistico para hacer una inferencia acerca del total de la poblacién, La estadistica elemental nos dice que esta estimacién se puede hacer tan exacta como queramos simplemente al incrementar el tamaiio de la hn resultante puede ser acompafiada por un limite para el error ‘apitulo 8) 0 bien expresada como un intervalo de para hacer una inferencia ar el im, muestra, La estima de estimacién (Mendenhall, 1983, cidnen la muestra utili confianza. Entonces la informa acerca de Ia poblacién. La informacién obtenida de las encuestas por muestreo afecta casi todos los as- pectos de nuestra vida cotidiana. Tal informaci6n determina las politicas del gobierno 4 4. INIRODUCCION respecto, por ejemplo, al control de la economia y la promocién de programas so- ciales. Las encuestas de opinign son la base de muchas de las noticias que divulgan los diversos medio noticiosos. El ntimero de personas que ven los programas de television determina euiiles programas serdn presentados en el futuro. Comtinmentese piensa que el Censo de E.U. de Norteaméricaestablece contacto con cada uno de los hogaresen el_pafsRealmente, en el censo de 1980 solamente se hi- cieron 14 preguntas a todos los hogares. La informaciénsobre 42 preguntas adiciona- les fue obtenida tinicamente de una muestra de hogares. La informacién resultante la utiliza el gobierno federal para determinar la asignaci6n de fondos a los estados y ciudades. Esta informaci6n la utiliza el comercio para el prondsticode ventas, manejo de personal, y para determinar los domicilios de futuros establecimientos. La utili Jos planificadores urhanos y regio ira programar el uso de la tierra; ag transporte, y consumo de energfa. Es usada por cientificos sociales para estudiar con- diciones econémicas, balance racial y otros espectos de calidad de la vida. La Oficina de Estadisticasdel Trabajo de F.U.A. realiza rutinariamente mas de 20 encuestas. Algunas de las més conocidas y mis ampliamente utilizadas son las encuestas que establecen los indices de precios al consumidor (IPC). El IPC es una me- dida del cambio del precio en el tiempo de una canasta de mercado fija de bienes y ser- vicios. Es usado como una medida de inflacién y sirve como un indicador econémico las politicas del gobierno, Las empresas tienen tasas de salarios y planes de pei sién basados en el IPC. Los programas federales de salud y bienestar piblicos, como muchos programas estatales y locales, ajustan sus bases de elegibilidad al IPC. Las cléusulas de contratos en rentas e hipotecasestin basadasen el IPC. Asi, podemos ver que este indice, determinado sobre la base de una encuesta por muestreo, desem- pefia un papel importante en nuestra sociedad. Muchas otras encuestas realizadas por la Oficina de Estadisticas del Trabajo (OET) son cruciales para la sociedad, La encuesta de poblacién continua mensual es- tablece informacién bisica sobre la fuerza de trabajo, empleo y desempleo, cuestas sobre gastos del consumidor recolectan datos sobre gastos de la familia en bienes y servicios usados en el consumo diario. La encuesta de establecimientosretine informacién sobre horas trabajadas y percepciones para establecimientosen negocios no agricolas. La encuesta sobre aspectos ocupacionales proporcionainformacién sobre futuras oportunidades de empleo para una diversidad de ocupaciones, proyectadas aproximadamente para los siguientes diez afios. Otras actividades de la OFT se en. cuentran en el Manual de Métodos de la OET (1982). Las encuestas de opinién estén constantemente en las noticias, y los nombres de Gallup y Harris han legado a set muy conocidos por todos. Estas encuestas por muestreo reflejan las actitudes y opiniones de ciudadanos en aspectos que van desde politica y religiGn a deportes y entretenimiento, Las clasificaciones Nielsen determi- nan el éxito o fracaso de programas de TV Los comercios realizan encue: en. por muestreo para sus operaciones interna: ademis de utilizar las encuestasdel gobierno para decisiones administrativas cruciales, Los auditores estiman balances de cuentas y verifican el cumplimiento con reglas de ‘operacin por medio del muestreo de cuentas. El control de calidad de procesos de manufacturarecae fuertemente en las técnicas de muestreo. Un area particular de actividad comercial que depende de actividades de muestreo detalladas es el andlisis de mercados. Las decisionessobre qué productos co- merciar, dénde comerciarlos y c6mo anunciarlos son frecuentemente hechas sobre la 4 INTROCLOCION = 3 base de informacion de encuestas por muestreo. Los datos pueden venir de encuestas efectuadas por la firma que manufactura el producto o pueden ser adquiridos de empresas que realizan encuestas especializadas sobre informacién de mercados. Las actividades de tres de tales empresas son esbozadas a continuacién.. El indice de precios al menudeo de Nielsen es menos conocido que las clas ciones de programas de televisién de Nielsen, pero es muy importante para las empre- sas que comercian con productos para la venta al menudeo. Este indice suministra informacién constante sobre ventas de alimentos, cosméticos, productos farmacéuti- cos, bebidas y muchas otras clases de productos. Puede proporcionar estimaciones de ventas totales para una clase de productos, ventas para los clientes de una marca parti- cular, ventas para una marca competidora, informacién sobre precios al menudeo y mayoreo y el porcentaje de tiendas que venden un determinado producto. Los datos proceden de auditorfas de inventarios y ventas en 1600 tiendas distribuidasen todo Es- tados Unidos cada 60 dias, Selling Areas— Marketing, Iné. (SAMD, retine informaciénsobre el movimiento de productos de almacenes y vendedores al mayoreo. La informacién es obtenida en 86 grandes areas de mercado de televisién, que contienen el 74% de las ventas n: cionales de alimento y comprende 425 categorfas de productos. La Corporacién de Investigacisn de Mercados de América proporciona muchos tipos de informacién de mercado a través del uso de encuestas, pero algunode los re. sultados mis interesantes proviene de su Censo de Mend Nacional. sta encuesta muestrea familias y estudia sus costumbres alimenticiaspor dos semanas. Tantas como cuatro mil familias pueden participar durante un aio. Se obtiene informaciénsobre el niimero de veces que un determinado alimento es servido, cémo es servido, cudntas personas lo comen y muchos otros detalles, incluyendo qué pasa con los sobrantes de comida. Tales detalles son importantes para el desarrollo y publicidad de los productos. Muchos ejemplos interesantes de los usos pricticos de la estadistica en general ¥ del muestreo en particular, pueden consultarse en Statistics: \ Guide t0 the Unknown (véase In Bibliografia en el Apéndice). En este libro usted puede encontrar algunos de los métodos y usos de las encuestas de opinién discutidos en los articulos "Opinion Polling in a Democracy" por George Gallup y "Election Night on Television” por R. F. Link. Quienes se interesen en ecologia silvestre deberfan leer "The Plight of the Whales" por D. G. Chapman. Descubra cémo se manejan en forma econémica tas ventas de boletosentre las Iineas de ferrocarriles y Iineas aéreas, a través de muestreo, con la lectura de "How Accountants Save Money by Sampling”, por John Neter. Ya que el objetivo de la estadistica moderna es la inferencia, usted puede pre guntar qué aspecto particular de la estadis tratard en un eurso sobre disefo de encuestas por muestreo. La respuestaa esta pregunta cubre dos aspectos. Primero, nos abocaremos a la economia de adquirir una cantidad especifica de informaci6n. Mas especificamente, como podemos disefiar procedimientos de muestreo que reduzcan el costo de una cantidad fija de informacién? Aunque los cursos introductoriosen esta- distica reconocen la importancia de esta materia, destacan los conceptos biisicos y cGmo hacer inferenciasen situaciones espeeificas después de que los datos han sido re . La segunda caracterfsticadistintiva de nuestro tema es que esti dirigidoa los tipos particulares de situaciones de muestreo y problemas de inferencia que se en- cuentran més frecuentemente en el comercio, las cienciassociales y la administracién de recursos naturales (madera, vida silvestre y recreacién), mas que en as ciencias fisicas. 4 INTRODUCCION Aun la terminologia de los cientifices sociales difiere de 1a de los cientificos fisicos. Los cientificos sociales realizan encuestas para recolectar una muestra, mientras que los cientificos fisicos llevan a cabo experimentos. Entonces reconocemos, que existen diferencias de un campo a otro de la ciencia en la naturaleza de las pobla. ciones ya manera en que una muestra puede ser extraida. Por ejemplo, poblaciones, de votantes, cuentas financieras, o animales de una especie particular pueden conte- ner tinicamente un pequefio mimero de elementos. En contraste, las poblacionescon: ceptuales de respuestas generadas por la medicién del producto de un proceso quimico son ciertamente muy grandes. (Usted puede recordar que las propiedades de los esti- madoresy pruebas esadisticas tratadas en la mayorfa de los cursos introductoriossupo- nen que la poblacin de interés es grande con respecto a la muestra.) Las limitaciones establecidasen el procedimientode muestreo también varian de un drea de la ciencia a. otra, EL muestreoen las ciencias bioldgicas y fisicas puede ser frecuentemente ejecu- tado bajo condiciones experimentalescontroladas. Tal control es frecuentemente im- posible en las ciencias sociales, comercio y manejo de recursos naturales. Por ejemplo, un investigador en medicina puede comparar el crecimiento de ratas sometidas a dos farmacos diferentes. Para este experimento los pesos iniciales de las ratas yla ingesta diaria de alimento pueden ser controlados para reducir una variaci6n indeseable en el experimento, En contraste, muy pocas variables pueden ser controladas al comparat el efecto de dos diferentes anuncios de televi producto. No es po tudiar el efecto de las condiciones bientales sobre el ntimero de focas en el Océano Pacifico Norte. En resumen, este texto trata de las peculiaridades de muestreo e inferencia co- miinmente encontrados en el comercio, las ciencias sociales y la administraci6n de re cursos naturales. Especificamente, consideraremos métodos para la seleccién de la de una poblaci surjan, Los métodos para diseftar encuestas que toman en cuenta las caracteristicasde 1a poblacién se presentardn junto con los estimadores asociados para reducir el costo de una estimacién con exactitud especificada. El Capitulo 2 revisa algunos de los conceptos basicos tratados en la estadistica elemental, incluyendo el papel fundamental que desempefia la probabilidad al hacer inferencias. FI Capitulo 8 presenta algo de la tenninologia basica del muestreo, ast como una discusién de problemas que aparecen en el di fs por muestreo. El muestreo irrestricto aleatorio, que ya conoce el estudiante novel, es pre- sentado cuidadosamente en el Capitulo 4; el cual incluye procedimientos fisicos para la seleccidn real de la muestra. Los siguientes capitulos abarcan métodos econémicos para seleccionar una muestra y métodos asociados para la estimacién de parémetros poblacionales. Aller este texto, tenga presente que el objetivo primordial de cada capitulo es Ia inferencia. Identifique el procedimiento de muestreo asociado con cada capitulo, los pardmetros poblacionales de interés, sus estimadores y los limites asociados a los errores de estimacién, Desarrolle una comprensién intuitiva y una apreciacién de los beneficios que se derivan de los procedimientos de muestreoespecializados. Ponga atencién en los conceptos generales, y no se desconcierte por las fSrmulas de los esti madores y varianzas que algunas veces son inevitablemente complicadas. En concreto, ponga atencidn en el bosque mas que en los atboles, Resuelva algunos ejercicins y los, detalles tomaran su lugar respectivo. ‘i6n sobre ventas para un determinado 1m. bles ningtin control al es nexistente y maneras de evitar las diversas dificultades que eflo de encues! _ 2 REVISION DE CONCEPTOS BASICOS 2.4 INTRODUCCION nientode los conceptos bisicos de estad El conoy ‘a es un requisito para el estudio de Tos disefios de encuestas por muestreo. Es por eso que en este capitulo revisaremos gunos de estos conceptos biisicos. EI objetivo fundamental de la estadistica es hacer inferencias acerca de una poblacién con base en Ja informacién contenida en una muestra, El objetivo de nuestra inferencia, la poblacién, es un conjunto de mediciones, finito o infinito, real 0 conceptual. Bs por eso que el primer paso en estadfstica es encontrar una manera de expresar una inferencia acerca de una poblaci6n o, equivalentemente, describir un conjunto de mediciones. Entonces, distribucionesde frecuencia y medidasdescriptivas numéricas son el primer tema de nuestra revisiGn, El segundo paso en estadistica es considerarla forma en que se puede hacer la in- ferencia acerca de la poblacién con base en la informacién contenida en la muestra, Para este paso debemos considerar distribuciones de probabilidad de cantidades muestrales o distribuciones derivadas del muestreo. El conocimientode distribucién de probabilidad asociada con la muestra nos permite seleccionar los procedimientos adecuados para hacer Ia inferencia y asignar medidas de bondad a tales inferencias. El método de inferencia empleado principalmente en el comercio y las ciencias sociales es la estimacién. Es posible estimar el total de activosde una corporacién, la fraccidnde votantesque esta a favor del candidato Garcfa, 0 el ntimero de excursionis- tas que utilizaron un parque del gobierno durante cierto periodo. Es por eso que debe- mos entender los conceptos bai nentan Ia selecei6n de un estimador de un pardmetro poblacional, el método de evaluar su bondad y los conceptos relaciona. dos con a estimacién por intervalo, Debido a que el sesgo y la varianza de los estima- dores determinan su bondad, necesitamos revisar los conceptos basieos relacionados con la esperanza de una variable aleatoria y las nociones de varianza y covarianza. 5 cos que funda 2. REVISION DE CONCEPTOS BASICOS Las secciones subsecuentessiguen el plan general que se acaba de presentar. Em- pezamos con una revisi6n del problema primario, es decir, cémo describir un conjunto de mediciones. Enseguida se da una revisi6n répida del modelo probabilhitico para la repeticion de un experimento, Explicamos cémo puede ser usado el modelo para infe- rir las caracteristicas de una poblaciény discutimos variables aleatorias, distribuciones de probabilidad y esperanzas. Finalmente, presentamos los conceptos basicos aso- ciados con estimaciGn puntual y estimacién por intervalo, 2.2 RESUMEN DE LA INFORMACION EN POBLACIONES Y MUESTRAS Debido a que es dificil perc: esencialesde un conjunto gran. de de mediciones al observar tn listado de mtimeros, usualmente debemos resumir las medicionesa través del uso de graficaso técnicas numéricas. Aun cuando noes posible contar con todas las mediciones para una poblacién en estudio, podemos ser capaces de suponer alguna forma razonable para realizar la grifica de la distribucion de fre- cuencias relativas de esta poblaciGn. Por supuesto, podemos siempre construir un his- tograma de frecuenciaso de frecuencias relativas para una muestra, ya que las medi- ciones de la muestra son conocidas, y usar éste para hacer una estimaciénempirica dé la forma de la poblacién. Una vez que se ha establecido una distribuci6n de frecuencia relativa para una poblacién, podemos, mediante argumentos probabilisticos, calcular medidas numéri- cas que nos resuman la informacion, tales como la media, varianza y desviacién estén- dar. Cantidades similares pueden ser calculadas directamente de las medicionesen la arse de la caracterist muestra Con fines de ilustracin, supongamos que una poblacién consiste en una gran cantidad de ntimeros enteros, 0, 1,2, . . . , 9, en proporciones iguales. Podemos pensar que esos niimeros han sido escritos en pequerias hojas de papel y mezclados en. caja, que han sido escritosen una tabla (como una tabla de ntimeros aleatorios)o que han sido generados en un archivo de computadora. Ya que todos los digitos ocurren en io) Frecuencia relative or 2 3 4 8 6 7 8 9 FIGURA 2.4 Distrbucién de una poblacién que contiene bs nimeros 0 a9 con ke misma frecuencia 2.2. FEBLMEN LE LA INFORMACION EN POBLACONES Y MESIFES 7 igual proporcisn, el Aistogramade frecuencia relation, el cual muestrala distribucién de las mediciones de la poblaci6n, es como se muestra en Estas frecuencias relativas pueden ser interpreta s Si se selecciona un niimeroal azar (por ejemplosi alguien extrae una pieza de papel de Ja caja, sin ejercer ninguna preferencia),entonces la probabilidad de que el mimero extraido sea un 4 es 75, Suponga que un mimero se va a seleccionar al azar de una poblaciénen estudio, y denote su valor por y. Entonces los posibles valores paray (0, 1, 2,++459, emeste caso) y las probabilidades asociadas con tales valores: (75 para cada uno en este caso) constituyen|a distribucién de probabilidad para la variable aleatoria. y. La probabilidad asociadacon yes denotada algunas veces por p(y). Entonces, para esta poblacion PO) = pL) = + + = p(8)= p09) = 35 Las medidas numéricas usadas para resumir las caracteristicas de una poblacién son definidas como valores esperados dle y © una fanci6én de y. Por definicién, el valor esperado dey, E(y),esté dado por E(y)=Z wl) donde la sumatoria incluye todos los valores de y para los cuales p(y) > 0. Para la poblaci6n y variable aleatoria y en estudio, EQ) =E wly) 7 = Op(0) + 1p(t) + 2p(2) + -- + 8p(8) + 9p(9) = 145) = 4.5 Se puede ver que E(y)es igual ai valor promedio, 0 valor medio, de todas las me- diciones de nuestra poblaciéa conceptual. En general, una media poblacional sera de notada por 4, por lo que w= Ey) donde y es el valor de una medicién individual seleccionada de la poblacién al azar. La variabilidad de las medicionesen una poblacién puede ser medida por la va- rianza, la cual se define como el valor esperado, 0 valor promedio, del cuadrado de la desviacién entre una medicién y seleccionada aleatoriamentey su valor medio p. En- tonces la varianza de y, V(y), esta dada por Vin= EY ~ w= Ly - YP) r Para la poblacién usada como ejemplo en esta seccion, Vin) = Ey ~ wy = L(y — aye) (0 — 4.5)7G5) + (1 = 4.5)°G5) + ++ + (9 — 4.5)°G6) = WO ~ 4.5)? + (1 — 4.5)? + +9 - 4.57] 7o(82.5) = 8.25 La varianza V(y) es cominmente denotada por a? 2. REVISION OE CONCEPTOS BASICOS La desviacién esténdar se define como la raiz cuadrada de la varianza y se deno- ta por ¢ = Va", Para la poblacién especifica en estudio, o = VB25 =2.9 Enestudiosestadisticos Ia poblacién de interés consiste en medicionesdesconoci- das; es por eso que tinicamente podemos especular acerca de la naturaleza del histograma de frecuencia relativa o del tamatio de yz y cr-Para obtener alguna infor- maci6n acerca de la poblacién, seleccionamos una muestra den mediciones y estt diamos las propiedades de esta muestra. A partir de lo que observamos en la muestra tnferimos las caracteristicas de la poblacién. Las medicionesen la muestra serén deno- tadas en general por Ys, Yq «+5 Yr Siguiendo el patrdn establecido para resumir la informacién en una poblacién, podemos calcular Ia media, la varianza y Ia desviaciGn estindarde una muestra. Estas medidas descriptivas numéricas estén dadas, respectivamente, por wile y= Ew . 2 Zann em n-1 y savF Notese que s* tiene divisor # ~ 1 en lugar de n. Para la poblacién de enterosQ 1, . . . , 9 en igual proporci6n, se seleccioné una muestra de # 10 mediciones. Cada una de las 10 mediciones fue seleccionada al azar con reemplazo. (Piense en Ia selecci6n de 10 papeletas de una caja conteniendo una gran cantidad de ellas, cada una marcada con un entero entre 0 y 9.) Las medi- ciones muestrales fueron 6,9, 3,8, 1,7, 8, 8,4, 0 «12 win =B6+9 +3460 +440) = 554) $5.4 2-1 ¢ se Lay ” =H(6- 5.47 +9 - 5.4 +++ +00- 5.47] = 5(92.4) = 10.27 y s=VF=V1017 La utilizacién de estas cantidades muestralesse tratard en las siguientes dos sec- ciones, pero podemos ver que ¥ podria ser una aproximaci6n razonable para pL si 3.2 2.3 OSTRELOONES (E MESIRED fuera desconocida. De la misma manera, s* podrfa ser una aproximacién razonable para @? si g® fuera desconocida, y s podria ser una aproximacién razonable para a. 2.3 DISTRIBUCIONESDE MUESTREO En los siguientes capltulos, cantidades muestrales —tales como j— seran utilizadas extensivamente para realizar inferencias acerca de cantidades poblacionales descono- cidas; por ello debemos estudiar las propiedades de ciertas funciones de las observa- ciones muestrales. Este estudio empieza con una ilustraci6n numérica, la cual va a ser generalizada para incluir una amplia variedad de situaciones de muestreo. Considérese la poblacién discutida en la Seccién 2.2, en la cual los enteros Q 1, ...., 9estuvieron representadosen la misma proporeién. Se seleccionan cincuenta muestras de tamafio n = 10 de esta poblacién; cada muestra es seleccionada de una manera similar al método utilizado al final de la Secci6n 2.2. Las medias muestrales 7 para estas 50 muestras se presentan en orden numérico ascendente en la Tabla 2.1. TABLA 2.4 Medias muestales de 50 muestras, cada una de tamanon = 10 23036 41 43 4B 26 37 41 43 48 26 37 41 44 48 3200370 41 450 49 33 38 420: 4705.0 340390 430 47 A 35 40043453 350 4100 43 48 55 36 41 43 48 60 360 4100 «430 48 66 Un histograma de frecuencias para las SO medias muestrales es presentado en la Figura 2.2. Esta distribucién es una aproximacién a la distribucion de muestreo teéri- ca de J, ya que nos muestra la manera en que las J tienden a distribuirsecuandose to- man muestras repetidas. La distribucién de muestreo puede ser considerada como una distribucin de probabilidad para 7. Notese que la distribuci6n de las 7 tiende a con: centrarse cerca de la media poblacional z= 4.5, con mucha menor dispersisn (0 variabilidad) que las mediciones originales de la poblaci6n, y tiene una forma monti- cular, en lugar de una forma plana como la de la distribuci6n poblacional. Desde el punto de vista de un curso elemental de estadistica (véase Mendenhall, 1983), sabemos que la distribucién de muestreo de 7 debe tener una media p, una desviaci6n estindar a/v, y una forma como la de una cures normal (una curva si- métrica en forma de campana). Esta distribucién de 50 medias muestrales tiene un promedio de 4.22 (el cual esta cercanoa jz = 4.5) y una desviaci6n esténdar de 0.79 cual esté cereana a o/Vn = 2.9//10 = 0.92). Bl histograma de frecuencia tiene también una forma aproximada de campana, aunque no es muy simétrica, Estos 10 2. REVISION DE CONCEPTOS BASICOS 25] 20] Frecuencia 15] o ta 3 ¢ 5 6 7 8 9% 10 FiGuRA 2.2 Distibucién de 50 medias muestrales con n = 50 para cada muestra, hechos concemientes al comportamiento de las medias muestrales seran importantes en el desarrollo de los procedimientos de inferencia. De propiedacles conocidas de la curva normal se deduce que aproximadamente 68% de los valores de f, en muestreo repetido, debe caer dentro de una desviacién es- t4ndar de la media de la distribucién de muestreo de las 7. Aproximadamente, 95% de los valores de 7, en muestreo repetido, debe caer dentro de dos desviaciones estan- dar de la media. Para verificar estas aseveraciones en la muestra observada de 507, ve- mos que 411 £0.79 osea (3.43,5.01) contiene 39 de 50 (78%) de los valores de 7 en la muestra, y 4.22 + 20.79) osea (2.64, 5.80) contiene 45 de 50 (90%) de las 7. Estos porcentajesestén razonablemente cerca de los valores tebricos de 68% y 95%. (Recuérdese que estamos considerando nicamente una aproximaci6n, basada en 50 muestras, con respecto a Ia verdadera distribucién de muestreo de Y.) Si la distribucién de muestreo de alguna cantidad muestra! no sigue una distri- bucién normal, al menos aproximadamente, entonces la interpretaciénde la frecuencia relativa puede atin ser obtenida considerandoel teorema de Tehebysheff. Este teore- ma establece que para cualquier k = 1 al menos (1 ~ 1/k?) de las mediciones en cualquier conjunto deben caer dentro de k desviaciones estandar de su med ejemplo, haciendo k =2 se obtiene que al menos (1 ~ #*) Conjunto de mediciones debe caer dentro de 2 desviaciones esténdar de su media. ‘Usualmente. esta fraccién es mucho mas grande que f. 2.3 DISTRIBUCIONES DE MLESTREO 44 H alto procentaje de mediciones que cae dentro de dos desviaciones¢standar de la media, considerando la distribucién normal o el teorema de Tchebysheff, sugiere que'la amplitud de cualquier conjunto de mediciones contiene poco més que cuatro desviaciones estiindar, usualmente. En otras palabras, 1a desviaciGn esténdar de un conjunto de mediciones puede ser aproximada como 1/4 de la amplitud de ese conjun- to de mediciones. La discusién de las distribuciones de muestreo hasta este punto se ha basadoen que las muestras fueron seleccionadas de una poblacién esencialmente infinita. Pero nosotros podemos desear trabajar con poblaciones de N mediciones, donde N puede ser relativamente pequefia. Se mantiene atin bajo estas circunstancias la normalidad aproximada de la distribucionde 7? A continuacién presentarmos los resultados de dos investigaciones empiricas sobre esta cuestiGn. Una poblacion de N = 100 ediciones fue generada por computadora y preser como la que se muestraen la Figura 2.8. Se seleccion6 una muestra 15 10| Frecuencia ow 2 30 4 50 «0 70 80 99 100 Figura 2.3 Distribucionde una pobiocien con N = 100 den = 20 mediciones de esta poblacién, de tal manera que cada muestra posible de tamafio 20 tuviera una misma probabilidad de ser seleccionada (véase Capitulo 4). Este proceso se repitié hasta que fueron seleccionadas 50 de tales muestras. Se calculs Ia media 7 para cada muestra; la distribuci6n de estas medias muestrales se indica en la Figura 2.4, Notese la tendencia de este histograma a la forma de campana, aunque no perfectamente simétrica Una poblacién de N = 20 mediciones fue generada posteriormente, presentan- do la distribucin que se indica en la Figura 2.5. Se seleccionaron 50 muestras de tamafio n = 15 cada una, siguiendo la metodologia esbozada anteriormente. La distribuciOn de las 50 medias muestrales se presenta en la Figura 2,6, Notese nueva- mente una tendencia hacia una distribuci6n en forma de campana un tanto simétric Sin embargo, esta distribuci6n difiere considerablemente de Ta presentada en la Figu- ra 24, Aqui, las medias muestrales estin agrupadas muy cerca alrededor de la media poblacional, como debia esperarse, ya que el tamaio de muestra de 15 es muy simi al tamaito de la poblacisn de 20. Se podrfa sugerir que la distribuciGnen Ja Figura 2.6 2. REVISION DE CONCEPTOS BASICOS 033048080 ; FIGURA 2.4 Distribucién de medias muestrales para N = 100 yn = 2 o 5 ww 5 2 FiGURA 2.5 _Distrbucién de una poblacién con N = 20 . i. 2 r1 eo 2 is 20 ¥ FIGURA 2.6 Distrbucin de medias muestrales para N = 20 yn = 15 2.4 COVARIANZA Y CORRELACION 43, no se asemeja tanto a la distribucién normal como en Ia distribuci6n de la Figura 2.4. En resumen, la distribucion de j debe tener una distribucién muy semejante a la distribucién normal, sin no es mayor que 20% de N. Esta observaci6nes especialmen- te cierta si n & 30. Cuando m es un porcentaje muy alto de N, la distribuci6n de muestreo de ¥ est agrupada alrededor de la media poblacional atin més de lo que se podria esperar. 2.4 COVARIANZA Y CORRELACION Frecuentemente, en un experimento se obtiene informacién acerca de m: riable aleatoria de interés. Por ejemplo, el psiclogo mide mais de una por individuo en un estudio sobre el comportamiento humano. Variables tipicas puedenser una medida de inteligencia, y,, una medida de personalidad.ya, y otras va riables que representan el valor obtenidoen ciertas pruebaso medidasde earacteristi- as fisicas. Generalmente estamos interesados en la simple dependencia de un par de variables, tal como la relacién que existe entre personalidad e inteligencia, o entre el aprendizaje y las calificacionesen la escuela. En particular, nos interesa saber silos da tos que representan observaciones pareadas de y, y y, en un cierto nimero de gente implican una dependencia entre las dos variables. Si es asf, ¢qué tan intensa es la de? pendencia? Intuitivamente, concebimos la dependencia de dos variables, y, y y, indicando que una de ellas, digamos y,, se incrementa o disminuye como una consecuenciade un cambio en y,. Vamos a confiar nuestra atencién a dos medidas de dependencia, la co varianza y el coeficiente simple de correlacién lineal, y vamos a utilizar las Figuras 2.2(a) y 2.7(b) para justificar la eleccién de ellas como medidas de dependencia. Estas figuras nos representan puntos graficados para dos muestras (aleatorias) de n = 10 unidades experimentales seleccionadas de una poblacién. Las mediciones de J, y J, fueron hechasen cada unidad experimental. Si todos los puntos caen sobre una linea recta, como se indica en la Figura 2,7(a),y, y yz Son obviamente dependientes. En contraste, la Figura 2,7(b) nos indica poca o nula dependencia entre y. y ya. Supéngase que conocemos (Ly Y jl, las medias dey, yy, respectivamente.y lo- calizamos este punto en las gréficas de la Figura 2.7. Ahora se localiza un punto en Ja de una va acteristic: 2 (ao n . mney , meg 1 » > n n @ © Figura 2.7 Puntos graficados para dos muestras 2. REVISION DE CONCEPTOS BASICOS gniifica de la Figura 2.7(a) y se miden las desviaciones (4 — 443) y (2 ~ fra). Notese que ambas desviaciones van a tomar el mismo signo algebraico para un punto deter- minado; por eso su producto, (yy — #:)(2 7 #22), &S positivo. Este resultado se man- tiene para todos los puntos en Ja Figura 2.7(a), Los puntos a la derecha de (144. fea) van a producir pares de desviacionespositivas, los puntos a Ia izquierda van a producir desviaciones negativas, y el promedio de los productos de las desviaciones(/i #4)(y2 ~ iz) va aser "grande" y positivo. Si la relaci6n lineal indicada en la Figura 2.7(a) tuviera una pendiente negativa hacia la derecha, todos los pares correspondientes de desviaciones serian de signo opuesto, y el valor promedio de (y — $41)(Y2 — fs) seria tun nimero negative grande, La situacién que se acaba de describir no ocurrirS en la Figura 2,7(b), donde existe poca 0 nula dependencia entre yy y ys. Las desviaciones correspondientes ( — Ha) ¥ (y2 7 #42), Van a tomar el mismo signo algebraico para algunos puntos, y signo opuesto para otros puntos. Entonces, el producto (y, ~ #41)(¥2 — Mz) sera positi- Vo para algunos puntos y negativo para otros, yel promedio de estos productos sera un valor cercano a cero. Asi, se tiene que claramente el valor esperado (promedio)de (yi ~ #bs)(¥2— fa) nos proporciona una medida de la dependencialineal de y, yy. Esta medida, definida para las dos poblaciones correspondientes asociadasay, J y, se denomina la covarian- rade y.y¥. Ahora, vamos a denotar la covarianza entre y, y ¥, por: Coviyts Ya) = Ely — Hide ~ Had] A mayor valor absoluto de la covarianza de y, yy,,8e tendrd una mayor depen- dencia lineal entre y, yy. Valores positives indican que J, se incrementa cuando y, se incrementa; valores negativos indican que y, disminuye cuando y, se incrementa. Un valor cero de la covarianza indica que no hay dependencia lineal entre y, ¥ ys Desafortunadamente, el uso de la covarianza como una medida absoluta de de- pendencia es dificultosa porque su valor depende de la escala de mediciGn. Fs por eso. que a primera vista sea dificil saber si una covarianza es “grande”. Esta dificultad se puede eliminar estandarizando su valor por medio del coeficiente simple de correla- cidn lineal, Luego el coeticiente de correlacién lineal de la poblacién, Corl 2) O10, (donde ¢, y 7, son las desviaciones estandar de y. yy, respectivamente) esta rela- cionado a la covarianza y toma valores en el intervalo~1 = p 5 1. El coeficiente de correlaci6n muestral se usa como un estimador de p y se estudia en la mayoria de los cursos introductorios. Para mayor informacién sobre esta materia se puede consultar Mendenhall (1983, Capitulo 10). 2.5 ESTIMACION El objetivo de cualquier encuesta por muestreo es realizar inferencias-acerea de una po- blacién de interés, partiendo de la informaci6n obtenida en una myestra de dicha 26 ESTMACON 45 poblacién. Las inferenciasen las encuestas por muestreoson usualmente dirigidas estimacién de ciertas caracteristicas numéticas de la poblacién, tales como la media, el total o la varianza. Estas medidas descriptivas numéricas de la poblacién se denomi- nan pardmetras Un estimador es una funcién de variables aleatorias observables y quizas otras constantes conocidas, usado para estimar un pardrnetro. Por ejemplo, la media 7 puede ser usada como un estimador de la media poblacional p. La media 7 es un estimador, ya que es una funcién de las observacionesen la muestra. Sin embar- go, nétese que 7 es una variable aleatoria y tiene una distribucién de probabilidad 0 distribuci6n de muestreo que depende de! mecanismo muestral, como se ha sefialado en la Seccién 2.3. Algunos de los posibles valores que j puede tomar estardn cereanosa #, ¥ otros pueden estar bastante alejados de_ en cualquiera de los lados positive 0 negativo. Si nosotros tomamos una muestra y calculamos un valor especffico como nuestro mejor estimador de 41, desearfamos saber que en promedio nos genera valo- res concentrados alrededor de gt. y que en general estén bastante préximos a 42, En: tonces queremosseleccionar un plan de muestreoque nos asegure que F(7)= jt y que V(fes "pequefia”. 5 En general, suponga que @ es un estimador del pardmetro 8. Dos propiedades deseables para @ son las siguientes: mue: 1, E(6) = 8, 2 V(8)= 0% es pequefia. Un estimador que posee la propiedad 1 se dice que es énsesgado, Con respecto a la pro- piedad 2, no se tratardn estimadores insesgados de minima varianza en este texto, pero se comparardn estimadotes insesgados sobre la base de sus varianzas. Si podemos contar con dos estimadoresinsesgados de 8, generalmentedaremos preferencia al que tenga la menor varianza. Aunque la distribucién de probabilidad de 7, un estimador comtin, dependera del mecanismo de muestreo ¥ los tamaiios de la muestra y Ia poblacisn, en muchas si- tuacionesla media muestral tiende a presentar una distribucisn simétricaen forma de campana, conocida como distribucién normal. Esta observaci6n es especialmente cierta si mes grande, digamos n > 30. # Una vez que sabemos qué estimador 8 estamos usando en una situaci6n y eono- cemos algo acerca de su distribucién de probabilidad, podemos evaluar la magnitud del error de estimacién, Definimos el error de estimacién como |@ ~ 6. ¢Qué tan bueno sera un estimador?No podemos establecer que un estimador observado estara dentro de una distancia especificada de 8, pero podemos, al menos aproximadamen- te, encontrar un limite B tal que P(6-8|5B)=1-a para cualquier probabilidad deseada 1 — a, donde 0 4 MUESTREO IRRESTRICTO ALEATORIO. Varianza estimada de 7: (s) a Lan Ey ww donde Limite para el error de estimacién: wh =2ye(%) (4.4) La cantidad (N — n)/N se denominacorreccién por poblacién finita (epf). Note- se que este factor de correccién difiere un poco del encontrado en Ia varianza verdade- ra def. Cuando m permanezca relativamente pequefta con respecto al tamafto de Ia poblacién N, Ia epf estaré muy cercana a la unidad. En la practica, 1a epf puede despreciarsesi (N — n)/N = 0,95 0, equivalentemente,si n = (45)N. En tal caso, la varianza estimada de jes la ya conocida cantidad s7/1 En muchos casos el tamafio de la poblacién no esté claramente definido g se des: conoce. Supéngase que muestras de laboratorio muy pequeflasson seleccionadasde un depésito de gran volumen con azticar mascabado para medir el contenido de azticar puro. No es claro cémo sera determinado N, pero generalmente puede suponerse bas- tante grande. En consecuencia, la cpf puede ser ignorada. Si una muestra de votantes se seleccionade Ia poblacién de un estado para obtener un NV precisoen aquel momen- to, es generalmente imposible. Nuevamente, WV se supone grande y la epf se omite. Para mostrar el comportamiento de los intervalos de confianza para la media, seleccionamos§0 muestrasaleatoriasde tamaio u = 20 de la poblaci6n con N = 100 elementos, graficada en la Figura 2.3. Un intervalo de confianza de aproximadamente 95% fue construido para cada muestra, con los resultados que se muestran en la Tabla 4.2. Notese que cuatro (0 sea 8%) de los intervalos observados no cubren la media poblacional verdadera, Este resultadoesta bastante cercano al valor nominal de 5%. La Tabla 4.3 muestra los resultados de un experimento similar, extraldo de los datos de la Figura 2.5. Aqui, solamente dos (4%) de los intervalosno cubren la media verdadera. Nétese que en ambos casos los intervalos de confianza varfan en longitud y posi- cién, conforme pasamos de una muestra a otra. Recuérdese también que los intervalos son Gleatorios, En el muestreo repetido, aproximadamente el 95% de los intervalos incluye a P,pero cualquier intervalo puede o no incluir a p. EJEMPLO 4.2 Remitase al auditor del hospital del Ejemplo 4.1 y suponga que una muestra aleatoria dem = 200 cuentas es seleccionadadel total de N = 1000. La media muestral de las, TABLA 4.2 _ intervalos de confariza para 4.3. ESTIMACION TE UNA NEDA Y UN TOTAL POBLACIONALES 100 yn = 20 36.020 53.650 60.052 49,350 49.082 49.038 42.857 46.682 42.694 52.922 47.778 48.950 52.200 50,395 54.384 49.296 50.167 50.082 58.146 51.010 54.947 51.596 60.053, 61.360 37.612 45.641 47.266 51.645, 48.601 49.368 52.723 43.005 33.760 57.683, 68.100 59.298 47.474 47.749 50.098 51.697 45.989 54.382 56.294 52.548 53.236 57.694 63.771 48.835, 66.375, 56.731 1047.629 973.679 1044.769 606.324 994.433, 1058.878 937.009 901.619 677.978 1086.781 926.127 705.443 1227.258 714.208 845.914 968.221 957.080 948.243, 840.061 144.449 1021.469 907.564 612.693, 730.304 642.730 788.646 678.076 815.394 760.584 1003.10 874.178 622.081 586.996 656.446 750.229 695.199 1021.986 962.295 785.590 893.741 731.062 735.614 898.002 133.015, 1147398 766.730 860.750 875.848 645.377 1070.385, er 43.332 41.418 47.381 39.697 36.721 36.282 30.858 34.911 32.487 39.999 35.845, 38.539 38.467 39.919 42.982 37.099 38.040 38.010 46.785 37.749 42.418 39.787 50.350 50.767 27.674 34.632 37.059 40.452 37.790 36.953 41.133 33.228 24.262 47.639 57.363 48.962 34.942 35.588 39.111 39.978 35.390 42.392 44.547 38.236 39.958 46.840 52.270 37.234 56.416 43.906 Les = 52.575 68.708 —_ 65.882 — 72.722 + 59.002 — 61.444 —— 61.794 54.856 58.453 52.901 65.844 59.712 59.362 65.933, 60.871 65.785 61.494 62.295 62.153 69.508 64.271 67.476 63.405, 69.756 71,954 47550 56.640 57.474 62.839 59.412 61.784 64.313, 52.782 43,257 67.726 78.837 69.634 60,006 59,909 61.085, 63.416 56.588 66.373 68.041 66.860 66.514 68.548 75.271 60.437 76.333 69.556 Hl 4 MESIFEO IRRESTRICTO ALEATCRO TABLA 4.3 _Intorvalos de confianza para Dyn= 15 y 2 1 = 9.035 10.172 62.698 8.168 12.175, 10.312 53.296 © 8.465 12.160 10.435 58.390 8.501 12.368 8198 15.953. 6.340 10.057 7410 46.677 5.681 9.139 10.455 49.063 8.682 12.227 9133 64.951 = 7.094 11.172. 9.255 51.192 7.445 (11.066 9392 54.933 7.516 11.267 10.386 59.018 8.442, 12.330 8700 62.707 6.696. 10.703 8126 46.516 = 6.401 9.852 8869 53.483 7.018 = 10.719 9.074 58.610 7.137 11.012 7.719 52.275 5.889 9.548 7815 49.723 6.031 9.600 8794 54.153 6.932 10.656 8778 53.764 ©=— 6.923 10.634 11.950 50.345 9.554 «13.145 8.205 © 55.182 6.326 © 10.085 8371 56.787 6.464 10.278 9556 57.116 7.644 11.468 9.442 58.971 «7.499 11.385 7.865 53.681 6.011 9719 9323 67.261 «7.248 «11.398 9300 48.507 7.538 = 11.062 9.400 47.895 7.667, «11.133, 9.738 56.042 7.844 = 11.632 10.100 50.812 8.297 11.904 9540 58265 = 7.608 = 11.471 9204 55.947 7.311 11.096 9.057 55.205 7.177 «10.937 9514 48569 7.750 11.277 10.533 50.279 8.738 «12.327 9.076 51.918 = 7.252 10.899 8159 52.775 6321 9.997 7.453 55.096 5.575 9.331 8.323 58.580 6.386 10.260 8704 57.380 6.787 «10.620 9146 © 57.078 = 7.234 11.087 9301 53.757 7.446 11.156 8.908 59.789 6.951 10.864 7418 55.680 5.530 9.306 7335 49.494 5.555 9.115 9.601 58.002 7.674 «11.528 8175 55.629 6.288» 10.063, —t 8.634 52.570 6.799 10.468 —_ 9.200 55.837 7310 11.091 + 7136 41.977 5.496 8.775 8032 50.013. 6.243 (91822 4.3. ESTIMACION DE UNA MEDIA Y UN TOTAL POBLACIONALES 49 cuentas fue 7 = $ 94.22, y la varianza muestral es 54— 448.21. Estime pt, el promadio de Ja deuda para las 1000 cuentas del hospital, y establezca un Wimite para cl error de estimnacicn. SOLUCION ‘Usamos ¥ = $94.22 para estimar 42. Un limite para el error de estimacién puede ser encontrado usando la Ecuacién (4.4). Pe = fF; N=1\_ [14821 (1000—200) errant (AS)-2 200 \" 1000 = 2V1.7808 = $2.67 Por lo tanto estimamos que el valor medio por cuenta, j1, seri 7 = $ 94.22. Puesto que n es grande, 1a media muestral tendré una distribucién aproximadamente normal, asf que $94.22 + $ 2.67 es un intervalo de confianza para la media pobla~ cional de aproximadamente 95%. EJEMPLO 4.3 Una muestra irrestricta aleatoria de n = 9 registros del hospital es seleccionada para \d promediode la deuda sobre N = 484 cuentas abiertas. Los valores 1a 4.4, Estime pr, la cantidad promedio de la deuda, y establezca un limite para el error de estimacién. estimar la eanti de la muestra para estos nueve registros estiin listados en La TaBLA4.4 Cantidad de dinero adeudado y 33.50 Ya 32.00 ys 52.00 Ye 43.00 Ys 40.00 Yo 41.00 n 45.00 Ye 42.50 y 39.00 SOLUCION Es conveniente presentar los datos y célculos de la muestra como se indica en la Ta- bla 4s. Al sumar las cantidadesen la columna y, obtenemos = 368.00 by De la columna de y?, tenemos E y? = 15,332.50 a sO 4 FUSES RR SHAE IG ALLATORIC TABLA 4.5 Coles v céicuos p01 el Remote 43 % y 33.50 1,422.25 32.00 1,024,00 52.00 2,704.00 43.00 1,849.00 40.00 1,600.00 41.00 4 681.00 45.00 2,025.00 4250 1.806 25 39.00 Us2t.00 Ly = 368.00 Ly? = 15,332.50 Necesitamas estas dos cantidades para calcular 7 y-s*. Nuestra estimacién de jt es 2% 968 00 9° 9 = $40.89 Para encontrar un mite para él error de estimacion, debemos calcular Lore Es-(E2) /s 8 (368) 2s, 332.50 oe) = piisasz $0 — 15,047.11] = 35.67 Utilizando Ja Ecuacién (4.4), obtenemas el Itmite para eLerror de estimacién, s (" (35.67 (484-9 Vina wrn=r-( i) ay a) = 2V3.890 Wessu=s 94: En resumen, Is estimacion de la cantidad medi de dinero adeudada por cuen ta, HL, €5 7 = § 40.89. Aunque no podemos estar segutos de qué tan cerca esta 7 de estamos razonablemente confiados en gue el error de estimacion es menor de $ 3.94 Muchas encuestas por muestreo son realizadas para obtener ivformacién acerca de un toral poblacional. El auditor federal del Ejemplo 4.1 probablemente podrla estar interesado en verificar la cifra calculada para é) cotal de cuencas por cobrar (en olares) para las N = 1000 cuentas abiertas. Usted recuerda que la media para una poblacién de tamatie Nes ta suma de to: das las observaciones en la poblacién dividida entre N. El total poblacional esto es, 4.3. ESTIMACIGN CE UNA MEDIA Y UN TOTAL PCBLACIONALES 51 la suma de todas las observacionesen la poblacién— se denota porel simbolo 7. Por lo tanto, Nuwar Intuitivamente, esperamos que el estimador de 7 sea N veces el estimador de mt, el cual lo es, Estimador del total poblacional 7 (45) ade #: 62) dunn) (N=# = Fun =n) (4 ) 46 Eo oe donde ge mite para el error de estimacion: oO wn Nétese que la varianza estimada de # = Nj en la Ecuacién (4.6) es N" veces la varian- zaestimada de 7 dada en la Ecuacién (4.3). EJEMPLO 4.4 Una empresa industrial esta interesada en el tiempo por semana que los cientificos emplean para ciertas tareas tiviales. Las hojas de control del tiempo de una muestra irrestricta aleatoria de n = 50 empleados muestran que la cantidad promedio de tiempo empleado en esas tareas es de 10.31 horas, con una varianza muestral de s? = 2.25. La compaiiia emplea N = 750 cientificos. Estime el nimero total de horas-hombre que se pierden por semana en las tareas insignificantesy establezca un limite para el error de estimaci SOLUCION Sabemos que Ia poblacién consiste de N = 750 empleados, de los cuales una muestra aleatoria den = 50 hojas de control del tiempo fue obtenida. La cantidad promedio de tiempo que se pierde por los 50,empleadosfue 7 = 10.31 horas por semana, Luego la estimacion de 7 es # = Np =750(10.31) = 7732.5 horas 52 4 MUESTREO IRRESTRICTO ALEATORIO A fin de establecer un limite para el error de estimacién, aplicamosa Ecuacién (4.7) para obtener wha 2yorsoy( 2)(2 ) 50 /\” 750 = 223,625 = 307.4 horas Por lo tanto Ia estimacisn del tiempo total perdido es #= 7732.5 horas. Estamos ra- zonablemente confiados de que el error de estimaci6n es menor que 307.4 horas. 4.4 SELECCION DEL TAMANO DE MUESTRA PARA LA ESTIMACION LE LAS MEDIAS Y TOTALES POBLACIONALES En alguna etapa del disefio de la encuesta, alguien debe tomar una decisién acerca del tamafio de la muestra que sera seleccionada de la poblacién. Hasta ahora hemos trata- do un procedimiento de muestreo (el muestreo itrestricto aleatorio) pero nada acerca del ntimero de observaciones que serin incluidas en la muestra. Las implicacionesde tal decisién son obvias. Las observacionescuestan dinero. Por lo tanto si la muestra es muy grande, tiempo y talento son desperdiciados. Por el contrario, si el nimero de ob servaciones incluidasen la muestra es muy pequefio, compramos informacién inad cuada por el tiempo y esfuerzo empleado y nuevamente hemos hecho un mal gasto EL mimero de observaciones necesarias para estimar una media poblacional p. con un limite para el error de estimaciénde magnitud B se encuentra al establecer dos desviacionesesténdar del estimador, j, igual a B y resolviendoesta expresién para n. Esto es, debemos resolver wWVG)=8 48) para n, Usted recordar que la varianza estimada de j, 7(7), esta dada por “ N ( (4.9) También vy (4.10) Usted reconocerd la Ecuacién (4.10) de un curso introductono como la conocida va- rianza de 7, esto es, a’ /a, multiplicada por el factor (N ~ n/N 1) 4.4 SELECOON CEL TAMAROTELAMESTA 59 El guiente ecuacién: maiio de muestra [e(N=9 2VV(y) = 2 z()-5 (4.12) La solucién se presenta en la Eeuacién (4,12). requeridoahors puede encontrarsedespejando n de la si- ‘Tamafio de muestra requerido p el error de estimacién B: ra estimar con un mite pau =—_No? nS (N-)D+e* aay B donde 2 4 En una situacién prictica la solucién para n presenta un problemadebido a que la varianza poblacional ¢ es desconocida, Puesto que la varianza muestral s*frecuen- temente se encuentra disponible de un experimento anterior, podemos obtener un tamafio de muestra aproximado al reemplazar g? por s* en la Ecuacion (4.12), Ilustraremos un método para estimar el valor de a cuando se cuenta con muy poca informacién anterior. Si Nes grande, como comtinmenteocurre, el (N - 1) puede ser reemplazado por N en el denominador de la Ecuaci6n (4.12). EJEMPLO 4.5 La cantidad promedio de dinero y para las cuentas por cobrar de un hospital debe ser estimada, Aunque no se cuenta con datos anteriores para estimarla varianza pobla- cional u?, se sabe que la mayorfa de las cuentas caen dentro de una amplitud de va- riaci6n de $100, Existen N = 1000 cuentas abiertas. Encuentreel tamafio de muestra necesario para estimar Y con un Ifmite para el error de estimacisn de B = $8, SOLUCION Necesitamosuna estimacién de @, la varianza poblacional. Ya que la amplitud de va- riaci6n es aproximadamente igual a 4 desviaciones esténdar (4), un cuarto de tal amplitud proporcionara un valor aproximado de U . Por Io tanto, rango _ 100 4°” a o? = (25) = 625 Al usar la Ecuacién (4.12), obtenemos. a= No (N-1)D +0 4 MUESTREO RRESTRCTO ALEATORIO. donde pa a 225 404 1000(625) Asi, 217.56 999(2.25) + 625 Esto es, necesitamos aproximadamente 218 observaciones para estimar #L, Ia media de por cobrar, con un limite para el error de est de $3.00. De manera semejante, podemos determinar el mimero de observaciones necesa- tias para estimar un total poblacional 7, con un limite para el error de estimacién de magnitud B. El tamano de muestra requerido se encuentra al establecer dos des iacionesestandar del estimador igual a B y resolviendoesta expresiGn para n. Estoes, debemos resolver 2vV(Ny) 2NVV(p) = B (4.13) [La razén para esta equivalencia esté dada directamente después de la Eeuacién 4.7)] B ©, equivalentemente, Tamafo de muestra requerido para estimar + con un limite para el error No? Wonpte? (4.14) donde D=-G 4N' EJEMPLO 4.6 Un investigador esté interesadoen estimar la ganancia en peso total en Oa 4 semanas de N = 1000 polluelos alimentadoscon una nueva racién. Obviamente, pesar cada ave seria tedioso y tardado. Por lo tanto, determine el mimero de polluelos que sera selec- cionadosen este estudio para estimar 7 con un Ifmite para el error de estimaci6n igual 2 1000 gramos. Muchos estudios similares sobre nutricién de polluelos se han llevado a cabo en el pasado. Usando los datos de esos estudios, el investigador encontré que a7, Ja varianza poblacional, fue aproximadamente igual 2 36.00gramos. Determine el ta- maiio de muestra requerido. SOLUCION Podemos obtener un tamafio de muestra aproximado usando la Eeuacién (4.14) con o° igual a 36.00 y 4.5. ESTIMACION CE UNA PRORORCIENFERDXCIONAL SL Esto es, (N-1)D +07 999(0.25) + 36.00 a8 Por lo tanto, el investigador necesita pesar n = 126 polluelos para estim: cia en peso total en 0.a4 semanasde N = 1000 polluelos, con un limite para el error de estimaci6n igual a 1000 gramos. 7, la ganan 4.5 EStIMACION DE UNA PROPORCION POBLACIONAL Bl investigador que realiza una encuesta por muestreo frecuentementeesta interesado en estimar la proporcion de la poblaciGn que posee una caracteristica especifica. Por ejemplo, el lider de un congreso investigando los méritos de volar a los 18 afios de edad, puede desear estimar la proporcién de votantes potencialesen el distrito entre las edades de 18 a 21 aifos. Un grupo de investigacién de mercados puede estar intere- sado en la proporci6n del total de ventas por dietas preparadas que es atribuible a un producto en particular; esto es, gqué porcentaje de las ventas corresponde a un producto en particular? Un administrador forestal puede estar interesado en la pro- porcién de arboles con un didmetro de 12 pulgadas © mas. Las clasificacionesde tele. son determinadasestimando la proporcién de televidentes que visin, frecuentement ven un programa en particular. Usted reconocerd que todos estos ejemplos muestran una caracterfstica del expe: rimento binomial, esto es, una observacién pertenece o no a la categoria de interés. Por ejemplo, se puede estimar la proporcidn de votantes elegibles en un distrito en particular, examinando los datos del censo poblacional para. vanos de los barrios dentro del distrito. Una estimaciGnde Ia proporcin de votantes entre los 18 y 21 afios de edad para todo el distrito sers la fraccién de votantes potencialles de los barrios se leccionados, quienes se ubican dentro de esta amplitud de variaci6n de ta edad. En la siguiente explicaci6n denotamos la proporci6n poblacional y su estimador por los dmbolosp y f,, respectivamente. Las propiedades de # en muestreo irrestricto aleatorio son equiparables a las de 1a media muestral 7, si las mediciones de la res- puesta se definen como sigue: Sea y, = 0 si el €simo elemento seleccionado no posee Ia caracteristica especifica, y y, = 1 sila posee. Entonces, el mimero de elementosen una muestra de tamafio n que posee una caracterfstica especifica es by Si seleccionamos una muestra irrestricta aleatoria de tamaiio n, ka proporei6n muestral p es la fracciGn de elementos en la muestra que poseen la caracterfstica de 56 4) MUBSTRED iRRESTRICTO ALEATORIO interés. Por ejemplo, la estimacién p de la proporcién de vol edades de 18 21 ailos en cierto distrito es ntes elegibles entre las nies seleccionados entre las edades de 18 a 21 aflos niimero de vo miimero de votantes seleccionados o bien En otras palabras, § es el promedio de los valores 0 y | de la muestra. Asimismo, po: demos pensaren la proporcién poblacional como el promediode los valores 0 y I de la poblacién (esto es, p = 4). Estimador de 1a proporeién poblacional p: Ly poy= (4.15) payer (4.15) Varianza estimada de p: ~ A (N- \ WA= — (4.16) fh (19) donde g=1-5 Limite para el error de estimacién: a P(f) =2. (4.17) EJEMPLO 4.7 Una muestra irrestricta aleatoriade n = 100 estudiantes del tiltimo afto de un colegio fue seleccionada para estimar: (1) la fraccién de N = 300 estudiantes del iiltimo aio que asistirdn a una universidad, y (2) la fraccién de estudiantes que han tenido trabajos de tiempo parcial durante su estancia en el colegio. Sean y, y x(i=1,2,..., 100) las respuestas del #ésimo estudiante seleccionado. Estableceremos que y,=0 si el ésimo estudiante no planea asistir a una instituci6n superior, y y,=1 si lo plane, x, =0 si él no ha tenido alguna vez un trabajo de tiempo parcial du- rante su estanciaen el colegio, y *; = 1 silo ha tenido, Usando los datos de la muestra presentados en la tabla adjunta, estime p,, la proporciGn de estudiantes del titimo afio que planea asistir a una universidad y p2, la proporcién de estudiantes del titi- mo afio que ha tenido un trabajo de tiempo parcial durante sus cursos en el colegio (incluyendo los veranos). Asimismo, 4.5 ESTIMACION DE UNA PROPORCION POBLACIONAL = BF & ~ ® 1 1 0 2 ° + 3 0 1 4 1 1 5 o o 6 oO 0 7 9 1 96 6 i 97 1 0 98 oO 1 99 o 1 100 1 1 Lnats x= 65 SOLUCION Las proporciones muestrales de la Ecuacién (4,15) estan dadas por . 2 45 A=t == 015 y Los limites 1 los errores de estimacién de p, y pz Son, respectivamente. 5 -S N 236m 82200 - J00) ORONO £EY( 300 = 00"! = 210.0293) = 0.059 oe wi 2(0.0293) = 0. Fa a2, | Bh (Na 1 EES -1 [(0.65)(0.35) (= = cc) 7 9 | g99 —) = 200-0891) = 0.078 Porlo tanto, estimamos que 0.45 (15%) de los estudiantes del dltimo aiio planea asis- tir a una universidad, con un limite para el error de estimaci6n igual a 0,059 (5.9%). Estimamos que 0.65 (65%) de los estudiantes del Gifimo aiio ha tenido un trabajo de tiempo parcial durante su estanciaen el colegio, con un I cin igual 0.078 (7.8%). 4. MUESTREO IRRESTRICTO ALEATORO Hemosdemostrado que la proporci6n poblacional p puede ser considerada como el promedio (44) de los valores 0 y 1 de la poblacién. Por lo tanto, el problema de de- terminar ¢] tamafio de muestra requerido para estimar p dentro de B unidades sera andlogo al de determinar un tamario de muestra para estimar 42con un mite para el error de estimacién B. Usted recordar que el tamano de muestra requerido para esti mar #t esta dado por No? "“(W-pDte (8) donde D = B?/4 [véase la Ecuacién (4.12)]. El tamafio de muestra necesario para es- timar p puede ser encontrado al reemplazar u? en la Ecuacién (4.18) por la cantidad Pq. Tamaio de muestra requerido pa elerror de estimacién B : estimar con un Ifmite para -——_ SW - DD +79 4.19) Bw donde qei-p oy) DED En una situacién practica desconocemos p. Un tamafio de muestra aproximado puede determinarse al reemplazar p por un valor estimado. Frecuentemente, tal esti- macién puede ser obtenida de encuestas anteriores similares. Sin embargo, si no se cuenta con informacién anterior, podemos substituir p = 0.5 en la Ecuacién (4.19) para obtener un tamaiio de muestra conservador (uno que ser probablemente mayor que el requerido). EJEMPLO 4.8 Los dirigentes del consejo estudiantil en un colegio desean realizar una encuesta para determinar la proporci6n de estudiantes que esta a favor de una propuesta de cédigo de honor. Ya que entrevistar a N = 2000 estudiantes en un lapso razonable es casi nposible, determine el tamaiio de muestra (mimero de estudiantes a entrevistarse) necesario para estimar p_con un Iimite para el error de estimacinde magnitud B = 0.05. Suponga que no hay informaciGn previa disponible para estimar p. SOLUCION Cuando no se cuenta con informacién previa, podemos aproximar los tamafios de muestra requeridos, estableciendo p = 0.5 en la Ecuacién (4.19). Tenemos que 2 (0.05)" BF _ (0.05) _ 9.o006es 45 ESTIMACION DE UNA PROPORCION POBLACIONAL = 8 Ne (N-D)D 4 p4 2000)(0.5)(0.5) 500. ~ (1999)(0.000625) + (0.5)(0.5) 1.499 = 333.56 Por lo tanto, Esto es, $84 estudiantes deben ser entrevistados para estimar la proporcién de estu- diantes que esti a favor de una propuesta de e6digo de honor, con un lfmite para el error de estimacién de B = 0.5. EJEMPLO 4.9 Con referencia al Ejemplo 4.8, sup6ngase que ademas de estimar la proporcién de estudiantes que apoya la propuesta de cédigo de honor, los dirigentesdel consejoestu- diantil también desean estimar el ntimero de estudiantes que considera que la organi- zacién del consejo estudiantil funciona de acuerdo a sus necesidades. Determine el tamafio de muestra combinado que se requiere en una encuesta para estimar p,, la proporcién de quienes estan a favor de la propuesta de cédigo de honor, y p2, la pro- porcidn de los que opinan que el consejo estudiantil funciona de acuerdo con sus m 0.05 y B, * "Pa aproximada- les, con I niles para los errores de estimaci6n de magnitud B 0.07. Aunque no se dispone de informacién anterior para es mente el 60% de los estudiantes opiné que el consejo satisfizo adecuadamente sus necesidadesen una encuesta similar Levada a cabo el afio anterior. SOLUCION En este ejemplo debemos determinar un tamafo de muestra que nos permita estimar p,con un limite B, = 0.05 y p, con un limite B, = 0.07. Primero determinamoslos ta- mafios de muestra que satistacen cada objetivo separadamente. Luego, el mayor de los dos ser el tamafo de muestra combinado para una encuesta que satisface ambos ob- jetivos. Del Ejemplo 4.8, el tamafio de muestra requerido para estimar p, con un limite para el error de estimacién de B, = 0.05 fue n = 334 estudiantes. Podemos usar los datos de la encuesta del afio anterior para determinar el tamafio de muestra necesario para estimar p,. Tenemos que BP _ (0.07)? —=— = 0.001225 a Y, por lo tanto, con p;= 0.60, —a (W-)D +4 (2000X0.6\0.4) 480 (1999)(0.001225) + (0.6\(0.4) 2.68877 = 178.52 4) MUESTRED IRRESTRICTO ALEATORIO Esto es, 179 estudiantes deben ser entrevistados para estimar p,, la proporcién de N = 2000 estudiantes que considera que el consejo estudiantil satisface sus necesidades, con un Ifmite para el error de estimacin igual a 0.07. H tamaio de muestra requerido para lograr ambos objetivosen una encuesta es 384, el mayor de los dos ta nafios de muestra, 4.6 MUESTREO CON PROBABILIDADES PROPORCIONALES AL TAMANO EI trabajo previo de este capitulo ha dependido de la muestra, siendo una muestra irrestricta aleatoria, conforme a la Definicién 4.1, Ahora mostraremos que, variando las probabilidadescon que las diversas unidades de muestreo son seleccionadas, algu- nas veces resulta ventajoso. Supongase, por ejemplo, que deseamosestimar el ntimero de empleos vacantesen una citidad, muestreando empresas industriales dentro de ella Normalmente, muchas de las empresas serin muy pequefas y emplearn a pocos obreros, mientras que algunas empresasserdn muy grandes, En una muestra irtestric- te muestra tfpica contended en su mayorfa empresas pequefias. Pero la informacién deseada (ntimero de empleos vacantes) est fuertemente influenciada por las empresas grandes. Por lo tan to, podriamos mejorar la muestra irrestricta aleatoria dando a las empresas grandes una mayor oportunidad de aparecer en la muestra. Un método para lograr este muestreo se denomina muestreo con probabilidades proporcionales al tamaito 0 muestreo ppt. Para una muestra y,, ys leatoria, el tamafio de la empresa no es tomado en cuenta, y ui ++; de una poblacién de tamano N, sea la probabilidad de que y, aparezca en la muestra. Los estimadores insesgadosde 7 y #L, junto con sus varianzasestimadas y mites sobre el error de estimacién, son como sigue: Estimador de! total poblacional 7: (4.20) 2 - tn) (4.21) Limite para el error de estimaci6: V0 (Fon) = 2 (4.22) 4,6 MUESTREO CON PROBABILIDADES PROPORCIONALES ALTAMARO 61 Estimador de la media poblacional 4 “ 1, to(u fhm F, -£ (4) (4.23) 2 estimada de jlyn 0G t (Hepp) N?n( (4.24) Limite para el error de estimacion: 2N Oth pgs) = 2 (4.25) Los estimadores Fy5¢ Y fpg Son insesgados para cualquier seleccién de 7, pero claramente el interés del experimentadores seleccionar las 7f, de tal manera que Jas varianzas de los estimadores sean lo més pequefias posibles. ¢Cémo se debe hacer estaseleccién?Supéngase, por el momento, que el valor de y, se conoce para cada una de las N unidadesen Ia poblacién. Por lo tanto, el total poblacional + también sera conocido, En estas condiciones podemos seleccionar cada unidad para la muestra con probabilidad proporcionala su valor y,, suponiendo que todas las medicionesson ~ 0 sitivas. Esto es, podemos hacer 77, = y,/. Con 77, = y,/7 para cada unidad muestreada, #,., sera 4 cigulig mu went mins (%:/7) a! ohn Por lo tanto, #,,, estima exactamentea 7 Ademés, i 1 _$(u_; ake ‘n) =~ tf (ne Frere ey LF nae “n(n = 1) Way) = Lo que nuevamente muest Ahora, antes del muestreo, es imposible conocer los valores y, para cada unidad en la poblacién. (Si fuesen conocidos, no serfa necesario el muesireo.) En consecuen- cia, no es posible 1a seleccién de 77, = y,/7, pero proporciona un criterio para selec- cionar las 77, que puedenser usadas en el muestreo. La forma practicade elegir las es seleccionarlasde manera proporcional a una medida conocida que esté altamente correlacionadacon y,, En el problema de estimar el niimero total de empleos vacan- tes, las empresas pueden ser seleceionadas con probabilidades proporcionales a su fuerza de trabajo total, que debe ser conocida con exactitud antes de seleccionar la que tenemos un estimador preciso. 4 MUESTREG IRRESTRCIO ALEATORO muestra. Fl nfymero de empleos vacantes por empresa se desconoce antes del muestreo, pero estard altamente correlacionado con el ntimero total de obrerosen la empresa. Veremos una aplicacién muy titil del muestreo ppt en el Capitulo 8. Para ilustrar numéricamente cémo trabaja el muestreo ppt, regresaremos a la poblacién de N = 4 elementos. {1,2,3,4}. Recuérdese que para una muestra irrestricta aleatoria de tamaiion = 2, E (9) = 2.5 y V(7)= = 0.417. Supongase que decidimos seleccionar 1 2 elementos con probabilidades diferentes y seleccionar m= 0.1, m= 0.1, 7 = 0.4 y 7,= 0.4, Para realizar este muestreo, podemos seleccionar un digito aleatorio de la tabla de ntimeros aleatoriosy tomar como nuestro primer elemento muestreado 4 siel digito aleatorio es 6, 7, 8 0 9. Luego el proceso se repite para el segundo elemento muestreado. (Nétese que un mis- mo elemento puede ser seleccionado dos veces, 1o cual no es posible en el muestreo irrestricto-aleatorio.) Esta selecci6n de 74, 2, 73 ¥ 4 confiere a los valores més pe- quefios en La poblacién, (1, 2), la probabilidad mas pequefta de ser incluidos en la muestra, y los valores mas grandes, (3, 4), tienen apreciablemente una probabilidad mayor de ser incluidos. Nétese que estas probabilidades no son exactamente propor- cionales al tamatio, pero tienden hacia esa direccién. La tabla 4.6 contiene una lista de las 10 muestras posibles, la probabilidad de obtener cada muestra, yla estimacién #,,, producida por cada muestra, La muestra TABLA4.6 Muestreo con probabilidadesaiferentes [muestrasde tomonon = 2de (1, 2,3, 4} con y= amy = -1 m= m= 0-4) Probabilidad de Mucsra obtener una muestra yy {1,2} 0.02 {1,3} 0.08 {1,4} 0.08 {2,3} 0.08 {2.4} 0.08 {3,4} 0.32 {a} 0.01 {2,2} 0.01 {3,3} 0.16 {4,4} 0.16 1.00) {1,2} resultard si nuestro primer digito aleatorio es un 0 y nuestro segundo digito aleatorio es un 1, Entonces, el valor de #,.,, segtin la Ecuacion (4.20), ser 4.6 MUESTRED CON PROBABLIDADES PROPORCIONALES ALTAMANO = .63 m2 8 (2) -H(or*a) (10 + 20) = 15 Ena Tabla 4.6, vemos que E (Fy) = 15(0.02) + 25(0.08) + + + + + 10(0.16) = 10 Y de esta manera queda demostrado que Fp ¢S un estimador insesgado de 7, Tam- bién, V (Foy) = (15 — 10)°(0,02) + GF — 10)7(0.08) + + - + + (10 — 10)7(0.16) = 6.250 ‘Si usamos el muestreo irrestricto aleatorio con n tendra una vananza calculada como sigue: V(Nj) = N?7V (9) = (4)°(0.417) = 6.672 Ja cual es mayor que la V(F,,,). La reducci6n proporcidnalen la varianza, usando un estimador ppt, serfa mayor si las mediciones poblacionales tuvieran mas variabilidad y si las 7, estuviesen mas proximas a ser verdaderamente proporcionales al tamafio de las mediciones poblacionales El muestreo con probabil 2, nuestro estimador Ny de + idades diferentes disminuiré la varianza de un estima- _ dor, permitiendo por lo tanto estimacionesmas precisa, si las probabilidadesson propor cionales, o aproximadamente proporcionales, al tamano de las mediciones selecciona das, Sin embargo, si las probabilidades se seleccionan en forma incorrecta, entonces Foye Y fap: Pueden tener una varianza mayor que la correspondiente a 7 ya fide un muestreo irrestrictoaleatorio. Supsngase, por ejemplo, que en las muestras de tamaiio n = 2de {1,2,3, 4}, seleccionamos a; = 7270.4 Y 73 = m4 = 0.1. Entonces Fppe atin es un estimador insesgado de 7, pero la VF...) = 81.25. En este cas0, Ppp es un estimador mucho mds deficiente que el # de un muestreo irrestricto aleatorio. En resumen, el muestreo ppt involucra un muestreo con reemplazo, lo cual signi- fica que una unidad de muestreo no eseliminada de la poblaci6n después de ser sel cionada para la muestra, Por lo tanto, una unidad de muestreo puede ser seleccionada mis de una vez. Una seleccién repetida usualmente es indeseable, pero no ocurrird fre- cuentementesi n/Nes pequefia. Ademis, esta caracterfsticaindeseable frecuentemen- te queda mas que compensada por la reduccién en la varianza que puede ocurrir. Los estimadores ppt de 7 yw solamente producen varianzas més pequefias si las probabi- lidades 7, son proporcionales, o aproximadamente proporcionales, al tamaiio de las y, que se investigan Mustraremos el uso practico de los estimadores ppt en el Ejemplo 4.10, EJEMPLO 4.40 Un investigador desea estimar el nimero promedio de defectos por tablero que con- tienen componentes electronicos, fabricados para la instalaciénen computadoras. Los tableros contienen un mimero diferente de componente, y el investigador considera que el ntimero de defectos debe estar positivamente correlacionado con el niimero de componentesen un tablero. Por lo tanto, se utilizard un muestreo ppt, siendo la pro- 64 4, MUESTREC IRRESTRICTO ALEATORO babilidad de seleccionar cualquier tablero para la muestra, proporcional al mimero de componentes en el tablero, Una muestra de n = 4 tableros serd seleccionada de N = 10 tableros de la produccién de un dia. El ntimero de componentes en los 10 tableros son, respectivamente, 10, 12, 22, 8, 16, 24, 9, 10, 8, $1 Muestre cémo seleccionarn = 4 tableros con probabilidadesproporcionalesal tamafio.. SOLUCION Listamosel mimero de componentes (nuestra medida del tamaiio) en una columna, y los intervalos acumulados y las 7, deseadas en columnas adyacentes, como sigue: ‘NGimero de Intervalo Tablet componentes = acumuladdo ™ 1 10 1-10 10/150 2 12 11-22 12/150 3 22 23-44 22/150 4 8 45-52 8/150 5 16 53-68 16/150 6 24 69-92 24/150 7 9 93-101 9/150 8 10 102-111 10/150 9 8 M2119 8/150 10 31 120-150 31/150 Hay 150 componentesen Ia poblaciGn que seré muestreada. Podemos considerar que estos componentesestén numerados del 1 al 150, Lat columna del intervaloacurnulado registra los componentesnumeradosen cada tablero. El tablero ntimero 1 tiene los 10 primeros componentes, el tablero ntimero 2 tiene los componentes del 11 al 22, y asf sucesivamente, Las arson simplementeel nimero de componentes por tablero, divididoentre el mimero total de componentes. Los tableros con mayor ntimero de componentes tienen, mayores probabilidades de seleccién. Para seleccionar la muestra de n = 4 tableros, acudimosa la tabla de mimeros aleatorios y seleccionamoscuatro niimeros aleatorios entre el 1 y el 180. Los ntimeros que seleccionamosfueron 14, 86, 94, y 25. Localizamosestos ntimeros en Ia columna del intervalo acumulado. Los tableros correspondientesa esos intervalos constituyen muestra Puesto que el 14 cae en el intervalodel tablero 2, éste entra a la muestra, Asimis- mo, el 56 cae en el intervalodel tablero 5, el 94 cae en el intervalodel tablero7, y el 25 cae en el intervalo del tablero 5. Por lo tanto, la muestra consiste de los tableros 2, 3, 5 y 7. Estos tableros han sido seleccionados con probabilidades proporcionales al mi- mero de sus componentes, Netese que con este método podriamos haber seleccionado un tablero en particular mais de una ver. 46 MUSSTREO CON PROBABLIDADES PROPORCIONALES ALTAMANG 65 EJEMPLO 4.44 Después de que el muestreo del Ejemplo 4.10 fue completado, el ntimero de defectos encontrados en los tableros 2, 8,5 y 7 fueron, respectivamente, 1, S, 2 y 1, Estime el niimero promedio de defectos por tablero, y establezca un mite macién, SOLUCION De la Ecuacién (4.23) a media pres estimada por fim te (2) donde n = 4, N = 10, n=, n=3, y= 2, _ 12 22 6 8 z ™ 150 tg T5050 Por lo tanto a 1 150° 150° 150° 150° —4_[,(180) , (250) , 2/150), ,(150 Free aal( =) 2 ) +24 s) +3( 9 )] = 4(68.37) =1.71 También, de la Ecuacién (4.24) Cot 1 2 _— 2 Vib») “aes (2 - tn) pen (150, > | [3(t50) I aorta 1740) + [a 17.10 2150) _ > (150 ? a [ae 17, 20] +( 9 17.10) } = 0.0295 y 2V V (iby) = 0.34 La estimaci6n del niimero promedio de defectos por tablero, con un limite pars error de imaciGn, es entonces, 171 £0.34 H intervalo (1.37, 2.05) proporciona un intervalode confianzade aproximadamente 95% para el nimero promedio de defectos por tablero. 66 4 MLESTRED IRRESTRICIO ALEATORO 4.7 RESUMEN Elobjetivode la estadistica es hacer inferencias acerca de una poblacién con base en la informacion contenida en una muestra, Dos factores afectan la cantidad de informa- cin en una investigaciGn dada. El primeroes el tamaito de la muestra, Mientras mas grande sea el tamario de muestra, mayor seré la informacin que esperamos obtener averea de la poblaci6n. El segundofactor que aiecta magnitud de va cantidad de informacién es la mediante el di- acidn en los datos. La variaci6n puede ser control jo de la encuesta por muestreo, esto es, el método por medio del cual se obtienen las observaciones. En este capftulo se trats el tipo més simple de disefios de encuesta por muestreo, el muestreo irrestricto aleatorio. Este diseito no intenta reducir el efecto de la variacion sobre el error de estimacién. Una muestra irrestricta aleatoria de tamatio n ocurre si cada muestra de n elementos de la poblaci6n tiene la misma probabilidad de ser selec cionada. Las tablas de ntimeros aleatorios son titiles que se simple, En la estimacién de una media jt y un total 7, poblacionales, usamos la media muesttal 7 yel total Nf, respectivamente. Ambos estimadores son insesgados; esto es, La varianzaestimada yel limite para el error de estimaci6n ara determinar los elementos incluidos en una muestra aleatori En alguna etapa durante el diseiio de una encuesta, el experimentador debe de- cidir cudnta informaciénse desea, esto es, en qué magnitud puede tolerarse un Ifmite para el error de estimacidn. Las necesidades de tamaiio de muestra fueron presenta das para estimar jy 1 con un Ifmite para el error de estim: El tercer parimetro estimado fue la proporci6n poblacional p. Las propiedades de # fueron presentadas y relacionadas con las propiedades de 7, el estimador de la media poblacional p. La seleccién del tamafio de muestra para estimar p con un Limite especitico para el error de estimaci6n se bas6 en el mismo principio empleado para la seleccién de un tamafio de muestra para estimar ys y T. Si las medicionesde la poblacién varian considerablemente en tamaito, ysi algu- na medida aproximada de este tamafio esti disponible antes del muestreo, entoncesel muestreo con probabilidades proporcionales al tamafio puede ser ventajoso. Este mé- todo produce estimadores insesgados de {1 y 7, los cuales pued mucho menor que las de aquellos generadosa través del muestreo irrestricto aleatorio. n tener una varianza ANALISIS DEL ESTUDIO DE CASO. LA ENCUESTA DEL SIF En la encuesta de opinién presentada al principio de este capitulo, el 54% de 2207 personas entrevistadas opiné que las formas del Sif son muy complicadas. Una est ™macién de la proporcién poblacional que considera las formas muy complicadas se encontré usando bra BieROCOs «67 al suponer que el tamano de la poblaciénNes muy grande Con @ = 0.54.la pro- porcién muesttal observada, tenemos fosaro-46) sa ara] AKO) 05422 0.54+0.02 ° 052 a 0.56 ‘como nuestra estimacion de la proporcién podlacionall, Par lo tanto; podemos con: far en que la mayoria de bs contibuyentes realmente encuentran a las formas de! SIF muy complicadas. EJERCICIOS 4a 42 43 44 4s Liste todas las posifiv mucstrasirrestrictas aleatoriasde tamafion = 2que puedenscleccionar sede la poblacién40, 1, 2, 3,4). Caleulela ode la poblacién yla ¥(7) de la media muestral . Luego. demnestre por calculos directos que vin ano NaN Para las muestras irre stnctasaleatorias generadasen el Kjercicio 1, calcule la s4de cada muestra Demuestre numéricamente que y- Noe B= Suponga que usted va a estimar el nimero de conglomerados de maleza de cierto tipo en un campo, ¢Cual es la poblacién, y qué usaria como unidades de muesireo? (Como construiria sun marco? (Cémo seleccionaria una muestra irresrieta aleatoria?Si la unidad de muestreo cs un {irea, tal como una yarda cuadrada, gafecta el tamaiio seleectonado para la unicad de muestreo ala precisién de los resultados Qué consideraciones tomariaen cuenta su eleccién del tamano Ge la unidad de muestreo? Elconjuntode datosen el Apéndice (Tabla 8) listalas cifras dela poblaciGn de residentes pores tado, segtin el censo de 1980. Seleccione una muestra irrestrieta aleatoriade cinco estados. Use las cifrasde la poblacién de 1980, de las estados seleccionados para estimar la poblacién total de Estados Unidos, yestablezca un limite paracl error de estimacién. Incluyesu intervaloobtenido Jacifra de la poblacién total dada en la tabla? (Considera usted que cualquier intervalode con fianza de 95%, basadoen muestrasde tamaiio 5, incluiria al total verdadero?Por qué? Las autoridades de un parque estatal estén interesadas en la proporcién de personas que acara- pan y que consideran que el espacio del srea disponible para acamparen un terreno en particu lar ¢3 adecuado. Las autoridades decidieron tomar una muestra ierstricta aleatoria den = 30 de los primeros N = 800 grupos acampacios que visitanel campo, Sea y, = 0 siel jefe del -ésimo ‘grupo muestreado considera que el espacio del drea disponible para acampar no es adecuado. Y J.= I'siconsideraque es adecuado{# = 1, 2, ..., 80), Uselos datos de fa tabla adjunta para es timarp. la proporciGnde personas que acampan y que consideran que el espacio del area disp nible para acampar es adecuado. Establezca un limite para el error de estimacién, 47 48 4.10 4a 4 MUESTREC IRPESTRICTO ALEATORO Perna vmucneada Repussa, y, 1 1 2 0 3 1 29 i 30 1 D525 Use los datos del Ejercicio 4.5 para determinar el tamario de muestra requerido para estimar p ‘con un limite para el error de estimacién de magnitud B = 0.05. je n = 100 medidores dc agua es controlada dentro de una co- munidad para cstimarel promedio de consumo de agua diario por casa, durante un periodoes- tacional seco. La media yla varianza muestrales fueron ¥ = 12.8 ys* = 1252. Si suponemos que hay N = 10,000 casas dentro de la comunidad, estime |4, el promedio de consumo diario verdadero, y establezca un Ifmite para el error de estimacién, ‘Una mues irestricta aleator Usando Ios datos del Bjercicio 4.7, estime el nimero total de galones de agua, 7, usado diariamente durante cl periodo seco, Establezca un limite para el error de estimacién. Losencargadosde administrar los recursos de los terrenos dedicadosa la caza silvestre estn inte resados eel tamafio de las poblaciones de venado y de conejo.en los meses de inviemo en un bosque en particular. Como una estimacién del tamaiio de la poblacién, los administradores proponen usar el niimero promedio de grupos densos de conejos y de venados por parcelas de © pies por lado. De acuerdo con una fotografia aérea, 1 bosque fue dividido en N = 10,000 cuadros de © pies por lado. Una muestra irrestricta aleatoria de n = 800 parcelas fue selec cionada, y se observGel niimero de gruposdensos de conejos y de venados, Los resultadosde este estudio s¢ resumen en la tabla adjunta. Estime 44; Y jag, ¢1 mtimero promediode grupos densos de venados y de conejos, respectivamente, por parcelas de $9 pies por lado. Establerca los limites para los errores de estimacion, ‘Venadoe Conejon Media muestral = 2,80 Media muestral = 4.52 Varianza muestral = 0.65 Varianza mucstral = 0.97 Una muestra irrestricta aleatoria de n = 40 estudiantes de un colegio fue entrevistada para de- terminar la proporcién de estudiantes que esté a favor del cambio del sistema semestral al ti mestral. Veinticinco de los estudiantes respondicron afirmativamente. Estime la proporcién de estudiantes del colegio que est a favor del cambio (suponga que N = 2000). Establezca un Hite para el error de estimacisn, Un dentista esta interesadoen Ia efectividadde una nueva pasta dental. Un grupo.de N = 1000 niijosde escuela participé en el estudio. Los registrosde un estudio anterior mostraron que habla un promediode 2.2 caries cada seis meses para el grupo, Después de tres meses de iniciado el es- tudio, el dentista muestreé n = 10 nifios para determinar cusnto hablan progresado con la nueva pasta dental. Usando los datos de la tabla adjunta, cstimecl ntimero medio de caries para todo el grupo, y establezca un limite para el error de estimacién. 4at2 413 44 4a5 4.16 aa7 418 EERCICIOS «69 ‘Nimere de caries en Nii fl perledo de tres meses 1 0 2 4 3 2 4 3 5 2 6 0 ? 3 8 4 9 1 10 1 El Departamento de Caza y Pesca de cierto estado esta interesado en la direccion de sus progra- mas futuros de caza, Para mantener un potencial mayor de caza futura, el departamento desea determina la proporcién de cazadores que buscan cualquicr tipo de ave de caza. Se obtuvo una muestra irrestricta aleatoriade n = 1000 de los N = 99,000 cazadores con permiso. Suponga ‘que 430 indicaron que cazaron aves. Estime p, la proporcién de cazadorescon permiso que bus: can aves de caza. Establezca un limite para el error de estimacién. Usando los datos del Bjereicio4.12, determine el tamatio de muestra que el Departamentodebe- obtener para cstimar la proporcién de cazadores de aves de caza, dado un Himite para cl error de estimacién de magnitud B = 0.02. Elauditor de una compaiia est interesadocn estimarel nimero total de comprobantesde vi cos que fucron archivados incorrectamente. En una mucstra irrestrictaaleatoria de N= 50 comprobantes tomados de un grupo de N = 250, 20 fueron archivados incorrectamente. Estime <1 mimero total de comprobantes archivadosincorrectamentede los N = 250, yestablezca un limite para cl error de estimacién, [Sugereneia:Si p es la proporcién poblacional de comproban- tesarchivadosincorreetamente,entonces Np esl nimero total de eomprobanesarchivados in corrgctamente, Un estimador de Np es Nf, cl cual tiene una varianza estimada dada por N?v(B).] Un psicdlogo desea estimar el tiempo de reacciGn promedio para un estimuloentre 200 pacientés de un hospital especializado en transtomnos nerviosos. Una muestra ircestrictaaleatoria de n 20 pacientes fue seleccionada, y fueron medidossus tiempos de reaccidn, con los resultadossi: guientes F = 21 segundos 5 = 0.4 segundos Estime la media poblacional 41, y establezea un limite para el error de estimacién, Enel Bjercicio 4.15, zde qué tamafto debers ser la muestra para estimar con un Limite para el error de estimaciénde 1 segundo? Use 1.0 segundos como una aproximaciénde la desviacién es- tuindar poblacional En un estudio socioligico, realizadoen una pequefia ciudad, se hicieron Il para estimar la proporcién de hogares donde habita cuando menos una persona mayor de 65 afios de edad. La ciudad tiene 621 hogares, segtin el directorio telefénico més reciente. Una. muestra irrestricta aleatoria de n = 60 hogares fue seleccionadadel directorio. Al terminar la investigacién de campo, de los 60 hogares muestreados,en 11 habita cuando menos una persona mayor de 65 aiios de edad, Bstime la proporcién poblacional p, y establezca un limite para el error de estimacion. El gerente de un tallerde maquinaria desea estimarel tiempo promedio que necesita un opera dor para terminar una tarea sencilla, Bl taller tiene 98 operadores. Se scleccionaron aleato- 421 4.22 423 4.24 4) MLESTRED [PPEST2ICTO ALEATORIO riamente a ocho operadores y sles toms el tiempo. Los resultadosobtenidosse muestran en la tabla adjunta. Estime el tiempo promedio para terminar la tarea entre todos los operadores, y cstablezea un Ifimite para el error de estimacion, ‘Tiempo (en minwion 42 53 5A 46 79 BA 3.8 44 En el Ejercicio 4.18, zde qué tamafiodebers ser la muestra para estimar p con un Hmite para el error de estimacién de 0,08? Suponga que la proporcién verdadera p es aproximadamente 0.2. Un investigador esta interesado en estimarel nlimero total de "irboles marcados” (drbvoles mis grandes que cierto tamano especifico)en una plantacién de N + 1500 acres. Esta informacién se utiliza para estimar el yolumen total de madera aserrada para los érboles en la plantacién. Una muestra irrestricta aleatoria de M = 100 parcelasde 1 acre fuc seleccionada, y cada parcela fue examinadaen relacién con el mimero de drboles marcados. Fl promedio muestral para las n. = 100 parcelas de 4 acre fue 7 = 25.2, con una varianza muestral des? = 136, Estime el ndimero total de drboles marcados en la plantacién, Establezca un limite para el error de estimacién, Usando los resultados de la encuesta descrita en el Bjercicio 4.20, determine el tamaiio de muestra requerido para estimar ¢, cl nimero total de Arboles en la plantacién, con un li para el error de estimacién de magnitud B= 1500. Una gran empresa constructora tiene 120 casasen diversas ctapasde terminacién, Para estimar Ja cantidad total de délares que serd registrada.cn cl inventariode In constracelén en proceso, se seleccioné una muestra irrestneta aleatoria de 42de esas casas y se determinaron los costos act muladosen cada una de ellas, Suponga que los costos obtenidos para las 12 casas de la muestra fiaeron los siguientes 35,500 30,200 28,900 36,400 29,800 34,100 32,600 26,400 38,000 38,200 32,200 27,500 Estime los costos totales acumulaclos para las 120 casas, y establezca un limite para cl errordees- timacién, De los datos de Ia Tabla Sen cl Apéndice, seleccione una muestra irrestricta aleatoria simple de = 10 estados. Esiime la proporeién de estadoscon el ingreso por persona de 1977 que estén abajo de $ 5500, y establezca un limite para el error de estimacion. Los resultados de una encuesta de opinidn ptiblica, reportados en una revista (Time, Encro 2, 1984), mostraron que el 519% de los entrevistados coinciden completamente con la siguiente declaracién Les soviticos estén tan temerosos de una gucrra nuclear como los cstadounidenses, y por lo tanto el interés mutuo es encontrar formas para negociar Elartfeulo establece que “los resultados estan basadosen una encuesta por teléfono de 1000 vw tantes registrados. . . H error de muestreo potencial es de mis o menos 89%." ¢Gémo se calculé y cui es la interpretacién del 3%? gPodemos concluir que la mayoria de los votantes registrados coinciden completamente con la declaracién? La encuesta de Florida de febrero-marzo de 1984 (Gainesville Sun, abril 1, 1984) entrevist6 a 871 adultos de (odo el estado. En una pregunta, el 58% de los entrevistados favorccid fuerte- 426 427 4.28 429 BeRccos 71 mente el apoyo a Israel. gPodrfa usted concluir que la mayoria de los adultos en Florida favore cen el apoyo decidido a Israel? Los resultados de una encuesta de Louis Harrisestablecen que el 86% de los estadounidenses re- gistra al fttbol como su deporte favorito, Un articulo establece: "Con una muestra de este tama- fio (1091 adultos) se puede decir con 95% de seguridad que los resultadosestan dentro de mas 0 menos 3% de lo que estarian, si la poblacién completa de adultos hubicra sido encuestada” (Gainesuille Sun, mayo 7, 1961). ¢Est& usted de acuerdo? La Compaiiia Nielsen, A. C., ha instalado monitoreselectrénicosen los aparatos de televisin de aproximadamente 1200 de los. 80 millones de hogares estadounidenses. Los datos obtenidos de Jos monitores registran estimacionesde la proporcidn de hogares que sintonizaron un progra ma de TV cn particalar. Niclsen presenta la siguiente justificacion para este tamafio de muestra (D. Cody, “Poll and Pollsters", Sky, octubre de 1982, p. 116) , Merce 70.000 frijoles blancos y 30,000 frijoles rojos y nego extraiga una muestra de 1000 frijoles. Las probabilidades matematicasson de que el nimero de frijoles rojos estard entre 270 $30, osea de 27 « 80% de la muestra, lo que corresponde a una “cl sificacién” de 80, mas o menos tres, con una certeza de 20 a | de confiabilidad estutistica, La regla estadistica basica no cambiaria si el muestreo proviniera de 80 millones de frijoles en Ingar de 100,000. Interprete y justifique esta declaracién en términos de Jos resultados de este capftulo, En uns encuesta de opinion se interrog6 1684 adullosen todo Estados Unides (Gaiesuille Sun, julio 4, 1983), Ena encuestase reportétener un 6% de margende ervor para los resultadosrefe rentes a las proporcionesde entrevistadosque favorecen ciertas devisiones. gEsté usted de acuerdo? Un auditor detecta que cierta empresa regularmentecxagera las eamtidadesde dineroen d6kares de los inventarios, a causa de los retrasos en cl registrodc los retivos. E auditor quicre estimar la ccantidaal total exagerada sobre 1000 articulosfstados, obteniendolas cantidadesexactas(revis das) del inventario mediante una muestra irestricta aleatoria de 15 articulos, y comparando estas cifras exactas con las eantidades registradas. Los datos para los articulos seleccionadosse muesteun en la tabla respectiva (Iodos los datos en dotares). Estime la cantidad (otal exagerada sobre los 1000 tipos de articulos, y establezca un Hmite para cl crror de estimacién. (Omita la cpt) Articulo Cantidad Cantigad xageracion Gmero revisada regitrada iterenci) 1 175, 210 35 2 295 305 10 3 68 1 23 4 74 82 8 5 128 140 12 6 241 250 9 7 362 384 22 8 nR 80 8 9 59 82 23 10 112 140 28 av 118 124 6 12 210 230 20 13 240 260 20 14 123 247 24 15 96 108 12 430 431 432 433 434 435 436 4) MUBSTRED [RRESTRICTO ALEATORO Un auditor muestrea aleatoriamente 20 cuentas por cobrar de las S00 cuentas de una empresa Bi auditor lista la cantidad de cada cuenta y verifica si los documentos respectivos cumplen con los procedimientos establecicos. Los datos son como sigue (cantidadesen délares, Y= si, N no) Cuenta Cantidad Concordancia Conta Cantidad Congordancia 1 278 Y uw 188 N 2 192 x 12 212 N 3 310 ¥ 13 92 Y 4 94 N 14 56 Y 5 86 Y 15, 142 Y 6 335 ry 16 37 Y 7 310 N 17 186 N 8 290 Y 18 221 Y 9 221 Y 19 219 N 10 168 Y 20 305 Y atime el total de cuentas por cobrar para las S00 cuentas de la empresa, y establezea un limite para el error de estimacién. ¢Considera usted que el promedio de las cuentas por cobrar de lt empresa excede de $2502 Por qué? Remftase al Ejercicio 4.30, Con los datos referentes a la concordancia, estime la proporeidn de Jas cuentas de la empresa que no cumplen con los provedimientos establecides. Establezca un limite para el error de estimacién, {Considera usted que la proporcién de cuentas que cumplen con los procedimientos establecidos excede del 80%? gPor qué? Remitase al Ejercicio 4.30, Suponga ahora que las 20 cuentas dadas representan una poblacién dela cual n = S cuentas seri seleccionadas para una investigacién més detallada. (Fl cuenta: habiente seri entrevistado para verificar las cantidades.) Seleccione una muestra de 5 cuentas ‘con probabilidades proporcionalesa las cantidades. El departamento de agriculturade un estado quicre medir la produccién total de tomates para tuna mmestra de campos sembrados, con el propésito de estimar Ia procluccién total de tomate para el estado. Analice las méritos del mucstreo irrestricto aleatorio comparado con el muestreo con probabilidades proporcionalesal tamaio. Remitasea las cifras de la poblaciéin de Bstados Unidesdadas en Ta Tabla $ del Apéniice, De los rmucve estados del noreste, seleccione na muestra de cuatro estados con probabilidades propor- ccionales a Jos tamafios de su poblacién total en 1970. g&s este procedimiento un esquema de :muestreo apropiado para estimar el total de desempleoen el Noreste?gEs este procedimiento un esquema de muestreo apropiado para estimar acres de terreno forestal’? Para los n= 4 estados seleccionadosen el Ejercicio4.34, registre los tamafios de su poblacién en 1980, scgtin la Tabla 8 del Apéndice, Use estos datos para estimar la poblacién total en 1980 de losestados del noreste, y establezca un limite para el error de estimacién. ¢Est4 cl total que se in dica en a tabla ineluido en su estimacién por intervalo? {Considera usted que este método de muestteo es mejor que seleccionar una muestra irrestricta aleatoria de cuatro estados con fines de estimar la poblacién total? gPor qué? La tabla adjunta muestra gastos de consumo personal en Estados Unidos para una seleccidn de bienes y servicios(en miles de millones de d6lares), Seleccione una muestra de tres categorfascon probabilidades proporcionales. los gastos de 1981. Utilice para las categorfas muestreadas los, datos de 1982 para estimar el gasto total por las nueve categoriasen 1982. Bstablezea un Iimite para el error de estimacién, 437 Boos 79 Categorias 181 1982 Vehiculos automotores 101.6 109.9 Muebies y enseres domésticos 93.3 935 Alimentos 375.9 396.9 Ropa 15.3 119.0 Gasolina y aceite 94.6 m5 Combustible y carbén 20.7 20.0 Vivien 3020 © 334.1 Funcionamiento de la vivienda 1284 0 1443 ‘Transporte 655 68.4 Fuente: The World Almanac & Book of Facts, 1984 edition, copyright © [Newspaper Enterprise Association, Inc., 1983, New York, NY 10166. Un estudio para evaluar las actitudes de los contadores, respecto a Ia publicidad de sus servicios, incluyéel envio de cuestionarios a 200 contacloresseleccionadosde una lista de 1.400 nombres Un total de 62 cuestionarios debidamente contestados fueron devueltos. EI resumen de los datos para una pregunta es como sigue Probabilidad de publicidad en el futuro [%) ‘Teck longue ‘Aquellos con respondieron publicidad an enc pamndo 46) Certeza virtual 22 35 Muy probable 4 3 Povo probable ag 35 Alrededor de 50-50 18 15 Poco improbable 6 0 ‘Muy improbable 2 0 No absoluto 5 0 No respuesta 4 0 Fuente: K. Traynor, "Accountant Advertising: Perceptions, Attitudes and Behaviors," Journal of Advertising Research, vol. 28 no. 6, 1984 © Copyright 1984, by the Advertsing Research Foundation. (a) Estime a proporcién poblacional de certeza virtual para hacer publicidad nuevamente (b) Estime Ia proporcién poblacional de teneral menos una probab dade 50-50 de hacer pw blicidad nuevamente. (©) Entre aquelloscon publicidaden el pasado, estimela proporcién poblacional de ser poco im probableel hacer publicidad nuevamente. (@) Entre aquellos con publicidad en el pasado, estime la proporcién poblacional de tener al ‘menos una. probabilidad de 50-80 de hacer publicidad nuevamente. a todos los casosestablezea un de mfs suposic Una empresa de investigacién de mercadlosestima la proporcién de clientes potencialesque pre- fiere cierta marca de lipiz labial, mediante la scleccién “aleatoria” de 100 mujeresque Hegan 4 imite paracl error de estimacién, gLas partes (c)y(«) requieren de las que se hacen para las partes (a) y (b)? 74 4.40 4 MUESTREC IRRESTRICIO ALEATORO su puesto de ventas en un centro comercial. De las 100 mujeresseleccionadas, 68 de ellas mani: festaron tener preferencia por Ia marca A. (a) (Como estimaria usted la proporcién verdadera de mujeres que prefiere la marca A, con un limite para el error de estimaci6n? (b) @Cual es la poblacisn objetivo en este estudio? (©) QSeleccioné la empresa de investigacién.de mercadlos una muestra irrestriea aleatoria? (d) (Qué otros problemas ve usted con este tipo de muestreo? Se esté formulando un caso legal para un sindicatode sceretarias, quicnes alegan que sts patro- nes les estin pagando salarios injustamente bajos. Las 64 secretariasen la empresa tienen un sa. lario promedio anual de $18,300, con una desviacion esténdar dc $400. Elsalario promedio para todas las secretariasen la ciudad en que se localiza la empresa ex de $20,100. (Puede usted sus tentar el alegatode las secretarias mediante argumentosestadisticos?Si es as, plantec efudado- samente estos argumentos y las premisas que los fundamentan, La Comisién para la Igualdad cle Oportunidades de Empleo acusa a una empresa de transgredir Jas normas para el contrato de grupos minoritarios, puesto que de sus 120 empleados solamente 30 no son blancos, Se sabe que en el drea de mercado laboral para esa empresa, el 36% de los cempleados disponiblesson no blancos. (Puede usted sostenerla acusaciénde la CIOE con funda- mentos estadisticos?Plantee sus argumentosen favor o en contra de la acusacién, con cuidadosa atenci6n a las suposiciones, EXPERIENCIAS CON DATOS REALES aa 42 La Tabla 47 lista algunas de las estadisticas finales para la temporada 1982-1988 de la Aso iacién Nacional de Basquetbol. Ux: estos datos para completar los ejervicios siguientes (a) Seleccione una muestrairrestricta aleatoriaden * 5 equipos de losN = 28 cquiposlistados. Use los puntos anotados por kos 5 equipos muestreados para estimar el ntimero promedio de puntos anotados por equipo yel nimero total de puntos anotacos en la temporada por todos Jos equipos. En cada caso establezca un limite para el error de estimacién. (Incluye st esti- ‘maci6n por intervalo, para el total de puntos anotados, al total verdadero? (b) En papel cuadriculado, grafique el ntimero de puntos anotados contra el niimero de parti- dos ganados para cada uno de los 23 equipos. (Parece existir una gean correlacién positiva enire estas dos mediciones?Suponga que una muestra den = 5 equiposes seleccionada con probabilidades proporcionalesal niimero de partidos ganados, y que esta muestra es usada para estimar el ntimero total de puntos anotados en la asocineién, (Considera usted que la vananza de este estimador sera mis grande o més pequetia que la vananza del estimador del total de puntos anotados usado en el ineiso (a)?(Por qué? (€) Grafiquecl niimero de partidos ganados contra el nimero de rechazos para cada uno de ks 43 equipos. (Parece existir una correlacién positiva entre estas dos mediciones? (2) Seleccione una muestra de n = 4 equipos con probabilidades proporeionales al ndimero de pattidos ganades, Use cl ntimero de rechazos de estos cuatro equipos para estimar el niimcro promedio de rechazos por equipocn la asociacién. Establezca un Mimite para el error de est [dentifique un problema en su drea de interés del cual pueda usted extraer una muestra inestricta aleatoria para estimar una media, un total o una proporcién poblacionales. Defina claramente la poblacién, las unidades de muestreo, y construya un marco. Seleccione una muestra irrestrieta aleatoria del marco, usando la tabla de ntimeros aleatorias en el Apéndice. Lucgo recolecte Jes datos y efecttic les cdlculos nocesarios. EXPERENCAS CON DATOS REALES TABLAA,7 | Estoaisticas finales para 1982-/983 de la Asociacién Nacional de Bosque!bo! Porthos Partides Puntos = Panton emados perdidon —anotados—permicidog —-Rechazor Divisi6n del Atlantico Philadelphia 65 17 9191 8,562 3,920 Boston 56 26 9191 8,752 3,805 New Jersey 49 3 8.672 8,445 3,693, New York a4 38 8198 7,979 3,343, Washington 42 40 8134 8145, 3.529 Division del Centro Milwaukee sl ey 8740 8,379 3,572 Adanta 43 39 8335 8413 3,572 Detroit 37 45 9.239 9.272 3.789 Chicago 28 34 9,102 9,403 3,794 Cleveland 23 59 7,964 8574 3,587 Indiana 20 62 aol 9.391 3.593 Divisin del Medio Oeste San Antonio 33 2 9375 9,075 3,831 Denver 45 37 10,105 10,084 3,738 Kansas City 45 7 9,328 9,209 3.663 Dallas 38 44 9.243 9.277 3.677 Utah 30 52 8.938 9,282 3,643 Houston 14 8 8145 9.096 3.466 Divisin del Pacifico ‘Los Angeles 38 24 9,433 8,978 3,668 Phoenix 33 29 8776 8,361 3,612 Seattle 48 34 9,019 8,756 3,721 Portland 46 36 8808 8,633, 3,560 Golden State 30 52 8,902 9,205 3,565, San Diego 25 7 8,903 9,299 3,502 Fuente: The World Almanac & Book of Facts, 1984 edition, copyright @ Newspaper Enterprise Awociation, Inc., 1983, New York, NY 10166. Alaunos proyectos sugerids son como sigue: Comercio: Estime el ingreso promedio bruto para las empresas de un cicito tipo en su frea, o Ia cantidad promedio gastada para esparcimiento entre los varones de un colegio. ‘Ciencias sociales: Bstime la proporcién de volantes registrados que apoyan alguna pro- puesta politica popular, 0 estime el ntimero promedio de personas por familia para cierta Sec eign de su ciudad. Giencias fisicas: Considere un experimento de laboratorio, tal como medi la resistencia de tensién de un alambre o medir el diémetro de una barra. Tome n observacionesindepen dientes sobre tal experintento y trdtelas como una muestra irrestrieta aleatoria, Construya una estimacién por intervalo para ia media "poblacionai". Agu‘ la poblaciénes meramente concep tual (se podefan efectuar muchas mediciones del fenmenoen cuestin), y su media representa la resistencia promedio del alambre de este tipo o el diametro promedio de la barra Ciencias biolégicas: Estime el peso promedio de los animales alimentados con una dicta durante un petiodo espectfico, o estime la altura promedio de los drboles en cierta porcidin de terreno, Como un ejemplo para trabajar con totales en lugar de medias, estime el miimero total 4 MUESTPED IRRESTICTO ALEATORIO de colonias de insetas (de cierto tipo) que plaga una parcela. Aquf sea cutdadaso en la seleccisn de las unidades de muestreo y la construccién del marco, Si un ejemplo real involucra un conjunto grande de datos, quiza desce usar una computa- dora para sus célculos. La mayoria de los centros de cémputo tiene programas tipo que calculan medias y varianzas muestrales. Cuatro paquetes de tales programas ampliamente usados son SPSS, SAS, BIOMED y MINITAB (véase la Bibliograffa en cl Apéndice) 5 MUESTREO ALEATORIO ESTRATIFICADO EsTUDIO DE CASO. éPODEMOS ESTIMAR EL COSTO TOTAL EN EL CUIDADO DE LA SALUD? Un problema importante de interés nacional involucra la estimacién del costo de cuidados de la salud. Esbs costos son estudiados por diversas instituciones. tanto del sector gobierno como del sector privado, a fin de establecer politicas gubema- mentales y evaluar decisiones mercantiles, tales como tasas para sistemas de seguro. Un método para estimar los costos de hospital para una enfermedades consi derado en elarticulo "Economic Impact of Kidney Stones in While Adu! Males”,por J. Shustery RL. Scheatfer (Urology, vol. 24, No 4, 1984]. En este trabajo dos regionesde Estados Unidos, las Carolinas ylos estados de las IViontonas Rocosas, fueronconside- radas para un estudio especial. Una muestra den, = 363 pacientes con itiasis en las Carolinas tuvo un costo promedio para la primera hospitalizaciénde Si350; una muestra de n, = 258 pacientes con iiiasis en las Rocosas tuvo un costo promedio para la primera hospitalizacionde $1150. Podemosestimar el costo anual total de hospitalizacionpor esta enfermedad para ambas regiones combinadas? Los mé!o- dos del Capitulo 5 nos indicaran como hacerlo gi existe alguna informacion adi- cional disponible Los métodos pueden utlizarse entonces para hacer la estimacién de todo Estados Unidos si se cuenta con informacion muesttol para otras regiones. 7 5.4 INTRODUCCION E] objetivo del disefio de encuestas por muestreo es maximizar la cantidad de informa- cién para un coste dado. Et muestreo irrestricto aleatorio, disefio basico de muestreo, suele suministrar buenas estimaciones de cantidades poblacionales a un costo bajo. En este capitulo definimos un segundo procedimiento de muestreo, ¢] muestreo aleatorio estratificado, que en muchas ocasiones incrementa la cantidad de informacién para un costo dado. DEFINICION 5.4 Una muestra aleatoria estratificada es ta obtenida median. te la separacién de los elementos de la poblacién en grupos que no presenten’ traslapes, lamados estratos, 9 la seleccién posterior de una muesira irrestricta aleatoria simple de cada estrato \ SupSngase que en cierto municipio se va a realizar una encuesca de opinién piblica, disefada para estimar la proporcién de votantes que apoyan mayor gasto de Jos impuestos pablicos en mejorar el servicio de ambulancia. Fl municipio comprende des ciudades y un rea cural. Los elementos poblacionales de interés para la encuesca ‘son todos los hombres y mujeres en edad de votar residentes en ¢] municipio. Una muestra aleatoria estratificada de adultos residentes én el municipio puede obcenerse mediante la seleccidn de tres muestras irrestrictas aleatorias de adultos: una en cada ciudad y otra en el area rural. Esto es, las dos ciudades y el Area rural representan tres estratos, de los cuales obcenemos muestras irrescricias aleatorias. S$. INIRODUCCIEN 79 En esta encuesta, gpor qué debemos escoger una muestra aleatoria estratificada, en lugar de upa muestra irrestricta aleatoria? Primero, tengamos en cuenta que nuestro objetivo al disefiar una encuesta es maximizar la informacién obtenida (0 mi- nimizar el limite para el error de estimaci6n) para un presupuesto fijo. Las muestras que presentan poca variabilidad entre las mediciones produciran pequeitos limites para el error de estimaci6n, Entonces, si los adultosen una ciudad (digamosciudad A) tienden a pensar de igual manera respecto al servicio de ambulancia, podemos obte ner una estimacién muy exacta de la proporcién encuestadacon una muestra relativa- mente pequefia. Asimismo si todos los adultos de la segunda ciudad (cidad B) tien: den a pensar semejante acerca de esta situacién, aunque difieran en opiniGn de los de ciudad A, podemos obtener nue cién exacta con una muestra pequefia. Esta situacién puede presentarse si la ciudad A tiene un hospital y por eso no Ie urge mejorar el servicio de ambulancia; mientras que la ciudad B no tiene hospital y por ello necesita mejorar su servicio de ambulancia. Las opiniones en el area rural pueden ser mas variadas, pero quiza viva ahf menor ntimero de adultos y se pudiera isponer de recursos suficientes para un estudio detallado en esta drea. Cuando se combinan los resultados de on final de la proporcién de votantes que apoyan un mayor presupuesto para el servicio de ambu- lancia puede tener un limite para el error de estimacién mucho mas pequeiio que el obtenido de una muestra irrestricta aleatoria de tamaiio comparable. Segundo, el costo por obtener las observaciones varia segtin el diseiio dé Ta en- ccuesta. El costo por seleccionarlos adultos que van a ser muestreados, el costo del tiempo y traslado del entrevistador y el costo para instrumentar todo el proceso de muestreo pueden ser minimizadosmediante una muestra aleatoria estratificada, cuidadosamen, te planeada para éreas geogrificas compactas bien definidas. Tales ahorros en costos pueden permitir al investigador utilizar una muestra de mayor tamafio que la que podria usar para una muestra irrestricta aleatoria del mismo costo total. Tercero, se pueden desear estimaciones de pardmetros poblacionales para ciertos subconjuntos de la poblaci6n, En Ta encuesta del municipio cada comisién de ta ciudad puede desear una estimacién de la propor mejor servicio de ambulancia para su propia ciudad. Fl muestreo aleatorioestratitic: do permite la estimaci6n separada de parémetros poblacionales dentro de cada estrato, En resumen, los motivos principales para utilizar muestreo aleatoria estratifica- do en lugar de muestreo irrestricto aleatorio son los siguientes: nente una estima muestra aleatoria estratifieada, la estin n de votantes que favorecen un pequefio para el error de estima- del mismo tama- 1. La estratificacién puede producir un Iimite m cin que el que se generaria por una muestra irrestricta aleatori fio. Este resultado es particularmente cierto si las mediciones dentro de los estratos son homogéneas. 2. El costo por observacidn en la encuesta puede ser reducido mediante la estratifica- cidn de los elementos de la poblacién en grupos convenientes. 3. Se pueden obtener estimacionesde parémetros poblacionales para subgruposde la poblacin. Los subgrupos deben ser entonces estratos identificables. Estos tres principios para la estratificacion deben tenerse presentes cuando se est planeando estratificaro no a una poblacién decidiendo eémo definir los estra: tos. Fl muestreo de pacientes hospitalizados, sujetos a cierta dieta para evaluar ganan- cia en peso, puede ser mas eficiente si son estratificados por sexo, ya que el varén tiende a pesar mas que la mujer. Una encuesta de estudiantesen una universidad puede apli- 80 5 MUESTRED ALEATORIO ESIRATIFICADO arse ¢ instrurnentarse mas convenientemente si los estudiantes son estratificadosen residentes internos y externos del recinto universitario. Si los gerentes de una planta manufacturera requieren estimaciones de la proporcidn de productos defectuosos, se puede realizar un pla produccién. La mayorfa de las grandes encuestas tiene incorporado cierto grado de estratifi- cacién en el disefio. Como ejemplos consideraremos a tres grupos importantes de en- ‘cuestas realizadas por la Oficina de Estadisticas del Trabajode Estados Unidos. El indice de Precios del Consumidor (IPC) es una medida de Ia variacién promedio en precios de una coleccisn fija de bienes y servicios para Ios consumidores urbanos. El IPC realmente secalcula a partir de al menos cuatro diferentes tipos de encuestas: en- cuestas de ciudades, encuestas de familias urbanas, encuestas de empresas que propor- cionan bienes y servicios, y encuestas de bienes y servicios especificos. En el disefio de la mayorfa de las encuestas del IPC, 1166 unidades muestrales(municipioso grupos de municipios contiguos) son identificadas en la poblacién y agrupadas en 85 esiratos. Las estratos son elegidos con base en aspectos geograficos, tamaiio de la poblacion, increment en el porcentaje poblacional de 1960 a 1970, grandes industrias, porcentaje de no blancos, y porcentaje de urbanos. Las unidades muestrales dentro de un estrato son elegidas lo mas homoggneas posible con respecto a estas caracteristicas, La Encuesta de Poblacién Actual (EPA) mide aspectos de empleo, desempleo. y personas que no estén en Ia fuerza de trabajo. Esta encuesta agrupa 1981 unidades muestralesen todo Estados Unidos, en estratossimilares a los de las encuestas del IPC, excepto que se usan unidades muestrales rurales y el ntimero de ranchos es una canti- dad importante para la estratificacion. La Encuesta de Establecimientos (EE) retine informacién relativa a horas de tra- bajo y ganancias para establecimientos no agricolas en Estados Unidos. Los estableci- mientos son estratificados de acuerdo con el tipo de industria y tamafo, primordial- mente para homogeneidad de las mediciones pero también para aportar estimaciones para diversos tipos de industria. Por ejemplo, se proporciona informacién para cate gorfas de industrias, tales como minerfa, construccién, manufactura, transporte y fi- nanzas, seguros y bienes raices. En este capitulo la estratificacién se utilizaré siempre con muestreo irrestricto aleatorio en cada estrato, como se establecié en la Definicién 5.1. Sin embargo, la estratificacién puede ser combinada con otros tipos de muestreodentro de los estratos. Presentaremos algunos ejemplos en capitulos posteriores. de muestreo para control de calidad estratificado por Iineas de 5.2 COMO SELECCIONAR UNA MUESTRA ALEATORIA ESTRATIFICADA primer paso en laseleccién de una muestra aleatoria estratificada es espeficar clara- mente los estratos; asi, cada unidad muestral se ubica en el estrato apropiado. Este paso puede ser mas dificil de lo que parece. Por ejemplo, suponga que usted planea estratificar unidades muestrales, —digamos, hogares— en unidades urbanas y rurales. aQuése debe hacer con estos hogaresen una poblacién de 1000 habitantes?gSon rurales © urbanos estos lugares? Pueden ser rurales si el pueblo esti aislado en el campo, 0 pueden ser urbanossi el pueblo es contiguoa una gran ciudad. Por ello, para especificar 5.2 COMO SELECCIONAR UNA MUESTRA ALEATOR\A ESTRATIICADA 81 lossignificados de urbano y rural es esencial que cada unidad muestral pertenezca clara- mente tinicamente a un estrato. Después que las unidades de muestreo han sido divididasen estratos, selecciona- ‘mos una muestra irrestricta aleatoria de cada estrato, mediante la técnica presentada en el Capitulo 4, Fl problema de elegir el tamafio de muestra apropiado para cada estrato se tratard posteriormente en este capftulo, Debemos estar seguros de que las muestras seleccionadas en los estrtos sean independientes. Esto es, se deben aplicar diferentes esquemas de muestreo aleatorio dentro de cada estrato, de tal manera que las observacioneselegidas en un estrato no dependan de las que se han elegido en otro estrato. Se requiere alguna notacién adicional para muestreo aleatorioestratificado. Sea E= miimero de estratos N,= numero de unidades muestralesen el estrato # N = ntimero de unidades muestrales en la poblacién N, +N, +-°°+Ne El siguiente ejemplo ilustra una situaci6n en la cual el muestreo aleatorio estrati- ficado puede ser apropiado. EJEMPLO 5.4 Una empresa publicit interesada en determinar qué tanto debe enfatizar publicidad televisivaen un determinado municipio, y decide realizar una encuesta por muestreo para estimar el nGmero promediode horas por semana que se ve la television en los hogares del municipio. Este comprende dos pueblos, pueblo A y pueblo B, y un rea rural, El pueblo A circundauna fabrica, y 1a mayorfa de los hogares son de traba- adores fabriles con nifios en edad escolar. EI pueblo B es un suburbioexclusivo de una ciudad vecina y consta de habitantes més viejos con pocos nifios en casa. Existen 155 hogares en el pueblo A, 62 en el pueblo B y 93 en el area rural. Analice los méritos de usar muestreo aleatorio estratificado en esa situacisn. SOLUCION La poblacin de hogaresse ubicaen tres grupos naturales, dos pueblos y un area rural, de acuerdo con su localizacisn geogréfica. Entonces la poblacién dividida en tres estratos es bastante natural, simplemente por conveniencia administrativa para selec- cionar las muestras y para ejecutar el trabajo de campo. Ademas, los elementos de cada estrato deben presentar tendencias similares de comportamientoentre ellos mis, mos, Se espera relativamente poca variabilidad en el ntimero de horas que se ve televi- sidn en los hogares de cada grupo, y este es precisamente el caso en que la estratifica- ci6n produce una reducci6n en el. limite para el error de estimacion. La empresa publicitaria puede desear producir estimaciones, por separado, del ntimero promedio de horas que se ve televisién en cada pueblo. El muestreo aleatorio, estratificado permite estas estimaciones. Para la muestra aleatoria estratificada, tenemos N, = 185, N, con N = 310. 62 N, = 93, 82 5 MUESTREO ALBATORIO ESTRATIFICADO 5.3 ESTIMACION DE UNA MEDIA Y UN TOTAL POBLACIONALES 2C6mo poxlemos usar los datos de una muestra estratificada para estimar la media de Ja poblaci6n?Sea 7; la media muestral para la muestra irrestri da en elestratoi, jel tam: fa en el estrato i, 44; la media pobli para el estrato é, y 7; el total poblacional pa poblacion 7 es igual a 7, + 7) t+. + + 7,.Tenemos una muestra irrestricta aleatoria dentro de cada estrato. Por ello sabemos, a partir del Capftulo 4, que J, es un estima- dor insesgado de 44, y Nj, es un estimador insesgado del total del estrato 7 Parece razonable formar un estimador de 7, que es 1a suma de los 7, mediante la suma de los estimadores de los 7. Asimismo, ya que la media poblacional jzes igual al total poblacional 7 dividido entre N, un estimador insesgado de # se obtiene suman. do los estimadores de los 7, de todos los estratosy luego dividiendoentre N. Den ador por Fy, donde el subindice st indica que se ha utilizadomuestreo al io estratificado, eatoria sele, 10 de la muest onal wra el estrato i. Entonces, al total de la Estimador de la media poblacional jt: “ wi, 1 Niji + Nay to ++ + NiJid Varianza estimada de Fy: Rain: Vain tNEV Ga +> + NEVI a1 ya(Niom) (st) oo. A(S")(2)] wis Ni \(e) + NAT Mie Le Na m\ (si wh) #9 Limite para el error de estimacién: WOT) = 6.3) EJEMPLO 5.2 Suponga que se Hleva a cabo la encuesta planeada en el Ejemplo 5.1. La empresa pu: blicitaria tiene tiempo y dinero suficientes para entrevistar n = 40 hogares, y decide seleccionar muestras aleatoria de tamaiio n, = 20 del pueblo A, n, = 8 del pueblo B, yn, = 12 del drea rural. (Después analizarenios la eleccién de los tamafios de 5.3. ESTIMACIGN DE UNA MEDIA Y UN TOTALPOBLACIONALES 83: muestra.) Se seleccionan las muestras irrestrictas aleatorias y se realizan las entrevis- tas. Los resultados, con mediciones del tiempo que se ve la televisi6n en horas por se- mana, se muestran en las Tablas 5.1 y 5.2. Estimeel tiempo promedio que se ve (elevisi6n, en horas por semana, para (a) to- ds los hogares en el pueblo A y (b) todos los hogaresen el pueblo B. En ambos casos fije un limite para el error de estimacién. Los términos 52, 53, y s3 en la Tabla 5.2 son las varianzas muestrales para los estratos 1, 2 y 3, respectivamente; fueron obtenidos mediante la férmula Lu 2? Lah- nat s mad para = 1,2,3,donde yy esa observaci6n -ésima en el estrato f. Estas varianzasesti- man las correspondientes varianzas verdaderas en los estratos 07, 02 Y 03, SOLUCION (a) De la Tabla 5.1 y Beuacién (6.1), 1 Yu =F INiht + Naja + Nsjs) Fig (155)33.900) + (62)(25.125) + (93}(19.000)] 1.7 es 1a mejor estimacién del mtimero promedio de horas por semana en que en todos los hogares del municipio se ve televisién. También, “ 1 i foorsebat ale) al! 155)"(0. 1088: 358) , (62°10. sre 411) ae (93) fone es) 12 =1.97 La estimacién de la media poblacional, con uniimite para el error de estimacién de aproximadamente dos desviaciones estandar, esta dada por Fat 0G), 27.675 42N197, 27.728 Entoncesestimamos que el mtimero promedio de horas por semana que se ve television en los hogares del municipio es de 27.7 horas. El error de estimacién debe ser menor que 2.8 horas, con una probabilidad aproximadamente igual a 0.95. (b) Las n, = 8 observaciones del estrato 2 constituyen una muestra irrestricta aleatoria; por ello podemos aplicar las férmulas del Capftulo 4. La estimacién del 8 MUESTREC ALEATORIO ESTRATFICADO TaBLa 5.4 Tiempo que se ve le'evisdn, en horas por semane Esceato 1, strato 2, Estat 3, pueblo A pucblo B ivea rural 35 28 26 41 27 4.49.10 81521 7 43 29 32 37 15 41 25 30 14 30 20 11 36 25 29 31 12 32.34 24 39 38 40 45, 28 27 35 34 TaBLA 5.2 CAtcules para ia Tobia 5.4 Eatrato 1 Exrato 2 Esra 3 = 20 fa m= 12 7 = 33.900 Fg= 25.125 = 19.000 51 = 35.358 = 232411 53 87.636 Ny = 155 Ny = 62 N,=93 tiempo promedio de ver televisién para el pueblo B, con un Iimite de aproximadamen- te dos desviaciones esténdar para el error de estimacién, esté dada por 1B VEE sca 25.1+101 Esta estimaci6n tiene un limite grande para el error de estimacién porque s3 es grande y el tamafio de muestra 7, es pequefio. Entonces la estimacién j,, de la media pobla- ional es bastante buena, pero la estimacién yode la media del estrato 2 es deficiente. Sise desea una estimacién para un estrato particular, Ia muestra del estrato debe ser lo suficientemente grande para proporcionar un limite razonable para el error de estima. én. Los procedimientos para 1a estimacién de un total poblacional 7 se derivan directa- mente de los procedimientos presentados para la estimacion de jz. Ya que 7 es igual a Nu, un estimador insesgado de 7 es dado por Nj, } Estimador del total poblacional +: Na = Niji + Naja t+ + + Nifc= LNG 6.4) EQ) es Varianza estimada de N¥q: BONG.) = NOV Ge 54 SELEOCION DEL TAMANO DE MUESTRA PARA ESTIMAR LAS MEDIAS Y TOTALES POBLACIONALES 85, Limite para el error de estimacisn: 2NV (Nj) = 24] Ei (5.6) EJEMPLO 5.3 Remitase al Ejemplo 5.2 y estime el mimero total de horas por semana que las familias del municipio dedican a ver television. Fije un limite para el error de estimacion, SOLUCION Con los datos de la Tabla 5.1, Ny, La varianza estimada de Nj, esté dada por V(NJ,) = N?7V (7a) = (310)°(1.97) = 189,278.560 La estimacién del total de la poblacidn, con un limite para el error de estimacién, est 310(27.7) = 8587 horas dada por N £2V0(Nj) sca 8587 + 2V189,278.560 osea 8587 + 870 De esta manera estimamos que el tiempo semanal total que en los hogaresdel munici- pio se ve televisién es de 8587 horas. Hl error de estimacién debe ser menor que 870 horas: 5.4 SELECCION DEL TAMANO DE MUESTRA PARA ESTIMAR LAS MEDIAS Y TOTALES POBLACIONALES La depende del tamafo de muestra n, ya que V(j,) decrece con el incrementode n, Examinemos un método para seleccionarel ta 10 de muestra, a fin de obtener una cantidad fija de informaci6n para estimar un pardmetro poblacional. Supéngase que especificamos que la estimacién Fy debe estar dentro de B unidades de la media poblacional, con una probabilidad aproximada- mente igual a 0.95. Simbdlicamente queremos ntidad de infor 2V VG) = B 5 MUESTREO ALEATORIO ESTRATIFICADO Esta ecuaci6n contiene la varianza poblacional de J, en lugar de la varianza estima- da, Para N grande, la varianza real, V(J,), ¢ muy similar a la Ecuacién (5.2), con 33, 3, ...,s2 reemplazadas por 0%, 63, ..., 0%. Aunque hicimos V(j,)) igual a B?/4, no podemws despejar n, a menos que sepa- mos algo acerca de la relaci6n entre my, a, «..., ¥ 2. Hay muchas maneras para asignar un tamaiio de muestra n a Ios diversos estratos. Sin embargo en cada caso el niimero de observaciones #yasignado al #-ésimo estrato es una muestra total n, Denotamos esta fraccién por ¥v;, Por elio podemos sefialar fBiseersye (67) ‘Usando la Ecuacidn (5.7), podemos entonces hacer V(j) igual a B?/4 y despejarn. De igual modola estimacién del total poblacional T con un ifmitede B unidades para el error de estimaci ieci6n del tamaiio de nos leva a Ia ecuacién 2 V(Nj,) = B © mediante la Eouaci6n (5.5), 2 Vio = ig? ‘Tamafio de muestra aproximada que se requiere paraestimar fl 0 7 con un limite B para el error de estimaciés L L Nioi/w, 5 (5.8) N°D+¥ No? donde 1, es la fraccién de observaciones asignadas al estrato #, 07 es la varianza po- blacional para el estrato 4, ast 2 D=> para estimar pe B =F, parsestir aN? jones de las va- Para poder usar la Ecuacién (5.8) debemos obtener aproxin rianzas poblacionales u? 0%,..., ¢7 Un método para obtener esas aproximaciones es usar las varianzas muestrales $7, 53,... . 57 de un experimento previo para estimar ui 4} ,..., 07. Unsegundo método requiere conocer la amplitud de variacin de las observaciones dentro de cada estrato. Del teorema de Tchebysheff y 1a distribucin normal, la amplitud de variacién debe ser aproximadamentede 4 a 6 desviacioneses- tndar.

You might also like