Diseño de Pruebas Rocha Gaona

You might also like

Download as pdf
Download as pdf
You are on page 1of 14
PATTEM Taller Elaboracién de items DISENO DE PRUEBAS EVALUACION EDUCATIVA REGLAS PARA ELABORAR ITEMS DE SELECCION MULTIPLE CON UNICA RESPUESTA Martha C. Rocha Gaona Carlos A. Pardo Adames AGRADECIMIENTOS A todas las personas que tuvieron la deferencia de leer este documento con sentido critica y formularon inquietudes y observaciones que nos orientaron para trabajar en su cualficacién: Sara Esperanza Bohérquez, Libardo Barrera, Myriam Gonzalez, Patricia Pedraza, Ana Atorresi y Martha Castillo, INTRODUCCION El formato de seleccién miitiple con tnica respuesta es uno de los mas utilizados para formular ftems en las evaluaciones educativas de cardcter masivo, especialmente por la facilidad de su aplicacién y calificacién. Sin ‘embargo, serfa erréneo creer que la facilidad es también una caracteristica de su elaboracién; por el contrario, son muchas las condiciones que deben ser cumplidas para que un item se considere de buena calidad. Elaborar buenos items de seleccién mittiple es una labor que exige mucho compromiso y practica, y, por sobretodo, de un profunde conosimiento del objeto de evaluacién y de la poblacién que va a ser evaluada, todo esto articulado con una rigurosa aplicacién de las técnicas que grupos de expertos en distintas partes del mundo han perfeccionando a través de la practica Este documento descrbe las técnicas de elaboracién de items de seleccién mitiple con tinica respuesta, las cuales, en gran parte, son aplicables a otros formatos de items. E! primer apartado destaca que la elaboracién de items es una de las etapas del ciserio de pruebas y, como tal, debe estar articulada con las demas etapas del proceso para asegurar la calidad y pertinencia de laevaluacién; se resalta elrequerimiento de que los elaboradores de {tems dominen los planteamientos dal marco conceptual del instrumento, asi como las especiticaciones técnicas del mismo, para que cada ftem aporte su méximo potencial al propésito de evaluacién planteado, EI segundo apartado recoge las reglas de elaboracién de ftems que gracias al trabajo de grupos de expertos de instituciones especializadas en clserio de instrumentos de evaluacién de distintos paises, asi comode comunidades acaclémicas estuciosas del tema, se han decantado a lo largo de los vitimos 30 arios. En al tetcer apartaclo se propone un ejercicio préctico de andlisis de algunos ejemplos de ftems con fallas de elaboracién, a fin de que 1 lector ponga en practica la apropiacién de las técnicas descritas en el apartado 2, * Integrante del Grupo de Evaluacién dle la Educacién Superior del ICFES - Colombia 19 |. FASES DEL DISENO DE PRUEBAS El proceso de disefio de pruebas integra diferentes etapas: desde la elaboracién de un marco que integre los conceptos sobre los cuales se fundamentara el instrumento hasta el momento en el cual se considera que ha alcanzado la calidad suficiente como para ser aplicado, En realidad puede decirse que el disefio se origina con el surgimiento de la necesidad de contar con un instrumento de evaluacién para unos propésitos particulares’ y, mas alla de la fase de aplicacién, trasciende alas etapas de andlisis de items, calificacién y divulgacién de resultados, pues de ellas puede derivarse informacién importante para cualificar un nuevo ciclo del proceso. La siguiente gréfica presenta de manera global las fases del disofio de pruebas. ELABORACION DE TEMS v Dasarrello| de Prucbes ‘lesen }-_+ t Toms, de prseba y do 1 ‘Escala de Caiiteacion Prodicciiny ‘guulgicon 1. FUNDAMENTACION CONCEPTUAL Es la fase en la cual se aborda conceptualmente el objeto de evaluacién y, en general, se desarrollan, desde una perspectiva teérica, los elementos contextuales, legales,disciplinares, metodolégicos, etc., que daran sustento y significado al proceso de evaluacién, Entre los elementos que hacen parte de la elaboracién conceptual estan’ + El propésito de la evaluacién (para qué la evaluacién?) " Pardo, ©. (1998), El disefo de pruebas para los Examenes ICFES, * El objeto de evaluacién (qué se evaldia?) * Las caracteristicas de la poblacién objetivo (éa quién se evaltia?) * Los usuarios de la evaluacién (La quién le serd itl a evaluacién y de qué manera?) En esta etapa, como en la mayorla de las subsiguientes, el trabajo interdisciplinario y el concurso de expertos se hace imprescindible para lograr productos de excelente calidad Tratandose del disefio de instrumentos de de Estado: un proceso de investigacién permanente, Bogotd 20 evaluacién educativa es usual contar con expertos en aspectos relacionados con el objeto de evaluacién (tanto en Io relacionado con coghicién humana como en lo disciplinar) y con expertos en disefio de instrumentos de evaluacién quienes tienen las responsabilidad de investigar, reflexionar, discutir y establecer acuerdos para dar respuesta a las preguntas enunciadas arriba y a otras mas que sea necesario abordar, y constituir asi las bases conceptuales y tos lineamientos téonicos que orientaran el trabajo de las demas fases del proceso. 2. ESPECIFICACIONES DE PRUEBA Puede entenderse como una descripcién delallada de las caracteristicas del instrumento, lacualincluye, por una parte, una desagregacién del objeto de evaluacién en dimensiones o categorias susceptibles de ser evaluadas conforme a su conceptualizacién previa, y, por otra, la delimitacién de especificidades técnicas del instrumento, tales como longitud y formatos PATTEM Taller Elaboracién de items de items que van a set usados. Estos dos elementos se conocen, respectivamente, como ESTRUCTURA DE PRUEBAy ESPECIFACIONES, PSICOMETRICAS. La estructura de prueba es una matriz que eptesenta la integracién de las distintas dimensiones del objeto de evaluacién que se desea medit. Generaimente las evaluaciones educativas integran, como minimo, una dimensién disciplinar y una dimensién referida a procesos de pensamiento (cognitiva). Ambas dimensiones pueden ser categorizadas de distinta forma, de acuerdo con elenfoque tedrico que se haya elegido. La grafica siguiente muestra un esquema bésico de una estructura de prueba en la cual se evalia la dimension cognitiva desde un enfoque de competencias®. En relacién con la dimensién disciplinar, el objeto cortesponde a la Biologia y las 3 categorias (célula, organismos y ecosistemas) pretenden dar cuenta del objeto de estudio de esta clsciplina > r ; ‘COMPONENTES » — |[pseunares © |ltacetus * — ||L0s oRcansmos LOS ECOSISTEMAS DIMENSION DE PROCESOS DE PENSAMIENTO > ARGUMENTAR | PROPONER SSeS eet se * La conceptualzacién dea dimension cogniiva “cory lencias’ en categorias interpretacién argumentacién y proposicién, asi como las categorias de la bialogla, cortesponden al macioloutlizado por al ICFES en las avaluaciones nacionales de estudiantes que van a ingresar a la educacién superior. En el anexo 1 se describe la forra en que en el ICFES se han conceptual zado estas calegorias a la estructura de prueba debe contener ademas de la explicitacién de las dimensiones y sus categorias, la descripcién de las tareas de evaluacién a partir de las cuales sera posible materializar, en ftems, el propésito de evaluacién; las tareas de evaluacién son la operacionalizacién del objeto de evaluacién. Una tarea de evaluacién es la descripcién precisa de lo que se va a evaluar una celda de la estructura, entendiendo que cada celda coresponde a la interseccién entre categorias de las distintas dimensiones de dichaestructura. Las tareas de evaluacién deben ser claramente definidas para orientarla fase de elaboracién de items y debe verificarse que sean susceptibles de exploracién a partir de los formatos de ftems que se planea utilizar. Ademéds, es necesario clarificar los niveles de dificultad que se espera tengan las tareas, considerando tanto el propésito de la evaluacién como las caracteristicas de la poblacién objetivo. Idealmente el instrumento debe incluir tareas de distintos niveles de dificultad de tal forma que se cubra con holgura la gama de niveles de habilidad que es probable encontrar en los evaluados. A manera de ejemplo, una de las celdas del _gréfico anterior muestra el cruce entre la categorla “célula” de la dimensién. disciplinary la categoria “argumentacién’ de la dimensién procesos de pensamiento; los evaluadores deben hacer explicitas las acciones, susceptibles de evaluacién a través del instrumento que se est elaborando, que permitiran inferir si el evaluado ha desarrollado niveles de argumentacién (en el sentido en el cual se haya definido “argumentacién’ en el marco de fundamentacién) esperables (para el propésito de la evaluacién) en lo que refiere al saber sobre la célula (en el sentido en el cual se haya definido "saber sobre célula” en el marco de fundamentacién conceptual). En la celda se describe una de las miitiples tareas de evaluacién posibles de ser incluidas como parte del instrumento. Es deseable plantear tareas de evaluacién en forma un tanto general y que sean los items los que reflejen las especificidades de cada tarea. 2 Como parte de las especificaciones psicométricas se debe clariicar el nimero de MS que tendrd el instrumento en su totalidad y en sus celdas (es posible que algunas celdlas no quieran o no puedan ser evaluadas con el instrumento); ademas, se define el o los formatos de items que seran incluidos y sus respectivas instrucciones de respuesta; la distribucién de los items en la prueba (si se organizarén en bloques 0 secciones de acuerdo con algiin criterio de contenido, de forma, de organizacién logistica, etc); el tiempo del cual dispondran los evaluados para responder la prueba -y sus partes, si es pertinente aclararlo- y todos los demas lineamientos que aseguren una adecuada conformacién o ensamblaje del instrumento_y que contribuyan a clarificar las condiciones en las cuales debe realizarse la aplicacién 3. DESARROLLO DE PRUEBAS Esta fase cobija todas las acciones orientadas a obtener el arte final de un instrumento de evaluacién, listo para su aplicacién que coresponda a los propésitos y a las especificaciones, definidos en las fases anteriores. La elaboracién de items constituye una labor trascendental dentro de esta fase y, dado que a través de ella se materializa el propésito de evaluacién, exige la mas alta calidad técnica, Por tal razén, es indispensable que quienes participen en la elaboracién de items (no necesariamente seran las mismas personas que trabajaron en la fase anterior) conozcan con profundidad las consideraciones del marco de fundamentacién conceptual, las intenciones evaluativas subyacentes en la estructura de prueba y las especificaciones psicométricas del instrumento que se pretende desarrollar, Es fundamental ademés destacar que el propésito de esta fase es produciruninstrumento de evaluacién y no un agregacio de items. Esta diferencia es crucial porque pretende asegurar que el equipo desarrollador de los items se comprometa alrededor de un propésite comin y adelante un trabajo articulado, arménico, con el cual se lagre que cada item verdiaderamente aporte a la intencién evaluativa fijada, Las técnicas para la elaboracién de items son objeto del capitulo Il de este documento; no obstante es pertinente mencionar aqui que el proceso de elaboracién de items exige dindmicas de reflexién y discusién entre pares asi como el apoyo de expertos, con los cuales se busca gatantizar la calidad y pertinencia de cada item. Después de elaborar los items, se ensambla el instrumento de acuerdo con las especificaciones psicométricas y se somete @ una revisién final, generalmente por parte de expertos en evaliacién y en el objeto de evaluacién, que sive al doble propésito de controlar caliciad evaluativay verificaradecuadas condiciones editoriales del instrument. En esta elapa se prepara también la documentacién que servir para orientar a la poblacién objetivo sobre las caractetisticas del instrumento: teméticas que se abordaran formatos de lems que se usaran -conviene incluit algunos ejemplos de ttems-, numero de ftems que deberdn responder y toda la informacién que se considere prudente dar a conocer sobre el proceso adelantado para su elaboracién; también se informa a la poblacién sobre las condiciones de la aplicacién y sobre la forma y el momento en que se darn a conocer los resultados de la evaluacién, Obviamente esta documentacién debe ser divulgada entre la poblacién objetivo con suficiente anticipacién al momento de la aplicacién. 4. APLICACION PILOTO En esta fase el instumento es aplicado a una muestra representativa de la poblacién objetivo para estimar indicadores estadisticos que permitan corroborar la calidad técnica del instrumento y el grado de pertinencia de los {tems parata poblacién. Esta aplicacién también permite aproximarse a la elaboracién de una escala de calificacién y reconocer necesidades B PATTEM Taller Elaboracién de items de ajuste del instrumento en téminos del nivel de dificultad de los items elaboracios (establecer, por ejemplo, si los items resultaron demasiado faciles o demasiado diffciles para la poblacién). Las condiciones de la aplcacién piloto deben guardar la mayor similitud posible con las condiciones que tendré la aplicacién definitiva (edicién del instrumento, instrucciones para responder, tiempo disponible, etc.) Una altetnativa a la esttategia de realizar una aplicacién piloto consiste en someter el instrumento a lo que se denomina un “juicio de expertos’, sobre cuya metodologia de implementacién existe literatura disponible En forma breve, un juicio de expertos es un procedimiento a través del cual un equipo de personas, expertas en el objeto de evaluacién y en procesos de evaluacién, califican los items de un instrumento, a la luz de las consideraciones del marco de fundamentacién conceptual, en términos de su coherencia con los propésitos de laevaluaciény desu pertinencia con laestructura de prueba, asi como de las especificaciones psicométricas y las caracteristicas de la poblacién ebjetiv: ademés, valoran su grado de dificultad, su claridad y ofrecen sugerencias pata su afinamiento. Ya sea a través de la aplicacién piloto o de un juicio de expertos, el instrumento debe ser sometido a esta fase de revision y ajuste con el propésito de asegurar su calidad y, por ende, la de los dates (respuestas) recogidos através de su aplicacién; asi, fase tras fase del proceso, se consolidan los cimientos sobre los cuales se funda la valiez del mismo. 5. APLICACION (DEFINITIVA) Eslafaseenlacuallapoblaciénobjetivoresponde a los items del instrumento de evaluacién elaborado. Su realizacién, dependiendo del tamafioy la ubicacién geogratica de la poblacién objetivo, puede demandar la disposicién de considerable cantidad de recursos humanos fisicos, materiales, tecnolégicos, etc. La logistica de aplicacién depende del modelo de aplicacién que previamente se haya detinicio. Segiin el medio para evaluar: lapiz y papel © por compuladora; segtin el calendario de aplicaciones: por oferta o por demanda; segiin la cobertura poblacional: censal o a una muestra representativa de la poblacién; segtin la organizacién de aplicadores y centros de aplicacién: centralizada o descentralizada. Cualquiera que sea ese modelo de aplicacién la equidad es una condicién indispensable del proceso. La divulgacién oportuna de los materiales guia para la presentacién de la prueba, los cuales fueron preparados en la fase de desarrollo del instrumento, permitiran que los evaluados conozcanconanticipaciénlasituacién de evaluacién: los requerimientos, condiciones y propésitos del proceso. Igualmente, durante la fase de aplicacién, debe asegurarse que todos los evaluados reciban las mismas instrucciones para abordar el instrumento y que tengan igualdad en cuanto a las condiciones de espacio, tiempo, iluminacién, materiales de trabajo, ete. 6. ANALISIS DE {TEMS Y DE PRUEBA Esta fase en realidad se realiza en dos momentos: a) luego de la aplicacién pilato y b) luego de la aplicacién definitiva, En el primer caso el fin es seleccionar los items que mejor respondan al propésito de la evaluacién y conformar con ellos el instrumento definitive también es fundamental esta fase para tomar decisiones en relacién con posibles ajustes alos items para su futura aplicacién, En el segundo caso, el andlisis de items permite decidir cudles ftems incluir y cudles exoluir para la generacién de escalas de calificacién. Luego delaaplicacién (piloto o definitiva) setoma ‘como insumo las respuestas de los evaluados para calcular indicadores estadisticos que permiten valorar si el instrumento como totaliciad yada uno de los items que lo constituyen fueron abordados segiin lo esperado por quienes elaboraron el instrumento. Fenton, NE.y Pl 24 Se dispone de una gama de indicadores estadisticos que permiten valorar la calidad de los items; no obstante, es importante resaltar que el andlisis de items trasciende la simple verificacién del cumplimiento de criterios estadisticos; su propésito es faciltar y orientar la toma de decisiones en cuanto a la seleccién de items cuyo funcionamiento brinde confianza para proceder o bien al proceso de armada de la prueba definitiva 0 bien al proceso de calificacién. No necesariamente un item que exceda los limites establecidos como criteria de aceptacién de unindicadorestacistico es un tem que debe descartarse del proceso; el evaluador que conoce a profundiciad el instrumento, sus especificaciones y propésitos y que conoce ademas, a la poblacién objetivo sabré valorar en qué casos el item debe ser descartado y en qué casos debe mantenerse. Los indicadores utiizados para el andlisis de items y la forma en que ellos se calculan depende del modelo de procesamiento de datos que se utiice. En evaluacién se cuenta fundamentalmente con dos modelos: la Teoria Clasica de los Test y la Teoria de Respuesta al item, ésta titima con miltiples ventajas sobre la primera. Entre los indicadores mas comunmente usados para evaluar items estan: el nivel de dificultad, el grado de ajuste al modelo, la distribucién de respuestas entre las opciones de respuesta, la correlacién ftem-medida y el error de medicién: la valoracién del instrumento se realiza por lo general con base en datos como el promedio y la desviacién estindar de puntuacién, el ajuste al modelo, la confiabilidad y elerror de medicién. 7. ESCALAS DE CALIFICACION La asignacién de valores de medida, de acuerdo con ciettas reglas, a caractetisticas del mundo real, se suele denominar escala de medicién*. La construccién de escalas es la fase en la que se definen las reglas de asignacién de esos valores, tendientes a asegurar que er, SL. (1997) Software mete. A rigurous and practical anproach, Boston: PWS Pub. las interpretaciones de los resultados de la evaluacién sean comprensibles y pertinentes. Una escala de calificacién permite asignar una puntuacién particular a cada evaluado, de acuerdo con sus respuestas a los ftems del instrumento. Es importante reconocer que cada ftemtieneasociadounniveldedificultad particular que deberia ser considerado en el momento de asignar la calificacién a cada evaluado; los modelos modemos de procesamiento de datos se fundamentan en formulaciones mateméticas que consideran el nivel de dificultad de cada item para producir una calificacién. Es deseable que las escalas generadas permitan la comparabilidad de resultados entre distintas aplicaciones del mismo instumento, asi como entre los miembros de la poblacién objetivo en una misma aplicacién; para esto es necesario implementar procedimientos técnicos, especiticos (equating/comparahilidad) sobre los cuales existe abundante literatura disponible pero no son objeto de este documento. 8. PRODUCCION Y DIVULGACION DE RESULTADOS Es una fase crucial del proceso en la cual los evaluados -y los demas usuarios de la informacién derivada de la evaluacién- pueden llegar, 0 no, a reconocer a éste como un proceso util, importante e incluso necesario. Un ‘compromiso importante de todo evaluador debe ser que los evaluadios y demés usuarios de la evaluacién realicen interpretaciones adecuadas de los resultados presentados en los informes que prepara; por esta razén, el disefio de informes es una labor que amerita dedicacién y analisis eritico a fin de lograr la mayor claridadl en la comunicacién de los resultados. Producir los resultados consiste en aplicar las escalas de calificacién -definidas en la etapa previa- a la poblacién evaluada, con el fin de generar bases de datos que nutran los reportes de resultados. Estos reportes pueden ser individuales y/o agrupados segtin criterios 25 PATTEM Taller Elaboracién de items de interés (por ejemplo: institucién, municipio, regi6n, etc.) Un reporte o informe de evaluacién debe ser veraz, claro y orientador, esto es, debe entregar informacién que sea consistente con el propésito de la evaluacién y esta informacién debe posibiltar al evaluado reconocer su desempefio en el proceso y orientarle para planear acciones de cualificacién necesarias y pertinentes Una ver producidos los reportes, se procede a implementar las estrategias de divulgacién las cuales deberén ser adecuadas a las caracteristicas de la poblacién objetivo (nivel académico, ubicacién geogréfica, acceso a medios) y a la disponibilidad de recursos por parte del evaluador, Esusualqueelevaluadoradquierauncompromiso de confidencialidad con el evaluado que le obliga @ mantener bajo reserva los resultados individuales. Esto no constrife posibilidades de preparar y dar a conocer reportes globales de la poblacién objetivo y sub-agrupaciones de ésta, para atender requerimientos de informacién de otfos usuarios del proceso. Il. DESARROLLO DE PRUEBAS Un instrumento de evaluacién o prueba es un conjunto intencionalmente articulado de ftems a través de cuya aplicacién se infiere el desempefio de quienes son evaluados, en relacién con el objeto de evaluacién, Una prueba es més que la simple suma de los items que la conforman, aunque su poder evaluative se deriva de la potencia para evaluar que tengan todos y cada uno de ellos. Se espera que un instrumento de evaluacién sea una unidad evaluativa completa, arménica, que responda efectivamente a los propésitos planteados en su marco de fundamentacién conceptual y a las caracteristicas definidas en las especificaciones de prueba. Siendo asi, la elaboracién de items se entiende como una fase crucial en la cual se materializan esos propésites y caracteristicas. Producir esa unidad evaluativa integral que es la prueba demanda planeacién, organizacién y permanente revisién y cualificacién del producto, No se logra a partir de la agregacién, a posteriori, de items elaborados aisladamente, aunque aparentemente éstos tengan relacién con el objeto de evaluacién Cada item debe ser construido con|a intencién clara de evaluar una tarea que es parte integral del objeto de evaluacién y que esté descrita dentro de la estructura de prueba complementando a los demas items; es decir, cada item debe constituirse en pieza esencial del instrumento. Hacer items de buena calidad implica, ademés, conocer las caracteristicas de los distintos formatos de items susceptibles de utiizacién aplicar las reglas para su correcta elaboracién y evitar los factores que pueden alterar su validez. Quizas, por todo esto, elaborar items ajustados alas especificaciones de prueba es la tarea mas diffcil en el proceso evaluative’. 1. CONTENIDO DE LOS (TEMS La estructura de prueba y, especificamente, las tareas de evaluacién definidas en ella orientan al elaborador en relacién con cuales son los aspectos -tépicos, temas problematicas, etc.- sobre los que debe formular sus items. Actualmente los procesos de evaluacién educativa tienden hacia el reconocimiento de competencias mas que a la verificacién de la apropiacién de datos 0 contenidos aislados. Sibienes cierto que el concepto de competencias escomplejoypolisémico, desdeunapostura, mas ‘omenos generalizada en el campo dela medicién y la evaluacién, se puede decir que elaborar un ftem para evaluar competencias supone indagar si ha habido un proceso de formacién que haya potenciado en el evaluado el uso del conosimiento, mas que la mera acumulacién dal mismo; dicho en otros tétminos, el item que evalia competencias busca evidenciar lo que el evaluado es capaz de hacer con lo que sabe, en contraste con un item tradicional que buscaria verificar cudinto él sabe. No es simple realizar la caracterizacién de un item que evala competencias frente a uno tradicional; no obstante, parecer haber cierto nivel de acuerdo en que el item tradicional es poco contextualizado y, en muchas ocasiones, soslayaaspectos comolapertinenciaolautiidad en lavida cotidiana de aquello por lo cual indaga; un item tradicional comiinmente se inspira en visiones disciplinares fundamentalmente teméticas y pondera procesos como el recuerdo de categorias propias de dicha vision disciplinar (definiciones, férmulas, acontecimientos, etc.), mas que en la capacidad para analizar tales categorfas y aplicarlas en la resolucion de probleméticas. Deotraparte, unitemparaevaluarcompetencias © un “item de competencias’, como suele denominarsele, es contextualizado, es decir, se plantea a partir de situaciones o problemas reales, pertinentes @ interesantes y ofrece informacién que no se considera obligatorio conocer de memoria (especialmente en la actualidad, cuando son diversas las posiblidades de acceso a la informacién) Y que permite circunscribir el problema alrededor de ciertas variables 0 condiciones de interés; en el item de competencias el contexto sirve para sitar conceptualmente al evaluado. Con un item de competencias se pretende valorar la capacidad de usar el conocimiento sobre un tema, teoria 0 hecho para resolver problematicas, para plantear hipétesis, para proponer explicaciones, para interpretar, utilizar y evaluar ese tema, teorfa o hecho bajo circunstancias distintas, etc. Asi, elaborar un item de competencias supone una postura educativa en la cual el conocimiento es objeto de conocimiento y se considera que 8 un objeto util, susceptible de andlisis y en permanente transformacién. Por eso, en los “Hambleton, &. y Zaal, J. (1994). Advances in educational psychological testing. Boston: Kluwer Academic Publishers. 26 ftems de competencias se suele indagar por el écémo?, por el épor qué?, por el para qué?, por el qué pasaria si...?, por el Zqué significa?, mas que por el équé?, doudndo? y équién? Un item de competencias debe promover la reflexién sobre el conocimientoy no larepe del conocimiento. PATTEM Taller Elaboracién de items 2. FORMATOS DE iTEMS Como su nombre lo indica coresponde a la forma en la cual se estructuran los items. La siguiente gréfica muestra una clasificacién de formatos de items basada en lo que un evaluado hace cuando se enfrenta a un ftem: seleccionar © producir una respuesta, FORMATOS DE ITEMS ‘SELECCION DE RESPUESTA PRODUCCION DE RESPUESTA Seleccién Multiple Completa: Respuestas ‘Apareamiento Ensayo Certo| ‘Setecdion Alterra Ensayo Largo Falso - Verdadero Ensayo Oral Dependiontes de ‘Contextos Ejecucon Productos No Escritos En un instrumento es posible incluir variedad de formatos, Cada uno de ellos tiene unos requisitos patticulares de elaboracién y oftece distinto potencial evaluativo. Es importante, eso si, que cada formate utiizado en un instrumento esté debidamente acompariado de las instrucciones que orientan la manera de responderlo Ademds, por consideracién con el evaluado, generalmente se procura incorporar un niimero significativo de items de un mismo formato, de talmanera quelalectura de instrucciones ~que a veces puede resultar dispendiosa, dependiendo del formato- no desplace la intencién evaluative central, Es importante reconocer que los 27 formatos determinan en gran parte el proceso de calificacién, Los items de seleccién multiple con tinica respuesta, por ejemplo, se califican como correcta 0 incorresto; 1 6 0, dado que sélo admiten una opcién como respuesta; ottos formatos de seleccién admiten calificacién de crédito parcial (cada opeién tiene un peso en la calificacién); los formatos de produccién de respuesta (por ejemplo los ensayos) exigen el establecimiento de criterios de calificacién respaldados en el saber sobre el objeto de evaluacién y demandan juiciosos procesos de entrenamiento a los caliicadores para asegurar precisién y equidad en la calificacién. En este documento se trabaja esencialmente la técnica de elaboracién de items del formato seleccién miltiple con Gnica respuesta; de ‘cualquier manera, es de sefalar que muchas de las reglas para su elaboracién son pertinentes también para otros formatos. 3. PARTES DE UN iTEM DE SELECCION MULTIPLE CON UNICA RESPUESTA Las partes basicas de un item de seleccién miltiple son el contexto, el enunciado y las opciones de respuesta, como se muestra en el grafico. E! ecquema muestra la vegotacién existente on diferentes elevaciones de una montafia Andina, De este esquema se puede concuir que A. La oltitud depende de las caracter vvegetacion Enunciado ioae de le B. Las caracteristicas de la vegetacién son indepencienios de las condiciones climaticas ©. Alvariar las condicicnes climatices y le alttud, Opciones de Varian las ceracteristicas de la vegetacien la. vegetacién NO estén D. La altiud y relacionadas CONTEXTO. Respuesta + CONTEXTO Es la informacion que sitda conceptualmente al evaluado, Proves elementos necesarios y suficientes para focalizar la tarea de evaluacién, En un sentido amplio, el contexto abarca todo el saber previo del evaluado sobre el objeto de evaluacién; no obstante, en el proceso de elaboracién de un item, es usual que el evaluador encuentre pertinente y necesario presentar un texto U otro tipo de informacién, que contribuya a precisar las condiciones del problema, las variables que es prudente considerar, 0 para ubicar en el tiempo y en el espacio la problemética, etc, El contexto puede ser un texto -por ejemplo, en items de ‘comprensién de lectura-, una gréfica, un dibujo, una tabla 0 cualquier otra forma de presentacién, de la informacién a partir de la cual se deriva el enunciado. La seleccién 0 elaboracién del contexto es una labor exigente en cuanto su propésito es justamente contextualizar y no confundir al evaluado; debe estar articulado con la tarea de evaluacién y no debe convertirse en. factor que disminuya del tiempo disponible para responder; es decir, su extensién y complejidad deben considerarse, también, a la luz de las condiciones logisticas de la evaluacién. + ENUNCIADO Es el planteamiento, propiamente dicho, de la problematica que se espera sea resulta por el evaliado®, En el enunciado se hace explicita la tarea de evaluaciényy, portanto, dirige elesfuerzo del evaluado para generar 0 seleccionar una respuesta, por lo cual es fundamental que esté escrito en lenguaje claro y preciso, Tradicionalmente los enunciados de ‘tems de seleccién multiple se plantean en forma de pregunta, o como una proposicién. En el primer AERA, APA, NCME. (1999). Standards for educational and psychological testing. Washington: AERA. 28 caso, las opciones se redactan como respuestas alla pregunta; en el segundo caso, el enunciado constituye la primera parte de una proposicién y cada una de las opciones debe completar ‘coherentemente el enunciado, La utiizacién de una u otra forma de plantear el enunciado es decisién del evaluador y generalmente tiene que ver con la facilidad para redactar, tanto el enunciade como las opciones. Conviene tener en cuenta, eso si, que a redaccién enformadepreguntaresutamucho mas clarapara poblaciones infantiles; es decir, los nifios parecen responder mejor a la tarea de evaluacién cuando el enunciado es una pregunta que cuando es una proposicién incompleta, Cualquiera sea la forma en que se redacte el enunciado, es importante veriticar su clavidad, precision y articulacién con las opciones de respuesta + OPCIONES DE RESPUESTA Las opciones son posibles respuestas a la problemética planteada en el enunciado, En el formato de seleccién miitiple con Gnica respuesta, como su nombre lo indica, sélo una de estas opciones es verdacieramente pertinente y completa para solucionar el problema -tarea de evaluacién-; las dems opciones, aunque puecien ser vistas como respuestas plausibles por los evaluados que no dominan la tarea de evaluuacién, no responden en forma completa 0 pertinente a la problematica formulada. Otros formatos de seleccién admiten més de una opeién como respuesta valida. En la actualidad, cada vez con mas frecuencia, los instrumentos de evaluacién educativa incorporan formatos de items en los cuales cada PATTEM Taller Elaboracién de items opcién de respuesta es ponderada de acuerdo con su grado de validez o pertinencia; es Io que se cienomina items de crédito parcial, y su elaboracién supone que todas las opciones son respuestas vélidas, aunque cada una en distinto grado, dependiendo de diferentes condiciones planteadas 0 posibles de inferir deloontexto y del enunciado, Se busca con este tipo de ftems, mas que valorar, en una categorizacién dicotémica, si el evaluado respondié 0 no respondié a la tarea de evaluacién, que sea posible identificar perfiles 0 estilos de desemperio, 4, REGLAS PARA LA ELABORACION DE (TEMS DE SELECCION MULTIPLE CON UNIGA RESPUESTA La experiencia propia de varios afios en el desarrollo de instrumentos de evaluacién, combinada con la de entidades extranjeras dedicadas a la misma labor y con los hallazgos de numerosos estudios realizados sobre las téonicas que conducen amejorarla calidad de los tems®”*®’° ha hecho posible que en la actualidad se cuiente con un conjunto de reglas que orientan la correcta elaboracién de items. A continuacién se presenta un compendio de dichas reglas + ASPECTOS GENERALES * Noesrecomendable trabajar contrarreloj cuando se busca tener un instrumento de calidad. Haga tuna programacién juiciosa de todas las fases del diserio del instrumento y, particularmente, de la fase de elaboracién de tems contemplando tiempos de revisién, ajustes y eclicién, * Conforme el equipo de trabajo con base en las competencias de cada miembro y en su saber * Haladyna y Downing, (1989). A taxonomy of mutiple choice item aitng rules. En Apply Measurement in Education. Vol. 1 Haladiyra,T. (1994). Development anc valdatin mutiple choice test tems. New Jersey: Lawronca Earlbaum Associates. Cheung, D. ¥ Bucat, R. (2002). How can we construct good mutiole choice items? Hong Kong. Sciens and Technolo, jucation Conference. *ICFES. (2004). Estandares para la consttuccién de pruebas. Grupo de Evaluacién de la Educacién Superior. Bogotd IOFES, "© Cohen, A. y Woollack, J. (2004). Helpful tips for creating Development. U. Wisconsin, 29 reliable and valid claseroom test, En Handbook on Test sobre el objeto de evaluacién; el dominio en la disciplina o campo que se evaluaré debe ‘combinarse con el conocimiento en medicién y evaluacién. En lo posible, cuente con el ‘apoyo de alguien con experiencia en el tema, Planee sesiones de induccién para quienes vayan a claborar items y asegirese de que comprenden el propésito del instrumento y los demas planteamientos basicos del marco de fundamentacién y de las especificaciones de prueba. Sise trata de personas sin experiencia, deben ser entrenados ademés en las técnicas de elaboracién de items. Unbuen item, porlo general, ha experimentado toda una metamorfosis desde su version original, Durante la tase de elaboracién de los items, realice sesiones de socializacién 0 analisis conjunto de los items elaborados por ‘cada miembro del equipo, con el fin de que ‘cada uno tenga oportunidad de hacer aportes a la cualficacién de todos los items (tanto en lo que refiere a la forma como al contenido). Evite usar eufemismos y prefiera un lenguaje directo, sin sacrificar el nivel técnico y académico del proceso, La olaridad y conerecién en el lenguaje debe ser una consideracién permanente; utilice dibujos, gréficos 0 tablas sélo si estos en realidad aportan a la comprensién de la tarea de evaluacién; tenga en cuenta el tiempo que el evaluado debe emplear para leerinstrucciones, contextos, enunciados y opciones, y el tiempo total del cual dispone para responder, Asegiirese de que en ninguna parte del instrument (portada, textos, instrucciones items, etc.) haya errores de ortografia, de gramatica 0 de puntuacién, que no se incluya incorectamente abreviaciones, citas, nombres, cifras, fechas, etc. + REGLAS SOBRE EL CONTENIDO DE LOS iTems + Evite elaborer items que confunden al evaluado. Diferentes estudios han establecido cuales son algunas de las situaciones que llevan a percibir los items como confusos"; entre éstas estan: a) by °) Contenido trivial Presencia de informacién irrelevante Presentacién ambigua de las opciones de respuesta d)_Discriminacién muy fina -dificil de perciir entre las opciones de respuesta Presentacién de informacién en modo distinto a como ha sido aprendida por la poblacién evaluada, dentro de su proceso educativo, e) * Cada item debe corresponder a una tarea de evaluacién definida en la estructura de prueba. * Evite evaluar el mismo aspecto especifico con varios items. Aproveche cada item para hacer cada vez mas completa la evaluacion. * Plantee una sola problemdtica en cada item. *Evite items que incluyan _ posiciones ideolégicas 0 prejuicios; tenga en cuenta que las proposiciones prejuiciosas pueden resultar en una ofensa para cualquiera de los evaluados. Se exceptiia esta recomendacién si justamente dichas posiciones son el objeto de evaluacién; entonces sera obligatorio incluirlas, + El vocabulario utilzado debe ser adecuado para la poblacién objetivo, * Cada item debe ser independiente y no prover informacién para responder a otros. * No utilice items que aparezcan en libros, revistas u otros documentos, como base para sus items. Elabore items originales. + Evite items en los cuales se indague la opinién (parecer no argumentado) del evaluado (a menos que elinstrumento justamente pretenda servir para un sondeo de opinién). * Roberts, 0. (1993). An empirical studying on the nature of rick questions. Journal of educational measurement. Vol 20. 30 * Evite plantear items cuya respuesta valida se determine segiin la opinién cle quien la elabora. * Balance la complejidad de los items para que cl instrumento cubra los niveles de habilidad de la poblacién objetivo, es decir, la prueba debe incluir tems de dificultad alta, media y baja. + REGLAS SOBRE CONSTRUCCION DEL ENUNCIADO + Siplanteaelenunciadoenformadeproposicién incompleta asegtirese de usar conjugaciones verbales, género y nimero adecuados para las opciones de respuesta que planteard, Si lo escribe en forma de pregunta asegirese de usar adecuadamente signos de interrogacién y la estructura gramatical de una pregunta. + Presente en el enunciado la tarea de evaluacién * Esoriba con claridad * Evite texto excesivo, * Redacte el enunciado en forma positiva; es decir, evite negaciones. + REGLAS SOBRE CONSTRUCCION DEOPCIONES DE RESPUESTA * Asogure la concordancia gramatical entre la proposicién del enunciado y cada opeién. * Organice las opciones en un orden légico (alfabético, longitud, etc.) o numérico. + Mantengalaindepenclenciaentrelas opciones, Estas no deben solaparse o intersectarse y no deben ser sinénimas. * Refigrase en todas las opciones al problema planteado en el enunciado. Evite opciones facilmente descartables. * Elabore opciones de respuesta de longitud similat + Evite colocar como opcién - Todos los anteriores "= Haladyna, T y Downing, S. (1994 PATTEM Taller Elaboracién de items - Ninguno de los anteriores - AyBsoncortectas (0 cualquier combinacién de opciones) - Nosé + Redacte las opciones en forma positiva, es decir, evite negaciones. Si debe colocar una negacién, reséitela (use negrilla o maytisculas sostenidas) No repita en las opciones frases contenidas en el enunciado. Elabore items con 4 opciones de respuesta. Elaborar opciones plausibles es dispendioso; seguramente ganar calidad en las que redacte si no son demasiadas. Hay referencia de distintos estudios que analizaron lacantidad de opciones utiles para los propésitos de evaluacién” *; si bien no existe consenso altecedor de un tinico nimero de opciones, se encuentra a menudo conveniente, en cuanto a facilidad de redaccién y capacidad de disoriminacién, trabajar con 4 opciones; para poblaciones de infantes puede ser conveniente usar 3 opciones. Evite en las opciones el uso de adverbios como’ - Siempre - Nunca - Totalmente Abdsolutamente - Completamente La posicin de la opcién valida debe balancearse entre todos los items del instrumento. Es recomendable que aparezca proporcionalmente en cada posicién posible. * Evite que la opcién valida pueda ser identificada facilmenteporcontraste con lasdemésopciones, por alguna de las siguientes situaciones: = tener la mayor longitu + ser la proposicién de mayor precision o imprecision How many options is enough for a multiple choice test ern. New Jersey: LEA, Pardo, C. (1984). Numero ut de opciones de respuesta en las pruebas Saber. Documento de trabajo. Sogota: ICFES. 31 ~ estarredactada en un tipo lenguaje diferente (técnico 0 comtin) - tener el mayor nivel de generalizacién 0 de particularidad = tener las mismas palabras que el enunciado ~ tefetirse a una problematica o tema diferente * Justiique adecuadamente cada una de las opciones para garantizar que sélohay una valida y que las demas son plausibles para quienes no dominan completamente la tarea de evaluacién 5. SOBRE LA VALIDEZ El concepto modemo de la validez es global, a diferencia del clasico que consideraba distintos ipos de validez”. Se reconoce que la validez no es del instrumento, sino de las inferencias @ interpretaciones realizadas a fartir de las puntuaciones oblenidas en un proceso de evaluacién. Lavalidez se entiencie como “un juicio evaluativo del grado en el cual la evidencia empirica y tedrica sustentan la pertinencia y conveniencia de las inferencias acerca de los resultados en un instrumento de medicién, as{ como las acciones que se realizan a partir de dichos resultados" Dicho de otra forma, la validez hace referencia a qué tan fuertes son los argumentos y las evidencias que respaldan las interpretaciones hechas acerca del objeto de evaluacién (por ejemplo, lacompetencia) a partirce los resultados obteniclos. En tal sentido, la validez compromete a todas las etapas del diserio de pruebas: desde la definicién y caractetizacién del objeto de evaluacién hasta la divulgacién de resutados. El evaluacor debe reconocer que el usuario directo de la evaluacién -el evaluado-, asi como los usuarios indirectos de la misma, utilizarén los, resultados paracomprendery analizar procesos, para emitirjuicios, para tomar decisiones, etc. y, por tanto, es su responsabilidad ética y social asegurarse de que tales andlisis, juicios y decisiones sean verdaderamente posibles de derivar de la evaluacién que realiza, La figurosidad académica y técnica en la elaboracién de los items (y, por supuesto, en las demas etapas del disefio del instrumento) aporta para que los resultados de la evaluacién sean pertinentes con su propésito. Las reglas de elaboracién deltems descritas eneste documento tienen la pretensién de orientar al evaluador para que los items que elabora evaltien realmente el objeto de evaluacién que se pretende; en este sentido, la aplicacién de tales regias contribuye a consolidar la argumentacién alrededor de que lo que los resultados indican es verdadero, Enresumen, en oque concietne ala elaboracién de items, los siguientes son factores que afectan negativamente la validez: * La tarea a la cual se enfoca el item no es relevante para la evaluacién del objeto definido en el marco de fundamentacién, * Enelitem seincluyeinformaciénquelataciita ola dificulta, mas alla del propésito de evaluacién Ahora bien, en la fase de elaboracién de items no basta con aplicar las reglas de elaboracién para contribuir a la validez; es necesario gatantizar que quienes van a ser evaluados con dichos items no lleguen a responderlos correctamente por circunstancias distintas a su propia capacidad o competencia. Asi, entonces, otro factor determinante de la validez es la confidencialidad del instrumento, antes de su aplicacién. Con ello se asegura que las condiciones en las cuales los evaluados se enfrentan a la aplicacién del instrumento son equitativas y, por ende, que las escalas de caliicacién que se generen y los resultados que se divulguen reflejan genuinamente el objeto de evaluaci6n. Los anexos 2 y 3 son ejemplos de mecanismos utilizados en el ICFES con miras a guarciar la contidencialidad de los items durante el proceso de elaboracién. Messick §. (1989). Vality In RL Linn (Ed), Educational measurement (Bid ed. op. 13-103). New York: Macmillan. 32

You might also like