Manual de Psicometria

Copyright © 2019. Editorial Brujas. All rights reserved.
May not
be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright
law.
EBSCO Publishing : eBook

Collection (EBSCOhost) -
printed on 4/28/2023 9:15 PM
via UNIVERSIDAD DE TANGAMANGA
AN: 2648769 ; Medrano, L.,
Pérez, E,.; Manual de
Psicometría y Evaluación
psicológica
Account: ns023844
Copyright © 2019. Editorial Brujas. All rights reserved. May not be reproduced in any form without permission from the publisher, except fair uses permitted under U.S.
or applicable copyright law.
EBSCO Publishing : eBook Collection (EBSCOhost) - printed on 4/28/2023 9:15 PM via UNIVERSIDAD DE
TANGAMANGA
AN: 2648769 ; Medrano, L., Pérez, E,.; Manual de Psicometría y Evaluación psicológica
Account: ns023844
TANGAMANGA
Account: ns023844
Leonardo Medrano y Edgardo Pérez
Alberto Luis Fernández; María Marta Morales; María

Alejandra Pujol; Mario Trógolo; Luciana Moretti; Eugenia
Griffoulière, Luis Pedro Morera; Lucas Lapuente; Carlos Spontón
Estanislao Castellano; Ezequiel Flores Kanter; Mauricio Zalazar y
Javier Sánchez Rosas
Manual de Psicometría y
Evaluación Psicológica
TANGAMANGA
Account: ns023844
Título: Manual de Psicometría y Evaluación Psicológica

Compiladores: Leonardo Medrano y Edgardo Pérez
Autores: Leonardo Medrano y Edgardo Pérez; Alberto Luis Fernández; María Marta Morales;
María Alejandra Pujol; Mario Trógolo; Luciana Moretti; Eugenia Griffoulière, Luis Pedro
Morera; Lucas Lapuente; Carlos Spontón; Estanislao Castellano; Ezequiel Flores Kanter;
Mauricio Zalazar y Javier Sánchez Rosas
Medrano, Leonardo A.
Manual de psicometría y evaluación psicológica / Leonardo A. Medrano ; Edgardo
Pérez. - 2a ed ampliada. - Córdoba : Brujas, 2019.
Libro digital, PDF
Archivo Digital: online

ISBN 978-987-760-216-6
1. Psicología. 2. Psicometría. I. Pérez, Edgardo. II. Título.

CDD 150.15195
© De todas las ediciones, los autores

© 2019 Editorial Brujas
Archivo Digital: online
ISBN 978-987-760-216-6
Queda hecho el depósito que marca la ley 11.723.

Ninguna parte de esta publicación, incluido el diseño de tapa, puede ser reproducida,
almacenada o transmitida por ningún medio, ya sea electrónico, químico, mecánico,
óptico, de grabación o por fotocopia sin autorización previa.
www.editorialbrujas.com.ar publicaciones@editorialbrujas.com.ar
Tel/fax: (0351) 4606044 / 4691616– Pasaje España 1486 Córdoba–Argentina.
TANGAMANGA
Account: ns023844
|
Índice
Prefacio..................................................................................................................................9
Parte I. Psicometría: Teoría y Normas Técnicas........................................................11

Introducción a la Psicometría: el desafío de medir en psicología...................................13
Leonardo Medrano
Introducción..........................................................................................................................13
¿Qué significa medir ...........................................................................................................13
¿Es posible medir en psicología? . .......................................................................................17
¿Qué es la Psicometría y cuáles son sus contribuciones a la ciencia psicológica? . ............19
Un panorama de los test psicométricos: generalidades, clasificación y tendencias

actuales.................................................................................................................................23
Edgardo Pérez y Leonardo Medrano
Introducción..........................................................................................................................23
Clasificación de los Test Psicométricos................................................................................23
Tests de respuesta típica: motivación y personalidad...........................................................30
Nuevas tendencias en evaluación psicológica: test informatizados......................................41
Fuentes para la búsqueda de información sobre Test Psicométricos....................................49
Normas Psicométricas: Evidencias de Validez ................................................................51

Introducción..........................................................................................................................51
Delimitación del concepto de Validez .................................................................................52
A modo de síntesis................................................................................................................65
Normas Psicométricas: Confiabilidad...............................................................................67

Leonardo Medrano
Introducción..........................................................................................................................67
Errores de medición y confiabilidad: Aproximación histórica y conceptual .......................67
Dimensiones y métodos para verificar la confiabilid ........................................................71

A modo de síntesis...............................................................................................................77
Interpretación de Puntuaciones.........................................................................................79
Leonardo Medrano
EBSCO Publishing : eBook Collection (EBSCOhost) - printed on 4/28/2023 9:15 PM via UNIVERSIDAD DE 5
TANGAMANGA
Account: ns023844
Introducción..........................................................................................................................79
Interpretación referida a Normas..........................................................................................80
Interpretación referida a Criterios. . .....................................................................................86
Construcción y Adaptación de Test Psicométricos...........................................................89

Leonardo Medrano, Edgardo Pérez y Alberto Fernández
Introducción..........................................................................................................................89
Sesgos, Construcción y Adaptación de Test ........................................................................90
Métodos y pasos implicados en la construcción de Test.......................................................93
Métodos y pasos implicados en la Adaptación de Tests ......................................................96
Parte II. Evaluación Psicológica mediante instrumentos psicométricos...........101

Prefacio de la Segunda Parte ..........................................................................................103
Evaluación Psicométrica en Psicología Educacional.....................................................105

Leonardo Medrano, Edgardo Pérez, Mauricio Zalazar y Javier Sánchez Rosas
Introducción........................................................................................................................105
1. Evaluación de la Motivación Académica: Aportes de la Teoría Social
Cognitiva de la Carrera.......................................................................................................105
2. Evaluación de los Intereses Vocacionales.......................................................................116
3. Evaluación de la Autorregulación del Aprendizaje.........................................................121
4. Evaluación para la Identifica ión del Talento ................................................................125
5. Evaluación de las Emociones Académicas.....................................................................137
6. Evaluación de la Calidad Instruccional Docente............................................................141
Comentarios Finales............................................................................................................144
Evaluación Psicométrica en Psicología Clínica y de la Salud.......................................147

Leonardo Medrano, Luciana Moretti, Eugenia Griffoulière,
Lucas Lapuente y Ezequiel Flores Kanter............................................................................. 147
Introducción........................................................................................................................147
El uso de test psicométricos en el Proceso de Evaluación Clínica ....................................148
Pruebas para la Detección de Trastornos Mentales ...........................................................149
Pruebas para el Diagnóstico y evaluación de la Severidad de
Trastornos Mentales............................................................................................................154
Evaluación de los Factores de Mantenimiento: Regulación Emocional e Intolerancia a la
Frustración..........................................................................................................................168
Evaluación del Bienestar subjetivo: delimitación conceptual
e instrumentos para su medición.........................................................................................177
Consideraciones Finales......................................................................................................181
6EBSCO Publishing : eBook Collection (EBSCOhost) - printed on 4/28/2023 9:15 PM via UNIVERSIDAD DE
TANGAMANGA
Account: ns023844
Evaluación Psicométrica en Psicología Organizacional................................................183

Mario Trógolo, Carlos Spontón, Estanislao Castellano,
María Alejandra Pujol y Leonardo Medrano
Introducción........................................................................................................................183
El uso de Pruebas Psicométricas en la Psicología Organizacional.....................................184
Evaluación del Bienestar en el Trabajo...............................................................................185
Evaluación con fines de Selecció . ....................................................................................191
Pruebas Psicométricas en la Evaluación Neuropsicológica .........................................203

Alberto Luis Fernández
Introducción........................................................................................................................203
Neuropsicología: ¿Qué es y para qué sirve?.......................................................................203
Elementos de la Evaluación Neuropsicológica . ................................................................205
Ventajas y Limitaciones de la Psicometría en Neuropsicología.........................................209
Funciones Cognitivas habitualmente evaluadas por
Test Neuropsicológicos.......................................................................................................211
Funciones ejecutivas...........................................................................................................215
Conceptualización...............................................................................................................216
Evaluación Psicométrica en Áreas Emergentes.............................................................219

Mario Trógolo, Maria Marta Morales y Leonardo Medrano
Introducción........................................................................................................................219
Introducción a la Psicología del Tránsito............................................................................219
Métodos y técnicas de evaluación en Psicología del Tránsito............................................220
Comentarios finale ............................................................................................................227
Introducción a la Evaluación Psicométrica en Psicología del Deporte: Reseña Teórica y
Modelos Teóricos................................................................................................................228
Organización y Redacción de Informes Psicométricos .................................................235

Leonardo Medrano y Lucas Lapuente
Introducción........................................................................................................................235
¿Qué es un informe psicométrico?......................................................................................236
¿Cómo organizar un informe Psicométrico? .....................................................................237
¿Cómo redactar un informe Psicométrico?.........................................................................238

Modelo y ejemplo de Informe Psicométrico.......................................................................240
Resumen y conclusiones.....................................................................................................247
TANGAMANGA
Account: ns023844
Apéndice I: ¿Cómo leer artículos de Investigación en Psicometría?

Pautas para una lectura crítica .......................................................................................251
Leonardo Medrano................................................................................................................ 251
Introducción........................................................................................................................251
Secciones de un Artículo Científic . ..................................................................................252
Guía para la Lectura Crítica de Artículos Instrumentales...................................................255
Apéndice II: Revisión de Conceptos y Procedimientos Estadísticos............................261

Conceptos y procedimientos estadísticos básicos . ............................................................261
Conceptos y procedimientos estadísticos avanzados..........................................................268
Apéndice III: El uso de Biomarcadores como complemento de la Evaluación

Psicológica..........................................................................................................................277
Luis Pedro Morera y Leonardo Medrano ............................................................................ 277
Introducción........................................................................................................................277
¿Qué es un marcador biológico? . ......................................................................................278
¿Cómo elegir los biomarcadores a cuantificar ..................................................................279
¿Qué otros biomarcadores podríamos medir?....................................................................280
Técnicas, muestras y algo más............................................................................................280
Referencias . .......................................................................................................................282
TANGAMANGA
Account: ns023844
|
Prefacio
La medición es el núcleo de la ciencia y sus aplicaciones. Su importancia

es tanto científica como profesional, ya que la posibilidad de examinar teorías
e hipótesis depende de que podamos medir las variables en estudio. Por otra
parte, la posibilidad de tomar decisiones bien fundamentadas en los diferentes
ámbitos de ejercicio profesional, requiere de mediciones adecuadas de los atri-
butos psicológicos. Cómo obtener mediciones utilizando test psicológicos,
evaluar la calidad de esas medidas y su aplicabilidad, constituyen el objetivo
central de la Psicometría.
Los test psicométricos son un instrumento de gran importancia tanto
para el desarrollo de la teoría psicológica, como para la solución de problemas
prácticos en situaciones de selección y evaluación. Debido a la importancia
que tienen los test psicológicos tanto a nivel científico como profesional, es
fundamental que los usuarios de estas pruebas conozcan cómo se obtienen sus
puntuaciones, que información proporcionan, cuales son los requisitos que
deben cumplir para ser considerados como instrumentos científicos, y funda-
mentalmente, cuales son los límites y alcances de las técnicas psicométricas.
A lo largo del presente libro se desarrollarán las bases conceptuales de la
teoría psicométrica, pero manteniendo una visión aplicada de estos concep-
tos, priorizando contenidos relacionados con los diferentes tests psicológicos
y sus ámbitos de aplicación profesional. Sin embargo, el énfasis en la utilidad
práctica no supone una falta de rigor o evasión de temas vinculados a la teoría
y normativa psicométrica. Lo que se pretende es mostrar la practica real de la
psicometría, favoreciendo el desarrollo de usuarios competentes y responsa-
bles que dominen los conceptos y procedimientos de las pruebas psicológicas
contemporáneas. De esta manera se apunta a que el lector conozca las norma-
tivas psicométricas que permiten realizar una evaluación ética mediante el uso
de procedimientos psicométricos válidos y confiables.
El presente material se divide en dos partes. La primera se centra en
los conceptos básicos de la teoría psicométrica y las normativas psicométricas
exigidas para una evaluación válida y confiable. La segunda se centra en el
desarrollo conceptual y aplicado de diferentes pruebas psicológicas, haciendo
foco en los procesos de administración, interpretación y elaboración de infor-
mes psicométricos. Cabe señalar que esta sección no refiere a una catalogación
de pruebas. Más que una breve reseña de diferentes pruebas, se seleccionaron
test que permitan reflejar al amplio espectro de evaluación de las técnicas

psicométricas.
Se espera que el lector adquiera con este breve manual los conocimien-
tos y competencias necesarias para comprender la utilidad y limitaciones de
TANGAMANGA
Account: ns023844
los test psicológicos, cuente con habilidades para seleccionar una prueba y
juzgar la calidad de los test publicados, sepa administrar una prueba, inter-
pretarla y comunicar adecuadamente los resultados, permitiendo así una uti-
lización ética y responsables de los test psicológicos.
Leonardo Medrano
Edgardo Pérez
10
TANGAMANGA
Account: ns023844
Parte 1
Psicometría:
Teoría y Normas Técnicas
TANGAMANGA
Account: ns023844
TANGAMANGA
Account: ns023844
|
Introducción a la Psicometría: el desafío de

medir en psicología
Leonardo Medrano
Introducción
La medición constituye un prerrequisito para toda disciplina que pre-

tenda ser científica. Ello se debe a que la posibilidad de cuantificar fenómenos
permite la utilización de métodos y herramienta más potentes de análisis. Tal
como señala Bryson “la realidad no solo es más compleja de lo que supone-
mos, sino que es más compleja de lo que podemos suponer”. En efecto, nues-
tro sistema cognitivo no está preparado para procesar grandes volúmenes de
datos, o identificar patrones subyacentes en un conjunto amplio de variables,
o incluso, mantenerse libre de sesgos durante el proceso de investigación. El
análisis matemático constituye un recurso de gran valor para el desarrollo de
teorías y el análisis de datos empíricos. Obviamente no reemplaza un riguroso
proceso de pensamiento, pero es innegable la importancia que posee para el
establecimiento de generalizaciones científicas y la evaluación de hipótesis de
investigación.
Ahora bien, ¿es posible la medición en psicología?, ¿podemos cuanti-
ficar un proceso psicológico que no observamos? ¿podemos medir variables
tan complejas como las emociones, la memoria, las actitudes o la felicidad?
En el presente capítulo se indagarán tres interrogantes centrales para abordar
la problemática de la medición en psicología: a) ¿qué significa medir?, b) ¿es
posible la medición en psicología?, y c) ¿qué es la psicometría y cuáles son sus
aportes a la ciencia psicológica?
¿Qué significa medir?
La medición constituye fundamentalmente un proceso de abstracción.

Algo semejante ocurre con el lenguaje. Cuando hablamos utilizamos una pa-
labra para representar objetos o fenómenos de la realidad. Este proceso de
abstracción nos permite operar con las palabras o símbolos sin necesidad de
manipular los objetos reales. Puedo decirle a otra persona, “si tocas el fuego
te vas a quemar”, y la otra persona entenderá la información sin necesidad

de tener que tocar el fuego para saber que lo quemará. Gracias a este proceso
de abstracción es que podemos despegarnos de las operaciones concretas y
efectuar análisis que las trasciendan. Cuando medimos realizamos un proceso
TANGAMANGA
Account: ns023844
análogo al del lenguaje, la diferencia radica en que en vez de utilizar palabras

utilizaremos números.
De esta forma, la medición conlleva un proceso de abstracción, mediante
el cual intentamos cuantificar (usar números para representar cantidades) y/o
clasificar propiedades de la realidad. Cuenta la leyenda que el nacimiento de los
números se dio en un intento por abstraer la cantidad de ovejas que tenían los
pastores. Para chequear si todas las ovejas del rebaño habían regresado, se repre-
sentaba con una piedra a cada oveja. El pastor incluía en una bolsa tantas pie-
dras como ovejas observaba, de esta forma si al regresar había más piedras que
ovejas significaba que había extraviado alguna y debía volver para encontrarla.
Se puede decir entonces que existía un isomorfismo entre las piedras y las ovejas,
es decir, elementos distintos (piedras y ovejas) mantenían “una misma forma o
estructura”, en este caso representaban la misma cantidad.
El uso de piedras para representar cantidades y poder operar con ellas
constituye un primer intento de abstracción (de hecho, la palabra “cálculo”
proviene del latín “calculus” que significa “piedra”). Con el paso del tiempo,
en vez de utilizar piedras, se utilizaron símbolos para representar cantidades,
dando nacimiento a los números. Esta vez el isomorfismo es entre la realidad
y un símbolo numérico (figura 1).
Figura 1. Ejemplo de medición:

Figura 1. Ejemplo traducir
de medición: lalainformación
traducir que
información que contiene
contiene el sistema
el sistema empírico en
empírico en
un sistema
un sistema numéricomanteniendo
numérico manteniendo un un
isomorfismo
isomorfismo
Para Stevens (1949)

Para Stevens medir
(1949) medirconsiste
consiste enen asignar
asignar números
números en de
en función función
ciertas de cier-
reglas. Según este autor, puede diferenciarse un sistema

tas reglas. Según este autor, puede diferenciarse un sistema relacional relacional empírico (X),empírico
un sistema relacional numérico (R), y un isomorfismo de X en R. El sistema rela-
(X), un sistema relacional
cional empírico numérico
hace referencia (R), ydeunobjetos
al conjunto isomorfismo
que muestran deelXatributo
en R. El siste-
ma relacional empírico
de interés, hace referencia
y las relaciones al conjunto
entre los mismos. de elobjetos
Mientras que sistema que muestran el
relacional
atributo numérico
de interés, y las
refiere relaciones
al conjunto entre los
de números y susmismos.
relaciones.Mientras que el sistema
Medir básicamente
relacionalimplica
numéricousar números paraal
refiere representar
conjunto las relaciones
de números observadas
y susentrerelaciones.
los objetos Medir
manteniendo un isomorfismo entre ambos sistemas.
Se admite la existencia de diferentes niveles de medición dependiendo del
14
TANGAMANGA tipo de isomorfismo que se pretenda mantener entre el sistema empírico y el
AN: 2648769 ;numérico. Por Pérez,
Medrano, L., ejemplo, podemos
E,.; Manual utilizar los números
de Psicometría simplemente
y Evaluación para repre-
psicológica
sentar distintividad. Supongamos que estamos realizando una investigación para
Account: ns023844
evaluar “expresión de emociones”. En vez de utilizar palabras para señalar que
básicamente implica usar números para representar las relaciones observadas

entre los objetos manteniendo un isomorfismo entre ambos sistemas.
Se admite la existencia de diferentes niveles de medición dependiendo
del tipo de isomorfismo que se pretenda mantener entre el sistema empíri-
co y el numérico. Por ejemplo, podemos utilizar los números simplemente
para representar distintividad. Supongamos que estamos realizando una in-
vestigación para evaluar “expresión de emociones”. En vez de utilizar palabras
para señalar que cada expresión corresponde con una emoción distinta (por
ejemplo, enojo, alegría, sorpresa o tristeza), podemos utilizar números para
representar que se trata de emociones distintas (por ejemplo, 1, 2, 3 y 4). En
este caso, el isomorfismo que queremos mantener entre el sistema empírico y
el numérico refiere solo a la distintividad. Por tanto, no podemos hacer juicios
de orden oqueproporcionalidad.
queremos mantener entre Simplemente
el sistema empíricoqueremos representar
y el numérico refiere solo arelaciones
la distintividad.
de equivalencia, esto Pores, tanto,
que nolospodemos
objetos hacer juicios
son de orden o proporcionali-
equivalentes en una propiedad
dad. Simplemente queremos representar relaciones de equivalencia, esto es, que
determinada, por son
los objetos lo equivalentes
cual forman en unaparte dedeterminada,
propiedad una misma por locategoría.
cual forman Este tipo
de mediciónpartesede denomina nominal,
una misma categoría. y exige
Este tipo trabajar
de medición con categorías
se denomina nominal, y exhausti-
vas (abarcar todos los objetos que incluyen) y mutuamenteincluyen)
exige trabajar con categorías exhaustivas (abarcar todos los objetos que excluyentes (un
y mutuamente excluyentes (un objeto no puede estar en más de una categoría).
objeto no Enpuede estar en más de una categoría). En esta escala
esta escala los números asignados a cada categoría no representan más que los números
asignados una
a cada categoría
etiqueta (figura 2). no representan más que una etiqueta (figura 2).
Figura 2. Ejemplo de medición nominal: el isomorfismo entre el sistema empírico y numérico

Figura 2. Ejemplo de medición nominal:
se centra elenisomorfismo
solamente entre el sistema empírico y numérico
la propiedad de distintividad.
se centra solamente en la propiedad de distintividad.
Un segundo tipo de medición se establece cuando además de representar
Un distintividad
segundo queremos
tipo derepresentar
medición se establece
la existencia cuando
de un orden entre los además
elementos. de repre-
sentar distintividad queremos representar la existencia de un orden
Es decir que los objetos incluidos en una categoría no solamente difieren de entre los
los de otra categoría, sino que además pueden ser ordenados en función de la
elementos.magnitud
Es decir que los objetos incluidos en una categoría no solamente
en que poseen un atributo. Este tipo de medición se denomina ordi-
difieren denal.los de otra categoría,
escalamientosino
seríanque además
educativopueden
(sin nivel,ser ordenados en
Ejemplo de este el nivel primario,

función desecundario
la magnitud en queEs poseen
o universitario). importanteun atributo.
señalar Este
que en este niveltipo de medición se
de medición
denominaelperoisomorfismo se mantiene en cuanto a las propiedades de distintividad y orden,
ordinal. Ejemplo de este escalamiento serían el nivel educativo (sin
no de proporcionalidad. Esto implica que si una persona presenta un “4” de
nivel, primario, secundario
nivel educativo posee mayor o universitario). Es importante
nivel que una de “2”, señalar
pero no es adecuado que en este
señalar
nivel de medición
que “duplica” el suisomorfismo
nivel educativo.se mantiene
Tampoco podemosen señalar
cuanto queadoslaspersonas
propiedades de
distintividad y orden, pero no de proporcionalidad. Esto implica que si una
16
TANGAMANGA
Account: ns023844
persona presenta un “4” de nivel educativo posee mayor nivel que una de
“2”, pero no es adecuado señalar que “duplica” su nivel educativo. Tampoco
podemos señalar que dos personas con un nivel primario (en este caso repre-
sentados con
conununnivel
“2”) equivalen a una con un nivel universitario (en este caso
primario (en este caso representados con un “2”) equivalen a una
representado con
con un nivelun “4”). Solamente
universitario (en este casoes lícito efectuar
representado juicios
con un “4”). del tipo
Solamente es “mayor
que…” olícito
“menor que…”
efectuar (figura
juicios del 3). que…” o “menor que…” (figura 3).
tipo “mayor
Figura 3. Ejemplo de medición ordinal: el isomorfismo entre el sistema empírico y numérico

Figura 3. Ejemplo de medición
se centra ordinal: el isomorfismo
las propiedades entre el sistema
de distintividad empírico y numérico se
y ordinalidad.
centra las propiedades de distintividad y ordinalidad.
Finalmente existen las mediciones métricas, donde el ismorfismo no se

Finalmente existen las mediciones métricas, donde el ismorfismo no se
mantienemantiene
solo para solo indicar distintividad
para indicar y ordinalidad,
distintividad y ordinalidad, sino proporcio-
sino también también propor-
cionalidad. En este
nalidad. En estenivel
nivel de medición
de medición los números
los números poseenabyacentes
poseen unidades unidades abya-
constantes, es decir que la distancia entre el “1” y el “2”, es
centes constantes, es decir que la distancia entre el “1” y el “2”, es la misma la misma distancia
que hay entre el “2” y el “3”. Esto no ocurría en las mediciones ordinales, donde
distancia seque hay
carece de unaentre
unidadel constante
“2” y elde medición
“3”. Esto no ocurría
(las distancias ennúmeros
entre los las mediciones
ordinales,nodonde se carece
son las mismas, de una
ver figura 3). Enunidad constante
las mediciones métricasde si semedición (las distan-
cuenta con una
cias entreunidad
los números
constante deno sonlolas
medida, cualmismas,
permite quever figuraestablecer
se puedan 3). Enjuicios
las mediciones
no
métricas sólo
si sesobre el orden, sino también sobre las distancias o diferencias.
cuenta con una unidad constante de medida, lo cual permite
que se puedan establecer juicios no sólo sobre el orden, sino también sobre las
distancias o diferencias.
17
Figura 3. Ejemplo
Figura de medición
4. Ejemplo de mediciónmétrica:
métrica:el
el isomorfismo
isomorfismo entreentre el sistema
el sistema empíricoempírico y numérico
y numérico
se mantiene parapara
se mantiene laslaspropiedades
propiedades dede distintividad,
distintividad, ordinalidad
ordinalidad y proporcionalidad.
y proporcionalidad.
16
TANGAMANGA Un ejemplo de este tipo de medición podría ser el consumo de alcohol.
Supongamos
AN: 2648769 que Pérez,
; Medrano, L., queremos
E,.; comparar el nivel de yalcohol
Manual de Psicometría consumido
Evaluación por una
psicológica
Account: persona
ns023844 que ingirió un vaso de vino y otra que bebió whisky. Es posible deter-
minar esto ya que existe una unidad constante de medición para determinar la
Un ejemplo de este tipo de medición podría ser el consumo de alcohol.

Supongamos que queremos comparar el nivel de alcohol consumido por una
persona que ingirió un vaso de vino y otra que bebió whisky. Es posible de-
terminar esto ya que existe una unidad constante de medición para determinar
la graduación alcohólica de una bebida. La “graduación alcohólica” o “grado
alcohólico volumétrico” es la expresión en grados del número de volúmenes
de alcohol (etanol) contenidos en 100 volúmenes del producto. El vino por
ejemplo suele tener una graduación de 10 grados, mientras que el whisky de
50 grados. Esto significa que si dos personas toman la misma cantidad (por
ejemplo, un vaso), el que bebió whisky bebió cinco veces más de alcohol que
el que bebió vino. Este tipo de mediciones permite efectuar juicios acerca de
la proporcionalidad entre intervalos.
Como se señaló anteriormente, la posibilidad de medir y representar
propiedades de la realidad mediante un sistema de número conlleva grandes
ventajas. Gracias a este proceso de abstracción podemos efectuar operaciones y
análisis sobre el sistema numérico que nos permitan extraer nuevas conclusio-
nes sobre el mundo empírico. Por ejemplo, podemos utilizar procedimientos
estadísticos sobre el sistema numérico para identificar relaciones entre varia-
bles, identificar patrones subyacentes o efectuar predicciones sobre el sistema
empírico, por mencionar solo algunos ejemplos. No obstante, es importante
señalar que la posibilidad o no de realizar estos análisis depende del tipo de
medición que estemos usando. En efecto, no es posible hacer sumas o divisio-
nes si utilizamos mediciones de tipo ordinal o nominal. Es por ello que antes
de realizar un análisis matemático debemos contemplar cuidadosamente el
tipo de medición que estamos utilizando.
¿Es posible medir en psicología?
La medición en psicología conlleva una serie dificultades, que llevan

a que no siempre se puede establecer con claridad un isomorfismo entre el
sistema numérico y el empírico. El principal obstáculo radica en el hecho de
trabajar con constructos teóricos. Las emociones, la memoria o la felicidad,
por ejemplo, no son variables que podamos observar o manipular de forma
directa, por ende, no podemos efectuar una medición directa como podría-
mos hacer con la longitud o el peso. En psicología abundan las mediciones
indirectas ya que muchos conceptos no tienen un referente empírico inme-
diato, por lo que se deben buscar procedimientos que permitan una medición
indirecta mediante indicadores operacionales, es decir, manifestaciones exter-

nas, empíricas y observables (Nunnally, 1991).
Supongamos que queremos determinar si un paciente está deprimido.
La depresión es un rasgo inobservable que no podemos analizar mediante
una percepción directa, pero podemos llegar a inferirlo a partir de una serie
TANGAMANGA
Account: ns023844
de indicadores observables o empíricos. Por ejemplo, podemos ver si presenta

movimientos lentos, si al hablar manifiesta sentimientos de desesperanza o
inutilidad, si menciona tener problemas para dormir, o si siente que no tiene
energía o ganas para hacer actividades.
Cuando efectuamos una medición en psicología lo hacemos asumiendo
dos grandes supuestos o axiomas. En primer lugar, asumimos que existen ras-
gos o características psicológicas reconocibles que describen aspectos impor-
tantes de los individuos. En el ejemplo anterior, asumimos que existe algo que
se llama “depresión” que describe o explica los síntomas que observamos en el
paciente. En segundo lugar, asumimos que es posible cuantificar estos rasgos.
Por ejemplo, podemos decir que se trata de una depresión leve, moderada o
severa, y otorgarle un número. Sin embargo, este proceso de medición no se
encuentra exento de dificultades.
Retomando la definición de medición de Stevens (1949): “medir consis-
te en asignar números en función de ciertas reglas”. El aspecto más importante
de la definición refiere al término “según ciertas reglas”, ya que la asignación
de los números debe establecerse de manera explícita y las reglas empleadas
para definir una medición debe estar exenta de ambigüedades. Esto reviste una
gran dificultad cuando se trabaja con variables inobservables (es decir, cons-
trucciones teóricas o “constructos”). Concretamente, pueden surgir al menos
tres problemas de medición:
1. No explicitar las reglas que utilizamos para medir un constructo. Pue-

de ocurrir que un psicoterapeuta establezca que un paciente posee
un diagnóstico de “depresión severa”, pero no explique los criterios
que utilizó para llegar a este diagnóstico. Esto genera con frecuencia
confusiones entre los profesionales, ya que para un profesional los
indicadores operacionales de la depresión pueden ser distintos a los
considerados por otro. Asimismo, puede ocurrir que un profesio-
nal otorgue mayor importancia a ciertos indicadores que a otros,
llevando a que en un caso se diagnostique “depresión severa” y en
otro “depresión leve”. Esto conlleva muchos problemas de comu-
nicación, y, en consecuencia, dificulta la posibilidad de un trabajo
grupal e interdisciplinario.
2. Utilizar reglas distintas para medir un constructo y posteriormente
compararlas. Puede ocurrir, por ejemplo, que dos investigadores rea-
lizan una investigación sobre los factores asociados a la depresión.
Pero al momento de realizar el estudio uno de ellos utiliza un méto-
do para medir la depresión, y el otro utiliza un método alternativo.

El problema que surge es determinar si las conclusiones a las que
cada investigador arriba son comparables entre sí. De hecho, es ha-
bitual encontrar pruebas psicológicas que dicen evaluar el mismo
18
TANGAMANGA
Account: ns023844
constructo (por ejemplo, inteligencia) pero que utilizan metodolo-

gías radicalmente distintas. Esto genera que muchas veces hablemos
de la misma variable, cuando en realidad estamos midiendo cosas
distintas.
3. Dificultades de acuerdo o convención en relación al modo en que con-
ceptualizamos el atributo que se pretende medir. Probablemente se
trate del mayor problema de medición en psicología, ya que en esta
disciplina los constructos no pueden definirse operacionalmente de
manera aislada, sino que deben relacionarse o integrarse a una teo-
ría. Cuando pretendemos medir un constructo teórico, debemos
definir los indicadores que usaremos para efectuar tal medición.
Para ello, es esencial haber definido previamente la naturaleza del
atributo que pretendemos medir. La forma en que conceptualiza-
mos un atributo determina que indicadores operacionales vamos a
considerar. Por ejemplo, algunos autores señalan que la “ideación
suicida” (tener ideas recurrentes de muerte) no forma parte de la
depresión, sino que se trata de un constructo distinto que surge
como consecuencia de la desesperanza. Sin embargo, otros autores
lo incluyen como un síntoma de la depresión, conceptualizando
que se trata de un comportamiento propio del mismo trastorno. Por
ende, en un caso se utilizará la ideación suicida como un indicador
de depresión, mientras que en el otro no. Este es un problema que
se repite con prácticamente todos los constructos que se trabajan
en psicología (personalidad, inteligencia, trastornos mentales, y un
largo etcétera). Cada vez que se pretenda medir una misma varia-
ble psicológica nos encontraremos con varios modelos teóricos que
plantean diferentes conceptualizaciones de la misma, y, en conse-
cuencia, contemplan diferentes indicadores operacionales.
Debido a las dificultades que conlleva efectuar una medición de los

constructos psicológicos es que existe la psicometría, una de las áreas funda-
mentales de la psicología, que se ocupa de los procedimientos de medición del
comportamiento humano, incluyendo a los denominados tests psicométricos.
¿Qué es la Psicometría y cuáles son sus contribuciones a la ciencia

psicológica?
En 1879, Sir Francis Galton introdujo el concepto de “psicometría”,

que en griego significa “medir el alma” (Hogan, 2004). En términos amplios
la psicometría es el área de la psicología que se ocupa de los procedimientos
medición del comportamiento humano, e incluye dos ramas: a) la teoría de la
medición, que involucra fundamentalmente el uso de la estadística aplicada a
TANGAMANGA
Account: ns023844
la construcción y análisis de instrumentos de medición, y b) las técnicas psi-

cométricas, es decir, la utilización de pruebas o test con el objetivo de medir
o evaluar constructos psicológicos con fines profesionales o de investigación.
La delimitación de tests psicológicos no es sencilla, y a lo largo de la historia
su definición ha ido cambiando. Actualmente la definición más aceptada es la
propuesta por la American Psychological Association (en adelante APA, 1999)
quien conceptualiza a los tests como “un procedimiento por medio del cual una
muestra de comportamiento de un dominio especificado, es obtenida y posteriormen-
te calificada, empleando un proceso estandarizado”. A continuación, desglosare-
mos esta definición para lograr una mayor comprensión de la misma.
Cuando intentamos medir un constructo existe una amplia cantidad de
indicadores operacionales que pueden reflejar dicho dominio. Supongamos
por ejemplo que queremos medir la “responsabilidad”, la cantidad de com-
portamientos que indican la existencia de ese rasgo psicológico es innumera-
ble (llegar temprano a clase, hacer las actividades que plantea el profesor, leer
mientos que indican la existencia de ese rasgo psicológico es innumerable (llegar
los contenidos del programa, concluir las actividades planificadas, cumplir las
temprano a clase, hacer las actividades que plantea el profesor, leer los contenidos
obligaciones, ser ordenado
del programa, concluir las yactividades
muchosplanificadas,
otros comportamientos). Difícilmente
cumplir las obligaciones, ser
un testordenado
pueda evaluar todos los comportamientos que se encuentren
y muchos otros comportamientos). Difícilmente un test pueda evaluar involucra-
dos entodos
ese dominio o constructo
los comportamientos que seteórico. Es por
encuentren ello queentrabajamos
involucrados ese dominio con o una
muestraconstructo teórico. Es por
de comportamiento deello
un que trabajamos
dominio con4).
(figura unaDe muestra de comporta-
la misma manera que
miento con
trabajamos de ununa
dominio (figura de
muestra 4). De la mismapara
personas manera que trabajamos
hacer con una sobre
generalizaciones
muestra de personas para hacer generalizaciones sobre una población, en este
una población, en este caso los elementos en vez de ser personas son compor-
caso los elementos en vez de ser personas son comportamientos representativos
tamientos
de unrepresentativos
dominio o constructo.de un dominio o constructo.
Una vez obtenida la muestra
Una vez obtenida la muestra de de comportamiento,
comportamiento, la “calificamos
la “calificamos utilizando uti-
lizandounun proceso
proceso estandarizado”.
estandarizado”. Estoque
Esto significa significa
utilizamosqueunautilizamos
misma consignauna ymisma
consignaescala de respuesta
y escala para calificar
de respuesta parala muestra
calificarde la
comportamientos. Por ejemplo,
muestra de comportamientos.
indicar en
Por ejemplo, qué medida
indicar cada medida
en qué una de lascadaconductas
una del
de test
las refleja características
conductas del testde refleja
tu personalidad usando una escala que va desde el “1” (“muy en desacuerdo con
características de tu personalidad usando una escala que va desde el “1” (“muy
esta descripción de mí mismo”) hasta el “5” (“muy de acuerdo con esta descrip-
en desacuerdo
ción de mí con esta descripción de mí mismo”) hasta el “5” (“muy de
mismo”).
acuerdo con esta descripción de mí mismo”).
Figura Figura
4. Representación deldel
5. Representación proceso subyacente
proceso subyacente en test
en un un psicométrico.
test psicométrico.
20
EBSCO Publishing Una vezCollection
: eBook puntuados(EBSCOhost)
los comportamientos seleccionados
- printed on 4/28/2023 calculamos
9:15 PM un DE
via UNIVERSIDAD
TANGAMANGA puntaje total mediante la suma de los puntajes obtenidos en cada ítem. Si la
muestra de comportamientos es representativa del dominio, los resultados obte-
Account: ns023844
nidos en el test permitirán inferir la posesión o magnitud del dominio (figura 4).
De esta forma, si frente a los 4 ítems de la figura 5, una persona posee un puntaje
Una vez puntuados los comportamientos seleccionados calculamos un

puntaje total mediante la suma de los puntajes obtenidos en cada ítem. Si la
muestra de comportamientos es representativa del dominio, los resultados
obtenidos en el test permitirán inferir la posesión o magnitud del dominio (fi-
gura 4). De esta forma, si frente a los 4 ítems de la figura 5, una persona posee
un puntaje de 30 puntos y otra de 15, ello implica que la primera presenta en
mayor medida el rasgo evaluado (en este caso responsabilidad).
Tal como se mencionó anteriormente este tipo de mediciones conlleva
una serie de limitaciones. En primer lugar, se trata de mediciones de carácter
ordinal, por lo cual no pueden realizarse afirmaciones sobre las proporciones o
distancias entre las puntuaciones (en el ejemplo anterior no podemos afirmar
que una persona sea el doble de responsable porque una obtuvo 30 y otra 15).
En este tipo de mediciones solo podemos hacer juicios de orden, limitándo-
nos a señalar la existencia de mayor o menor posesión del atributo medido.
Figura 5. Ejemplos de consigna y escala de respuesta para ítems de responsabilidad.
Por otro lado, debemos recordar que un mismo constructo o dominio

teórico puede ser definido de distintas formas, por lo cual puede no existir
consenso en relación a los indicadores operacionales que deben considerarse
para medir el constructo de interés. Cada medición que realicemos depende-
rá de un marco teórico de referencia, por lo que pueden co-existir en la litera-
tura científica una multiplicidad de abordajes para medir una misma variable.
Aún con estas deficiencias, el nivel de precisión alcanzado por los test
psicométricos exhibe algunas ventajas respecto a la observación natural o al
uso de entrevistas abiertas. Entre las principales ventajas se encuentra la obje-
tividad, ya que los test psicométricos permiten disminuir las conjeturas de la
TANGAMANGA
Account: ns023844
observación subjetiva y aumentar las posibilidades de replicabilidad por parte

de otros profesionales o investigadores. Otra ventaja es la comunicabilidad,
dado que al disponer de medidas estandarizadas se facilita la comunicación
y la precisión de los datos. El reporte de puntuaciones de test brinda mayor
detalle que los juicios personales. La eficiencia de los test es una ventaja que
no debe pasarse por alto. Si bien el desarrollo de un buen instrumento es-
tandarizado demanda mucho tiempo y esfuerzo, las evaluaciones mediante
pruebas estandarizadas son más económicas en tiempo y dinero que las eva-
luaciones subjetivas. Finalmente, la principal ventaja de los test radica en la
posibilidad de matematizar constructos psicológicos. La posibilidad de abstraer
y representar mediante símbolos numéricos, permite realizar análisis lógico-
matemáticos sobre los valores numéricos y obtener nueva información sobre
los datos observados.
22
TANGAMANGA
Account: ns023844
|
Un panorama de los test psicométricos:

generalidades, clasificación y tendencias
actuales
Edgardo Pérez y Leonardo Medrano
Introducción
Las ventajas que conlleva la medición mediante test psicométricos ha gene-

rado un amplio uso de los mismos a nivel mundial tanto con fines profesionales
como de investigación. Según Hogan (2004) existen cuatro usos principales de
las pruebas psicométricas. En primera instancia se destaca un uso clínico, donde
el terapeuta utiliza pruebas para complementar el proceso de evaluación diag-
nóstica, identificar la naturaleza y gravedad de trastornos psicológicos, evaluar
el progreso terapéutico o determinar la eficacia de un tratamiento. Un segundo
uso importante de los test se observa en centros educativos, donde habitualmente
se aplican pruebas para evaluar el proceso de aprendizaje, detectar alumnos con
dificultades de aprendizaje o problemas socioemocionales, analizar factores mo-
tivacionales que puedan influir en el desempeño o realizar pronósticos sobre el
comportamiento académico. Otro uso habitual de las pruebas es en el contexto
de evaluación laboral u organizacional. En este contexto se utilizan pruebas para
seleccionar a los individuos más calificados para un puesto, gestionar los recur-
sos humanos, evaluar el clima de una organización, analizar los niveles de estrés
y bienestar laboral, entre otras acciones. Finalmente, el cuarto uso de las pruebas
psicológicas es en contextos de investigación, donde se utilizan pruebas para
operacionalizar variables psicológicas, caracterizar muestras o incluso investigar
sobre las mismas pruebas.
El uso de los test es tan amplio y diverso que puede resultar complejo
ingresar al mundo de las pruebas psicológicas. Este capítulo tiene por obje-
tivo ofrecer un panorama de los test psicométricos. Para ello se expondrá en
primera instancia una clasificación de los test psicométricos. En el proceso de
describir tales categorías se mencionan ejemplos de pruebas de uso generali-
zado, haciendo especial hincapié en pruebas desarrolladas en el contexto lo-
cal. Posteriormente, se exponen tendencias actuales en materia de evaluación
psicométrica, enfatizando el uso de pruebas informatizadas. Finalmente, se
incluye un apartado sobre fuentes de información sobre test psicométricos.
Clasificación de los Test Psicométricos
Es común encontrar en la literatura psicométrica diversas taxonomías

que utilizan criterios disímiles de agrupación con el objetivo de clasificar los
tests psicológicos. Por ejemplo: a) individuales o grupales, según se adminis-
TANGAMANGA
Account: ns023844
tren a una persona por vez o a un grupo de individuos simultáneamente; b)

de ejecución, lápiz y papel, visuales, auditivos, o computarizados, de acuerdo al
formato y materiales de presentación de los tests; o, c) basados en la teoría
clásica o de respuesta al ítem, conforme al modelo teórico de construcción. Sin
embargo, consideramos que la clasificación planteada por Cronbach (1998)
es la más adecuada. Según este autor los test psicológicos pueden clasificarse
en dos categorías (figura 1): a) de ejecución máxima, los cuales se caracterizan
por ser pruebas en donde se exige al examinado el mayor rendimiento posible,
y b) de comportamiento típico, en donde se evalúa el comportamiento habitual
de las personas, sin requerir respuestas correctas.
Test de ejecución máxima: evaluación de la inteligencia,

aptitudes, habilidades y procesos neuropsicológicos
La característica principal de los tests de ejecución máxima es que se les
solicita a los examinados que responda de la forma más correcta que pueda
frente a tareas problemáticas que debe resolver (Cronbach, 1998). En estos
tests se miden diferencias individuales en el nivel de ejecución máximo de di-
ferentes tareas (Nunnally, 1991). Esto significa que las aptitudes o habilidades
se relacionan con la ejecución respecto a criterios específicos de éxito (tales
como respuestas correctas a problemas matemáticos, por ejemplo).
Bajo el concepto genérico de tests de ejecución máxima se incluyen
variables tales como las aptitudes, las habilidades y la inteligencia. Debe acla-
rarse que la delimitación de estos conceptos es uno de los problemas más con-
trovertidos de la psicología, al igual que el dilema subyacente de la determi-
nación genética o cultural del comportamiento. Para Juan-Espinosa (1997),
la habilidad desarrollada representa el logro en algún dominio (escritura, por
ejemplo) y la inteligencia una condición necesaria para ese logro. De acuerdo
con este autor, la inteligencia general y las aptitudes específicas dependen de
características ligadas a la constitución cerebral y disposiciones genéticas de
las personas y son más resistentes al entrenamiento que las variables medidas
por los tests de logro o habilidades desarrolladas. No obstante, por lo general,
en los tests de inteligencia o aptitudes se incluyen algunos ítems que parecen
medir habilidades desarrolladas más que aptitudes.
Evaluación de la inteligencia, aptitudes y habilidades

Según, Juan-Espinosa (1997) la inteligencia refiere a un sistema com-
plejo compuesto por numerosos procesos cognitivos relativamente indepen-
dientes pero que pueden operar conjuntamente. Este operar conjunto de

procesos independientes contribuye a la aparición de un factor general de
inteligencia (Jensen, 1998). La postulación de un factor cognitivo general (g)
que permite resolver problemas novedosos de cualquier naturaleza se opone a
la concepción de aptitudes relativamente independientes, también tradicional
24
TANGAMANGA
Account: ns023844
en la psicología. La existencia de un factor general de inteligencia es apoyada

por investigaciones psicométricas y de la genética del comportamiento (Plo-
min, DeFries, McClearn y McGuffin, 2002), pero esto no implica negar la
existencia de aptitudes más específicas. En general se asocia este factor g a la
velocidad de procesamiento cognitivo o tiempo de inspección cuyas bases
biológicas no están aun bien determinadas, aunque se ha encontrado alguna
evidencia preliminar en relación con los niveles de glucosa en sangre, la velo-
cidad de conductancia eléctrica, y el volumen cerebral y neuronal.
El neurocientífico Howard Gardner (1994; 1999) efectuó una crítica
radical al modelo de inteligencia general con su teoría de las Inteligencias
Múltiples (multiple intelligences, MI). Para Gardner, los tests miden prefe-
rentemente aptitudes relacionadas con los requerimientos académicos de la
cultura occidental y por eso sólo reconocen dos o tres dimensiones de la inte-
ligencia (lingüística y lógico-matemática, por ejemplo). Su teoría, basada pri-
mordialmente en criterios neuropsicológicos, propone ocho potenciales biop-
sicológicos de procesamiento de información (“inteligencias”) que permiten
resolver problemas o crear productos valorados por una cultura. Estas inteli-
gencias son: Linguistica, Lógico-Matemática, Espacial, Cinestésico-Corporal,
Musical, Interpersonal, Intrapersonal y Naturalista (figura 1). La teoría MI,
de fuerte atractivo, constituye una fuente riquísima de hipótesis que no po-
seen una corroboración empírica exhaustiva ni técnicas validadas de medición
objetiva de sus constructos (Hood y Jonson, 2002). En efecto, los tests dise-
ñados para medir aspectos relacionados con las inteligencias múltiples, tales
como MIDAS (Shearer, 1999) o IAMI (Pérez, 2001), evalúan las habilidades
autopercibidas o la autoeficacia (concepto desarrollado más adelante) y no in-
cluyen problemas a resolver relacionados con las dimensiones de inteligencia
propuestas por Gardner (1999).
Figura 1. Modelo de Inteligencias Múltiples
TANGAMANGA
Account: ns023844
También existen desarrollos teóricos contemporáneos que representan

una solución de compromiso entre ambas posturas, admitiendo la existencia
de un factor g pero también de aptitudes generales y habilidades específicas
relativamente independientes. Una de estas teorías es la de Cattell-Horn-Ca-
rroll (Carroll, 1993; McGrew, Flanagan, Keith y Vanderwood, 1997), que
propone un modelo de tres estratos (figura 2): la inteligencia general en el es-
trato superior (g), un estrato medio de aproximadamente diez aptitudes cog-
nitivas (procesamiento visual, por ejemplo) y un estrato con numerosas ha-
bilidades más específicas (destrezas manuales, por ejemplo). Un instrumento
contemporáneo basado explícitamente en la teoría CHC es la batería WJ-III
de aptitudes cognitivas (Woodcock, McGrew y Mather, 2001). Las nueve ap-
titudes medidas por este test son: rapidez en el procesamiento, procesamien-
to visual, procesamiento auditivo, memoria a corto plazo, memoria a largo
plazo, comprensión-conocimiento, razonamiento fluido, lectura-escritura y
aptitud cuantitativa. Existen versiones de la batería WJ-III en varios idiomas
(incluida una versión en español) y con un rango de aplicación de 2 a 90 años.
Este tests es extensa, de aplicación individual y posee excelentes propiedades
psicométricas de estandarización, confiabilidad y validez.
Identificados tentativamente como

g Aptitudes
Generales del II Estrato
Gf Gc Gsm Gv Ga Glr Gs Gt Gnw Gq Gkn Gh Gk Go Gp Gps
Aptitudes Generales del II Estrato

Gf Razonamiento fluido Gkn Conocimiento General
Gc Comprensión - Conocimiento Gh Habilidad Tactil
Gsm Memoria a corto plazo Gk Habilidad Cinestésica
Gv Procesamiento Visual Go Habilidad Olfatoria
Ga Procesamiento Auditivo Gp Habilidad Psicomotora
Glr Almacenamiento y Memoria a largo plazo Gps Velocidad Psicomotora
Gs Velocidad de Procesamiento
Gt Velocidad de Reacción y Decisión
Gnw Lectura y Escritura
Gq Conocimiento Cuantitativo
Figura 2. Modelo
Figura Integrado
2. Modelo IntegradoCHC
CHC(extraído
(extraídode
de Pérez
Pérez yyMedrano,
Medrano, 2013)
2013)
Una Unade las escalas

de las escalasmás
másutilizadas parala laevaluación
utilizadas para evaluación de lade la inteligencia
inteligencia en
en nuestro
nuestromedio
medio eses lalaelaborada
elaborada porpor el norteamericano
el norteamericano David Wechsler
David Wechsler en 1939, en
1939,concon varias
varias actualizaciones
actualizaciones posteriores
posteriores (WISC-V(WISC-V
y el WAIS-IV).y elLas
WAIS-IV).
escalas We- Las
escalaschsler
Wechsler comprenden
comprenden subtestsy verbales
subtests verbales de ejecución.y deLosejecución.
ítems de losLossubtests
ítems de
los subtests
verbalesverbales
plantean plantean
problemasproblemas
del tipo de del
¿Quétipo de ¿Qué
significa significa
arrogante?, arrogante?,
o Menciona
un planeta de nuestro sistema solar que no sea la Tierra; los subtests no verbales
consisten, por ejemplo, en ensamblar objetos a la manera de un rompecabezas
26
(figura 3).
TANGAMANGA
Account: ns023844
o Menciona un planeta de nuestro sistema solar que no sea la Tierra; los subtests
no verbales consisten, por ejemplo, en ensamblar objetos a la manera de un
rompecabezas (figura 3).
Figura 3. Imágenes de sub-pruebas del WISC-III
Algunos análisis psicométricos contemporáneos de las escalas Wechs-

ler identificaron cuatro factores de inteligencia subyacentes (organización
perceptual, memoria de trabajo, comprensión verbal y velocidad de procesa-
miento). En la versión del WISC-IV las puntuaciones se interpretan en fun-
ción de esos cuatro factores y no en la forma tradicional de inteligencia verbal
y de ejecución. En las versiones actuales de las escalas Wechsler los ítems están
ordenados según los parámetros de dificultad y discrimación de la teoría de
respuesta al ítem. La tabla 1 presenta un listado de los subtests de estas escalas
y su relación con los cuatro factores subyacentes a las puntuaciones
TANGAMANGA
Account: ns023844
Tabla 1 Relaciones entre los subtests de las escalas Wechsler y los cuatro factores de segun-
do orden
Comprensión Memoria Organización Velocidad de
Subtest
verbal de trabajo perceptual Procesamiento
Subtest verbales
Vocabulario x
Semejanzas x
Aritmética x
Retención de dígitos x
Información x
Sucesión de letras y
x
números
Subtest de ejecución
Figuras incompletas x
Dígitos y símbolos
x
claves
Diseño con cubos x
Matrices x
Búsqueda de
x
Símbolos
La Orientación de Carrera y la Selección de Personal son áreas de traba-

jo del psicólogo donde resulta de significativa importancia evaluar aptitudes
cognitivas. En estos ámbitos son muy empleadas pruebas como el Test de
Aptitudes Diferenciales (DAT-5) (Bennet, Seashore y Wesman, 2000), instru-
mento compuesto por ocho subtests que permiten obtener puntuaciones en
competencias requeridas para el éxito académico u ocupacional (aptitud ver-
bal, numérica, espacial, abstracta, mecánica, administrativa, lenguaje y orto-
grafía). Se ha criticado a este tipo de tests su falta de poder predictivo diferen-
cial, puesto que los mejores predictores resultan ser los puntajes combinados
de sus subtests verbales y numéricos, algo equivalente a un test de inteligencia
aunque innecesariamente más extenso; así como la confusión conceptual de
incluir aptitudes (como las administrativas) que en realidad son un compues-
to de factores cognitivos y de personalidad (Kline, 2000). No obstante, para
fines de orientación o selección suministran información más específica que
los tests de inteligencia general, y tal vez esto en esto radique su popularidad
entre los orientadores.
En nuestro país, Cortada de Kohan (1998) elaboró un test de aptitud
verbal denominado Buenos Aires. El test consta de 98 ítems, una mitad de
ellos sinónimos y la otra mitad definiciones, todos de opción múltiple con 4
alternativas de las cuales una es la correcta. El tiempo de aplicación es libre
pero suelen ser suficientes 25 minutos para terminar la prueba, que puede ser
aplicada tanto en forma individual como colectiva. El test posee baremos para
Argentina, Ecuador, Colombia y España. Se han realizado los estudios esta-
dísticos convencionales (confiabilidad, validez, análisis de ítems) pero además
se han obtenido para todos los ítems los parámetros de dificultad y discrimi-
28
TANGAMANGA
Account: ns023844
nación según la teoría de respuesta al ítem, algo muy novedoso en nuestro

país. El test puede ser aplicado a jóvenes y adultos desde los 16 años, y con
al menos tres años cursados de educación secundaria. También se dispone de
una forma abreviada del test que mantiene las condiciones de confiabilidad y
validez de la forma completa y que puede aplicarse con un tiempo límite de
8 minutos.
Evaluación Neuropsicológica
Otra área relevante para la utilización de tests de ejecución máxima es
la neuropsicología, que estudia las relaciones entre el cerebro y la conducta
(Kolb y Wishaw, 1986). El desarrollo de la neuropsicología ha estado deter-
minado por la necesidad de investigar y encontrar herramientas que permitie-
ran el diagnóstico y el tratamiento de los déficits en el rendimiento cognitivo
(memoria, lenguaje, atención, funciones visoespaciales, funciones ejecutivas)
después de la ocurrencia de una lesión cerebral. Frecuentemente, estas lesiones
resultan en trastornos cognitivos que afectan el desempeño de una persona en
las actividades de la vida diaria, especialmente en la esfera laboral. Por ello,
luego de una lesión cerebral es imperioso determinar la cantidad y calidad de
daño cognitivo que puede haber sufrido una persona.
La evaluación neuropsicológica (EN) es la herramienta que posibilita
este diagnóstico. Lezak (1995) identifica cuatro aplicaciones esenciales de la
EN: evaluación propiamente dicha; cuidado del paciente y planificación del
tratamiento; rehabilitación y evaluación del tratamiento; e investigación. En
el manual de Lezak, el texto de actualidad en donde se ha realizado la mayor
recopilación y descripción de tests neuropsicológicos existentes, se mencionan
más de 500 pruebas de este tipo.
Las áreas cognitivas evaluadas por los tests neuropsicológicos son de
una enorme variedad. Así podemos citar: memoria, atención, discriminación
visual, gnosias visuales, gnosias auditivas, discriminación de color, funciones
ejecutivas (planeamiento, verificación), lenguaje (expresión, comprensión,
denominación), praxias (constructivas, de miembros), entre otras. Algunos
de los tests más conocidos en este ámbito son: el Test de la Función Men-
tal Mínima (Mini-mental State Examination) (Folstein, Folstein y McHugh,
1975), utilizado como una prueba de inspección rápida (dura aproximada-
mente 5 minutos) del estado cognitivo general de una persona; el Test de
Stroop (1935), una prueba de atención que requiere determinar el color en
el que están escritos nombres de colores impresos en colores incongruentes
con la palabra (por ejemplo, la palabra “rojo” escrita en tinta verde); el Test de
Clasificación de Cartas de Wisconsin (Heaton, Chelune, Talley, Kay y Cur-
tiss, 1991), una prueba de flexibilidad cognitiva; y la Figura Compleja de
Rey (Rey, 1941), un test de memoria visual y praxias constructivas. Se ha
TANGAMANGA
Account: ns023844
demostrado acabadamente la importancia, utilidad y justificación de esta área

de medición, cuyo logro más reciente es la posibilidad de identificar precoz-
mente déficits cognitivos, tales como la demencia.
Otro dominio íntimamente relacionado con la prevención e interven-
ción es el desarrollo infantil. Los tests de evaluación del desarrollo infantil
miden las áreas motora, afectiva, cognitiva, y del lenguaje, facilitando la de-
tección precoz de posibles anomalías. La población meta de estos instrumen-
tos es la que posee entre 0 y 5 años; incluyendo por lo tanto la evaluación del
neonato (los primeros 30 días de la vida extrauterina); el lactante (desde los
30 días hasta los 24 meses de edad) y el pre-escolar (desde los dos a los cinco
años). Estas pruebas requieren un buen entrenamiento del evaluador en el
manejo y observación de niños pequeños, y sólidos conocimientos teóricos
que permitan otorgar a las conductas observadas la debida importancia en un
contexto de diagnóstico. Debe destacarse que en ningún caso los test de desa-
rrollo reemplazan el examen neurológico del niño, sino que se complementan
mutuamente.
En general, las pruebas de evaluación del desarrollo poseen menos con-
fiabilidad y validez que otros tests de ejecución máxima, debido quizá a la
pobre capacidad de concentración de los niños pequeños y a la rápida madu-
ración cognitiva que caracteriza a este período de la vida (Aiken, 2003). No
obstante, estos tests son útiles para el diagnóstico precoz del retraso mental,
los trastornos cerebrales orgánicos y los trastornos del aprendizaje (dislexia y
discalculia, por ejemplo). Entre los principales instrumentos que se utilizan
en nuestro país podemos destacar las escalas de Gesell y Amatruda (1971),
construidas para diagnosticar si los niños alcanzan parámetros adecuados de
desarrollo. A lo largo de un extenso programa de investigación relacionado
con estas últimas escalas se obtuvieron datos normativos sobre el desarrollo
de las habilidades motrices, lingüísticas y personales-sociales, así como del
comportamiento adaptativo, en niños de 0 a 6 años. Las puntuaciones de
las escalas de desarrollo de Gesell, determinadas por la presencia o ausen-
cia de conductas específicas características de los niños a determinada edad,
se expresan en términos de la edad de desarrollo (ED). Un desarrollo más
contemporáneo y de mucha aceptación internacional es la Escala Bayley del
Desarrollo Infantil, creada en 1933, y cuya última revisión data de 1993. Las
tres secciones de la escala Bayley (escala motora, social y comportamental) se
consideran complementarias y ofrecen una contribución diferente a la evalua-
ción clínica (Bayley, 1993).
Tests de respuesta típica: motivación y personalidad
En este tipo de tests ninguna respuesta puede ser calificada como co-
rrecta o incorrecta. Aquí se evalúa el comportamiento típico de los individuos,
30
TANGAMANGA
Account: ns023844
recurriendo a distintas afirmaciones ante las cuales el examinado debe indicar

su nivel de acuerdo o agrado, por ejemplo (Cronbach, 1998). Como expresa-
mos anteriormente, estos tests utilizan preferentemente un formato likert de
respuesta a sus ítems. Los tests de respuesta típica comprenden las medidas
de rasgos de personalidad, intereses y actitudes, así como otros constructos
afectivos y motivacionales relacionados, tales como las actitudes, los rasgos de
personalidad, los intereses profesionales y las creencias de autoeficacia.
Evaluación de los Rasgos de Personalidad.

Aun cuando el término personalidad es empleado con diferentes acep-
ciones y carece de un sentido unívoco, la mayor parte de las definiciones
coinciden en que hace referencia las tendencias afectivas básicas de una per-
sona. Estas disposiciones le confieren relativa estabilidad al comportamiento,
más allá de las lógicas variaciones que resultan de la adaptación a diferentes
contextos y situaciones.
Según Nunnally (1991) el estudio total de la personalidad se centra en
dos grandes problemas: 1) cuales son los rasgos dominantes de una persona en
un momento determinado de su historia personal; 2) que factores determinan
ese patrón de personalidad.
La medición de la personalidad tiene que ver principalmente con el
primer punto, siendo el propósito de la medición describir a los individuos en
base a sus rasgos (características, atributos) de personalidad predominantes.
El segundo punto se relaciona con la herencia y la experiencia, ya que para
explicar el desarrollo de la personalidad de un individuo se debe recurrir a la
genética del comportamiento y/o la teoría del aprendizaje.
En algunas de las teorías contemporáneas, tales como la teoría de los
cinco grandes factores (Costa y Mc Crae, 1999), los rasgos de la personali-
dad se entienden como hereditarios en gran proporción y, por consiguiente,
bastante asimilables al concepto de temperamento o naturaleza emocional de
las personas (Carver y Scheier,1996). Algunas de las orientaciones tempera-
mentales básicas, tales como emocionalidad positiva (asimilable a Extraversión
y Amabilidad) y negativa (asimilable a Neuroticismo), ya pueden distinguirse
en la primera infancia (Tellegen, 1988). La investigación actual en genética del
comportamiento (Plomin etl al., 2002) apoya este condicionamiento heredita-
rio de la reactividad emocional de las personas, aunque admite que el entorno
familiar también explica parte de la variabilidad de esa variable. Recientemente
se ha sugerido que el incremento en la actividad social, el ejercicio físico y las
técnicas de relajación pueden modificar algunas tendencias emocionales básicas

de las personas (Lent, 2004).
Al igual que en las habilidades, la medición de los rasgos de personali-
dad se interesa en forma primordial por las diferencias individuales. Los ras-
gos de personalidad no se relacionan con “qué tan bien” puede hacer algo una
TANGAMANGA
Account: ns023844
persona, como en el caso de las habilidades, sino que se vinculan con la con-
ducta típica de las personas en la vida cotidiana, por ejemplo, el nivel típico
de ansiedad o de amabilidad que posee una persona. Existe un buen número
de estrategias diferentes para medir los rasgos de personalidad, aunque en los
últimos años se utilizan preferentemente los inventarios autodescriptivos o de
autoinforme (Casullo et al., 1994). Ejemplos de ítems típicos de este tipo de
inventarios puede ser:
–– Me agradan las reuniones sociales
–– Pongo atención a los detalles
–– Intento no llamar la atención
–– Evito mis obligaciones
Las opciones de respuesta a ítems como el anterior en este tipo de in

ventarios pueden ir desde un formato dicotómico (“si-no” o “verdadero ‑
falso”) a uno tipo likert con varias alternativas. Actualmente se recomienda
incluir varias alternativas de respuestas con la finalidad de mejorar la variabi-
lidad de las respuestas y, por consiguiente, la confiabilidad y validez de estos
tests (Pajares, Hartley y Valiante, 2001). Los inventarios de rasgos de perso-
nalidad se utilizan en ámbitos tan diversos como la clínica psicológica, la psi-
cología ocupacional y la investigación. Uno de los principales inconvenientes
de los autoinformes es la posibilidad de que los sujetos falseen sus respuestas
para dar una impresión socialmente aceptable (Anastasi y Urbina, 1998). No
obstante, en la actualidad muchos de estos instrumentos poseen procedimien-
tos de control de la validez de las respuestas que atenúan (no eliminan) este
inconveniente (Pérez, 2000; Goldberg, 1999)
Pueden distinguirse dos tipos de inventarios de personalidad, los que eva-
lúan rasgos psicopatológicos y los que miden rasgos de la personalidad normal.
Entre los primeros, de uso preferentemente clínico, uno de los más utilizados
es el Inventario Multifásico de Personalidad de Minnesota (MMPI) creado en
1940, y con varias versiones y actualizaciones posteriores. El MMPI fue elabo-
rado con el fin de diagnosticar trastornos psicológicos de las personas, y su área
de principal aplicación es la psicología clínica. El inventario posee 550 ítems, en
forma de enunciados afirmativos, debiendo el sujeto clasificarlos en una de tres
categorías: “verdadero”, “falso”, y “no lo sé”. Los ítems del MMPI incluyen una
amplia variedad de contenidos, comprendiendo áreas como actitudes sexuales,
educación, ocupación, familia, salud, síntomas psicosomáticos, manifestaciones
neuróticas y psicóticas de la conducta, etc. En su versión original permite obte-
ner puntuaciones en diferentes escalas clínicas relacionadas con distintas catego-

rías de la psicopatología. El MMPI-2 (Butcher, Dahlstrom, Graham, Telegen,
y Kaemmer, 1989) es una versión revisada y actualizada que incluye nuevos
ítems, escalas adicionales y baremos actualizados.
Otros inventarios de personalidad para uso clínico miden sólo un tras-
32
TANGAMANGA
Account: ns023844
torno psicológico, y así pueden mencionarse el Inventario de Depresión de

Beck (BDI-II; Beck, Steer y Brown, 1996) o el Inventario de Ansiedad Ras-
go-Estado (STAI; Spielberberg, 1983), el Inventario de Expresión de la Ira
(STAXI; Spielberger, 1988), el inventario de Situaciones y Respuestas de An-
siedad (ISRA; Miguel-Tobal y Cano-Vindel, 1986), entre otros numerosos
ejemplos.
Entre los inventarios autodescriptivos usados para evaluar rasgos de per-
sonalidad en personas sin trastornos psicológicos severos los más populares
son el Inventario de Personalidad 16PF-5 (Russell y Karol, 2000), el Cues-
tionario de Personalidad EPQ (Eynseck y Eynseck, 1997), y los Inventarios
NEO de Costa y Mc Crae (1999).
La teoría de los cinco grandes factores (Norman, 1963; Costa y Mc
Crae, 1999) es, en la actualidad, predominante en la construcción de los in-
ventarios de personalidad elaborados para medir predisposiciones no pato-
lógicas. Esta teoría postula cinco dimensiones afectivas básicas en las cuales
diferimos los seres humanos: Estabilidad Emocional o Neuroticismo, Extra-
versión, Apertura, Responsabilidad y Amabilidad, todas influidas por la he-
rencia. El volumen de investigación acerca de este modelo es abrumador y
parece sugerir mayor consenso entre los investigadores que el obtenido en el
terreno de la inteligencia. No obstante, existen en la literatura contemporá-
nea algunas voces disidentes que prefieren modelos explicativos alternativos,
tales como la teoría PEN de Eynseck (1981), proponiendo tres factores (Neu-
roticismo, Impulsividad o Psicoticismo, Extraversión). Pueden establecerse
relaciones entre ambas teorías, puesto que dos constructos son perfectamente
asimilables: Extraversión y Neuroticismo, y el tercer factor de la teoría PEN,
Impulsividad, se relaciona con Responsabilidad de manera inversa. Los facto-
res Amabilidad y Apertura de Costa y McCrae (1999) son consideradas como
facetas (rasgos más específicos) en la teoría de Eynseck (1981).
El NEO-PI-R (Costa y Mc Crae, 1999) es uno de los instrumentos más
relevantes que se han desarrollado para medir los cinco grandes factores y las
30 facetas específicas que permiten una mayor discriminación en la medición
de la personalidad. El NEO-PI-R se emplea en diferentes áreas de la psicolo-
gía aplicada (en especial en el ámbito laboral) y ha sido adaptado en España
por editorial TEA. También existe una versión abreviada de este inventario, el
NEO-FFI, que mide solamente los cinco factores principales, sin las respec-
tivas facetas.
En general, los inventarios de personalidad son más utilizados en psicolo-
gía clínica con fines de diagnóstico de trastornos psicológicos. Los inventarios
que miden rasgos de personalidad “normales”, tales como el inventario NEO

en sus diferentes versiones (Costa y Mc Crae, 1999) y el inventario 16PF-5
(Russell y Karol, 2000), se emplean crecientemente en Psicología Ocupacio-
nal y Educacional, aunque también en contextos clínicos en especial para
TANGAMANGA
Account: ns023844
diseñar programas de intervención preventivos, relacionados con el manejo

de la afectividad y las relaciones interpersonales. Varias investigaciones han
demostrado que los factores Responsabilidad y Apertura, en particular, son
predictivos del rendimiento académico y ocupacional (Tokar, Fisher y Subich,
1998). Por su parte, Extraversión y Neuroticismo son factores asociados con
la satisfacción en el empleo y el bienestar psicológico general (Lent, 2004).
Evaluación de las Actitudes.

Las actitudes se refieren a predisposiciones aprendidas para responder
positiva o negativamente ante objetos sociales particulares, es decir, tipos de
personas, instituciones sociales o situaciones, entre otros (Aiken, 2003). Para
Padua (1979) las actitudes son tendencias individuales a reaccionar, positiva
o negativamente, a un valor social. Desde el punto de vista conceptual son
difíciles de diferenciar de los intereses (Anastasi y Urbina, 1998). Al respecto
piénsese en cómo podrían diferenciarse una escala de intereses por el cálculo y
otra de actitudes ante la matemática, por ejemplo. Probablemente la diferen-
cia esencial entre estos dos constructos radique en el área de aplicación de la
psicología donde son más empleados. En efecto, los inventarios de intereses
miden sistemas de preferencias (y rechazos) por áreas de conocimiento o tra-
bajo y son utilizados casi exclusivamente por los orientadores vocacionales; las
escalas de actitudes, en cambio, miden por lo general sistemas de preferencias
(y rechazos) por creencias e ideologías y por consiguiente son más empleadas
en la Psicología Social o Política.
Las escalas de actitudes surgieron como una preocupación de los inves-
tigadores frente a la problemática de la aceptación social de grupos (y creen-
cias) diferentes (Anastasi y Urbina, 1998). La primera escala de actitud fue la
escala de distancia social (Bogardus, 1925) donde los examinados clasificaban
varios grupos raciales y religiosos en orden de aceptación, y fue notable la pro-
ducción de escalas de actitudes en la segunda posguerra mundial, tales como
la famosa escala para medir el autoritarismo (Adorno, Frenkel-Brunswik, Le-
vinson y Sanford, 1950).
La medición de actitudes, además de tener múltiples aplicaciones, tam-
bién posee distintas variantes, aunque en la actualidad predominan las escalas
tipo likert. Las escalas likert se caracterizan por afirmaciones que deben res-
ponderse empleando una escala de 5 a 7 alternativas que indican el acuerdo
del examinado con cada afirmación o ítem. Si bien, tradicionalmente, la cons-
trucción de escalas de actitud se caracterizó por procedimientos diferenciales,

en la literatura actual los procedimientos para este tipo de tests siguen los li-
neamientos generales que expondremos en el capítulo de construcción de tests
de este libro. La construcción de escalas de actitudes consiste, inicialmente, en
elaborar un conjunto de ítems relativos a la dimensión que se pretende medir
34
TANGAMANGA
Account: ns023844
y asignar números a las diversas alternativas de respuesta a esos ítems. Esos

valores numéricos reflejan la intensidad de la actitud, positiva o negativa, que
posee un sujeto frente a un objeto determinado. Los procedimientos de de-
terminación de la confiabilidad y validez de las escalas de actitudes tampoco
difieren de los utilizados en los otros tipos de tests.
Aiken (2003) construyó una escala likert de actitud ante la matemática,
luego adaptada por Murat (1984) para nuestro medio. Una escala frecuente-
mente citada en la investigación contemporánea es la de roles sexuales de Bem
(1974) que mide actitudes ante la masculinidad y la feminidad. Cada ítem
describe algunas características personales típicas de los géneros, y la persona
respondiente debe indicar su grado de acuerdo empleando una escala likert
de siete puntos (muy de acuerdo, bastante de acuerdo, algo de acuerdo, ni
acuerdo ni desacuerdo, algo en desacuerdo, bastante en desacuerdo y muy en
desacuerdo).
En nuestro medio, Tornimbeni y González (1997) elaboraron una es-
cala de actitud hacia la investigación, para ser aplicada en el marco de una in-
vestigación que se realizó encuestando a estudiantes y docentes de las carreras
de psicología de universidades nacionales de Argentina. Uno de los ítems de
esta escala es:
–– Recién al finalizar mi carrera voy a pensar en la posibilidad de con-
vertirme en investigador.
El formato de respuesta de esta escala posee 5 alternativas: muy de acuer-
do, acuerdo, ni acuerdo-ni desacuerdo, desacuerdo, y muy en desacuerdo.
Evaluación de la autoeficacia
La Teoría Social Cognitiva ha destacado el papel de la autoeficacia per-
cibida entre las variables motivacionales y afectivas. Bandura (1997) define la
autoeficacia como creencias en las propias capacidades para ejecutar determina-
dos cursos de acción. Para este eminente teórico, las creencias de las personas
acerca de sí mismas son elementos claves para la determinación de compor-
tamiento. Las creencias de autoeficacia son un elemento de gran influencia y
juegan un rol determinante en las elecciones efectuadas por las personas, el
esfuerzo que ellas invierten, la perseverancia para alcanzar metas y el grado de
ansiedad y confianza que experimentan frente a las tareas de la vida.
La autoeficacia se relaciona fuertemente con los intereses vocacionales
pero se trata de una relación asimétrica, puesto que tal como se ha com-
probado en numerosas investigaciones, las personas tienden a interesarse por

aquéllas actividades en las cuales se sienten capaces de poder realizarlas (Lent,
Brown y Hackett, 1994). La autoeficacia también se relaciona con las apti-
tudes, puesto que las personas se sienten más seguras de emprender aquéllas
actividades en las que han experimentado éxito. No obstante, personas con
TANGAMANGA
Account: ns023844
igual nivel de habilidad pueden experimentar diferente seguridad para em-

prender determinados cursos de acción, por lo cual la autoeficacia permite
mejorar la predicción del rendimiento que realizaríamos si sólo nos guiáramos
por el nivel de habilidad real. Esto es así porque el desarrollo de creencias de
autoeficacia no sólo depende del éxito previo sino de otras fuentes, tales como
el aprendizaje vicario y la persuasión social.
La teoría Social-Cognitiva del desarrollo de carrera (Lent, Brown y
Hackett, 1994) propone un modelo explicativo de las interrelaciones entre
rasgos de personalidad, intereses, habilidades y autoeficacia que contribuye a
esclarecer el significado diferencial de estos constructos (figura 4).
Figura 4. Modelos explicativos de Intereses y Elección Vocacional de la teoría Social Cognitiva

de la Carrera (extraído de Medrano, 2017).
Figura 4. Modelos explicativos de Intereses y Elección Vocacional de la teoría Social Cognitiva

de la Carrera (continuaciòn).
36
TANGAMANGA
Account: ns023844
En las figuras anteriores pueden observarse las relaciones entre rasgos

de personalidad (más básicos y ligados a lo genético), las aptitudes (también
hereditarias en gran parte y una de las fuentes de la autoeficacia al facilitar las
experiencias de logro en un dominio), la autoeficacia (más ligada al aprendiza-
je, relacionada con el constructo anterior pero también influida por experien-
cias de aprendizaje adicionales tales como la persuasión social y el aprendizaje
vicario), y los intereses vocacionales (aprendidos en gran parte y relacionados
directamente con la autoeficacia y las expectativas de resultados, e indirecta-
mente con las experiencias de aprendizaje y la personalidad).
Bandura (2001) elaboró una monografía para orientar la construcción y
análisis psicométrico de este tipo de escalas, que es de consulta indispensable
para investigadores interesados en la medición de la autoeficacia. El lector
interesado puede acceder al artículo completo titulado Guía para la construc-
ción de escalas de Autoeficacia, ingresando a: www.revistaevaluar.com.ar. Este
es el sitio web de la revista científica Evaluar, publicada por el Laboratorio de
Evaluación Psicológica y Educativa (LEPE).
En nuestro medio Pérez (2001) construyó un Inventario de Autoefi-
cacia para Inteligencias Múltiples (IAMI), con fines de orientación vocacio-
nal, que evalúa la confianza que los adolescentes poseen en características
asociadas con las inteligencias múltiples propuestas por Gardner (1999). El
IAMI incluye 8 escalas obtenidas por análisis factorial y 64 ítems (“Resolver
problemas numéricos”, por ejemplo). El usuario de la prueba debe responder
utilizando un formato de 10 alternativas, desde (1) “no puedo realizar esa
actividad” a (10) “totalmente seguro de poder realizar exitosamente esa acti-
vidad”. Este inventario está incluido en el Sistema de Orientación Vocacional
Informatizado (Fogliatto y Pérez, 2003) y se ha obtenido evidencia favorable
de su confiabilidad y validez respecto a criterios de rendimiento académico y
metas de elección de carrera.
Evaluación de los intereses vocacionales.

Los intereses vocacionales han sido definidos como perfiles de agrados y
aversiones respecto a actividades relacionadas con carreras y ocupaciones (Lent,
Brown y Hackett, 1994). La problemática de los intereses ha sido exhaustivamen-
te examinada por los investigadores del comportamiento vocacional. Se estima
que un conocimiento adecuado de esta dimensión de la motivación permite pre-
decir el monto de satisfacción que una persona experimentará en el desempeño
de una ocupación. Los intereses se relacionan también significativamente con la
estabilidad y compromiso de los individuos en sus carreras y ocupaciones. Otros

investigadores han comparado el peso relativo de los intereses vocacionales en
relación con otras variables psicológicas (habilidades, rasgos de personalidad), ve-
rificando que los intereses reciben gran consideración por parte de la persona en
situaciones de elección de carrera (Holland, 1997).
TANGAMANGA
Account: ns023844
Los inventarios de intereses son los instrumentos más populares en

evaluación del comportamiento vocacional, según se desprende de encuestas
realizadas en Estados Unidos, donde instrumentos como el Strong Campbell
Interest Inventory (Campbell y Hansen, 1981) son empleados por casi el
90 % de los orientadores (Hood y Johnson, 2002). Han sido caracterizados
como una serie de ítems en los que se solicita a los individuos indicar sus pre-
ferencias vocacionales y una puntuación final que representa un perfil o pauta
de intereses (Cronbach, 1998).
Se coincide en señalar que deben aplicarse para seleccionar metas voca-
cionales, confirmar elecciones previas, descubrir campos de actividad laboral,
incrementar el autoconocimiento y encontrar ocupaciones que proporcionen
satisfacción (Cronbach, 1998; Hood y Jonhson, 2002). Es claro que los in-
ventarios de intereses poco nos dicen respecto al éxito académico u ocupacio-
nal que podrá alcanzar una persona, pero nos ayudan a identificar carreras u
ocupaciones donde puede encontrar satisfacción.
Debe evitarse la práctica profesional de usar los inventarios de intereses
para orientar de manera específica a los estudiantes, puesto que éstos necesitan
considerar, en el proceso de toma de decisiones de carrera, variables igualmente
relevantes y, además, reunir experiencia exploratoria sobre carreras y ocupacio-
nes (Hood y Johnson, 2002). En general, se recomienda confiar en los resulta-
dos de estos instrumentos a partir de los 15-17 años, aproximadamente, puesto
que se ha verificado que las puntuaciones de medidas de intereses son realmente
estables a partir de esa edad.
El paradigma más influyente en el dominio de la medición de los intereses
vocacionales es el formulado por Holland (1997). La teoría de Holland ha sido
descrita como un modelo de congruencia entre los intereses y habilidades de
una persona por un lado y los factores inherentes a su ambiente por otro. Según
este modelo, existen seis tipos de personalidad: Realista, Investigador, Artista,
Social, Emprendedor y Convencional (RIASEC), los que a su vez determinan
patrones análogos de intereses y habilidades (figura 5).
El desarrollo de estos tipos depende de una compleja serie de aconteci-
mientos familiares, orientaciones personales iniciales, preferencias ocupacio-
nales e interacciones con contextos ambientales específicos. Los ambientes en
los que viven y trabajan las personas pueden también caracterizarse de acuer-
do a su semejanza con seis modelos que se corresponden con los seis tipos de
personalidad anteriormente mencionados.
38
TANGAMANGA
Account: ns023844
Figura 5. Modelo RIASEC de Holland
Los inventarios de intereses vocacionales más populares son el Self-Di-

rected Search de Holland (1994), el Inventario de Strong-Campbell (Cam-
pbell y Hansen, 1981) y el Registro de Preferencias Kuder y Zitowsky (1991).
Más allá de sus diferencias (Kuder obtuvo sus escalas por análisis factorial y
emplea ítems de elección forzosa, Strong posee claves ocupacionales formadas
por la comparación de personas satisfechas en una ocupación con respuestas
representativas de todas las personas de la muestra de estandarización), to-
dos han adoptado el modelo RIASEC para interpretar alternativamente los
resultados lo cual permite una convergencia conceptual impensable en otros
dominios de la psicología. Una iniciativa interesante es el Inventario Visual de
Intereses Profesionales (Tetreau y Trahan, 1986), desarrollado por investiga-
dores canadienses y basado también en el modelo de Holland, pero que utiliza
80 fotografías en color ilustrando actividades laborales en lugar de ítems ver-
bales, con el fin de atenuar los problemas de sesgo cultural.
Si bien se cuenta con gran variedad de tests de intereses vocacionales,
existen dificultades considerables cuando pruebas elaboradas en otros con-
textos sociales se emplean de modo transcultural. Uno de los obstáculos más
significativos en la traducción y adaptación de tests verbales son los problemas
de lenguaje. En efecto, las traducciones libres pueden traicionar las intencio-

nes originales del autor y las literales, por los problemas de equivalencia se-
mántica y la diferente frecuencia de uso de las palabras en lenguas diversas, no
alcanzar a expresar precisamente los significados de los ítems en sus versiones
originales.
TANGAMANGA
Account: ns023844
También debe considerarse el papel de los factores culturales que pue-

den falsear de algún modo los resultados de tests cuando éstos se emplean en
otros medios. Es frecuente encontrar en los inventarios de intereses, ítems que
mencionan actividades que en sus culturas de origen poseen una popularidad
que no tienen en otros contextos; jugar béisbol, por ejemplo, tiene diferente
significación en USA que en otros países donde es un deporte poco practi-
cado. Algunos ítems mencionan títulos ocupacionales que son familiares en
el lugar de elaboración del inventario y, en cambio, resultan extraños para
habitantes de otras regiones (Fogliatto, 1991).
Estos problemas indican con claridad los riesgos de emplear de modo
acrítico inventarios de intereses construidos en otros contextos sociocultura-
les. Fogliatto (1991) planteó la necesidad prioritaria de construir un cuestio-
nario de intereses de características locales y más adecuadas a las preferencias,
actividades educacionales, laborales, así como lenguaje habitual de los jóvenes
de nuestro medio. El Cuestionario de Intereses Profesionales Revisado (CIP-
R, tabla 2) es un módulo del Sistema de Orientación Vocacional Informatiza-
do (SOVI 3; Fogliatto y Pérez, 2003), que incluye también al IAMI, así como
un banco de información académica sobre carreras.
Tabla 2. Muestra de ítems del Cuestionario de Intereses Profesionales Revisado (CIP-R)
El CIP-R comprende 15 escalas (Cálculo, Asistencial, Musical, Artísti-

ca, entre otras) y 114 ítems que describen actividades académicas o laborales
y ante las cuales el usuario debe responder empleando una escala de tres pun-
tos: agrado, indiferencia o desagrado. La persona debe responder mediante
tres alternativas de respuesta: Agrado, Indiferencia o Desagrado a cada uno
de los ítems, por ejemplo “Construir puentes”. Esta versión revisada ha sido
adaptada para suministrar orientación no solamente a estudiantes que deben
40
TANGAMANGA
Account: ns023844
elegir una carrera al finalizar su educación secundaria, sino también a los ado-
lescentes que están terminando su educación básica y deben escoger una espe-
cialidad del nivel medio (Polimodal). El CIP-R posee buenas propiedades de
confiabilidad y validez de criterio respecto a metas de elección de carrera. Un
aspecto criticable de este inventario es que su construcción ha sido empírica
(no orientada por un modelo teórico explícito de los intereses vocacionales)
y, por consiguiente, es dificultoso relacionar sus escalas con los constructos
de teorías bien establecidas, tales como el modelo RIASEC (Holland, 1997)
comentado anteriormente.
Nuevas tendencias en evaluación psicológica: test informatizados
En los últimos 30 años se ha observado un crecimiento exponencial en

el uso de la tecnología, observándose un considerable avance en la versatilidad
y disponibilidad de aplicaciones informatizadas en diversas áreas de la psico-
logía. La rápida evolución de la tecnología computacional ha jugado un rol
crítico en el desarrollo de instrumentos de evaluación psicológica (Zenisky y
Sireci, 2002). Dicho impacto se torna especialmente evidente en la expansión
de los tests informatizados, los cuales brindan una amplia gama de innova-
ciones en el modo de presentar los ítems, estimar los puntajes de la prueba y
realizar informes de los resultados obtenidos (Leeson, 2006).
En este punto cabe señalar que el mero uso de la computadora en algún
momento del proceso de administración no convierte al instrumento en un
test informatizado. En efecto, los tests o sistemas de evaluación informati-
zados deben cumplir dos requisitos para ser considerados como tal: 1) sus
ítems son presentados y respondidos mediante el uso de una computadora
que también se emplea para estimar el rasgo o rendimiento del examinado; y
2) se han evaluado las propiedades psicométricas del instrumento, de hecho,
informatizar test aporta numerosas ventajas frente a la clásica versión lápiz y
papel, pero no garantiza la bondad psicométrica del instrumento (Olea, Pon-
soda y Prieto, 1999).
En general puede hablarse de cuatro niveles o generaciones de test in-
formatizados (Muñiz y Hamblenton, 1999). La primera incluye los tests con-
vencionales informatizados que refiere a la aplicación habitual de los test con-
vencionales pero utilizando un teclado y monitor. Este modo de evaluación
proporcionó una serie de ventajas, destacándose la presentación controlada y
precisa de los ítems y la corrección automatizada de las respuestas. Un segun-
do nivel de informatización consiste en la elaboración de informes diagnósti-

cos por computadora. De esta manera se programa a la computadora para que
en función de ciertos puntajes o perfiles emita un informe correspondiente,
liberando al psicólogo de tareas tediosas y proporcionando un complemento
instrumental para el diagnóstico psicológico y educativo. Los restantes dos
TANGAMANGA
Account: ns023844
niveles de informatización se desarrollaron gracias a los aportes de la Teoría

de Respuesta al Ítem (TRI), que permitió la creación de los tests adaptativos
informatizados y la construcción automatizada de tests. La idea fundamental
de ambos avances es la de generar pruebas adaptadas al nivel de cada parti-
cipante. De esta forma luego de generarse un banco de ítems y evaluar sus
propiedades psicométricas, la computadora selecciona aquellos que muestren
mayor ajuste al nivel de competencia de la persona evaluada, logrando un au-
mento en la precisión de las medidas y un ahorro en el tiempo de aplicación.
Desde sus inicios, las cuatro generaciones de tests informatizados han
sido utilizadas con diversos y variados propósitos, debido principalmente a la
mayor eficiencia que presentan respecto a las versiones lápiz y papel. Cabe des-
tacar que al informatizar cuestionarios en versión papel y organizarlos dentro
de un sistema de evaluación se introducen una serie de cambios beneficiosos.
Principalmente un mayor control y precisión para la administración de ítems,
mayor eficiencia para la corrección y almacenamiento de respuestas y final-
mente una elaboración rápida y eficaz de informes psicológicos (Drasgow y
Olson-Buchanan, 1999; Sands, Waters y McBride, 1997). Asimismo, los test
informatizados ofrecen menores posibilidades de error en la carga de datos,
los recursos de multimedia hacen más vistosos e interesantes los contenidos
del test para los examinados y permite al profesional ahorrar tiempo evitando
actividades rutinarias de carga y análisis de datos. Tomando esto en conside-
ración no es de extrañar la gran cantidad de estudios actuales desarrollados
con el objetivo de informatizar test en versión lápiz y papel. Esta tendencia
resulta particularmente provechosa en el ámbito de la psicología educacional
donde se deben efectuar evaluaciones a una gran cantidad de participantes y
con cierta frecuencia.
Los test informatizados permiten otra importante ventaja: la adminis-
tración a través de internet. Las ventajas y desventajas de ésta modalidad de ad-
ministración han sido intensamente analizadas en los últimos años. Tal como
sugiere Bagby et al., (2014) dentro de las ventajas se encuentra el bajo costo
de administración, la posibilidad de administrar la prueba desde un lugar re-
moto, incluir dentro de la muestra a personas que no puedan aproximarse al
lugar de evaluación, la velocidad en la recolección de datos con muestras de
gran tamaño, la reducción del tiempo en la corrección de la prueba, e incluso
mayores facilidades para el desarrollo de estudios transculturales.
Los tests informatizados se transformaron en el método de medición
psicológica más recomendado en situaciones estructuradas, ya que garanti-
zan una mayor precisión en la corrección de las pruebas y proporcionan un
feedback inmediato a los examinados mediante el uso de representaciones

gráficas o reportes impresos (Burke y Normand, 1987). En la actualidad se
observa un uso importante de sistemas informatizados de evaluación en el
ámbito laboral (Woicik, Stewart, Pihl y Conrod, 2009), sanitario (Thornton
42
TANGAMANGA
Account: ns023844
III y Gibbons, 2009), clínico y neuropsicológico (Butcher, Perry y Hahn,

2004). Sin embargo, el uso de sistemas informatizados ha sido especialmente
influyente en el ámbito educativo (Marks y Burden, 2005).
A pesar del enorme potencial de los test informatizados debe consi-
derarse que aparecen nuevos problemas y situaciones que pueden alterar la
confiabilidad y validez de las mediciones con respecto a los test convencio-
nales. De hecho algunos factores como la familiaridad con las computadoras
(McDonald, 2002), la resolución y tamaño del monitor (Ziefle, 1998), las ca-
racterísticas de la fuente de letra utilizada (Bernard, Mills, Peterson y Storrer,
2001), la manipulación del teclado (Choi y Tinkler, 2002), la presentación
de los ítems (Dimock y Cormier, 1991) y la posibilidad de revisar las respues-
tas (Vispoel, 2000), pueden afectar el desempeño y las respuestas brindadas
por los examinados. Por otra parte la evaluación informatizada on line puede
generar dificultades adicionales sobre todo en personas que experimentan an-
siedad ante la tecnología, o bien que desconocen el uso de internet (Bagby et
al., 2014). Por otra parte, la distancia que se genera entre los examinados y el
evaluador dificulta que éste pueda prestar ayuda si aparece alguna dificultad o
error durante el proceso de evaluación. Asimismo, la Comisión Internacional
de Test (International Test Commission, ITC, 2005) destaca la necesidad de
contemplar el aumento de riesgos que surgen con la administración por inter-
net, ya que se dificulta controlar la autenticidad de los examinados y garanti-
zar el correcto resguardo de los ítems y datos del test (seguridad informática).
Frente a ello la literatura especializada enfatiza que los investigadores no
pueden asumir la equivalencia de la versión informatizada online y la versión
tradicional de lápiz y papel. Los cambios en el formato de evaluación pueden
afectar las propiedades psicométricas de los instrumentos y sesgar los puntajes
que se obtienen en las pruebas. Por ello, antes de utilizar un sistema informa-
tizado de evaluación deben contemplarse una serie de directrices y normativas
técnicas. Lamentablemente se observa en muchos casos un uso inadecuado de
los test informatizados. De hecho, la existencia de herramientas on line tales
como SurveyMonkey, Google Doc, u On Line Encuesta, facilita el proceso de
informatizar pruebas de lápiz y papel, llevando en muchos casos a un proceso
de evaluación informatizada que no garantiza la validez y confiabilidad de las
puntuaciones obtenidas. De esta forma puede afirmarse que, junto al creci-
miento de las versiones informatizadas de test, se observa un aumento en el
mal uso de las mismas.
A continuación, se exponen una serie de directrices y recomendaciones
a tener en cuenta para el desarrollo y la utilización de test informatizados. Para
ello se realizará una síntesis de las directrices definidas por la Internacional

Test Commission (2005), American Educational Research (AERA), Ameri-
can Psychological Associatton (APA) y la National Council on Measurement
in Education (NCME; 2014). Por otra parte, y a los fines de lograr una mayor
TANGAMANGA
Account: ns023844
claridad en la exposición de las mismas, se tomará como ejemplo el Sistema

Informatizado de Evaluación de la Satisfacción Académica (SESA-U), un siste-
ma desarrollado en nuestro contexto con el objetivo de identificar estudiantes
con riesgo de experimentar bajos niveles de satisfacción durante su primer
año en la universidad (Medrano, Peréz y Liporace, 2014).
Directrices para el desarrollo y utilización de Test Informatizados:
Recomendaciones de la ITC
Aunque los lineamientos psicométricos generales de la evaluación psi-

cológica son aplicables a los test informatizados, existen ciertas directrices
que deben ser tenidas en consideración al realizar evaluaciones asistidas por
computadoras (Lozzia et al., 2009). La Comisión Internacional de Test (In-
ternational Test Commission, ITC, 2005) sugiere considerar cuatro aspectos
centrales relacionados con el uso de test informatizados: tecnología, calidad,
control y seguridad. Básicamente la ITC señala que al desarrollar un test in-
formatizado se debe atender a: 1) los aspectos técnicos mínimos requeridos
para que los examinados puedan responder al sistema, 2) garantizar que el
sistema funcione adecuadamente y libro de errores de programación a lo largo
de todo el proceso de evaluación, 3) controlar la autenticidad de los exami-
nados y su práctica previa y, finalmente, 4) resguardar tanto los materiales del
test como los datos de los evaluados.
Tecnología: “Prestar la debida atención a los requerimientos tecnológicos de

la prueba”
Este punto es suma importancia sobre todo en evaluaciones que se rea-
licen de manera on line. Básicamente refiere a que el test informatizado exija
requerimientos mínimos a nivel de sistema, permitiendo maximizar su acce-
sibilidad y consistencia en la apariencia de la prueba. De esta forma se reco-
mienda evitar el uso de funciones interactivas o gráficos complejos, o utilizar-
los solamente cuando su no inclusión atente con la validez de instrumento.
Asimismo, se recomienda tomar en consideración las diferentes velocidades
de conexión a internet.
Cabe destacar que si bien la preocupación inicial de la ITC (2015) se
centró en los requerimientos técnicos mínimos para poder responder al test,
en la actualidad la mayor parte de las computadoras disponibles en el merca-
do cumplen con dichos requerimientos. El problema actualmente gira en tor-
no a garantizar que el test mantenga su apariencia y funcionalidad accediendo
desde una computadora, Tablet o celular. En este sentido se ha corroborado

que la resolución y tamaño del monitor (Ziefle, 1998), las características de
la fuente de letra utilizada (Bernard, Mills, Peterson y Storrer, 2001), la ma-
nipulación del teclado (Choi y Tinkler, 2002), la presentación de los ítems
44
TANGAMANGA
Account: ns023844
(Dimock y Cormier, 1991) pueden alterar la confiabilidad y validez de las

puntuaciones. Por tanto, este aspecto debe ser contemplado tanto por los
constructores como por los usuarios del test.
Siguiendo estas directrices el SESA-U se desarrolló utilizando una plata-
forma simple y sin requerimientos técnicos sofisticados que pudieran afectar
la accesibilidad al sistema (figura 6). Cabe señalar que al incluir pocos elemen-
tos gráficos se evitan demoras excesivas en usuarios que tuvieran conexiones
lentas.
Figura 6. Apariencia del SESA-U
Otro aspecto de importancia es el de garantizar que el sistema sea lo

suficientemente robusto o capaz de hacer frente a posibles fallos y errores por
parte del usuario. Por ejemplo, el SESA ha sido configurado para que conside-
re como equivalentes las letras mayúsculas y minúsculas, así como los puntos
y las comas, entre otros caracteres. También se programó al SESA-U para
que en caso de fallas en la conexión de internet se almacenen las respuestas
brindadas hasta el momento de la desconexión, permitiendo así al examina-
do la posibilidad de volver a ingresar al sistema y terminar de completar sus
respuestas.
Calidad: “Garantizar adecuado funcionamiento y uso del sistema de

evaluación”
Según la ITC (2005) se deben desarrollar acciones tendientes a dismi-
nuir las posibilidades de fallos en el sistema durante la evaluación y procurar
una asistencia adecuada en caso de que el examinado lo requiera. El SESA-U

por ejemplo, fue equipado para brindar mensajes que proporcionen a los exa-
minados una guía para facilitar el adecuado uso del sistema. De esta manera
aparecen mensajes de error cuando el examinado realiza un uso inadecuado,
o bien mensajes de éxito para indicar un uso correcto (figura 2). De esta for-
TANGAMANGA
Account: ns023844
ma se busca proporcionar orientación a los usuarios sobre cómo proceder en

caso de que surjan problemas que interfieran con el proceso de evaluación.
Asimismo, el SESA-U incluye un servicio de correo electrónico desde el cual
se brinda soporte técnico u orientación en el caso de que aparezcan errores o
fallas no contempladas.
La poca experiencia en la utilización de computadoras puede afectar el
desempeño de los examinados cuando utilizan instrumentos informatizados
de evaluación (Olea y Hontangas, 1999). Para eliminar el efecto diferencial
que puede provocar la falta de familiaridad con el uso de test informatiza-
dos la ITC (2005) recomienda el entrenamiento previo de los usuarios. En
función de ello se recomienda brindar la posibilidad de realizar una práctica
previa, ya que esto puede disminuir los niveles de ansiedad, aumentar la con-
fianza de los examinados en el uso del test y, por lo tanto, disminuir posibles
sesgos que atenten contra la validez y confiabilidad de los resultados (Muñiz
y Hamblenton, 1999).
Por ejemplo, el SESA-U cuenta con un módulo de entrenamiento. De
esta manera al realizar un click sobre “Ayuda - ¿Cómo utilizar el SESA-U?” se
abre un cuadro de dialogo que proporciona una descripción paso a paso sobre
cómo registrarse en el sistema, cerrar la sesión de evaluación o realizar los test
del SESA-U. Asimismo, los usuarios pueden descargar un breve video que
ilustra la manera en que se opera el sistema (figura 7). También es útil proveer
a los usuarios un “test de prueba”, de esta manera puede familiarizarse con
la modalidad de evaluación informatizada y adquiriera cierta práctica previa
antes de proceder con la administración del test (figura 8).
Figura 7. Módulo de entrenamiento SESA-U: descripción por pasos mediante imágenes o

mediante video
46
TANGAMANGA
Account: ns023844
Figura 8. Módulo de entrenamiento SESA-U: test de prueba.
Control: “Proveer adecuados niveles de control”

Según la ITC (2005) existen diferentes niveles de control: 1) modo abier-
to, es decir, sin supervisión humana directa, 2) modo controlado, la prueba solo
se facilita a usuarios conocidos, 3) modo supervisado, los usuarios deben po-
seer una contraseña para usar el sistema y el mismo provee información para
confirmar que la prueba fue administrada y 4) modo gestionado, es el nivel de
supervisión más alto e involucra la supervisión y control humano directo. Los
responsables de desarrollar y publicar la prueba deben notificar a los usuarios
cual es el nivel de control alcanzado.
El SESA-U, por ejemplo, es un sistema que permite un control de tipo
supervisado ya que los usuarios deben registrarse en el sistema para efectuar
la evaluación. Además, el SESA-U proporciona un registro de las fechas y
cantidad de intentos de cada usuario lo cual proporciona información de im-
portancia para determinar si algún examinado ha respondido en más de una
ocasión a los cuestionarios del SESA-U. Este sistema de registro permite mo-
nitorear la autenticidad de los examinados y controlar la práctica previa de los
mismos tal como sugieren las directrices de la ITC (2005).
Seguridad: “Tomar medidas apropiadas para salvaguardar la seguridad del

material y la privacidad de las respuestas”
Sobre todo, cuando la evaluación es on line deben establecerse pro-

cedimientos oportunos para asegurar la confidencialidad de la información,
resguardar los materiales del test y garantizar la privacidad de los examinados
(ITC, 2005). Por ejemplo, en el SESA-U los usuarios deben registrarse en el
sistema y generar una contraseña personal. Esta contraseña impide que otras
TANGAMANGA
Account: ns023844
personas puedan acceder a las respuestas brindadas por el examinado garanti-

zando así la confidencialidad de los datos recabados.
Por otra parte, para resguardar la seguridad del material del test (ítems
por ejemplo), los usuarios solo pueden ingresar al sistema con una contrase-
ña provista por los administradores. Dicha contraseña se modifica periódi-
camente y evita que los cuestionarios del SESA-U se encuentren disponibles
para personas ajenas al proceso de evaluación. Sumado a ello, el SESA-U está
configurado para que los administradores puedan habilitar los cuestionarios
por un tiempo predeterminado, evitando que los ítems se encuentren dis-
ponibles en internet full time. En conjunto estos procedimientos de control
apuntan a impedir el acceso ilegítimo al sistema y controlan la posibilidad
de que los cuestionarios y respuestas de los participantes sean descargadas o
copiadas por personas ajenas al proceso de evaluación SESA-U (figura 9).
Figura 9. Módulo para configurar la contraseña de acceso al SESA-U y el tiempo de disponi-

bilidad de los cuestionarios (disponible solo para los administradores).
Sin lugar a dudas, los test informatizados poseen amplias ventajas por
sobre las versiones tradicionales de papel, tales como una mayor eficiencia
48
TANGAMANGA
Account: ns023844
para la corrección y almacenamiento de respuestas, menores costos, elabo-

ración rápida y eficaz de informes psicológicos, por mencionar solo algunas.
Sin embargo, todas las ventajas de la evaluación informatizada se tornan irre-
levantes sino se garantiza el cumplimiento de las directrices mencionadas. La
simplicidad con la que hoy puede informatizarse una prueba puede llevar a
un mal uso de las mismas.
No cumplir con las directrices revisadas lleva a que no se pueda garan-
tizar una evaluación responsable y ética. Basta considerar la violación algunas
de las pautas mínimas para el uso de test propuestas por ADEIP (200), como
por ejemplo: 1) no se puede garantizar la seguridad e integridad del material,
2) no se puede garantizar que todos los evaluados comprendan las instruccio-
nes de la prueba, 3) no se garantiza que las condiciones de evaluación permi-
tan el rendimiento óptimo de los evaluados, o 4) no se logra establecer una
relación positiva entre el evaluador y el examinado.
Un uso responsable y ético de los test informatizados necesariamente
implica el cumplimiento de las directrices de tecnología, calidad, control y
seguridad. Asimismo, deben garantizarse el cumplimiento de las normas psi-
cométricas exigidas para los test tradicionales y mantener los resguardos nece-
sarios en relación al control del contexto y la comunicación de resultados. Si
bien puede afirmarse que las ventajas del uso de test informatizados son supe-
riores a sus desventajas, es fundamentar reflexionar sobre estos aspectos para
garantizar un uso ético y responsable de estas potentes técnicas de evaluación.
Fuentes para la búsqueda de información sobre Test Psicométricos
Uno de los problemas más comunes en el mundo de la psicometría con-

siste en hallar información sobre las pruebas psicológicas. Entre los problemas
más habituales se encuentra: a) conocer cuales son las pruebas disponibles
para evaluar un atributo psicológico de interés, y b) obtener informacion so-
bre las características de esas pruebas. En esta sección se exponen algunas
fuentes que pueden resultar provechosa para búsqueda de información sobre
test psicométricos.
Revistas Científicas
Muchas publicaciones científicas periódicas incluyen dentro de sus nú-
meros artículos sobre test psicométricos. Más aún, algunas revistas científicas
se especializan en este tipo de trabajos, publicando solamente artículos rela-
cionados con la psicometría y la evaluación psicológica. Algunas de las pu-

blicaciones más recomendadas son: Psychological Assessment, Journal of Perso-
nality Assessment, Educational and Psychological Measurement y Psychometrika,
por mencionar algunas de las revistas internacionales más prestigiosas. Tam-
bién existen revistas en español de muy buena calidad, como, por ejemplo,
TANGAMANGA
Account: ns023844
Psicothema, Anales de Psicología, Ansiedad y Estrés, Revista Iberoamericana de

Evaluación y Diagnóstico Psicológico, Evaluar y la Revista Argentina de Ciencias
del Comportamiento.
Catálogos de Editoriales
La principal fuente de información para los usuarios de pruebas suelen
ser los catálogos de las editoriales. Para acceder a ellos solo debe solicitarse
un ejemplar a la editorial o acceder a ellos a través de la web. Las editoriales
suelen publicar un catálogo cada año. Entre los catálogos más importantes
de pruebas en español se encuentran los publicados por Paidós (http://www.
paidosdep.com.ar/html/tests.php), y por la editorial española TEA (http://
web.teaediciones.com/Catalogos-TEA-Ediciones-2018.aspx).
Listados electrónicos
Existen listados electrónicos a los que se puede acceder a través de in-
ternet. Estos listados proveen información exhaustiva sobre una amplia can-
tidad de pruebas. Entre los listados más importantes a nivel mundial se des-
tacan el Test Locator Service (permite realizar búsqueda de instrumentos por
área temática), la ETS Test collection (permite realizar búsqueda a través del
TestLink, figura 10), el Mental Measurement Yearbook (porporciona revisiones
de pruebas), y el HaPI (una base de datos que cuenta con descripciones de
casi 15.000 pruebas). Por otra parte, la American Psychological Association
(APA) ha elaborado un compendio de test (PsycTest) el cual puede consultar-
se por la web (www.apa./pubs/databases/psyctest/index.aspx).
Figura 10. Captura de pantalla de un listado electrónico de pruebas.
50
TANGAMANGA
Account: ns023844
|
Normas Psicométricas: Evidencias de Validez

Introducción
En el capítulo 1 definimos a los tests como un procedimiento por me-

dio del cual una muestra de comportamiento de un dominio, es obtenida y
calificada, empleando un proceso estandarizado. Tal como señalamos el razo-
namiento implícito es que, si la muestra de comportamientos seleccionados
(ítems) son representativos del dominio que se pretende medir, entonces el
puntaje obtenido por un sujeto en el test puede generalizarse a todo el domi-
nio (figura 1).
Figura 1. Representación del proceso subyacente en un test psicométrico.
Ahora bien, la pregunta que debemos hacernos es ¿qué garantías tene-

mos de que la muestra de comportamientos que seleccionamos es representativa
del dominio que pretendemos medir? De hecho, es difícil determinar las ca-
racterísticas de una muestra de elementos de un test para que sea representati-
va, en cuanto a extensión y variedad de contenidos, del dominio o constructo
que la prueba intenta medir.
Puede ocurrir, por ejemplo, que al construir un test el investigador se-

leccione conductas que no son propias del dominio delimitado (figura 2).
Supongamos que se intenta desarrollar una prueba para evaluar el nivel de
extraversión, es decir, en qué medida una persona es sociable, le gusta asistir a
fiestas, hacer bromas, conversar con otras personas, entre otras características.
TANGAMANGA
Account: ns023844
Puede ocurrir que el investigador cometa el error de elegir comportamientos

que no son representativos del constructo, como, por ejemplo: “me gusta
escuchar música y bailar” o “cuando salgo me gusta tomar alcohol”. Si bien
estos comportamientos pueden estar asociados con la extraversión (es pro-
bable que a una persona extravertida le guste la música o tomar alcohol), no
son representativos del dominio de interés. En consecuencia, el puntaje que
se obtiene del test no representa adecuadamente el constructo que se está mi-
diendo, y, por ende, cometeríamos un error al generalizar los puntajes de la
prueba a todo el dominio.
Figura 2. Representación de errores en la selección de elementos que compo-

nen la muestra de comportamientos del dominio que se intenta medir.
Cuando los ítems que componen una prueba no representan adecuada-

mente el dominio que se intenta medir decimos que las puntuaciones obte-
nidas no son válidas. El concepto de validez es el más importante en la teoría
de los tests, y en términos generales hace referencia a que “el test mide lo que
pretende medir”.
Delimitación del concepto de Validez
La definición habitual de validez es “el grado en que una prueba mide

lo que pretende medir” (Hogan, 2004). De esta manera puede afirmarse que
las puntuaciones de un test evidencian propiedades de validez cuando el test
evalúa una muestra representativa de comportamientos del constructo que se
pretende medir, justificando adecuadamente las inferencias realizadas sobre el
dominio en función de los resultados obtenidos en la prueba (figura 1). Sin
52
TANGAMANGA
Account: ns023844
embargo, pueden ocurrir diferentes errores en la selección de los elementos

de la prueba que lleven a que la muestra de comportamientos no represente
adecuadamente el constructo que se pretende medir, es decir, no se obtengan
puntuaciones válidas.
Por ejemplo, puede ocurrir que el investigador seleccione comporta-
mientos que no son representativos del dominio (figura 2). La inclusión de
ítems que no reflejan el constructo lleva a que las puntuaciones de la prueba
se vean contaminadas con ítems sobre constructos que no se pretenden medir,
y por ende no se realicen inferencias adecuadas sobre el dominio de interés.
Seleccionar ítems que no provienen del constructo se denomina inclusión de
varianza irrelevante del constructo, ya que la variabilidad del puntaje total de
la prueba se ve influenciada por respuestas sobre procesos ajenos al verdadero
propósito de la medición. Otro error habitual es el de seleccionar comporta-
mientos que no cubran la totalidad del constructo (figura 3), generando una
sub-representación del constructo.
Figura 3. Ejemplo de sub-representación del constructo que se pretende medir.
Como señala la APA (1999) la sub-representación del constructo alude

a que la prueba no capta aspectos de importancia del dominio que se pretende
medir. Retomando el ejemplo anterior, puede ocurrir que al construir una
prueba para evaluar extraversión solo incluyamos comportamientos referidos
a las “habilidades conversacionales”, sin incluir otros comportamientos típi-
cos de la extraversión como, por ejemplo, tener muchos amigos, ser asertivos,
buscar emociones positivas, evitar estar solos o ser despreocupados. Este tipo
de errores afecta la validez de las puntuaciones del test.
Antes de continuar con el desarrollo del capítulo es importante realizar
dos aclaraciones. La primera es que resulta impreciso referirse a la validez
TANGAMANGA
Account: ns023844
de una prueba, ya que la validez es una propiedad de sus puntuaciones (APA,

1999). Es decir, las puntuaciones que se obtienen de una prueba pueden re-
sultar o no válidas dependiendo del propósito con que se utilicen. No basta
con preguntarse ¿es el IAMI es una prueba válida?, sino que es necesario for-
mularse cuestionamientos tales como ¿es válido utilizar las puntuaciones del
IAMI para examinar el perfil de autoeficacia para inteligencias múltiples? ¿las
puntuaciones del IAMI permiten pronosticar la elección de carrera de estu-
diantes del último año del secundario? En segundo lugar, es importante des-
tacar que la validez es una cuestión de grado. No se valida un test en sí mismo,
sino que se brindan diferentes tipos de evidencias para indicar que las pun-
tuaciones del test reflejan adecuadamente el constructo que se intenta medir.
Cuantas más evidencias se posean, mayores garantías tendremos respecto a la
validez de las puntuaciones.
Esta concepción de validez se refleja en las Normas para Tests Psicoló-
gicos y Educativos (APA, 1999), donde se define a la validez como la adecua-
ción, significación y utilidad de las inferencias específicas hechas a partir de las
puntuaciones de los tests. De esta manera, la validez sería un concepto unitario
y refiere al grado en que la evidencia empírica apoya estas inferencias. La
APA (1999) propone cinco evidencias de validez: 1) evidencias basadas en el
contenido del test, 2) evidencias basadas en la estructura interna del test, 3)
evidencias basadas en el proceso de respuestas, 4) evidencias basadas en las
relaciones que las puntuaciones del test presentan con variables externas, y 5)
evidencias relacionadas con las consecuencias de su aplicación. A continua-
ción, se desarrollan cada una de estas evidencias, detallando el procedimiento
involucrado, los coeficientes estadísticos que se utilizan y brindando ejemplos
aplicados de cada una de ellas.
Evidencias de validez: descripción de procedimientos, estadísticos asociados

y ejemplos de aplicación.
Evidencia basada en el contenido del test

Este tipo de evidencia se obtiene demostrando que el contenido del test
(es decir, los ítems) son una muestra representativa del constructo o dominio
que se pretende medir. Tal como señalamos, la existencia de varianza irrele-
vante en las puntuaciones puede llevar que las inferencias que hacemos sobre
el dominio no sean correctas. Debemos brindar evidencias que garanticen
que la muestra de comportamientos que seleccionamos representan adecua-
damente el dominio de interés.
El procedimiento más utilizado para recabar este tipo de evidencia se

centra en el juicio de expertos. Básicamente consiste en identificar expertos en
el dominio que pretendemos medir y solicitar que cada uno de ellos evalúe de
forma independiente (es decir, sin conocer el análisis que realizarán los otros
jueces), el grado en que el contenido del test es relevante y representativo del
54
TANGAMANGA
Account: ns023844
dominio. Posteriormente, mediante un procedimiento estadístico se analiza

el acuerdo de los jueces y se determina cuáles son los ítems que representan
adecuadamente el constructo y cuáles no.
Por ejemplo, un equipo de investigación dirigido por Moretti desarrolló
un test con el objetivo de evaluar pensamientos negativos asociados a los exámenes
(Maurino, Vicente, Medrano y Moretti, 2017). Este constructo refiere a pensa-
mientos que se dan de forma automática, con contenidos negativos, que gene-
ran preocupaciones excesivas, dificultad para pensar en forma clara y disminu-
ción de la confianza. Para elaborar un test que midiera este dominio realizaron
entrevistas a alumnos analizando que tipos de pensamientos solían tener antes
de un examen. A continuación, seleccionaron una muestra de pensamientos y
redactaron ítems preliminares. Posteriormente identificaron jueces expertos en
el tema y les solicitaron que realizaran una evaluación de los ítems considerando
su pertinencia para representar al constructo. Además, se les pidió que evaluaran
la calidad de los reactivos utilizando una escala numérica comprendida entre
1 y 5 (el puntaje de 5 es el más alto e indica una alta calidad mientras que el
puntaje de 1 representa una baja calidad). Finalmente, se les solicitó que ana-
lizaran aspectos formales vinculados a la redacción de los mismos (sintácticos,
por ejemplo). En la tabla 1, se expone un ejemplo de la guía que se proporcionó
a cada uno de los jueces que participó de la revisión de los ítems.
Tabla 1 Ejemplo de guía para revisión de ítems por parte de expertos

Aspectos
Calidad
Ítems Pertinencia formales o Observaciones
del Ítem
sintácticos
“Es muy SI 5 Adecuado --
difícil, no voy
a lograrlo”
“Me voy a SI 4 Adecuado --
quedar en
blanco”
“Seguro que SI 4 Inadecuado La palabra “libre” puede
me quedo interpretarse de diferentes formas.
libre” Sería más adecuado decir “seguro
que desapruebo el examen”
“Soy un NO 1 Tal como está redactado el ítem
fracasado” pareciera que refleja aspecto
vinculados a la autoestima, y no a
un pensamiento negativo ante un
examen.
“Seguro me SI 4 Adecuado --
toman lo que
no sé”
Una vez recabada la información de cuatro jueces independientes se

calculó la V de Aiken para evaluar el nivel de acuerdo entre los jueces. Dicho
coeficiente puede variar entre “0” y “1”, debiendo alcanzar al menos un valor
TANGAMANGA
Account: ns023844
crítico V = .50 para ser considerado aceptable (Aiken, 1985). Sin embargo,
estudios más recientes sugieren considerar valores V superiores a .70 (Soto y
Segovia, 2009). En el ejemplo seleccionado se estableció como criterio que
solo se incluirían en el test aquellos ítems que hayan obtenido valores V su-
periores a .70. Los ítems con puntajes inferiores fueron eliminados o refor-
mulados, con el fin de garantizar que el contenido de los ítems represente
adecuadamente el constructo que se pretende medir.
Evidencia basada en la estructura interna del test

Para muchos especialistas esta es la evidencia más importante que se
debe aportar para garantizar la validez de las puntuaciones de una prueba. El
análisis de estructura interna consiste en determinar si los ítems se agrupan en
las dimensiones teóricas propuestas. El procedimiento utilizado para obtener
esta evidencia es el análisis factorial, una técnica estadística multivariada que
permite analizar las inter-relaciones entre un grupo de variables observables
(ítems) e identificar factores comunes subyacentes.
Figura 4. Representación del factor latente común entre dos variables observables.
La lógica del análisis factorial proviene de un concepto desarrollado por

Galton. Según este autor, el hecho de que dos variables se encuentran relacio-
nadas entre sí se debe a que ambas poseen algo en común y algo que las dife-
rencia. Ese factor común fue denominado por Galton como “rasgo latente”.
De esta forma, si un conjunto de variables se encuentran relacionadas entre sí,
significa que poseen un factor o rasgo latente en común que explica en parte
la varianza de las variables (figura 4).

El análisis factorial permite agrupar las variables o ítems que se corre-
lacionan fuertemente entre sí, y cuyas correlaciones con las variables de otros
agrupamientos es menor. De esta forma es posible identificar la existencia de
factores subyacentes en un conjunto de variables (figura 5). Por este motivo es
56
TANGAMANGA
Account: ns023844
que el análisis factorial constituye una técnica útil para aportar evidencias de
que “se mide lo que se pretende medir”.
Figura 5. Agrupamiento de los ítems según factores subyacentes identificados mediante

análisis factorial.
En otras palabras, la evidencia de estructura interna (también deno-

minada validez de constructo) consiste en verificar estadísticamente que los
ítems se agrupan tal como teóricamente se había predicho (Carretero-Dios y
Pérez, 2005). Por ejemplo, supongamos que estamos desarrollando un instru-
mento para medir Inteligencias Múltiples. El modelo teórico de las Inteligen-
cias Múltiples señala que existen ocho tipos de inteligencia. Si los ítems de mi
prueba son una muestra representativa del constructo que se pretende medir,
al realizar un análisis factorial de los ítems éstos deberían agruparse en ocho
factores. En caso de realizar un análisis factorial y observar que los ítems se
agrupan en dimensiones distintas a las que teóricamente deberían agruparse,
entonces la muestra de comportamientos que conforman la prueba no refle-
jan adecuadamente el constructo que pretendo medir. Por el contrario, si los
ítems se agrupan en las ocho dimensiones que se proponen teóricamente, se
obtienen evidencias favorables de validez.
Tomemos otro ejemplo a partir de un estudio realizado para adaptar la

Escala de Afecto Positivo y Negativo (PANAS; Moriondo, De Palma, Medrano
y Murillo, 2012). Tradicionalmente se ha conceptualizado a las emociones po-
sitivas y negativas como dos polos de la misma variable (es importante señalar
que cuando hablamos de positivo o negativo solo hacemos referencia a su valor
hedónico, es decir, si son agradables o desagradables; no debe confundirse esta
TANGAMANGA
Account: ns023844
denominación con buenas o malas ya que las emociones desagradables también

son necesarias para un buen funcionamiento psicosocial). De esta forma existi-
ría un polo compuesto por emociones tales como la alegría, entusiasmo e interés
(afecto positivo), y otro polo compuesto por emociones tales como la tristeza,
el miedo o la ira (afecto negativo). Sin embargo, la evidencia proveniente de es-
tudios empíricos
el miedo y neurocientíficos
o la ira (afecto negativo). sugieren que más
Sin embargo, que tratarse
la evidencia de unadeúnica
proveniente es-
dimensión,
tudios empíricos y neurocientíficos sugieren que más que tratarse de una única y
se trata de dos factores distintos. Es decir, que el afecto positivo
el negativo serían
dimensión, dos factores
se trata independientes
de dos factores entre
distintos. Es sí, que
decir, por elloafecto
cual disminuir los
positivo y el
niveles de emociones
negativo serían dosnegativas no implica queentre
factores independientes aumenten lascual
sí, por lo emociones
disminuirpositi-
los
vas. niveles
Se trataría por lo tanto
de emociones de un no
negativas modelo bidimensional,
implica que aumentenylas noemociones
sólo de dos polos
positi-
vas. misma
de una Se trataría por lo tanto
dimensión de un modelo
(modelo bidimensional,
unidimensional). Por ylonotanto,
sólo de dosPANAS
si el polos
de una misma
efectivamente dimensión
evalúa afecto (modelo
positivo unidimensional).
y negativo desdePor unlomodelo
tanto, sibidimensio-
el PANAS
efectivamente evalúa afecto positivo y negativo desde un modelo bidimensional,
nal, entonces al realizar un análisis factorial, los ítems deberían agruparse en dos
entonces
factores y noalenrealizar un análisis
uno solo. factorial, obtenidos
Los resultados los ítems deberían
en este agruparse en dos6)
trabajo (figura
factores y no en uno solo. Los resultados obtenidos en este trabajo (figura 6)
corroboraron que a partir del patrón de covariación existente entre los ítems, se
corroboraron que a partir del patrón de covariación existente entre los ítems, se
identifican dos factores
identifican dos subyacentes.
factores subyacentes.
Tabla 1 Saturación factorial de los reactivos del PANAS (matriz rotada)

Factor
Ítems del PRANAS 1 2
Interesado 0.43
Afligido 0.59
Excitado 0.35
Disgustado 0.52
Fuerte 0.49
Culpable 0.63
Asustado 0.71
Hostil 0.48
Entusiasmado 0.47
Orgulloso
Irritable 0.53
Alerta 0.43
Avergonzado 0.56
Inspirado 0.53
Nervioso 0.65
Decidido 0.64
Atento 0.58
Intranquilo 0.58
Activo 0.56
Temeroso 0.72
Nota. Solo se presentan las saturaciones factoriales superiores a 0.3
Figura Figura
6. Resultados del análisis
6. Resultados factorial
del análisis deldel
factorial PANAS
PANAS(extraído
(extraídodedeMoriondo,
Moriondo,De
DePalma,
Palma, Me-
drano
Medrano y Murillo, 2012).
y Murillo, 2012).
58
TANGAMANGA
Account: ns023844
Al inspeccionar las cargas factoriales de cada ítem se aprecia que por

un lado se encuentran las emociones positivas, y en un factor distinto se en-
cuentran las emociones negativas. Dado que los ítems se agruparon en las
dimensiones predichas a nivel teórico, entonces se obtienen evidencias sobre
la validez de la medición.
Evidencia basada en el proceso de respuesta

Este tipo de evidencia es poco utilizada en comparación a las anteriores.
Básicamente consiste en analizar la congruencia entre el constructo medido y
la naturaleza del rendimiento o respuesta emitida por los examinados (APA,
1999). El proceso para la obtención de este tipo de evidencia implica el uso
de entrevistas en profundidad con los examinados y cualquier procedimiento
que permita el análisis de las respuestas individuales a los ítems de un test. El
objetivo es examinar las estrategias de respuesta de las personas y analizar su
congruencia con el constructo que se pretende medir. El estudio de los pro-
cesos involucrados en las respuestas de los examinados, permitiría esclarecer
si factores irrelevantes o accesorias están influyendo en las respuestas de los
participantes, y, por ende, afectando la validez de las puntuaciones para refle-
jar el constructo en estudio.
En un estudio realizado por Maffei, Sponton, Sponton, Castellano y
Medrano (2012), por ejemplo, se efectuaron entrevistas en profundidad para
analizar el proceso de respuesta implicado en un instrumento que evalúa au-
toeficacia profesional. Este constructo refiere a las creencias que poseen los
trabajadores en sus propias capacidades para llevar a cabo, de manera exitosa
actividades asociadas a su profesión. Se ha observado que dichas creencias ac-
túan frente a los estresores laborales disminuyendo o aumentando el malestar
psicológico. En general los trabajadores con mayores creencias de autoeficacia
son menos vulnerables al estrés crónico. Según Bandura (2001), la fuente
de mayor importancia en la elaboración de los juicios de autoeficacia son las
experiencias de ejecución previa, de esta manera las personas tienden a sen-
tirse más capaces cuando cuentan con experiencias previas de éxito. Por ello
al momento de responder a un ítem de este instrumento (por ejemplo “seré
capaz de resolver problemas difíciles en mi trabajo si lo intento”) se esperaría
que el examinado recurra a información disponible en su memoria episódica
para analizar experiencias previas de éxito o fracaso vinculadas a este tipo de
situaciones. Este proceso se evaluó en las entrevistas en profundidad. Con-
cretamente se solicitó a 15 trabajadores que respondieran a los ítems y que
explicitaran el proceso mental involucrado en la respuesta. Algunas de las

afirmaciones obtenidas fueron:
“me empiezo a acordar de otras veces que tuve un problema parecido y si pude resol-
verlo… en general los resuelvo bien por eso puse un puntaje alto”
TANGAMANGA
Account: ns023844
“para responder a esta pregunta me pongo recordar lo que me dice mi supervisor, por
ahí me corrige mucho y creo que eso hace que no tenga tanta confianza”
“Yo me fijo en lo que dicen mis clientes, si ellos están satisfechos eso significa que hice
un buen trabajo y que soy bueno en lo que hago”.
“Tengo mucha experiencia en este trabajo, hace más de 20 años que trabajo en esto y
he aprendido mucho... por eso creo que soy bastante bueno”
Como puede observarse, existe una congruencia entre el proceso men-

tal implicado en las respuestas y el constructo que se pretende medir, ya que
como postula la teoría, los juicios de autoeficacia se elaborarían en gran me-
dida de un análisis que hace el sujeto de sus experiencias previas de éxito o
fracaso. Esto constituiría, por lo tanto, otra evidencia de que el test mide lo
que pretende medir.
Evidencias basadas en las relaciones que las puntuaciones del test presentan
con variables externas
El análisis de las relaciones de las puntuaciones del test con variables
externas constituye otra fuente importante de evidencia. Dentro de esta cate-
goría suelen diferenciarse tres procedimientos: a) evidencias de relación test-
criterio, b) evidencias convergente-discriminante, y c) grupos contrastados (o
también denominada grupos conocidos).
La evidencia basada en las relaciones “test-criterio” consiste en correla-
cionar las puntuaciones de la prueba con un criterio externo, es decir, una
medida directa e independiente que el test intenta predecir. Por ejemplo, una
medida criterio para una prueba que evalúa aptitudes o inteligencia podría
ser el rendimiento académico obtenido por el alumno al final del cursado, o
para una prueba que evalúa depresión el diagnóstico que efectúa un terapeuta
mediante una entrevista estructurada. De la misma forma, una medida crite-
rio para una prueba que evalúa motivación laboral puede ser el rendimiento
que reporta el supervisor del examinado. Es decir, que las medidas “criterio”
hacen referencia a una variable que puede medirse de manera independiente
al test y que teóricamente se encuentra relacionada con el constructo de inte-
rés. De esta forma, si se corrobora que el test se relaciona con un criterio (con
el que teóricamente debería estar relacionado), entonces estamos obteniendo
evidencias de que el test mide lo que dice que mide.
Dentro de este tipo de evidencias se pueden diferenciar dos procedi-

mientos, uno de tipo predictivo y otro concurrente. La diferencia entre ambos
procedimientos radica sobre todo en el tiempo que transcurre entre la admi-
nistración del test y la medición del criterio. Cuando se utiliza un abordaje
predictivo (también denominado validez predictiva) se espera que la prueba
60
TANGAMANGA
Account: ns023844
pronostique el valor que tendrá la medida criterio en el futuro. Por lo tanto,

debe transcurrir un tiempo entre ambas mediciones. Por el contrario, cuando
se realiza un estudio de tipo concurrente (también denominado validez concu-
rrente) se analiza la concordancia entre las puntuaciones obtenidas en la prue-
ba y la condición actual del examinado en otra variable o criterio. Es decir que
la medición se realiza de forma simultánea. Tal como señala Hogan (2004)
la diferencia radica entonces en el tiempo en que se mide la variable criterio.
Un ejemplo de validez predictiva se puede observar en una investiga-
ción realizada por Medrano, Moretti, Ortiz y Pereno (2014), en donde se
recaban evidencias de validez para un Cuestionario de regulación emocional.
Este constructo refiere a toda estrategia (voluntaria o involuntario) que con-
tribuye a mantener, aumentar o disminuir un estado afectivo en curso. Así,
la rumiación (pensar excesivamente sobre un evento displacentero) o la ca-
tastrofización (tener pensamientos que enfatizan o agradan las consecuencias
negativas de un evento) son estrategias automáticas que pueden aumentar
los niveles de ansiedad de una persona. En contrapartida, estrategias como
la reinterpretación positiva (pensamientos que otorgan un significado posi-
tivo al evento displacentero) o poner en perspectiva (relativizar la gravedad
de un evento comparándolo con otros o analizando su impacto a lo largo
del tiempo), pueden generar una disminución de un estado emocional desa-
gradable. Para recabar evidencias de validez predictiva se administró el test y
varias semanas después se evaluó el nivel de ansiedad que los alumnos presen-
taban en un examen. Si la prueba efectivamente mide lo que dice que mide,
entonces debería poder pronosticarse los niveles de ansiedad a partir de las
puntuaciones de la prueba. Los resultados obtenidos al utilizar un coeficiente
de correlación de Pearson, corroboraron que existía una relación significativa
entre los niveles de rumiación (r =.22) y catastrofización (r =.45) con los ni-
veles de ansiedad que experimentaban los alumnos durante el examen. Como
estos resultados son coherentes con los esperados a nivel teórico, se obtienen
evidencias que indican que el test mide lo que dice que mide.
Un ejemplo de validez concurrente se observa en un estudio realizado
por Moretti, Medrano y Basler (2015) que tuvo por objetivo aportar eviden-
cias de validez para una escala de locus de control del dolor. Este constructo
hace referencia a la creencia que posee la persona acerca de la relación entre
su conducta y los niveles de intensidad del dolor. Se trata de una variable de
importancia en personas que padecen dolor crónico ya que quienes poseen
mayor locus de control interno (creencia de que el nivel de dolor se asocia a
mi propio comportamiento) suelen mostrar mayor proactividad en acciones
beneficiosas para la salud que incluyen conductas de autocuidado, manteni-

miento de habilidades de la vida cotidiana y, en consecuencia, menor inten-
sidad del dolor. Por el contrario, mayor locus de control externo (creencia
de que el nivel de dolor no se asocia con mi comportamiento) se relaciona
TANGAMANGA
Account: ns023844
con un peor afrontamiento y malestar psicológico, aumentando los niveles

de intensidad del dolor. Para recabar evidencias de validez concurrente se ad-
ministró el cuestionario de locus de control junto a un test que evalúa inten-
sidad percibida del dolor. Los resultados obtenidos mediante el coeficiente
de correlación de Pearson indican que las personas que tenían puntuaciones
más elevadas de locus de control externo también presentaban mayor nivel
de dolor (r =.15). En consecuencia, se obtienen evidencias favorables sobre la
validez de las puntuaciones del test.
Es importante señalar que el comportamiento humano resulta dema-
siado complejo como para esperar que a partir de los resultados de una única
prueba se logre una predicción exacta de un criterio. Por ello las correlacio-
nes esperables en este tipo de estudio suelen ser moderadas, vale decir que
coeficientes de correlación significativamente distintos de cero y con valores
aproximados a .30 ya son aceptables. Actualmente la mayoría de las investi-
gaciones realizadas para verificar la utilidad predictiva de las puntuaciones de
un test utilizan un enfoque multivariado puesto que permite esclarecer las
interrelaciones entre un conjunto de predictores y un criterio, y no solamente
las relaciones entre una única variable predictora y un criterio. Mediante mé-
todos multivariados como el análisis de regresión múltiple podemos estimar
cuánto se incrementa la precisión de las predicciones cuando un test se incluye
en una batería de tests en comparación con las ocasiones en que no se incluye
(Aiken, 2003). Este tipo de evidencia de validez se denomina incremental,
pero debido a su complejidad no será trabajada en el presente capítulo.
Un segundo tipo de procedimiento habitualmente utilizado para reca-
bar evidencias mediante variables externas es la evidencia convergente-discrimi-
nante. Esta evidencia consiste en correlacionar las puntuaciones del test que
se pretende validar con las obtenidas en otros test que evalúan constructos
semejantes (validez convergente) o diferentes (validez discriminante o diver-
gente). Se espera así que la prueba presente correlaciones más altas con el test
que mide un constructo semejante, que con aquellos que miden un construc-
to diferente.
En un estudio desarrollado por Medrano y Trógolo (2014), por ejem-
plo, se correlacionaron las puntuaciones obtenidas en un cuestionario de difi-
cultades en la regulación emocional con una prueba que evalúa extraversión y
otra que evalúa neuroticismo.
62
TANGAMANGA
Account: ns023844
Figura 7. Extracto del artículo de Medrano y Trógolo (2014) sobre evidencias de validez con-
vergente-discriminante.
Si las puntuaciones del test realmente evalúan dificultades para regular

emociones, entonces las puntuaciones deberían presentar una correlación po-
sitiva con los niveles de neuroticismo (tendencia a la inestabilidad emocional
y a presentar estados emocionales displacenteros) y una correlación negativa
con los niveles de extraversión (tendencia a la sociabilidad, despreocupación
y búsqueda de emociones positivas). Los resultados (figura 7) son coheren-
tes con los esperados a nivel teórico, obteniéndose evidencias favorables de
validez.
Un último tipo de procedimiento utilizado para recabar evidencias me-
diante variables externas es la evidencia mediante grupos contrastados o también
denominada de grupos conocidos (“know-group validity”). En este caso el
criterio consiste en la pertenencia un determinado grupo. Este tipo de evi-
dencia tiene sentido cuando existen argumentos teóricos como para suponer
que las puntuaciones de una prueba deberían variar entre dos o más grupos.
Es decir, donde el investigador ya conoce que entre dos grupos determinados
cabría esperar una diferencia de puntuaciones. El procedimiento consiste en
administrar la prueba en ambos grupos y luego comparar sus puntuaciones
mediante un procedimiento estadístico (t de Student o Análisis de Varianza,
por ejemplo). En caso de corroborarse la existencia de una diferencia esta-
dísticamente significativa en las puntuaciones de dichos grupos (y con una
magnitud atendible), se obtienen evidencias de que la prueba mide lo que

dice que mide.
TANGAMANGA
Account: ns023844
Figura 8. Extracto del artículo de García-Bastista et al. (2017) sobre evidencias de validez
mediante grupos contrastados.
En un estudio desarrollado por García-Bastista et al. (2017) se compa-

raron las puntuaciones obtenidas en el STAI (una prueba que evalúa la ansie-
dad rasgo-estado) entre una muestra de población general y otra de población
hospitalaria, esperando observar mayores niveles de ansiedad en ésta última.
Los resultados obtenidos (figura 8) fueron coherentes con los esperados a ni-
vel teórico, obteniendo evidencias favorables de validez.
Evidencia de las consecuencias de la aplicación de tests

Esta última fuente de evidencia es bastante controvertida. Según la APA
(1999) no basta con afirmar que la prueba es válida, sino que también debe
efectuarse un análisis sobre las consecuencias sobre el uso y las interpretacio-
nes que se realizarán a partir de la prueba. Según Hogan (2004), el interro-
gante central en este tipo de evidencia seria: ¿Cuáles son las consecuencias,
resultados o repercusiones que puede tener el uso de este instrumento?
Por ejemplo, cuando se desarrolló el SESA-U (expuesto en el capítulo
2 del libro) los autores indicaron que: “el SESA-U constituye un sistema de
evaluación válido y confiable para la población de ingresantes universitarios.
Sumado a ello, al ser un sistema informatizado permite una evaluación más
eficiente del colectivo de ingresantes, facilita una administración rápida y ac-
cesible incluso en estudiantes que cursan a distancia, genera informes diag-
nósticos de forma automática y permite trabajar con grandes colectivos de
alumnos. Asimismo, el SESA-U sirve como punto de partida para diagramar

intervenciones apropiadas a las demandas de cada ingresante en particular”.
Si los autores desean proporcionar evidencias basadas en las consecuencias de
la aplicación del instrumento, deberían desarrollar nuevos estudios tendientes
a demostrar que efectivamente el SESA-U constituye una evaluación más efi-
64
TANGAMANGA
Account: ns023844
ciente o que proporciona información para brindar intervenciones a ingresan-

tes universitarios. Si se obtienen resultados que sustentan dichas afirmaciones
(por ejemplo, se corrobora que se logra una intervención más eficaz sobre
los alumnos al utilizar el test), entonces se obtienen evidencias favorables de
validez.
Este tipo de evidencia no se encuentra exenta de críticas, dado que mu-
chos autores sostienen que las consecuencias de las aplicaciones de una prueba
no afectan directamente la validez de sus puntuaciones. Por lo cual, la validez
de las consecuencias no sería un concepto psicométrico legítimo. No obs-
tante, otros autores sostienen que se trata de una evolución del concepto de
validez. En todo caso lo que queda claro es que la polémica sobre la validez de
las consecuencias continuará durante algún tiempo (Hogan, 2004).
A modo de síntesis
En términos generales la validez hace referencia al “grado en que una

prueba mide lo que pretende medir”. De esta manera puede afirmarse que las
puntuaciones de un test evidencian propiedades de validez cuando el test
evalúa una muestra representativa de comportamientos del constructo que se
pretende medir, justificando adecuadamente las inferencias realizadas sobre el
dominio en función de los resultados obtenidos en la prueba. Sin embargo, es
importante aclarar que la validez es una propiedad de sus puntuaciones (APA,
1999). Es decir, las puntuaciones que se obtienen de una prueba pueden re-
sultar o no válidas dependiendo del propósito con que se utilicen. Por otra
parte, la validez es una cuestión de grado. No se valida un test en sí mismo,
sino que se brindan diferentes tipos de evidencias para indicar que las pun-
tuaciones del test reflejan adecuadamente el constructo que se intenta medir.
Cuantas más evidencias se posean, mayores garantías tendremos respecto a la
validez de las puntuaciones.
Según la APA (1999) existirían cinco evidencias de validez: 1) evidencias
basadas en el contenido del test, 2) evidencias basadas en la estructura interna
del test, 3) evidencias basadas en el proceso de respuestas, 4) evidencias ba-
sadas en las relaciones que las puntuaciones del test presentan con variables
externas, y 5) evidencias relacionadas con las consecuencias de su aplicación.
Una síntesis de dichas evidencias se expone en la tabla 2.
TANGAMANGA
Account: ns023844
Tabla 2. Síntesis de métodos y evidencias de validez propuestas por la APA (1999)

66
TANGAMANGA
Account: ns023844
|
Normas Psicométricas: Confiabilidad

Leonardo Medrano
Introducción
En el capítulo 1 definimos a los tests como un procedimiento por me-

dio del cual una muestra de comportamiento de un dominio, es obtenida y
calificada, empleando un proceso estandarizado. En el capítulo anterior des-
tacamos la necesidad de garantizar que la muestra de comportamiento selec-
cionada representa adecuadamente el dominio que se pretende medir, y, por
ende, que las puntuaciones de la prueba constituyen una medida válida del
constructo (figura 1). En este capítulo haremos hincapié en la segunda parte
de la definición de test, es decir, que la muestra de comportamiento es obteni-
da y calificada empleando un proceso estandarizado. En efecto, durante el pro-
ceso de administración, calificación e interpretación de una prueba pueden
ocurrir errores que lleven a que los puntajes del test sean inestables y sesgados
afectando la confiabilidad de la medición.
Figura 1. Representación del proceso subyacente en un test psicométrico.

Errores de medición y confiabilidad: Aproximación histórica y

conceptual
En términos generales, la confiabilidad hace referencia al grado en que

las puntuaciones de la prueba se encuentran libres de error. Aunque la validez
TANGAMANGA
Account: ns023844
constituye la norma psicométrica más importante en la teoría de los test, es un

prerrequisito que la prueba sea confiable. Puede que la prueba esté compuesta
por ítems que reflejan adecuadamente el constructo, pero si el examinador
comete errores al administrar la prueba, o al interpretar sus puntuaciones,
entonces los puntajes del test dejan de reflejar con precisión el constructo.
Entre las fuentes más comunes de error se encuentran los errores en la
calificación de la prueba. Esto puede ocurrir cuando los evaluadores utilizan
diferentes criterios para puntuar una misma prueba, por ejemplo, si uno de
los evaluadores es más “exigente” que otro respecto a las respuestas que con-
siderará correctas. También puede ocurrir que el evaluador cometa errores en
la corrección de la prueba, tales como calificar accidentalmente las respuestas
de una prueba de opción múltiple al utilizar una grilla de corrección inco-
rrecta. Otra fuente de error pueden ser las variaciones en la administración
de la prueba. Por ejemplo, si los evaluadores explican una misma consigna
de forma diferente, o cometen errores al dar las instrucciones de la prueba, o
administran la prueba en condiciones físicas inadecuadas (un lugar con poca
luz o mucho ruido, por ejemplo).
Las condiciones personales temporales del examinado también pueden
constituir una fuente de error. Supongamos que aplicamos la misma prueba
a una misma persona en diferentes ocasiones. Lo más probable es que las
puntuaciones de una ocasión a otra varíen ya que las condiciones temporales
de los examinados pueden ejercer una influencia no sistemática en sus pun-
tuaciones. Puede ocurrir por ejemplo que un día se encuentre más cansado,
o tenga hambre, o se encuentre más enojado, triste o nervioso. Es decir, el
rasgo que se pretende medir (por ejemplo, inteligencia) no ha cambiado, las
condiciones de administración y la prueba son las mismas, pero los puntajes
cambian de una ocasión a otra debido a que la condición personal temporal
ha influido en las puntuaciones.
Todas estas leves variaciones van introduciendo errores que afectan la
precisión de la medición. En este marco surgen los siguientes interrogantes ¿Es
posible lograr una medición libre de error? ¿De qué manera podemos determinar
el nivel de error de una medición y evaluar su impacto en las puntuaciones de la
prueba?
El interrogante acerca de la precisión de los instrumentos y herramien-
tas que utilizamos para aproximarnos a la realidad, constituye uno de los
problemas centrales de la filosofía de la ciencia y especialmente de la psico-
metría. El largo camino que conduce a los actuales coeficientes estadísticos de
confiabilidad (reliability en inglés), comienza en la astronomía del siglo XVII.
Los astrónomos observaban que sistemáticamente aparecían diferencias entre

las observaciones que realizaban mediante sus telescopios (Maradi, Archenti y
Piovani, 2007). En función de ello, se comenzó a hipotetizar que dichas dife-
rencias se debían a fallas en las herramientas o personas que las manejaban. Es
decir, comienza a considerarse el problema de la precisión de los instrumentos
68
TANGAMANGA
Account: ns023844
y herramientas utilizadas en el ámbito científico.

El primer ensayo sobre “fallas en la observación” es un artículo del ma-
temático Thomas Simpson publicado en el año 1757. Posteriormente, a prin-
cipios del siglo XIX, el matemático Gauss recolectó una serie de registros
realizados por diferentes observatorios astronómicos europeos. Su objetivo
consistía en confrontar los resultados de observaciones repetidas del mismo
fenómeno para cuantificar la precisión de dichos instrumentos. A partir de
sus investigaciones, Gauss observó que las fallas de medición se distribuían de
una manera normal (figura 2).
Recién en el año 1904, el psicólogo Spearman propone un modelo para
abordar esta problemática. La teoría clásica de los tests (TCT) es un modelo
lineal de medición formulado por Spearman y posteriormente consolidado
por Thurstone (1935) y Gulliksen (1950). Su hipótesis fundamental es que la
puntuación observable de una persona en un test es una función de dos com-
ponentes: su puntaje verdadero y el error de medición implícito en la prueba.
El postulado esencial de la TCT se expresa como:
PO = PV + E
Donde, PO refiere al puntaje observado, PV al puntaje verdadero y E

al error de medición. Esta función lineal indica que cuanto mayor sea el va-
lor de E mayor diferencia existirá entre el puntaje observado y el verdadero.
También podemos derivar de la misma función que el error puede ser defini-
do como la diferencia entre la puntuación verdadera y la observada. Es decir
que refiere a todos aquellos factores aleatorios que llevan a que la puntuación
observada no refleje el rasgo o constructo psicológico que se pretende medir.
E = PV - PO
Según la TCT, la puntuación verdadera sería la puntuación que se ob-

tendría de la medición del rasgo o constructo psicológico sin la influencia de
error. Matemáticamnte se plantea el supuesto de que si se aplicara la prueba
infinita veces se obtendrían diferentes puntajes observados debido a los fac-
tores de error o de inestabilidad. La distribución de estos infinitos puntajes
observados serían normal (figura 2), ya que en algunos casos las fuentes de
error afectarían negativamente, y en otros casos positivamente. Teóricamente,
el puntaje verdadero sería el promedio que hipotéticamente se obtendría de
las infinitas puntuaciones observadas. Obviamente este procedimiento nunca
se realiza y no logra determinarse con certeza cuál es la puntuación verdadera.
En la práctica solo se obtiene la puntuación observada y a partir de ella de-

bemos inferir la puntuación verdadera. Sin embargo, a lo largo de la historia
se han desarrollado diferentes métodos para estimar la magnitud del error, es
decir, cuanta diferencia podría haber entre la puntuación observada y verda-
dera de una persona.
TANGAMANGA
Account: ns023844
Figura 2. Distribución hipotética de las puntuaciones observadas (PO) en torno a la puntua-

ción verdadera.
El mismo Spearman es quien propone el primer método para medir la

confiabilidad de un test, el cual consiste en calcular un coeficiente de correla-
ción entre dos conjuntos de datos obtenidos por la aplicación repetida de una
misma prueba (Buela-Casal y Sierra, 1997). Es decir, si aplicamos un mismo
test en dos momentos diferentes y luego correlacionamos sus puntuaciones,
obtendremos un coeficiente de confiabilidad del mismo. Esta técnica es co-
nocida en la actualidad como el procedimiento test- retest. A principios de
1930, se propuso una técnica aún más sencilla. La misma consistía en aplicar
un solo test y luego dividir al mismo por la mitad para correlacionar am-
bas partes. Este procedimiento conocido como partición en mitades, sufrió
fuertes críticas por parte de numerosos psicometristas, quienes consideraban
que la división en dos partes resultaba demasiado arbitraria. De esta manera,
podrían obtenerse diferentes coeficientes de confiabilidad según el criterio
utilizado para partir en mitades la prueba (Maradi, Archenti y Piovani, 2007).
Los psicometristas norteamericanos Kuder y Richarson propusieron a
finales de la década del ´30, una técnica que superaba las limitaciones de los
coeficientes de confiabilidad formulados hasta ese momento. El coeficiente
KR 20 propuesto por estos autores calculaba la correlación entre todas las
respuestas del test, siempre y cuando éstas fueran dicotómicas. Finalmente,
esta última limitación fue superada por el coeficiente alfa (α) propuesto por
Cronbach en el año 1951, el cual no exigía las restricciones de calificación
dicotómica de los reactivos.
En el año 1999, la APA definió a la confiabilidad como el nivel de exac-
titud o precisión de una medición, es decir, en qué medida las puntuaciones
70
TANGAMANGA
Account: ns023844
de un test están libres de errores de medición. En otras palabras, refiere a la

consistencia entre los puntajes de un test, obtenidos por los mismos indivi-
duos en distintas ocasiones o entre diferentes conjuntos de ítems equivalentes.
De manera semejante a como ocurre en la validez, la confiabilidad es
una cuestión de grado, y no existe un único procedimiento que permita es-
timar todos los errores de una prueba. Ello se debe a que existen diferentes
fuentes de inestabilidad o error. Por este motivo suelen considerarse diferentes
dimensiones de la confiabilidad. A continuación, se expondrán tres procedi-
mientos que se utilizan habitualmente para determinar el impacto de alguna
fuente de inestabilidad sobre las puntuaciones. Ninguno de estos procedi-
mientos permite evaluar de manera “integral” a la confiabilidad, sino que
brinda información sobre alguna de sus dimensiones. Las dimensiones reco-
nocidas por la APA (1999) son la estabilidad, consistencia interna y confiabi-
lidad inter-examinadores.
Dimensiones y métodos para verificar la confiabilidad
Estabilidad
En esta dimensión se pretende evaluar el grado en que el puntaje obser-
vado está libre de errores causados por cambios en las condiciones personales
temporales del examinado (estado de ánimo, nivel de motivación o cansancio,
por ejemplo), y por variaciones en las condiciones de administración de la
prueba (condiciones físicas de la administración, por ejemplo). Cuando las
puntuaciones de una prueba no se ven seriamente afectadas por estas fuentes
de inestabilidad decimos que las puntuaciones son estables. Los procedimien-
tos sugeridos para evaluar la estabilidad son el método test-retest, y el método
de formas equivalentes (APA, 1999).
El método consiste test-retest es el más utilizado para evaluar la estabili-
dad. Consiste en admnistrar el mismo test en dos oportunidades a la misma
muestra de sujetos, con un intervalo de tiempo intermedio. Posteriormente
se calcula la correlación entre los puntajes obtenidos en la primera y segunda
administración. Cuando se obtienen valores elevados de correlación (valores r
de Pearson en torno a .80), significa que los puntajes obtenidos en la prueba
no se alteran sustancialmente por variaciones en las condiciones personales o
por las condiciones de administración.
A modo de ejemplo, para evaluar la estabilidad del IAMI se administró
la prueba a una muestra de 119 sujetos y un mes después los mismos suje-
tos respondieron nuevamente al inventario. Los puntajes obtenidos en ambas

aplicaciones fueron correlacionados (r de Pearson). Los resultados obtenidos
(figura 3) indicaron niveles óptimos de estabilidad para alguna de sus escalas
(valores r superiores a .80) y aceptables para otras (valores r superiores a .70).
TANGAMANGA
Account: ns023844

Figura 3. Extracto del artículo de Pérez, Beltramino y Cupani (2003) sobre la estabilidad del
IAMI.
El intervalo entre el test y el retest es un factor crítico a considerar. Si

el lapso de tiempo es muy prolongado se corre el riesgo de que las diferencias
entre las puntuaciones se deban a cambios reales en el rasgo examinados más
que a deficiencias en la confiabilidad del test. Además, debe contemplarse
el constructo que se está evaluando. Por ejemplo, si el constructo medido es
“estado de ánimo” es esperable que se observen variaciones entre las medicio-
nes debido a que se trata de una variable que fluctúa temporalmente. Por el
contrario, si trabajamos con rasgos estables (como personalidad o inteligen-
cia) los intervalos pueden ser amplios, de meses o incluso años. Asimismo,
debe considerar la población involucrada. Si el estudio se realiza con niños
pequeños, se recomienda que el intervalo sea brve ya que durante esta etapa
del desarrollo se observan cambios de gran velocidad en la mayoría de las
variables psicológicas.
Un problema que presenta el método test-retest ocurre cuando se uti-
lizan pruebas de ejecución máxima (pruebas de habilidades o neuropsicoló-
gicas, por ejemplo). Ello se debe a que la práctica previa con la prueba o el
recuerdo de los ítems, pueden afectar el rendimiento en el retest. Una alter-
nativa para controlar el efecto de la práctica y la memoria es el uso de formas
paralelas o equivalentes. Este método exige contar con dos formas o versiones
de la misma prueba que sean muy similares en cuanto a la cantidad de reac-
tivos, límites de tiempo y especificaciones de contenido, entre otros factores
(Hogan, 2004). El procedimiento es semejante al de método test-retest, pero

esta vez en vez de administrar la misma prueba en dos ocasiones se adminis-
tran diferentes formas en cada ocasión (figura 4).
72
TANGAMANGA
Account: ns023844
Figura 4. Diagrama de los métodos Test-Retest y Formas Equivalentes.
El estudio realizado por Navarro et al. (2015), constituye una adecuada

ilustración del procedimiento de formas equivalentes. Estos autores se pro-
pusieron desarrollar versiones equivalentes del Fototest, una prueba neurop-
sicológica muy breve que utiliza imágenes para evaluar deterioro cognitivo o
demencia. Debido a que la aplicación repetida de la misma prueba podía in-
ducir mejorías en el rendimiento producto de la práctica previa, desarrollaron
una versión equivalente. Como puede observarse en la figura 5, los ítems de
cada versión son distintos pero equivalentes entre sí. Los autores corroboraron
la equivalencia de dichas versiones, y consecuentemente, la estabilidad de las
puntuaciones del test.
Figura 5. Versiones equivalentes del Fototest

(extraídas de Navarro et al., 2015)
Cabe destacar que el método de formas equivalentes es más completo que

método de test-retest ya que permite evaluar la influencia de mayores fuentes de
inestabilidad. No solo contempla las variaciones en las condiciones personales
temporales del examinado o las variaciones en las condiciones de administra-
TANGAMANGA
Account: ns023844
ción, sino que además considera variaciones en el contenido de la prueba. Es

por ello que se lo considera un método adecuado para evaluar las dimensiones
de estabilidad y consistencia interna de una prueba. A pesar de sus ventajas es un
procedimiento poco utilizado en psicometría por la sencilla razón de que son
pocas las pruebas que cuentan con versiones paralelas (Hogan, 2004).
Consistencia Interna
Esta dimensión de la confiabilidad consiste en determinar si las dife-
rentes partes del test evalúan el mismo constructo, vale decir, si son homo-
géneas. Tal como señala Hogan (2004), la homogeneidad (del griego homos,
que significa “misma” y genos, que significa “clase”) refiere al grado en que los
reactivos o ítems de una prueba son iguales en términos de lo que miden. La
fuente de inestabilidad que se intenta examinar en esta dimensión es la refe-
rida a las variaciones en el contenido de los ítems o errores en el muestreo de
ítems, y resulta especialmente relevante cuando utilizamos el puntaje total de
la prueba (es decir, la sumatoria o promedio de los ítems). Supongamos que
una prueba incluye ítems que evalúan razonablemente bien el rasgo medido,
pero también incluye ítems que por variaciones en su contenido o por un
error en el muestreo examinan otro constructo. En consecuencia, al calcular
el puntaje total del test obtendremos una medida compuesta por ítems que
examinan adecuadamente el rasgo e ítems que examinan otra cosa, generando
que la puntuación de la prueba pierda precisión. La homogeneidad de una
prueba es deseable en tanto permite una interpretación relativamente directa
del rasgo examinado (Cohen y Swerdlik, 2006).
Como señala Kline (1983), es importante que una medida sea auto-
consistente por la sencilla razón de que, si las diferentes partes que componen
una prueba no se relacionan entre sí, entonces es probable que estén midien-
do cosas distintas. El énfasis que se otorga a la consistencia interna implica
que de no ser consistente la prueba, sus puntuaciones reflejarán diferentes
constructos y por ende no serán válidas. No obstante, como veremos más
adelante, existen muchas críticas y posiciones que disienten sobre la relevancia
de esta dimensión.
Los procedimientos para evaluar la consistencia interna de un test son:
el método de formas equivalentes (descripto anteriormente), el método de par-
tición en mitades, y los métodos basados en la covariación de ítems.
El método de partición en mitades fue muy popular, pero en la actuali-
dad se encuentra prácticamente en desuso. El mismo analiza la consistencia
interna dividiendo la prueba en dos mitades comparables, y correlacionando

las puntuaciones obtenidas en ambas mitades. En caso de obtenerse correla-
ciones elevadas, se corrobora que las diferentes partes de la prueba examinan
el mismo constructo. Sin embargo, esta metodología adolece de dos grandes
limitaciones. En primer lugar, los criterios para obtener las dos mitades son
74
TANGAMANGA
Account: ns023844
arbitrarios y en algunos casos la división de la prueba puede generar mitades

no comparables (por ejemplo, si se trata de una prueba de dificultad crecien-
te). Pero la segunda limitación es aún más preocupante, ya que como pueden
establecerse diferentes criterios para dividir la prueba (ítems pares vs. impares,
los primeros ítems vs. los últimos, división aleatoria, etc.), podrían existir tan-
tos coeficientes de confiabilidad como posibilidades de división de la prueba.
Esto llevaría a que una misma prueba pueda presentar múltiples índices de
consistencia interna.
Los métodos basados en la covariación de ítems son los más utilizados en
la actualidad para estimar la consistencia interna de una escala. El coeficiente
Alfa de Cronbach (para ítems politómicos) y las fórmulas Kuder-Richardson
(para ítems dicotómicos) son los procedimientos estadísticos preferidos para
examinar esta dimensión. A diferencia del método de partición en mitades
que solo correlacionaba dos partes de la prueba, analizan la intercorrelación
promedio entre todos los reactivos. Dicho de otra manera, producen una
estimación del promedio de todos los posibles coeficientes obtenidos por par-
tición en mitades (Hogan, 2004).
En la actualidad, el coeficiente alfa de Cronbach es el estadístico más
citado para obtener una estimación de la consistencia interna de los test psico-
lógicos. De hecho, se estima que el artículo de Cronbach (1951) se cita cerca
de 325 veces por año en diferentes investigaciones realizadas en el ámbito de
las ciencias sociales (Liu y Zumbo, 2007). El coeficiente alfa permite evaluar
que tan similares son el conjunto de ítems de una prueba determinada. A
diferencia del coeficiente de Pearson que fluctúa entre –1 y +1, el coeficiente
alfa varía típicamente en un rango entre 0 y 1 (Aiken, 2003). Esto quiere de-
cir que la similitud de un agrupamiento de ítems va a variar entre 0 (no hay
similitud entre los reactivos) hasta 1 (los reactivos son idénticos).
Existe cierta disparidad entre los autores respecto a los valores que debe
presentar dicho coeficiente para considerar que la escala es consistente. Por
ejemplo, Nunnally y Bernstein (1994) consideran que un valor de α =.95
debe ser la norma aceptable. Por el contrario, Manzano y Tobio (2003) seña-
lan que un valor de alfa superior a .90 s demasiado alto e indica redundancia
de reactivos. En general, se acepta que estimaciones de .80 o superiores son
consideradas entre moderadas y elevadas, mientras que puntajes cercanos a
.70 resultan aceptables (Hogan, 2004). Los mismos criterios se utilizan para
interpretar las puntuaciones del coeficiente KR-20 de Kuder-Richardson.
Un ejemplo del uso de esta metodología puede observarse en un estu-
dio de Medrano y Trógolo (2016). En dicho trabajo se analizó la consistencia
interna de una serie de escalas que componen el DERS (Difficulties in Emo-

tion Regulation Scale). Un instrumento que examina diferentes estrategias de
regulación emocional, como, por ejemplo, aceptación emocional o control de
impulsos. Los resultados obtenidos mediante el alfa de Cronbach (α) sugieren
que cada una de las escalas que componen el instrumento son consistentes
TANGAMANGA
Account: ns023844
(figura 6), es decir, sus ítems son homogéneos en términos de lo que miden.
Figura 6. Consistencia interna de las escalas del DERS (extraído de Medrano y Trógolo, 2017).
Acuerdo entre examinadores

En esta dimensión se analiza si el puntaje observado se ve afectado por
errores asociados a la subjetividad del evaluador. En efecto, la calificación e
interpretación de las respuestas de un test deben partir de normas claras y
precisas para disminuir el componente subjetivo presente en toda evaluación.
Si las puntuaciones obtenidas en una prueba dependen de la persona que la
administra, es decir, que el examinador A obtiene una puntuación muy dife-
rente al del examinador B, utilizando la misma prueba en la misma persona,
entonces las puntuaciones del test no resultan confiables. Por el contrario, los
individuos deben obtener puntuaciones idénticas en sus ejecuciones indepen-
dientemente de quien sea su examinador. El método adecuado para evaluar
esta dimensión es el acuerdo entre jueces.
El método de acuerdo entre jueces es consiste en que una prueba a la
que se somete un grupo de examinados se califica de forma independiente
por diferentes evaluadores. Posteriormente se utiliza un coeficiente estadístico
para correlacionar las calificaciones de los evaluadores (por ejemplo, el coefi-
ciente Kappa o el coeficiente de correlación inter-clase). Los valores de dichos
coeficientes se interpretan de la misma forma que los restantes coeficientes
de confiabilidad, es decir, valores cercanos o superiores a .80 son óptimos, y
alrededor de .70 son aceptables (Hogan, 2004).
Naturalmente este procedimiento no se aplica en pruebas de auto-re-
porte o en pruebas con formato de opción múltiple. Sólo adquiere importan-

cia cuando interviene el criterio del examinador en el proceso de calificación
de la prueba. Por ejemplo, la Escala de Terapia Cognitiva (CTS) constituye una
prueba que evalúa competencias generales y específicas en terapeutas. Me-
diante esta prueba se examina la habilidad del terapeuta para conceptualizar
76
TANGAMANGA
Account: ns023844
los problemas del paciente desde un marco teórico específico y aplicar técnicas
o métodos terapéuticos congruentes con los objetivos del tratamiento y las ca-
racterísticas del paciente. Para calificar la prueba el examinador debe observar
una sesión terapéutica y luego puntuar los comportamienos que se describen
en cada ítem (por ejemplo, “el terapeuta trabajó con el paciente para establecer
un plan apropiado con objetivos específicos adecuado al tiempo disponible”,
o “el terapeuta desplegó niveles óptimos de calidez, preocupación, confianza
y autenticidad”). Mientras observa dichas conductas utiliza una escala que va
desde de 0 (pobre desempeño) a 6 (excelente desempeño) para calificar el des-
empeño observado. En un estudio realizado por Medrano y Moretti (2015) se
filmaron sesiones de diferentes terapeutas y luego se solicitó a 10 evaluadores
que calificaran a los terapeutas evaluando de forma independiente los mismos
videos. Posteriormente, se efectuó una correlación inter-clase obteniéndose
resultados de .81 para la escala de competencias generales y de .83 para las de
competencias específicas. Sin embargo, algunos ítems presentaron menores
niveles de acuerdo, por lo cual fueron reformulados (figura 7).
Figura 7. Acuerdo entre examinadores para la Escala de Terapia Cognitiva (extraído de Me-
drano y Moretti, 2017).
A modo de síntesis
En términos generales, la confiabilidad hace referencia al grado en que

las puntuaciones de la prueba se encuentran libres de error. Aunque la validez
constituye la norma psicométrica más importante en la teoría de los test, es un
prerrequisito que la prueba sea confiable. Puede que la prueba esté compuesta
TANGAMANGA
Account: ns023844
por ítems que reflejan adecuadamente el constructo, pero si el examinador

comete errores al administrar la prueba, o al interpetar sus puntuaciones, en-
tonces los puntajes del test dejan de reflejar con precisión el constructo.
Entre las fuentes más comunes de error se encuentran los errores en la
calificación de la prueba, las variaciones en las condiciones de administración de
la prueba y por condiciones personales temporales. Tal como ocurre en la validez,
la confiabilidad es una cuestión de grado, y no existe un único procedimiento
que permita estimar todos los errores de una prueba. Ello se debe a que exis-
ten diferentes fuentes de inestabilidad o error. Por este motivo suelen conside-
rarse diferentes dimensiones de la cofiabilidad. En la tabla 1 se exponen sinté-
ticamente los procedimientos recomendados por la APA (1999). Ninguno de
estos procedimientos permite evaluar de manera “integral” a la confiabilidad,
sino que brinda información sobre alguna de sus dimensiones
Tabla 1. Síntesis de los procedimientos, dimensiones de la confiabilidad.

78
TANGAMANGA
Account: ns023844
|
Interpretación de Puntuaciones
Leonardo Medrano
Introducción
Los contenidos que se desarrollan en este capítulo no revisten gran

complejidad y son de fácil comprensión. Sin embargo, demandan algunos
conocimientos previos en estadística, por cual recomendamos al lector que
consulte el Apéndice II del presente libro sobre revisión de conceptos y procedi-
mientos estadísticos. Por otra parte, aunque los contenidos que se desarrollan
son simples, su entendimiento puede verse obstaculizado sino se abordan de
forma aplicada. En función de ello, invitamos al lector a completar el siguien-
te cuestionario:

Una vez que completado el cuestionario, calcule el puntaje total suman-

do los ítems. Debería obtener un valor comprendido entre 4 y 20.
Los ítems anteriores evalúan un proceso cognitivo implicado en la regu-
lación emocional. Este proceso denominado autoinculpación, refiere a pensa-

mientos que atribuyen la causa del evento negativo y la consecuente emoción
displacentera a la propia persona. Estos pensamientos son automáticos (la
propia persona no decide tenerlos de forma voluntaria) y pueden llevar a que
la emoción se mantenga en el tiempo o se vuelva más intensa. De esta manera
TANGAMANGA
Account: ns023844
pueden contribuir a desregularnos emocionalmente, ya que prolongan de for-

ma innecesaria emociones como la tristeza o el miedo (Medrano et al., 2013).
Los ítems presentados anteriormente forman parte de un cuestionario
que permite evaluar la frecuencia con que ocurren diferentes procesos cogni-
tivos implicados en la regulación emocional (CERQ, Medrano et al., 2013),
concretamente los cuatro ítems anteriores examinan la tendencia a autoincul-
parse. Ahora bien, en función de los valores que usted obtuvo en la prueba
¿Cuál es su nivel de autoinculpación? Supongamos que obtuvo un puntaje
total de 10 o 15 puntos ¿El nivel de autoinculpación es alto o bajo? ¿Cómo
debemos interpretar estos puntajes?
La suma de las respuestas a los ítems constituye un ejemplo de puntua-
ción original o natural. Esta es el resultado más inmediato de la calificación
de una prueba. Se pueden obtener de diferentes formas, puede ser el total de
preguntas correctas, el promedio de puntuaciones de los ítems o la sumatoria
de los ítems individuales. El problema de esta puntuación es que no puede in-
terpretarse de forma directa y por ende no se le puede otorgar un significado.
Las puntuaciones naturales que obtenemos de un test no pueden inter-
pretarse directamente ya que las mediciones en psicología poseen dos limita-
ciones: 1) no poseen unidades constantes de medición (cada test emplea uni-
dades de medida diferentes), y 2) carecen de cero absoluto (el cero no puede
indicar ausencia del rasgo porque nunca se obtiene un muestreo exhaustivo o
de todos los posibles “indicadores operacionales” del rasgo).
Por este motivo es que debe apelarse al uso de diferentes estrategias para
poder interpretar los puntajes de una prueba. En el presente capítulo nos cen-
traremos en los dos métodos de interpretación más utilizados: interpretación
referida a normas e interpretación referida a criterios.
Interpretación referida a Normas
Es la estrategia más común para interpretar las puntuaciones naturales

de un test y poder otorgarles un significado. Básicamente consiste en com-
parar el puntaje obtenido por el individuo con los obtenidos por un grupo
de referencia. Volviendo al ejemplo anterior, supongamos que obtuvimos un
10. Este valor se interpretará de forma distinta si el promedio del grupo de
referencia es de 5 (lo cual significa que nuestros niveles de autoinculpación
son superiores al promedio), o si el promedio del grupo de referencia es de 30
(que implicaría niveles de autoinculpación inferiores al promedio).
Para poder realizar esta interpretación comparativa debemos conocer

cuáles son los valores obtenidos por un grupo comparativo. Para ello se tiene
que haber administrado la prueba a una muestra de gran tamaño que sea
representativa de la población. Por ejemplo, Medrano et al. (2013) adminis-
traron estos ítems de autoinculpación a una muestra de 359 estudiantes uni-
80
TANGAMANGA
Account: ns023844
versitarios. El promedio obtenido fue de 12,42 (con una desviación estándar

de 3,53). Esto significa que, si obtuvimos un puntaje de 10, nuestros niveles
de autoinculpación son inferiores al promedio de estudiantes universitarios.
Sin embargo, aunque tenemos más información que antes para inter-
pretar el puntaje natural siguen persistiendo interrogantes ¿cuán alejados es-
tamos del promedio? ¿cuánta es la distancia que hay entre una persona que
obtuvo 10 y otra que obtuvo 15? En efeto puede suponerse erróneamente que
la diferencia es de 5 puntos, pero debemos recordar que no contamos con uni-
dades constantes de medición, por lo cual no podemos responder drectamen-
te a estos interrogantes. Par poder hacerlo debemos transformar los puntajes
originales en puntuaciones derivadas que nospermitan indicar la posición re-
lativa de los puntajes directos individuales en relación al grupo de referencia.
Existen dos métodos populares de trasformación: a) las puntuaciones estándar
y, b) los rangos percentilares y percentiles (Hogan, 2004).
Puntuaciones estándar
Existen una variedad de puntuaciones estándar. Todas ellas parten de la
utilización de puntajes z. Conociendo la media y desviación estándar de un
conjunto de datos podemos transformar la puntuación natural de un indivi-
duo en un puntaje z (independientemente del tipo de variable que estemos
midiendo). Para ello solo debemos aplicar la siguiente formula:
X−X
Z=
sx
Para obtener el valor z correspondiente a la puntuación original debe-

mos reemplazar los símbolos anteriores por los valores correspondiente. En
el caso del ejemplo la media ( X ) es12,42, y la desviación estándar ( s x ) es
3,53. El puntaje Z correspondiente a la puntuación original de 10 (X) sería
de -0.68.
10 –12,42 = 0,68
3,53
De la misma forma, podemos transformar en z cualquier otra puntua-

ción individual y ubicarla en la misma escala. Para un puntaje bruto de 15 la
puntuación z correspondiente sería 0.73, para una puntuación de 20 se ob-

tendría un puntaje z correspondiente a 2,14. Las puntuaciones z pueden ser
tanto negativas como positivas, y generalmente sus valores varían entre -3,00
y +3,00, pudiendo ubicarse los diferentes puntajes naturales en una nueva
escala (figura 1). Sumado a ello, al utilizar la desviación estándar como unidad
TANGAMANGA
Account: ns023844
de medida, podemos hacer juicios sobre las proporciones ya que contamos

con una unidad constante de medición. Siguiendo con el ejemplo, podemos
afirmar que quien obtuvo 20 puntos posee más del doble de autoinculpación
que quien obtuvo 15 puntos.
Figura 1. Transformación de las puntuaciones naturales en puntajes Z.
La transformación de los puntajes originales en puntajes z consiste

en utilizar la desviación estándar como unidad de medida y la media como
origen. Esto permite contar ahora con una unidad constante de medición
(la desviación estándar) manteniendo las relaciones numéricas exactas de las
puntuaciones originales (Cortada de Kohan, 1994).
La posibilidad de poder transformar cualquier valor a un puntaje z per-
mite al investigador estandarizar los valores obtenidos con el objeto de poder
comparar observaciones de variables medidas en diferentes escalas (Everitt y
Wykes, 2001). Por ello las puntuaciones z desempeñan una función crucial
en psicometría ya que permiten transformar cualquier variable a una métrica
en común.
Imaginemos la siguiente pregunta ¿soy más pesado que neurótico? A
simple vista puede parecer una pregunta sin sentido, ya que el peso se mide
en kilogramos y el nivel de neuroticismo no. Saber que mi peso es de 80 Kg, y
que en una prueba de neroticismo obtuve 50 puntos no me permite aseverar
nada. No sería posible comparar estas variables ya que poseen distintas uni-
dades de medición. Sin embargo, podríamos hacerlo si las transformamos en
puntajes z. Para ello simplemente deberíamos conocer la media y desviación
estándar de cada variable y calcular los correspondientes puntajes z. Siguiendo
con el ejemplo imaginemos que tenemos esa información para el peso (media
= 70 Kg; desviación estándar = 10 Kg), y para la variable neuroticismo (media
= 20; desviación estándar = 15). Aplicando la formula anterior obtengo un
puntaje z para el peso igual a 1, y un puntaje z de neuroticismo igual a 2. En
función de ello puedo afirmar lícitamente que soy más neurótico que pesado.
Más aún, puede decir que soy el doble de neurótico que pesado, ya que al con-
tar con una misma unidad de medida (la desviación estándar) pueden hacer
juicio sobre las proporciones de las distancias.
82
TANGAMANGA
Account: ns023844
Figura 2. Transformación de los puntajes naturales de dos variables a una métrica en común
(puntaje Z).
Las ventajas de transformar los puntajes originales a puntuaciones z es

enorme, sin embargo, su interpretación es algo compleja para un público no
especializado. Por este motivo se desarrollaron las puntuaciones estándar, que
constituyen una conversión de los puntajes z en un nuevo sistema que tiene
una media y desviación estándar elegida de forma arbitraria. Las nuevas cifras
suelen elegirse para que sean fáciles de recordar, como, por ejemplo, 50 y 10,
o 100 y 15 (Hogan, 2004).
Para transformar una puntuación natural en una puntuación estándar
se debe calcular en primer lugar su correspondiente puntuación z. Posterior-
mente, se multiplica la puntuación Z por la nueva desviación estándar, y
se le suma la nueva media. Este procedimiento se representa en la siguiente
fórmula
PE =Z(Se)+Me
Donde PE = puntaje estándar, Z = puntaje Z, Se = la nueva desviación

estándar, y Me = la nueva media
Algunas de las puntuaciones estándar más populares son las puntua-

ciones T de McCall (con media de 50 y desviación estándar de 10). Estas
puntuaciones son habitualmente utilizadas en pruebas de personalidad. Otra
transformación ampliamente utilizada son los CI de desviación, los cuales pue-
den ser considerados como los actuales coeficientes de inteligencia. Los CI
poseen una media de 100 y una desviación estándar de 15.
La mayor parte de las transformaciones estándar son transformaciones
lineales, es decir que mantienen las relaciones numéricas exactas de las pun-
tuaciones originales sin afectar su distribución original. Sin embargo, existen
también trasformaciones no lineales, que alteran la distribución original de las
puntuaciones para generar una distribución normal. Este es el caso de la pun-

tuación estándar normalizada y de las estaninas (las cuales poseen una media
de 5 y una desviación estándar de 2).
Las puntuaciones estándar constituyen un sistema métrico conveniente
para la interpretación de diferentes pruebas psicológicas, sin embargo, presen-
TANGAMANGA
Account: ns023844
tan el inconveniente de ser difíciles de comunicar para usuarios no especiali-

zados. Decir a una persona que su nivel de autoinculpación es equivalente a
0,68 desviaciones estándar por debajo de la media puede ser poco comprensi-
ble. Por este motivo, es habitual que la mayor parte de las pruebas psicológicas
utilicen rangos percentilares y percentiles.
Rangos percentilares y percentiles

Existe una distinción técnica entre estos dos términos. El rango percen-
tilar (RP) indica el porcentaje de casos en el grupo normativo que se ubican
por debajo de una determinada puntuación natural. Por ejemplo, si en la es-
cala de autoinculpación del ejemplo la una puntuación natural de 10 equivale
a un RP de 25, esto significa que el 25% de los casos del grupo normativo
obtuvieron un puntaje natural inferior a 10. Por su parte, el percentil es el
punto en la escala por debajo del cual se ubica un porcentaje específico de
casos. En palabras de Hogan (2004), la diferencia entre el percentil y el RP es
que en el percentil se empieza con un determinado porcentaje y luego se bus-
ca la puntuación natural correspondiente a ese punto(¿Cuál es la puntuación
natural que obtuvo el 65% de la muestra?); mientras que el RP se inicia con
una puntuación natural determinada y luego halla el porcentaje de casos que
se encuentran por debajo de esa puntuación (¿Qué porcentaje de personas
obtuvieron un valor igual o inferior a 10?). En la práctica ambos términos son
utilizados de forma indistinta.
Los percentiles indican el porcentaje de personas en el grupo normativo
que se encuentran por debajo de una puntuación natural determinada. Por
ejemplo, en el estudio realizado con la escala de autoinculpación (Medrano et
al., 2013) se observó que el 5% de la muestra obtuvo un puntaje inferior a 14.
Esto significa que, si usted obtuvo un valor de 14 o superior, posee niveles de
autoinculpación superiores al 75% de los estudiantes universitarios.
El cálculo de los percentiles correspondiente a cada puntuación natural
puede obtenerse a partir de la siguiente fórmula:
Sin embargo, los manuales de las pruebas psicológicas suelen proveer un

baremo, es decir, una tabla de equivalencia desde donde puede identificarse
el percentil correspondiente para cada puntuación natural u original. De esta
manera, el usuario de la prueba no requiere calcular la fórmula, sino que se
84
TANGAMANGA
Account: ns023844
limita a leer la tabla e identificar el percentil correspondiente para la puntua-

ción natural que le interesa interpretar. En la figura 3 se presenta un baremo
para la escala de autoinculpación del ejemplo. Sugerimos al lector que trate de
interpretar el puntaje natural que obtuvo utilizando este baremo.
Figura 3. Baremo de la escala de autoinculpación

(extraído de Medrano et al., 2013).
En este baremo en la columna de la derecha aparecen puntajes natura-

les, y en la columna de la izquierda los correspondientes percentiles. De esta
manera, si obtuvimos un puntaje de 10 significa que superamos solo al 25%
de las personas de la muestra. Esto significa que el 75% del grupo normativo
obtuvo mayor puntaje que nosotros. De esta forma podemos interpretar que
nuestro nivel de autoinculpación es muy bajo. Si obtuvimos entre 14 y 16
puntos, significa que nos encontramos dentro del percentil 75, por lo que
superamos al 75% del grupo normativo. Por lo cual nuestro nivel de autoin-
culpación es alto.
Los percentiles dividen al grupo normativo en 100 partes, por lo que
generalmente no se reportan todos los valores percentilares. Los valores típi-
cos que se suelen considerar son el percentil 50, 25 y 75. Estos dos últimos
percentiles suelen utilizarse para indicar la presencia significativamente eleva-
da y baja (respectivamente) de un constructo en un individuo.
La facilidad de interpretación de los percentiles los hace especialmente
atractivos, pero conllevan una gran desventaja. Se trata de una transformación
no lineal que altera la distribución original de las puntuaciones naturales. Este
problema no es grave cuando usamos una prueba con fines profesionales (por
ejemplo, para realizar un informe psicométrico), pero si es un problema serio
cuando lo utilizamos con fines de investigación ya que al alterar la distribu-

ción original de los datos no podemos calcular procedimientos estadísticos
sobre estos puntajes transformados. Técnicas como el análisis factorial o el
coeficiente de correlación pueden verse seriamente afectadas si trabajamos
sobre los valores percentilares. Por este motivo, es habitual que se utilicen los
TANGAMANGA
Account: ns023844
percentiles con fines de comunicación profesional, y las puntuaciones están-

dar sean más comunes en contextos de investigación.
Interpretación referida a Criterios.
Supongamos que llega un paciente a nuestro consultorio y que al ana-

lizar las respuestas que nos brinda en una prueba observamos que presenta
síntomas como: estado de ánimo deprimido la mayor parte del día, disminu-
ción del interés o placer por hacer las cosas, insomnio, fatiga, sentimientos
de inutilidad y pensamientos recurrentes de muerte. ¿Es necesario comparar
su puntaje con un grupo normativo para decidir si requiere de tratamiento
psicológico? O bien imaginemos que un alumno responde correctamente el
90% de las preguntas de un examen. ¿Sería necesario calcular el percentil
correspondiente para determinar a cuantos compañeros superó y así poder
definir si sabe o no sabe los contenidos de la materia?
En este tipo de situaciones no requerimos comparar el puntaje natural
de la prueba con el de un grupo de referencia. Independientemente de cuales
hayan sido la cantidad de preguntas que respondieron correctamente el resto
de los alumnos de la clase podemos afirmar que si una persona responde el
90% de las preguntas conoce los contenidos de la materia. De la misma ma-
nera, no requerimos comparar los puntajes del paciente con otros pacientes
para afirmar que presumiblemente presenta un diagnóstico de depresión.
Una forma alternativa a la interpretación referida a normas consiste en
comparar las puntuaciones naturales con un criterio previamente especifica-
do. Por ejemplo, podemos fijar un criterio de desempeño en determinado
dominio, como puede ser responder al menos 15 preguntas de un total de 30
para aprobar un examen. Aquí el marcode referencia va a estar constituido por
la medida en la cual un sujeto cumple con este criterio especificado.
En las interpretaciones referidas a criterio en vez de comparar el pun-
taje del sujeto con un grupo de referencia, se analiza la posición absoluta del
individuo con respecto a un dominio de conductas previamente definido.
Tomemos como ejemplo la interpretación que puede realizarse del PHQ-9.
Esta prueba presenta una serie de ítems (figura 4) que reflejan los criterios
diagnósticos de depresión establecidos por el DSM-IV. Para la interpretación
de la prueba se ha propuesto u algoritmo que establece que si el examinado
puntúa 2 (más de la mitad de los días) o 3 (casi todos los días) en al menos dos
de los primeros ítems, y 2 o 3 en al menos 5 de los 9 ítems restantes, entonces
corresponde el diagnostico presumible de depresión (sin necesidad de tener

que comparar este puntaje con el de un grupo normativo).
86
TANGAMANGA
Account: ns023844
Figura 4. Ítems del PHQ-9 para la evaluación de la depresión.
Este método de interpretación es más habitual en contextos donde se

trabaja con dominios claramente delimitados. Su utilización es más común
en evaluación educativa y clínica, ya que la interpretación referida a criterio
puede resultar más útil para determinar si un alumno adquirió una serie de
contenidos, evaluar si una persona requiere de tratamiento psicológico o eva-
luar los efectos de una intervención (clínica o educativa) sobre un dominio
de interés.
A modo de síntesis
Las puntuaciones naturales que obtenemos de un test no pueden inter-

pretarse directamente ya que las mediciones en psicología no poseen unidades
constantes de medición y carecen de cero absoluto. Por este motivo es que
TANGAMANGA
Account: ns023844
debe apelarse al uso de diferentes estrategias para poder interpretar los pun-
tajes de una prueba. En el presente capítulo se analizaron los dos métodos de
interpretación más utilizados: la interpretación referida a normas, y la inter-
pretación referida a criterios.
Es importante señalar que hablar de pruebas referidas a normas o prue-
bas referidas a criterio es inapropiado (Hogan, 2004), ya que no es la prueba
sino el marco de referencia para interpretar el puntaje natural lo que refiere al
criterio o la norma. De hecho, ambos tipos de interpretación pueden utilizar-
se en una misma prueba.
La interpretación referida a normas es la estrategia más común para
interpretar las puntuaciones naturales de un test y poder otorgarles un signifi-
cado. Este método consiste en comparar el puntaje obtenido por el individuo
con los obtenidos por un grupo de referencia. Para poder hacerlo debemos
transformar los puntajes originales en puntuaciones derivadas que nos permi-
tan indicar la posición relativa de los puntajes directos individuales en rela-
ción al grupo de referencia. Existen dos métodos populares de trasformación:
las puntuaciones estándar y los rangos percentilares y percentiles.
Los percentiles son más fáciles de interpretar y comunicar, pero alteran
la distribución original de las puntuaciones naturales afectando el funciona-
miento de diversos procedimientos estadísticos. Por su parte, las puntuacio-
nes estándar respectan la distribución original de las puntuaciones naturales,
pero son más difíciles de comunicar para un público no especializado. Por este
motivo, es habitual que se utilicen los percentiles con fines de uso profesional,
y las puntuaciones estándar sean más comunes en contextos de investigación.
Las interpretaciones referidas a criterio en vez de comparar el punta-
je del sujeto con un grupo de referencia, analizan la posición absoluta del
individuo con respecto a un dominio de conductas previamente definido.
Este método de interpretación es especialmente útil para medir cambios en
los propios individuos, es decir diferencias intraindividuales observadas como
efecto de una intervención clínica o educativa. Por ello resulta una interpre-
tación más adecuada para fines de diagnóstico y evaluación de la eficacia de
intervenciones psicológicas sobre el dominio o constructo en estudio.
88
TANGAMANGA
Account: ns023844
|
Construcción y Adaptación de Test Psicométricos

Leonardo Medrano, Edgardo Pérez y Alberto Fernández
Introducción
En el presente capítulo se presentan de manera resumida los pasos que

involucra un proceso de construcción y adaptación de un test psicométrico.
Asimismo, se pretende introducir al lector en una problemática a la que se
enfrentan psicometristas argentinos y latinoamericanos; la decisión de adap-
tar o construir tests. En efecto, la utilización de tests psicológicos creados en
otros contextos culturales es una práctica habitual sobre todo en regiones con
menor desarrollo científico, tales como Latinoamérica. El uso de una prue-
ba desarrollada en un contexto cultural diferente genera múltiples dificulta-
des. El idioma, la familiaridad con los estímulos, y la comparabilidad de las
muestras de estandarización son ejemplos de fuentes de posibles sesgos en la
medición transcultural de constructos psicológicos. Esto lleva a que no puede
presuponerse que las teorías e instrumentos desarrollados en una cultura sean
válidos en otra.
Un debate frecuente en la investigación psicológica es si los constructos
psicológicos se manifiestan de manera semejante en diferentes grupos cultu-
rales. Los posicionamientos más radicales en este debate pueden diferenciarse
en dos grupos, aquellos que postulan que los constructos psicológicos poseen
un comportamiento universal y niegan la existencia de diferencias culturales
(enfoque etic) o bien, aquellos que consideran que cada cultura es única y que
los constructos psicológicos deben indagarse considerando la particularidad
de cada cultura (enfoque emic). En general se acuerda en considerar que la
realización de una medición apropiada debe contemplar aspectos émicos y
éticos. No contemplar estos aspectos puede dar lugar a la aparición de sesgos
de medición. Dado que la mayoría de las teorías psicológicas actuales, han
sido desarrolladas en otros contextos culturales, sobre todo en universidades
norteamericanas, los psicometristas de países menos desarrollados se ven en la
necesidad de tener que adaptar pruebas o bien construir nuevos instrumentos
para lograr mediciones válidas y confiables para su contexto cultural.
TANGAMANGA
Account: ns023844
Sesgos, Construcción y Adaptación de Test
Como se mencionó anteriormente, una medición apropiada de un

constructo debe contemplar aspectos émicos (aspectos o características univer-
sales) y éticos (aspectos propios y característicos de una cultura en particular). Por
ejemplo, algunos constructos en psicología poseen componentes universales
y espeíficos de cada cultura. Tal es el caso de los comportamientos socia-
les, ya que algunas conductas sociales se manifiestan de manera semejante en
diferentes culturas (por ejemplo, la expresión facial de emociones básicas),
mientras que otros comportamientos sociales son particulares de una cultura
(por ejemplo, saludar a otra persona inclinando la cabeza, dando un beso o
tomando de la mano). Una prueba que pretenda evaluar apropiadamente los
comportamientos sociales, debería presentar ítems que reflejen tanto compo-
nentes émicos, como éticos (figura 1).
No contemplar la existencia de estos componentes puede llevar a la
aparición de sesgos, esto significa que las diferencias observadas en las pun-
tuaciones de un test no reflejan las diferencias reales en un rasgo o habilidad,
por el contrario, hablamos de equivalencia cuando las puntuaciones de un test
reflejan diferencias que existen verdaderamente en el rasgo en cuestión.
Figura 1. Ejemplos de componentes émicos y éticos en un constructo psicológico
90
TANGAMANGA
Account: ns023844
Tomemos como ejemplo una hipotética investigación en donde se mi-

diese la capacidad de denominar objetos o animales. Si entre los ítems estu-
vieran incluidas las figuras de un canguro y un oso koala es más probable que
una muestra de australianos obtenga puntuaciones superiores a las de una
muestra de argentinos. Estos datos no estarían demostrando una mayor capa-
cidad de denominación de los por parte de ls australianos, sino que sugerirían
que el indicador empleado en la medición está sesgado. Es decir, existe un ele-
mento diferente (la familiaridad con el estímulo presentado en este ejemplo)
a la capacidad (de denominación en este caso) que influye en el desempeño
en la prueba. Entre los sesgos más habituales se encuentran el sesgo de ítem,
el sesgo de constructo y los sesgos metodológicos (Fernández, Pérez, Alderete
y Richaud de Minci, 2015; Van de Vijver y Tanzer, 1997).
El sesgo del ítem es habitual cuando un constructo posee muchos ele-
mentos éticos y algunos componentes émicos (figura 2). Este sesgo consiste
en que la mayor parte de los elementos de la prueba son equivalentes en
ambas culturas, pero algunos ítems tienen un significado diferente. De esta
forma, ciertos grupos culturales pueden obtener puntajes significativamente
distintos en un ítem determinado a pesar de obtener un puntaje total similar
en el test.
Figura 2. Representación de sesgo de ítem.
Por ejemplo, el PANAS constituye un instrumento desarrollado para

evaluar afecto positivo y negativo indagando sobre diferentes emociones. En
general la estructura de afecto positivo involucra emociones como estar ale-
gre, interesado o activo, mientras que el afecto negativo implica emociones

como tener temor, sentirse culpable o nervioso. Esta estructura se ha replicado
en diferentes culturas. Sin embargo, en algunas culturas orientales, sentirse
avergonzado en vez de ser conceptualizado como una emoción displacentera
se asocia al afecto positivo, ya que mostrarse avergonzado se considera una
TANGAMANGA
Account: ns023844
acción honorable. De la misma forma, en algunas culturas confucianas la

expresión de alegría se considera inadecuado ya que implica priorizar un sen-
timiento individual por sobre uno colectvo (Keller & Otto, 2009). Estos son
ejemplo de ítems que pueden tener un significado diferente según la cultura,
aunque la mayor parte de los reactivos se mantengan equivalentes.
El sesgo de constructo ocurre cuando el constructo posee muchos ele-
mentos émicos y pocos componentes éticos (figura 3). En este caso las di-
ferencias culturales no se focalizan en solo algunos comportamientos, sino
que el constructo medido difiere entre una cultura y otra. Por ejemplo, una
variable tan clásica como la inteligencia tiende a ser conceptualizada de muy
diverso modo de unas culturas a otras; mientras en Occidente suele asociarse
a eficiencia y rapidez, en algunas sociedades del Este se asocia con actitudes
reflexivas y reposadas, más que con rapidez (Lonner, 1990). En consecuencia,
difícilmente una prueba desarrollada en un contexto cultural pueda reflejar de
manera válida el constructo tal como se manifiesta en la otra cultura.
Figura 3. Representación de sesgo de constructo.
Finalmente, las diferencias culturales pueden introducir sesgos metodo-

lógicos. Este ocurre cuando los factores culturales afectan aspectos metodo-
lógicos vinculados a la ejecución de la prueba. Por ejemplo, en países árabes
la lectura se realiza de izquierda a derecha, esto puede afectar la manera en
que se completa algunas pruebas donde la disposición del texto tiene mucha
relevancia (por ejemplo, pruebas de completamiento de frases o cancelación
de letras). El idioma también puede ser fuente de sesgo metodológico, por
ejemplo, Lau y Hoosain (1999) demostraron que los individuos chino-par-

lantes rinden más que los sujetos japonés-parlantes en una prueba de cálculo
mental. Estos últimos, a su vez, superan en su desempeño a las personas an-
glo-parlantes. Los autores pudieron demostrar que estas diferencias estaban
relacionadas a la duración de los dígitos cuando son pronunciados, lo que a
92
TANGAMANGA
Account: ns023844
su vez está vinculado con la memoria de trabajo. La menor duración de los

dígitos en el japonés que en el inglés les otorgaba ventaja a los japoneses y, a
su vez, la menor duración de la pronunciación de los dígitos en chino com-
parado al japonés e inglés, les daba ventaja a los chinos sobre los dos grupos
restantes. Este tipo de sesgo metodológico se suele denominar sesgo de instru-
mento, ya que afecta a la totalidad de la prueba.
La existencia de los diferentes sesgos mencionados demuestra que pue-
den cometerse graves errores cuando se traslada automáticamente un test
construido en un grupo cultural a otro. Esto lleva a que los psicometristas de
países donde la producción de test es menor, se deban enfrentar con el proble-
ma de optar por construir o adaptar una prueba. A continuación, se exponen
de manera sintética los métodos y pasos implicados en cada caso.
Métodos y pasos implicados en la construcción de Test
El procedimiento habitual en la construcción de test implica los siguien-

tes pasos: 1) delimitación del dominio del test, características de la población
a la cual va dirigido y estructura formal del test (instrucciones, contenido y
formato de respuesta a los ítems), 2) redacción de los ítems, 3) revisión de los
ítems por expertos, 4) análisis de las propiedades psicométricas (confiabilidad,
validez y establecimiento del método de interpretación), y 5) elaboración de
los materiales definitivos de prueba (manual, cuadernillo de ítems, hoja de
respuesta). El análisis de las propiedades psicométricas (punto 4) se ha desa-
rrollado a lo largo del libro, por lo que a continuación nos centraremos en las
fases restantes.
Definición del dominio

La construcción de un test requiere previamente un exhaustivo análisis
conceptual del dominio o constructo a medir. Este análisis implica la selec-
ción y revisión de las teorías más relevantes, rigurosas y contemporáneas en
relación al constructo de interés. Se deben obtener definiciones conceptuales
ajustadas del dominio que se desea medir, así como seleccionar los indicadores
operacionales adecuados para describirlos.
Lograr una adecuada definición conceptual del dominio y seleccionar
los indicadores operacionales es una tarea muy compleja. Se han desarrollado
diferentes métodos para la elaboración de pruebas. El método de contenido o
también conocido como método lógico y racional, fue uno de los primeros
en desarrollarse en psicometría. Este método no se apela a teorías previas

para la redacción de reactivos, sino que se centra en la validez aparente y el
sentido común. En ejemplo de una prueba desarrollada con este método es el
Woodworth Personal Data Sheet. Sin embargo, en la actualidad es un método
en desuso.
TANGAMANGA
Account: ns023844
Otra metodología tradicional de corte netamente empírico son los métodos de

clave empírica. Básicamente consiste en elegir los reactivos en función de su capacidad
para discriminar entre dos grupos de referencia. No se parte de un modelo teórico
previo, sino de un pool inicial de reactivos que serán o no incluidos en la prueba en
función de su capacidad para discriminar dos grupos (normal y clínico, por ejemplo).
El MMPI-II es un ejemplo de un test desarrollado mediante este método.
Con el perfeccionamiento del análisis factorial tomaron fuerzo los métodos de
reducción de datos como estrategia para la elaboración de pruebas. Este método con-
siste en redactar ítems y examinar las correlaciones entre los reactivos e identificar
factores subyacentes mediante análisis factorial. Posteriormente se asigna un nombre
a los factores identificados que describe el significado de la dimensión subyacente. El
Cuestionario de Intereses Profesionales (CIP) constituye un ejemplo de esta metodo-
logía, ya que los factores obtenidos son empíricos, es decir, no parten de un modelo
teórico previo.
En la actualidad los métodos de corte empírico “ateóricos” se encuentran en
declive. El método más recomendado para la elaboración de pruebas consiste en par-
tir de una clara delimitación conceptual, para luego recabar evidencias empíricas que
permitan determinar su validez. Para ello resulta indispensable partir de un buen mo-
delo teórico que describa con claridad no solo el constructo, sino también sus dimen-
siones. Las estrategias de análisis, como el análisis factorial confirmatorio, permitirán
determinar si efectivamente el modelo de medición propuesto es plausible. Por ejem-
plo, el Inventario de Autoeficacia para Inteligencias Múltiples constituye un buen
ejemplo de esta metodología, ya que parte de un modelo teórico bien delimitado (la
teoría de las ocho inteligencias propuestas por Gardner, 1983), en combinación con
métodos empíricos que aportan evidencias empíricas sobre la validez del modelo.
Antes emprender la redacción de los ítems, es necesario también delimi-
tar aspectos complementarios del test, tales como: finalidad y población meta
del test (por ejemplo, un inventario de autoinforme para evaluar el autocon-
cepto en niños), modo de aplicación (individual o colectivo, por ejemplo),
formato de respuesta (dicotómica o tipo lickert, por ejemplo), y tiempo de
administración (duración del test), entre otras consideraciones preliminares
(Hogan, 2004).
Redacción de los ítems

Existen pautas convencionales para la redacción de ítems de tests. Estas
incluyen recomendaciones como redactar ítems congruentes con el objetivo
de medición, evitar ítems demasiados largos (de más de 20 vocablos), evitar
oraciones complejas con ambigüedades de sentido, evitar frases con dobles

negaciones, evitar el uso de expresiones extremas (nunca, siempre, todos), uti-
lizar el nivel de dificultad del lenguaje más apropiado al nivel de maduración
y educativo de la población meta de la medición.
Para Nunnally (1991) los dos errores más comunes en la redacción de
94
TANGAMANGA
Account: ns023844
ítems son la ambigüedad (preguntas vagas que admiten varias respuestas, por
ejemplo, “que pasó con el Arte en el siglo XV?”); y la trivialidad (centrarse en
aspectos poco importantes del constructo o dominio, por ejemplo, requerir
la memorización de fechas irrelevantes). Por su parte Bandura (2001), reco-
mienda redactar ítems que consideren diferentes niveles de dificultad, sobre
todo cuando se evalúa autoeficacia o en pruebas de habilidades. Si no hay
obstáculos que superar todos los sujetos tendrán altas creencias de eficacia
en dicha actividad o responderán fácilmente al ítem. En contrapartida, ac-
tividades absurdamente difíciles generarán que las personas expresen escasas
creencia de eficacia o no puedan responder correctamente. En cualquiera de
los dos casos los ítems pierden poder discriminativo. Para evitar problemas
de este tipo resulta recomendable redactar ítems con una amplia variedad de
niveles de dificultad.
Finalmente, debe evitarse la redacción de “ítems multidimensionales”,
los cuales se caracterizan por indagar sobre más de una actividad, ej: “Cuales
son las creencias sobre tus capacidades para pintar un cuadro y cantar en un
coro”. Redacciones de este tipo impiden medir con precisión un comporta-
miento específico (Bandura, 2001). En efecto, en el ítem anterior la persona
puede sentirse confundida para responder, puesto que se siente competente
para cantar pero no para pintar, por ejemplo.
Revisión de expertos
La mayoría de los autores recomiendan que los ítems preliminares sean
revisados por expertos, tanto en construcción de pruebas, como en el domi-
nio o rasgo a medir (autoeficacia, por ejemplo), y en la población a la cual se
dirije el test (preadolescentes, por ejemplo). Los tres aspectos esenciales que
los expertos deben evaluar en cada ítem son: a) claridad semántica y correc-
ción gramatical, adecuación al nivel de comprensión de la población meta
(niños, por ejemplo), y c) congruencia con el constructo o dominio medido.
Este último es el principal parámetro y hace referencia al grado de con-
sistencia que debe existir entre un ítem particular y los constructos a medir
por el test. Los procedimientos empíricos para cuantificar el juicio de expertos
acerca de la calidad de los ítems fueron descriptos en el capítulo de validez
(apartado de evidencia relacionada con el contenido).
Además del juicio de experto siempre es conveniente administrar la ver-
sión preliminar de la prueba a una muestra piloto, es decir una muestra de
menor tamaño pero relativamente representativa de la población meta. La
posibilidad de efectuar un estudio piloto permite confirmar si los ítems son

claros y comprensibles para la población meta del test que se está desarrollan-
do. Otro de los aspectos que se suelen evaluar en las pruebas piloto son: 1)
familiaridad con el vocabulario y expresiones utilizadas en los ítems y en las
instrucciones; 2) comprensión de los ítems y de las instrucciones; 3) motiva-
TANGAMANGA
Account: ns023844
ción que genera en los evaluados; 4) el tiempo que insume la aplicación del
instrumento, y 7) análisis de dificultades en la codificación de las respuestas
(Moretti y Medrano, 2012).
Elaboración de los materiales definitivos de prueba

Habitualmente el trabajo de construcción de un instrumento fue tan
agotador, que muchos investigadores no desarrollan esta última etapa. Sin
embargo, los psicólogos que se dedican a la construcción de pruebas tiene la
obligación de elaborar un material (un manual, por ejemplo), que propor-
cione información adecuada sobre las características técnicas del instrumen-
to y una descripción cuidadosa del mismo. Muchas pruebas se publican en
manuales comercializados a través de editoriales (las cuales suelen tener un
catálogo de diferentes pruebas psicológicas). Cuando esto ocurre la editorial
toma los derechos sobre la prueba, y como consecuencia, los ítems solo son
accesibles con la compra del material. No obstante, muchos investigadores
prefieren poner a disposición el manual y los ítems de la prueba para que otros
usuarios e investigadores puedan acceder de forma libre.
Métodos y pasos implicados en la Adaptación de Tests
Actualmente se reconoce que la adaptación de un test es un proceso mu-

cho más complejo que la mera traducción a un idioma diferente. Una adap-
tación implica considerar no sólo las palabras utilizadas al traducir la prueba
sino también las variables culturales involucradas. La adaptación de una prue-
ba no involucra solamente la traducción de los ítems, sino que conlleva una
serie de estudios tendientes a determinar la equivalencia entre las pruebas.
Concretmente los pasos involucrados en la adaptación son: 1) traducción de
la prueba, 2) estudios de equivalencia, 3) análisis de las propiedades psicomé-
tricas (confiabilidad, validez y establecimiento del método de interpretación),
y 4) elaboración de los materiales definitivos de prueba (manual, cuadernillo
de ítems, hoja de respuesta). Los pasos tres y cuatro fueron desarrollados an-
teriormente, por lo cual solo se explicarán los dos primeros pasos.
Traducción de la prueba
El proceso de traducción de una prueba es complejo e implica más que
la traducción literal de las palabras escritas a un nuevo lenguaje. Existen dos
métodos fundamentales: la traducción directa (forward translation) e inversa

(backward translation). En el método de traducción directa un traductor o,
preferentemente, un grupo de traductores, traducen el test desde el idioma
original al nuevo idioma. Luego otro grupo de traductores juzga la equivalen-
cia entre las dos versiones. De este modo pueden realizarse las correcciones
96
TANGAMANGA
Account: ns023844
pertinentes a las dificultades o errores identificados. En el caso de la traduc-

ción inversa, el más utilizado de los métodos, un grupo de traductores realiza
una traducción desde el idioma original al nuevo idioma; luego un segundo
grupo de traductores toma el test traducido (en el nuevo idioma) y vuelve a
traducirlo al idioma original. Seguidamente, se realizan las comparaciones
entre la versión original y la versión retraducida al idioma original para deter-
minar su equivalencia. Ambos métodos poseen ventajas y desventajas que no
serán analizadas en este texto introductorio. El lector interesado en profundi-
zar esta problemática específica puede consultar el texto clásico de Hambleton
(1994).
Independientemente del método de traducción que utilicemos, es im-
portante señalar que las traducciones deben realizarse atendiendo a una equi-
valencia conceptual, semántica y funcional de los ítems, más que a una equi-
valencia literal (Herdman, FoxRushby y Badia, 1997; Mimura y Griffiths,
2008). Si bien existe cierto solapamiento entre estos tres tipos de equiva-
lencia, las mismas refieren a diferentes aspectos necesarios para asegurar un
adecuado funcionamiento de los ítems traducidos.
La equivalencia conceptual consiste en que el ítem original y el tra-
ducido evalúen el mismo constructo teórico. Por ello puede que algunas de
las traducciones realizadas no presenten las mismas palabras que los ítems
originales, ya que debe priorizarse una correspondencia con el constructo me-
dido y no una correspondencia literal. Por ejemplo, durante el proceso de
adaptación de una escala norteamericana sobre Apoyo Percibido se incluían
la figura de consultor o consejero académico de la universidad. Estas figuras
son inexistentes en el contexto local, por lo que al realizar la adaptación del
instrumento Medrano, Pérez y Liporace (2014) optaron por modificar dichas
palabras por figuras académicas equivalentes (por ejemplo, “get helpful assis-
tance from my advisor” fue traducida como “puedo obtener ayuda provechosa de
mis profesores”).
La equivalencia semántica hace referencia a que las palabras traduci-
das tengan el mismo significado tanto a nivel connotativo como denotativo.
Mientras que la denotación de una palabra puede ser la misma (referirse a un
mismo objeto, acción o propiedad) su connotación o significado emocional
puede ser distinto. Este tipo de equivalencia resulta especialmente importante
en las expresiones idiomáticas que no poseen una traducción directa a nuestro
idioma. En caso de que exista un significado equivalente pero no una expre-
sión idiomática del mismo, la solución es crear una expresión u oración de
significado equivalente. En caso de que no exista la expresión idiomática ni el
significado de la misma, entonces se trata de un ítem específico de la cultura

que no puede ser traducido. Por ejemplo, un ítem de una escala norteameri-
cana sobre Expectativas de Resultados decía: “... do work that can “make a di-
fference” in people’s lives”, el cual fue traducido por Medrano, Pérez y Liporace
TANGAMANGA
Account: ns023844
(2014) como “realizar un trabajo que pueda mejorar la vida de otras personas”.
Finalmente, la equivalencia funcional se circunscribe a que las acciones
involucradas en los reactivos posean metas y dificultades semejantes en am-
bas culturas. De hecho, puede suceder que una misma acción posea metas
diferentes según la cultura (por ejemplo, ganar un buen salario), o bien que
la dificultad para realizarla varíe de una cultura a otra (acceder a un título
universitario o sobresalir en un área académica, por ejemplo). Por ejemplo,
un ítem de una escala norteamericana sobre Progreso de Metas Académicas
incluye la meta de “permanecer inscripto” en la universidad. Esta acción re-
sulta más simple en nuestro contexto dado que un alumno de la universidad
nacional puede permanecer inscripto durante años sin necesidad de aprobar
materias o rendir exámenes. En función de ello Medrano, Pérez y Liporace
(2014) optaron por traducir el ítem como “permanecer regular en el curso”,
manteniendo así un nivel semejante de dificultad.
Estudios de equivalencia
Una vez que se ha traducido adecuadamente la prueba debe establecerse
si esta la versión traducida es equivalente a la original. Existen dos estrategias
que son ampliamente utilizadas para determinar esta equivalencia. Una de
ellas es la administración del test original y traducido a individuos bilingües. En
este caso se les administra ambas versiones de un test a personas que hablen
ambos idiomas. Este método posee ventajas y limitaciones. En primer lugar
permite controlar las diferencias de los participantes en el test en el rasgo
que se está midiendo (inteligencia, por ejemplo), puesto que ambas versio-
nes del test son administradas a las mismas personas. Sin embargo, posee la
desventaja de asumir que los individuos son igualmente competentes en am-
bos idiomas, lo cual es difícil de sostener. Es probable entonces, que puedan
observarse diferencias entre los resultados de ambas versiones debido a una
menor capacidad de algunas personas para entender los ítems en alguno de
los dos idiomas. La segunda gran desventaja de este diseño es que no puede
asegurarse que los bilingües posean el mismo nivel de competencia que la po-
blación general. Por el hecho de conocer otro idioma es probable que se trate
de personas con una mayor capacidad intelectual o mejor educación.
El segundo método es la administración de la versión original del test y
su traducción inversa a monolingües en el idioma original. Supongamos que
traducimos una prueba de idioma ingles mediante tradución inversa. Enton-
ces dispobemos de dos versiones en inglés, la orginal y la re-traducida. Este
método consiste entonces en administrar ambas versiones (la versión original

y la versión obtenida por traducción inversa) a personas cuyo idioma natal es
el inglés. La equivalencia en los ítems se determina comparando el desempeño
de cada individuo en cada ítem de ambas versiones. Nuevamente, la ventaja
98
TANGAMANGA
Account: ns023844
está en el control de las diferencias en las características de los participantes.

Una gran limitación es que este diseño no permite obtener datos de la versión
en el idioma meta del test (español en este ejemplo).
A modo de síntesis
La utilización de tests psicológicos creados en otros cotextos culturales

es una práctica habitual en todo el mundo. Este fenómeno es particularmente
frecuente en los países de las regiones con menor desarrollo científico, como
Latinoamérica. El uso de un determinado test en un contexto cultural dife-
rente al que fue creado genera diversas dificultades. La existencia de sesgos en
un test puede conducir a obtener resultados gravemente erróneos. En un test
utilizado con fines clínicos, por ejemplo, se puede concluir la presencia de un
rasgo de personalidad patológico cuando este rasgo es normal en la cultura del
individuo examinado.
Optar por construir o adaptar una prueba tests no posee, naturalmente,
una respuesta simple y categórica. Desde una perspectiva estrictamente psi-
cométrica ambas opciones son equivalentes en dificultad y costos. Excepto la
fase teórica inicial, las demás secuencias son requeridas tanto para la construc-
ción como para la adaptación de tests (figura 4).
Figura 4. Comparación de pasos para la construcción y adaptación de pruebas.
Probablemente la fase más compleja del proceso de construcción de un

test sea justamente la delimitación conceptual del constructo a medir. Esto
requiere contar con una teoría validada del constructo y su red de relaciones
causales, así como elaborar definiciones operacionales adecuadas de aquél.

Adaptar alguno de estos tests implica la problemática tarea de verificar la equi-
valencia de sus propiedades métricas en otras culturas, pero nos asegura una
teoría subyacente bien establecida. La postura más conveniente parece ser la
TANGAMANGA
Account: ns023844

Manual de Psicometria

Uploaded by

Document Information

Original Description:

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Manual de Psicometria

Uploaded by

Copyright:

Available Formats

Copyright © 2019. Editorial Brujas. All rights reserved.

EBSCO Publishing : eBook

Leonardo Medrano y Edgardo Pérez

Alberto Luis Fernández; María Marta Morales; María

Título: Manual de Psicometría y Evaluación Psicológica

Archivo Digital: online

1. Psicología. 2. Psicometría. I. Pérez, Edgardo. II. Título.

© De todas las ediciones, los autores

Queda hecho el depósito que marca la ley 11.723.

Parte I. Psicometría: Teoría y Normas Técnicas........................................................11

Un panorama de los test psicométricos: generalidades, clasificación y tendencias

Normas Psicométricas: Evidencias de Validez ................................................................51

Normas Psicométricas: Confiabilidad...............................................................................67

Dimensiones y métodos para verificar la confiabilid ........................................................71

Construcción y Adaptación de Test Psicométricos...........................................................89

Parte II. Evaluación Psicológica mediante instrumentos psicométricos...........101

Evaluación Psicométrica en Psicología Educacional.....................................................105

Evaluación Psicométrica en Psicología Clínica y de la Salud.......................................147

Evaluación Psicométrica en Psicología Organizacional................................................183

Pruebas Psicométricas en la Evaluación Neuropsicológica .........................................203

Evaluación Psicométrica en Áreas Emergentes.............................................................219

Organización y Redacción de Informes Psicométricos .................................................235

¿Cómo redactar un informe Psicométrico?.........................................................................238

Apéndice I: ¿Cómo leer artículos de Investigación en Psicometría?

Apéndice II: Revisión de Conceptos y Procedimientos Estadísticos............................261

Apéndice III: El uso de Biomarcadores como complemento de la Evaluación

La medición es el núcleo de la ciencia y sus aplicaciones. Su importancia

test que permitan reflejar al amplio espectro de evaluación de las técnicas

Introducción a la Psicometría: el desafío de

La medición constituye un prerrequisito para toda disciplina que pre-

¿Qué significa medir?

La medición constituye fundamentalmente un proceso de abstracción.

te vas a quemar”, y la otra persona entenderá la información sin necesidad

análogo al del lenguaje, la diferencia radica en que en vez de utilizar palabras

Figura 1. Ejemplo de medición:

Para Stevens (1949)

reglas. Según este autor, puede diferenciarse un sistema

básicamente implica usar números para representar las relaciones observadas

Figura 2. Ejemplo de medición nominal: el isomorfismo entre el sistema empírico y numérico

Ejemplo de este el nivel primario,

Figura 3. Ejemplo de medición ordinal: el isomorfismo entre el sistema empírico y numérico

Finalmente existen las mediciones métricas, donde el ismorfismo no se

Un ejemplo de este tipo de medición podría ser el consumo de alcohol.

¿Es posible medir en psicología?

La medición en psicología conlleva una serie dificultades, que llevan

indirecta mediante indicadores operacionales, es decir, manifestaciones exter-

de indicadores observables o empíricos. Por ejemplo, podemos ver si presenta

1. No explicitar las reglas que utilizamos para medir un constructo. Pue-

do para medir la depresión, y el otro utiliza un método alternativo.

constructo (por ejemplo, inteligencia) pero que utilizan metodolo-

Debido a las dificultades que conlleva efectuar una medición de los

¿Qué es la Psicometría y cuáles son sus contribuciones a la ciencia

En 1879, Sir Francis Galton introdujo el concepto de “psicometría”,

la construcción y análisis de instrumentos de medición, y b) las técnicas psi-

Una vez puntuados los comportamientos seleccionados calculamos un

Figura 5. Ejemplos de consigna y escala de respuesta para ítems de responsabilidad.

Por otro lado, debemos recordar que un mismo constructo o dominio

observación subjetiva y aumentar las posibilidades de replicabilidad por parte

Un panorama de los test psicométricos:

Las ventajas que conlleva la medición mediante test psicométricos ha gene-

Clasificación de los Test Psicométricos

Es común encontrar en la literatura psicométrica diversas taxonomías

tren a una persona por vez o a un grupo de individuos simultáneamente; b)

Las opciones de respuesta a ítems como el anterior en este tipo de in