Avaliação Psicométrica PDF

You might also like

Download as pdf
Download as pdf
You are on page 1of 13
Avaliagéo psicométrica a qualidade das medidas e o entendimento dos dados Jandyra M.G. Fachel, Suzi Camey m varios pontos deste livro, temos insisti- do em dizer que o psicdlogo deve estar ci- ente das propriedades psicométricas de seus instrumentos, ou, melhor, deve ser capaz de avaliar a qualidade de suas medidas. Por outro. lado, quando trabalhamos com instrumentos quantitativos, sao utilizadas medidas estatisti- cas, que fornecem dados que devem ser ade- quadamente entendidos para a integracao de resultados, num laudo. Entretanto, parece que, as vezes, 0 psicélogo fica em divida sobre a qualidade de seus testes, como também se observa eventual dificuldade de aplicar seus co- nhecimentos de estatistica a situacées concre- tas de avaliacao psicoldgica. Sao questées que tém que ver com o estabelecimento do plano de avaliago (que instrumentos escolher?) e com © fechamento da avaliacdo (como inte- grar resultados de diferentes instrumentos, que utilizam sistemas diversos, quanto a sua equiva- léncia, como percentis, Qls, etc.). Como essas questées merecem muita atencdo, sero, neste capitulo, apresentados subsidios a respeito. A QUALIDADE DAS MEDIDAS Jandyra M.G. Fachel Introducao aos conceitos de fidedignidade e validade Na psicologia e em outras dreas de ciéncias do comportamento, é usual a construcao de es- 158 Jurema Atcives Cunna calas para medir varidveis, conceitos ou cons- tructos tedricos nao diretamente observaveis, como, por exemplo, inteligéncia, depressao, tracos de personalidade, etc. O objetivo, ao construir essas escalas, é que essas medidas sejam o mais precisas possivel e que megam realmente o que se estava querendo medir. Esses dois conceitos dizem respeito a fidedig- nidade (precisao, exatidao) e a validade das escalas de medidas, respectivamente, e 6 0 que abordaremos nesta secao. Para tornar claros esses conceitos, costumamos dar 0 seguinte exemplo: para medir 0 comprimento de uma mesa, podemos fazé-lo de varias formas: uma maneira seria utilizar uma régua, a outra seria utilizar nosso palmo sabendo que ele tem apro- ximadamente 20 cm, digamos. As duas ma- neiras para medir 0 comprimento da mesa so vélidas para medir comprimento, no entanto, uma é mais precisa, mais fidedigna do que a outra, isto é, a régua é mais precisa do que palmo. A maioria das escalas de medida em cién- cias do comportamento sao escalas aditivas, isto é, sao obtidas a partir da soma de varios itens selecionados como indicadores do cons- tructo teérico que estamos interessados em medir. E muito comum utilizarmos itens medi- dos, cada um, numa escala de cinco pontos (embora itens com escalas, normalmente ordi- nais, com um menor ou maior niimero de ca- tegorias s4o também utilizados); esse tipo de escalas recebe o nome de Escalas de Likert (vide Pasquali, 1996). O primeiro passo na constru- a0 das escalas aditivas é decidir quantos e quais itens vao ser selecionados para compor a escala. Os itens escolhidos sao baseados no referencial teédrico existente sobre 0 conceito que estamos querendo medir e séo, na verda- de, uma amostra de todos os possiveis indica- dores do constructo teérico em questao. Na pesquisa académica, a construcéo de escalas aditivas é normalmente feita a partir de mar- cos tedricos estabelecidos e de resultados em- Piricos de pesquisas j4 realizadas. Outras ve- zes, escalas ja construidas em outros paises so traduzidas e adaptadas para o contexto cultu- ral local, e, apés alguns procedimentos formais de tradugao e adaptacao de escalas, elas de- vem ser novamente validadas, e a sua fidedig- nidade deve ser reavaliada. Tanto para avaliar uma nova escala ou teste, como para adaptar e reavaliar um escala construida em outro pais, devemos ter amostras de tamanho grande. Amostras pequenas nao sao adequadas para validacao de escalas e testes. Um tépico importante na pesquisa acadé- mica dentro do contexto de criagao de escalas de medida é 0 conceito de definigao operacio- nal das varidveis da pesquisa, como, por exem- plo, as variaveis criadas através das escalas aditivas. Uma definicao operacional atribui sig- nificado a um constructo ou variavel especifi- cando as atividades ou “operacées” neces- sarias para medi-lo e também especificando as atividades do pesquisador para medir a varidvel. E como um manual de instrugées para o pesquisador, e deve ser utilizada con- juntamente com a definigéo conceitual do constructo Uma suposicao essencial para criar uma escala aditiva é que os itens sejam unidimensi- onais, significando que eles sao correlaciona- dos uns com os outros e que representam um Unico conceito. A técnica estatistica de Andlise Fatorial tem um papel fundamental para a de- terminacao empirica da dimensionalidade de um conjunto de itens. A partir da Analise Fato- rial, determina-se 0 numero de fatores (va veis latentes ou constructos latentes) e os pe- sos (cargas fatoriais) de cada variavel ou item sobre o fator. Para garantir unidimensionali- dade, cada escala aditiva deveria consistir ape- nas dos itens com altas cargas fatoriais em um Linico fator. No caso da Anélise Fatorial de um conjunto de itens demonstrar mais de uma di- mensao, cada dimensao ou fator deveria ser refletido em escala separada, pois isso signifi- ca que © conjunto de itens esté medindo nao apenas um constructo subjacente, mas mais de um constructo teérico. Dessa maneira, te- mos implicitamente colocados os conceitos de fidedignidade, no sentido de “consisténcia in- terna da medida”, quando falamos que os itens devem ser fortemente correlacionados uns com 05 outros, e conceito de validade, no sentido de validade de constructo, quando falamos de um constructo tedrico latente, segundo defi- niremos adiante. No entanto, nessa fase de cria- 40 da escala, estamos interessados apenas na unidimensionalidade da escala aditiva. Se nao houver intercorrelacao entre os itens da esca- la, isso pode significar que eles nao estao me- dindo o mesmo conceito. A correlagao de cada item com o total da escala (a soma de todos os itens) também deve ser positiva e relativamen- te alta. Itens com baixa correlacao com o total sao fortes candidatos a serem excluidos da es- cala como um todo O processo de verificacao da fidedignidade e de validacdo das escalas de medida, sejam las aditivas ou nao, segue alguns critérios, os quais exporemos a seguir. E importante salien- tar que os instrumentos de medida para os quais definiremos os conceitos de fidedignida- de e validade nao precisam ser apenas escalas aditivas, pois estas sao apenas as mais comuns. Podemos também avaliar a validade e fidedig- nidade de medidas em outros tipos de instru- mentos como, por exemplo, questionarios em que os itens nao formam uma escala tipo Li- kert, questionarios estruturados ou semi-estru- turados, instrumentos qualitativos, ténicas projetivas ou outros tipos de instrumento. Para cada tipo de instrumento existira uma ou mais formas apropriadas para medir fidedignidade e validade. Inicialmente, definiremos os diversos tipos de coeficientes de fidedignidade mais utiliza- Psicooacndsrico-V 159 dos na literatura e, apés, abordaremos o pro- blema da validade de um instrumento de me- dida. Uma obra considerada classica na litera- tura em portugués sobre fidedignidade e vali- dade de medidas é a de Vianna (1973). Os con- ceitos dos diversos tipos de validade encontra- dos na literatura nao so muito claros, e existe até uma certa discordancia entre autores em relacao a alguns desses conceitos ou em rela- ¢a0 A classificacao dos tipos de validade. Um dos objetivos deste capitulo é esclarecer e, den- tro do possivel, unificar as diversas definicoes de validade. Escolhemos, por sua importancia histérica, seguir basicamente os padrées defi- nidos no manual norte-americano denomina- do Standards for Educational and Psychologi- cal Testing, publicado em conjunto pela APA (American Psychological Association), AERA (American Educational Research Association) e NCME (National Council on Measurement in Education). Esta também ¢ a abordagem da maioria das obras sobre o tema. Sao impor- tantes neste contexto os comentarios e proli- xas consideracées desenvolvidas por Silva (1993) e pela classica obra de Anastasi (1988) (vide também a edigao atualizada de Anastasi & Urbina, 1996), os quais, a nosso ver, descre- vem e esclarecem, dentro de tendéncias mais modernas, a classificacao feita pelos padrées americanos, a qual é utilizada internacional- mente. Fidedignidade A fidedignidade de um teste pode ser medida de varias formas. Cada forma é apropriada para um tipo de teste e depende de que tipo de fi- dedignidade queremos medir. Os conceitos principais de fidedignidade de um teste dizem respeito ao problema de estabilidade no tem- po e ao problema de consisténcia interna da escala, Para escalas aditivas, é usual utilizar-se 0 Coeficiente Alfa de Cronbach, que é um coe- ficiente de consisténcia interna. J4 para ques- tiondrios que nao constituem uma escala adi- tiva, podemos utilizar o método do teste-re- teste, 0 qual nos fornece um coeficiente de es- tabilidade da medida no tempo. Enfatizamos 160 Jurema Avcives Cunna que mais de uma forma de fidedignidade pode ser obtida para uma escala ou teste, mas eles informam fidedignidade em sentidos diferen- tes. Outra observacao importante, no contex- to da lingua portuguesa, é a utilizacao do ter- mo “fidedignidade” para representar precisao, consisténcia das escalas. A palavra “confiabili- dade”, como tradugao da palavra inglesa reli- ability, nao deveria ser usada nesse contexto, pois por confiabilidade entende-se a area da engenharia e estatistica que trata da “confian- ga” que podemos ter em sistemas em geral, incluindo sistemas de seguranca. Esta area tem sido denominada Andlise de Confiabilidade e, mais amplamente, Andlise de Risco e inclui a aplicacao de sofisticados modelos de regres- a0 para o tempo de sobrevivéncia de pesas, mecanismos e sistemas. Diversos métodos para obter a fidedignida- de das escalas e testes sao sugeridos na litera- tura. Os métodos sao alternativos, em geral, mas mais de um método pode ser utilizado, principalmente quando queremos estabelecer a fidedignidade em relacao aos dois conceitos principais: consisténcia interna e estabilidade no tempo. S40 os seguintes os métodos de fi- dedignidade: + Método do teste-reteste + Método das formas paralelas + Método das metades + Coeficientes de consisténcia interna Método do teste-reteste Uma escala ou teste é fidedigno se repetidas mensuracées sao obtidas em condi¢ées cons- tantes e do 0 mesmo resultado, supondo ne- nhuma mudanga nas caracteristicas basicas, isto é, na atitude sendo medida. Idealmente, podemos estimar fidedignidade repetindo a aplicagéo da escala ou teste sobre a mesma pessoa usando os mesmos métodos. A dificul dade pratica do método de teste-reteste entretanto, evidente: quanto maior o interva- lo entre o teste e o reteste, menor o risco do efeito de meméria, mas maior é o isco de even- tos intervenientes causando modificagéo na visdo do respondente, ou mudangas na carac- teristica que esta sendo medida. O problema é escolher um intervalo de tempo grande o sufi- ciente para tratar adequadamente do primei- ro tipo de risco, e curto o suficiente para tratar do segundo. Calculando 0 coeficiente de cor- relacao entre os escores do teste e do reteste, teremos uma estimativa da fidedignidade da escala ou teste. Coeficientes de fidedignidade baseados no método do teste-reteste sao me- didas de estabilidade, porque se relacionam com constancia sobre o tempo. Segundo Vi- anna (1973), esse método nao é conveniente para medir a fidedignidade de testes de esco- laridade (provas de conhecimento), pois a es- timativa pode ser viesada, dependendo das condigées de aplicacao do teste (tempo entre medidas). Método das formas paralelas © método das formas paralelas, no qual ver- ses supostamente equivalentes da escala sao dadas aos mesmos individuos e os resultados correlacionados, é outra forma de medir fide- dignidade. Aqui, a dificuldade é a suposicéo. de que nao existe diferenca entre as duas for- mas paralelas. Os itens devem ser escolhidos segundo essa suposicdo. Alguns autores deno- minam essa forma de medir fidedignidade de meétodo das formas alternadas. Se as formas paralelas sao aplicadas em duas ocasides dis- tas para os mesmos sujeitos, esse método produz medidas de fidedignidade no sentido de estabilidade temporal e de consisténcia de respostas a diferentes amostras de itens (ou formas do teste). Este coeficiente pode, entao, combinar dois tipos de fidedignidade. Método das metades © método das metades (split-haif) é utilizado quando uma iinica forma do teste ou escala foi aplicada numa tnica sessao. O conjunto de itens do teste é dividido em duas metades, ¢ os escores para as duas metades sao correla- cionados. Esse método consiste em, por exem- plo, selecionar os itens pares para formar uma metade da escala, e os itens impares para for- mar outra metade da escala. Se a correlacao entre as duas metades for alta, significa que 0 teste é fidedigno no sentido de consisténcia em relacao a amostragem do contetido. A es- tabilidade temporal no é medida nesse méto- do, pois as duas formas sao aplicadas ao mes- mo tempo. Este tipo de fidedignidade mede também consisténcia interna porque sé uma aplicacao de uma (nica escala é utilizada. No célculo da fidedignidade, devemos observar que, quanto mais longo for o teste, mais fide- digno ele serd, visto que a fidedignidade de um teste depende diretamente do ntimero de itens do teste. O efeito de incluir mais itens em um teste ou de diminuir o nuimero de itens pode ser calculado pela férmula de Spearman- Brown (vide Anastasi, 1988, ou Vianna, 1973). Coeficientes de consisténcia interna © quarto método para calcular fidedignidade mede consisténcia interna do instrumento de medida (escala ou teste), mais especificamen- te, consisténcia interitens. Consiste também na aplicacao do instrumento uma unica vez e com apenas uma forma. A consisténcia interna do instrumento sera maior quanto maior for a homogeneidade do conteiido expresso através dos itens. Segundo Hair e colegas (1998), a Ié- gica para medir consisténcia interna é a de que 05 itens individuais ou indicadores da escala deveriam todos estar medindo o mesmo cons- tructo e entaéo serem altamente correlaciona- dos. Existem varios diagnésticos para saber se ‘0 instrumento tem consisténcia interna, os quais incluem a correlagao do item com a es- cala total e a correlacao interitem (correlacao do item com cada um dos outros itens). 0 co- eficiente de fidedignidade que determina a consisténcia interna da escala inteira é deno- minado Coeficiente Alfa de Cronbach (vide Cronbach, 1990). O Coeficiente Alfa deve va- riar de 0 a 1; no entanto, valores negativos do coeficiente podem ocorrer. Neste caso, 0 pes- quisador deve verificar cuidadosamente cada item para conferir se o item nao est sendo respondido no sentido negativo, ou no senti- Psicooendsrico-V 161 do oposto ao que os outros itens estéo medi do. Em caso afirmativo, recodifique o(s) item(ns) negativo(s) no sentido inverso e re- calcule 0 Coeficiente Alfa de Cronbach (por exemplo, itens com escalas de Likert de cinco pontos devem ter seus escores invertidos, isto 6, 0 escore 1 recodificado como 5, 0 2 como 4e assim por diante) Nao esta disponivel nos programas compu- tacionais nenhum teste da significdncia esta- tistica do Coeficiente Alfa; no entanto, é con- senso e é usual considerar que o limite inferior para que 0 Coeficiente Alfa de Cronbach seja aceitavel é 0,70 (embora coeficientes mais bai- xos, como 0,60, possam ser considerados vali- dos em pesquisas exploratérias). Quanto mais préximo de 1 for o valor do coeficiente, me- Ihor a fidedignidade do teste. Como todas as medidas de fidedignidade, o valor do Coefi- ciente Alfa de Cronbach depende diretamente do numero de itens, isto é, quanto maior o ntimero de itens da escala, maior o valor do coeficiente, e desta forma, os pesquisadores devem ser mais exigentes com escalas com grande ntimero de itens. Qualquer escala adi- tiva deveria ser analisada em relagdo & sua con- sisténcia interna antes de determinarmos sua validade. Quando os itens da escala sao bindtios, isto , itens do tipo certo-errado, sim-nao, etc., 0 Coeficiente Alfa de Cronbach é equivalente ao coeficiente de fidedignidade conhecide como Coeficiente de Kuder-Richardson, férmula nii- mero 20 (KR, 9) (vide Vianna, 1973). Embora os programas de computador nao apresentem explicitamente 0 método do Coeficiente de Kuder-Richardson, basta utilizar os itens bindrios do instrumento (escala ou teste) no programa para 0 calculo do Coeficiente Alfa de Cronbach, que obteremos 0 valor do coeficiente KRyo. Finalmente, descreveremos alguns fatores que, segundo Vianna (1973), podem afetar a fidedignidade do teste e que, portanto, deve- riam ser evitados: uso impreciso de palavras; extensao exagerada do item; uso de palavras desconhecidas ou pouco familiares; estrutura defeituosa da frase; uso de dupla negacao. Também instrucdes inadequadas e apresenta- 40 defeituosa do teste, como, por exemplo, 162 Jurema Avcives Cunna defeitos de impressao, podem diminuir a fide- dignidade do teste, além de contribuirem para uma baixa taxa de resposta Validade Freqiientemente, define-se a validade com a seguinte pergunta: vocé esté medindo o que pensa que esté medindo? A énfase aqui é dada no que est sendo mensurado. Para um teste ser valido, ele deve medir o que o pesquisador deseja e pensa que esté medindo, A validade de um teste trata, entao, do que o teste mede e através de que conceitos ele mede. O traco medido pelo teste pode ser definido apenas por um exame das fontes objetivas de infor- magao e operacées empiricas utilizadas para estabelecer sua validade. A validade deve ser estabelecida em relagao ao uso particular para ‘© qual ele esta sendo considerado. Todos os procedimentos para determinar validade tratam, fundamentalmente, das rela- ‘des entre o valor obtido no teste ou escala e outros fatos (critérios) observaveis, indepen- dentes, sobre as caracteristicas do comporta- mento em consideragdo. Os métodos especifi- cos, empregados para investigar essas relacées, sao numerosos e tam sido descritos por varios nomes. Silva (1993) salienta que, embora a validade tenha varias classificagées, validade &, essencialmente, um julgamento feito apés compilar todas as informacées (teérica, con- ceitual, externa, interna) e nao apenas através de coeficientes. Muitos autores tém, mais re- centemente, chamado atengao para a nature- za unitéria do conceito de validade. Na revisao feita para a elaboracao destas notas, encon- tramos varias discrepancias entre os autores sobre nomes e conceitos de validade, as vezes extremamente contraditérios. Segundo Anastasi (1988), na edigao de 1985, do manual Standards for Educational and Psychological Testing, foi proposto que a no- menclatura sobre validade de medidas fosse agrupada em trés categorias principais, a sa- ber: validade relacionada a contetdo, valida- de relacionada a critério e validade relaciona- da a constructo. Classificaremos os diversos tipos ou concei- tos de validade utilizando subdivisoes dessas trés categorias principais, da seguinte forma: - Validade relacionada a conteudo: Validade de contetido Validade de face — Validade relacionada a critério: Validade concorrente Validade preditiva — Validade relacionada a constructo: Validade convergente Validade discriminante Validade fatorial Validade relacionada a contetido Avvalidade relacionada a contetido trata, basi- camente, da questao do exame sistematico do contetido do teste, para determinar se os itens cobrem uma amostra representativa do univer- so do comportamento a ser medido e para determinar se a escolha dos itens ¢ apropriada e relevante. Podemos, operacionalmente, clas- sificar este conceito de validade com a seguin- te tipologia: validade de contetdo propriamen- te dita e validade de face. Validade de contetdo A validade de contetido nao é determinada estatisticamente, ndo é expressa por um coefi- ciente de correlagao, mas sim resulta do julga- mento de diferentes juizes ou pessoas de reco- nhecido saber na rea da atitude ou trago que est sendo medido. Esses juizes analisam a re- presentatividade dos itens em relacao aos con- ceitos e & relevancia dos objetivos a medir. Os juizes devem julgar e/ou identificar comporta- mentos relevantes e, também, identificar se as dreas do contetido em questa foram repre- sentativamente amostradas Validade de face Avalidade de face nao se refere ao que o teste mede realmente, mas ao que o teste mede aparentemente. E também denominada de validade aparente ¢ diz respeito a linguagem, 4 forma com que o contetido esta sendo apre- sentado. Por exemplo, quando um teste é pla- nejado para criangas, mas depois aplicado a adultos, ele nao terd validade de face. Se o tes- te parece infantil, certamente haverd pouca cooperagao dos respondentes, independente- mente da validade original do teste. A valida- de de face pode muitas vezes ser melhorada reformulando os itens do teste em termos apro- priados ao grupo ao qual se aplicaré o teste. Por exemplo, se um teste de raciocinio mate- matico é aplicado a um grupo de maquinistas, 08 itens deveriam ser apresentados numa lin- guagem apropriada, de operagées com maqui- nas em vez de operacées com “laranjas e ba- nanas”. Em resumo, um teste pode estar abor- dando corretamente os contetidos relatives ao conceito que est sendo medido, mas nao ter validade de face. Validade de face também nao 6 determinada empiricamente por meio de um coeficiente, mas pode ser, em geral, avaliada por juizes ou especialistas. Validade relacionada a critério Avalidade relacionada a critério aborda a qua- lidade da escala ou teste de funcionar como um preditor presente ou futuro de outra varia- vel, operacionalmente independente, chama- da critério. Por exemplo, 0 desempenho aca- démico poderia ser utilizado como preditor do desempenho profissional, ou um teste de inte- lig€ncia poderia funcionar como preditor do desempenho académico. Segundo Moser e Kalton (1971), em situagées onde uma escala & desenvolvida como um indicador de algum critério observavel, a validade da escala pode ser feita investigando quao bem a escala fun- ciona como um indicador do critério. Por exem- plo, um questiondrio para avaliar pessoas com distUrbios psiquiatricos poderia ser validado se 0 resultados fossem comparados com o diag- néstico feito com base em entrevistas clinicas. Dois tipos de validade relacionada a crité- rio definem-se na literatura: validade concor- rente e validade preditiva. Para Silva (1993), o Psicooendsrico-V 163 elemento tempo é a principal diferenca entre a validade concorrente e a validade preditiva, as quais sao essencialmente as mesmas, com excegéo de que a primeira se relaciona ao de- sempenho do sujeito ao tempo em que a esca- la esta sendo aplicada, enquanto a segunda se relaciona ao desempenho futuro sobre o crit rio que esta sendo medido. Validade concorrente A simultaneidade da obtengao dos escores do teste e dos escores de critério identifica a vali- dade concorrente. A validade concorrente ¢ calculada com base em medidas ja existentes a época do teste. Validade concorrente trata, entao, da qualidade com que a escala pode descrever um critério presente. Validade preditiva A validade preditiva faré previsoes para 0 fu- turo. Assim, por exemplo, um teste de depres- so podera ser validado se os escores altos no. teste forem confirmados por diagnésticos cli- nicos a posteriori. Validade preditiva trata, en- to, da qualidade com que uma escala pode predizer um critério futuro. Validade relacionada a constructo A validade relacionada a constructo trata do grau pelo qual um teste mede o constructo teérico ou traco para o qual ele foi designado para medir. A dificuldade para estabelecer a validade de constructo é que, neste caso, 0 cri- tério, 0 constructo, nao é diretamente mensu- ravel, € uma varidvel latente nao observavel; logo, a correlacao teste-critério nao pode ser calculada, como no caso da validade relacio- nada ao critério. Assim, a validade relacionada a0 constructo nao é validade empirica no sen- tido da correlacao do teste com um critério ob- servavel, mas sim é validade teérica, isto &, é a relacdo entre o teste e algum constructo teéri- co (variavel latente) de interesse. Segundo 164 Jurema Avcives Cunna Anastasi (1988), a validade relacionada ao constructo requer a acumulacao gradual de in- formacao a partir de varias fontes. A validade relacionada a constructo pode ser classificada em trés tipos: validade convergente, validade discriminante e validade fatorial. Validade convergente Avalidade convergente verifica se a medida em questéo esta substancialmente relacionada a outras formas de medida ja existentes do mes- mo constructo. Alta correlacao entre um novo teste e um teste similar ja existente & conside- rada como evidancia de que o novo teste mede (aproximadamente) o mesmo trago de compor- tamento (ou constructo) que o antigo teste (j4 validado) estava designado para medi. Validade discriminante ante verifica se a medida ‘em questao nao esta relacionada indevidamen- te com indicadores de constructos distintos, isto é, se a medida ou escala que esta sendo avaliada nao se correlaciona significantemen- te com varidveis das quais o teste deveria d ferir. Validade fatorial Desenvolvida para identificar tracos psicolégi- cos comuns (ou fatores latentes) em uma ba- teria de testes, a técnica estatistica multivaria- da de Andlise Fatorial pode ser particularmen- te titil para definir validade relacionada a cons- tructo. A Andlise Fatorial pode ser utilizada tan- to no caso de verificacao da unidimensionali- dade do constructo que esta sendo medido, como no caso em que os itens t&m mais de uma dimensdo subjacente. Por exemplo, se um teste de vocabulério tem uma carga fatorial de, digamos, |=0,86 com o fator de compreensio verbal, a validade fatorial desse teste de voca- buldrio, como uma medida do traco de com- preensao verbal, é 0,86. Os itens que nao tém altas cargas fatoriais com o fator subjacente definido como o constructo que est sendo medido deveriam ser excluidos da escala. Concluindo, segundo Vianna (1973), vali- dade € uma caracteristica relativa e existente em diferentes graus. Um teste pode ser valido para certos fins e determinado grupo, mas nao © ser para outros fins ¢ individuos. A validade uma caracteristica complexa e nao existe iso- ladamente. Diferentes tipos de validade coe- xistem num teste e se interligam para formar 0 todo, onde este ou aquele tipo de validade pre- dominam, Finalmente, salientamos que fidedignidade e validade sao independentes, podendo um teste ser valido mas nao ser fidedigno, como também um teste pode ser fidedigno, mas nao ser valido. Por isso, devem ser avaliadas sepa- radamente, pois uma escala deve ser fidedig- na e valida para poder ser usada como instru- mento de medida. Qualidade dos testes diagnés lidade e especificidade A verificagao da qualidade de um teste diag- néstico, em estudos clinicos, é feita a partir da comparacao do desempenho do teste em dois grupos de individuos perfeitamente definidos: um com a doenga e outro sem a doenca. A classificagao dos individuos em doentes e nao- doentes é feita a partir de outro teste, normal- mente ja consagrado como valido, chamado de padrao ouro (gold standard). 0 Quadro 14- 1 mostra como podem ser organizados os re- sultados de uma pesquisa para verificar a qua- lidade de um teste diagnéstico. © desempenho do teste contra o teste-pa- dréo ou padrao our pode ser avaliado atra- QUADRO 14.1 Forma para apresentacao dos dados para verificar a qualidade de um teste diagnéstico Doencas Teste Presente ___Ausente Total Positive a b atb Negativo c d ctd Total ate bed A vés de uma tabela 2x2, como a mostrada no Quadro 14.1, onde o resultado do teste para a doenga em questao pode ser classificado como positivo ou negativo, e a doenca é caracteriza- da como presente ou ausente, de acordo com ‘© padrao ouro. Supondo que o padrao ouro seja valido, 0 resultado do teste pode estar correto (verdadeiro-positiv e verdadeiro-ne- gativo) ou incorreto (falso-positivo ou falso- negativo). A terminologia verdadeiro-positivo refere-se aos casos em que a doenca estava presente e foram diagnosticados corretamen- te como positivos; verdadeiros-negativos sao 095 casos que nao tém a doenga e foram diag- nosticados corretamente como negativos. Os casos falsos-positivos so os casos que nao tem a doenga, mas sao diagnosticados como posi- tivos, e falsos-negativos so os casos com a doenga, mas diagnosticados como negativos. A qualidade do teste diagnéstico pode ser medida pelas taxas de verdadeiros-positivos entre os doentes e verdadeiros-negativos en- tre os nao-doentes. Essas medidas consti- tuem-se nas duas propriedades basicas de um teste e sao, respectivamente, a sensibilidade e a especificidade. A sensibilidade (s) & definida como: a ate ou, em outras palavras, é a capacidade de pro- duzir resultados positivos em individuos com a doenca em questdo (taxa de verdadeiros-po- sitivos) A especificidade (e) & definida como: b+d ou seja, € a capacidade do teste produzir um resultado negative em individuos sem a doen- ca.em questao (taxa de verdadeiros-negativos), Segundo Soares e Siqueira (1999), sensibi- lidade mede a capacidade de reacao do teste ‘em um paciente doente, enquanto especifici- dade mede a nao-reacao do teste em pacien- tes ndo-portadores da doenca, sendo dessa forma considerado um teste nao-especifico Psicooacndsrico-V 165 para a doenca em questao. Esses conceitos sao realmente descrigées de probabilidades condi- cionais, ou seja, a sensibilidade é a probabili- dade do teste ser positive, sabendo-se que o paciente é doente, e a especificidade é a pro- babilidade do teste ser negativo, sabendo-se que o paciente nao é portador da doenca. Testes altamente sensiveis, de acordo com Rouquayrol (1994), sao aqueles que detectam todos (ou quase todos) os doentes. Testes al- tamente especificos sao aqueles que identifi- cam somente os que tém a doenga em investi- gacdo. Testes sensiveis tem poucos falsos-ne- gativos, e testes especificos tém poucos falsos- positivos. Assim, deve-se usar um teste de alta sensibilidade quando o énus de nao fazer o diagnéstico é alto, isto é, quando é necessario saber com certeza se um individuo realmente nao tem a doenca. Por outro lado, usa-se um teste especifico quando o énus de um diag- néstico erréneo é alto, quando precisamos ter a certeza de que realmente o individuo tem a doenga. Outros dois indices que sao importantes para a qualidade de um teste diagnéstico sio os indices denominados valor preditivo positi- vo (VPP) e valor preditivo negative (VPN) de um teste diagnéstico. No entanto, 0 calculo desses indices depende de uma estimativa da prevaléncia da doenca na populacao de inte- resse, ou seja, na probabilidade da doenga pré- teste. Para uma definicéo desses indices e for- mulas para o seu célculo, ver Soares e Siquei- ra, 1999. Testes e escalas em psicometria usualmen- te envolvem escalas continuas e nao-dicoté: micas. Dessa forma, os resultados do teste nao so "positivo” e "negativo”, como classificado antes. © que normalmente acontece é a defi- nigéo de um “ponto de corte” na escala numé- rica resultante do teste, a partir do qual se clas- sificam 0s individuos em dicotomias, como, por exemplo, doente e nao-doente, ou, ainda, po- sitivo e negativo. Apés essa classificagdo, apli- cam-se as definigdes de sensibilidade e especi- ficidade de acordo com 0 exposto no inicio desta secao. Pode haver controvérsias a respei- to do ponto de corte em algumas escalas, prin- cipalmente as escalas psicométricas, bem como. 166 Jurema Avcives Cunna a respeito do chamado padrao ouro nos diag- nésticos em psicologia e psiquiatria (vide Mur- phy, 1995) Concluindo, a verificagéo da qualidade de um teste diagnéstico, a partir dos célculos de sensibilidade e especificidade do teste, pode fazer parte da fase de validacdo de um teste, de acordo com os objetivos especificos do tes- te. Alguns testes e escalas nao tém como obje- tivo principal a classificacao dos individuos em doentes e nao-doentes, mas sim, sao utiliza- dos como testes para medir o grau ou o nivel de uma determinada caracteristica em um in- dividuo. Para esses casos, nao se aplicam os conceitos de sensibilidade e especificidade. ESCORES BRUTOS E PADRONIZADOS: DEFINICAO E INTERPRETACAO Suzi Camey ‘A medida direta de uma determinada caracte- ristica mensuravel é chamada escore bruto. Essa medida pode ser o ntimero de acertos em uma prova, o tempo necessario para realizar um teste, 0 escore em um teste psicoldgico, etc. 0 grande problema das medidas psicolégi- cas é encontrar uma escala que represente ade- quadamente as diferencas entre os individuos Em geral, os escores brutos desses testes nao 80 as melhores medidas para tais compara- ces, pois: a) diferencas entre escores brutos podem nao representar a real distancia entre os indi- viduos; b) geralmente nao existe um zero absoluto; ¢) nao tém um sentido-padrao. Essas trés principais limitacdes dos escores brutos podem acarretar ma interpretagao dos escores. Por exemplo, supondo que os candi- datos a um emprego fossem submetidos a um teste que medisse raciocinio Iégico numa es- cala de 0 a 100, uma comparacao entre os can- didatos A e B com relacao aos seus respectivos escores brutos de 20 e 60 nos levaria a conclu- sao de que o candidato B tem raciocinio légico trés vezes melhor do que o candidato A. Mas, se mudassemos a escala para o intervalo de 100 a 200, os resultados seriam 120 e 160, ea diferenca entre os candidatos seria bem me- nor, 0 que nos mostra a necessidade de um escore onde a escala de medida nao tenha in- fluéncia. Na maior parte das escalas de medida fisi- cas, temos um zero absoluto, ou seja, se me- dirmos a quantidade de Agua mineral que um individuo consome por dia, teremos individuos que nao bebem gua mineral. Este é 0 zero absoluto da escala: a auséncia de consumo de gua mineral. No entanto, para algumas me- didas psicolégicas, nao podemos expressar qual ponto é 0 zero absoluto. Tomando a situacao. de um instrumento que mega a depressao, nao. podemos dizer que um individuo com escore zero, em tal instrumento, tenha total auséncia de depressao. Além dessas duas situacdes citadas ante- riormente, temos o problema de que o escore bruto nao nos permite comparar o individuo com a sua populagao. Seré que um sujeito que tenha 40 pontos num escore de depressao esté mais deprimido que a maioria dos individuos, ou a depressao dele é normal quando compa- rada com a populacéo? Quando ha necessidade de comparacéo de escores brutos de individuos de diferentes fai- xas etdrias, ou quando um subteste é excluido (ou acrescentado) de uma escala, a melhor al- termativa sao os escores ponderados. Esses es- cores s80 calculados através de tabelas especi- as inclusas em manuais de escalas que ne- cessitam dessa ponderacao, tais como WAIS, WAIS-R, etc. (vide Escalas Wechsler, nesta edi- a0). Para solucionar tais limitagdes, os escores brutos sao comparados com medidas estatis- ticas que sirvam de medida-resumo da popu- lagdo estudada. As principais medidas empre- gadas so a média, a mediana e o desvio-pa- dra. A média e a mediana dao uma referéncia da localizagao dos dados, enquanto o desvio padrao da uma medida da variabilidade dos dados. Essas medidas sao Uiteis para criarmos escores que possam ser facilmente utilizados para comparar dois individuos e que tenham valores de referancia. Uma vez essas medidas ‘vao servir como valores de referéncia, elas de- vem ser calculadas, sempre que possivel, com base em dados populacionais. Caso contrario, podem ser estimadas a partir de amostras re- presentativas da populacao. Os escores mais conhecidos sao o percenti- lico e 0 padronizado, com suas derivacées. As interpretacées feitas com base no escore pa- dronizado tém como pressuposto que o esco- re bruto segue uma distribuigéo normal. A for- ma da distribuicao normal é apresentada na Figura 14.1 e se caracteriza por ser simétrica em relacdo 4 média que coincide com a medi- ana. Na Figura 14.1 também podemos perce- ber que aproximadamente 68% da populacdo apresenta escores padronizados entre os valo- res -1 e 1, 0 que corresponde a escores brutos entre a média menos um desvio padréo e a média mais um desvio padrao (vide Figura 14.1). Além disso, podemos notar que menos de 0,3% da populacao atinge escores padroni- zados maiores do que 3 ou menores do que — 3. Quando a suposicdo de que os escores tem uma distribuicao normal nao ¢ satisfeita, deve- se ter maior atencao no momento de interpre- tar os escores ou talvez buscar escores mais apropriados. Um exemplo da interpretacao dos escores brutos através do uso da distribuicao normal encontra-se em Cunha, onde se observa que sujeitos entre 5 anos e 5 anos e 5 meses tem aproximadamente 68% de chance de apresen- tarem escores brutos entre 10 e 17,2 na Escala de Maturacao Viso-Motora, de Koppitz (vide Bender, nesta edicéo) Oescore percentilico é calculado através dos percentis, que também sao medidas estatisti- cas, e representam qual 0 percentual de sujei- tos da populagao que estao situados abaixo deles. Isto é, vamos supor que um individuo tivesse um QI de 92, numa escala Wechsler, que corresponde ao percentil 30, 0 que nos indica que 30% da populacdo tém QI inferior a 92. A mediana é 0 percentil 50, indicando que 50% da populagao tém um escore bruto inferior ao valor da mediana e os outros 50% com esco- res brutos acima do valor da mediana. Esse escore é facilmente calculado e interpretado, sendo que a sua principal desvantagem vem do fato que as distancias entre dois percentis Psicooendsrico-V_ 167 diferem de acordo com a posicao do percentil. Na Figura 14.1, podemos notar que a distan- cia entre os percentis 10 e 20 nao é a mesma que os percentis 40 e 50. Tanto 0 escore padronizado, como o esco- re T, necessitam da média e do desvio padrao para serem calculados. A média do escore bru- to de uma populagao nada mais é do que a soma de todos os escores brutos dividida pelo ntimero de sujeitos na populacdo. Para calcu- larmos 0 desvio padrao, primeiro precisamos calcular a diferenga entre cada escore bruto e a média do escore, que chamaremos de des- vio; entao, calcula-se a soma dos desvios ao quadrado e divide-se pelo ntimero de sujeitos Mediana 1 10 20 30 405060 70 na populacdo (ou ntimero de individuos na amostra menos um, para o desvio padrao amostral). O desvio padrao é a raiz quadrada dessa divisao. © escore padronizado ou escore Z calcu- lado com base na seguinte expressao: x onde, X é 0 escore bruto, 41 6 a média, eoé 0 desvio-padrao. Uma desvantagem do escore Z é que seus valores variam de menos a mais infinito (ape- sar de, na pratica, variarem geralmente entre - 80 90 Percentis Escore bruto 30 26 Ho Hu ute Ht26 +36 * Escore Z 2 1 0 1 2 3 Escore T 20 30 40 50 60 70 80 Escore padrao 0,1 2 16 50 84 98 99,9 normalizado Estaninos 1 2],3],4[s[el7 [ea 9 Percentual 4% T% 12% 17% 20% 17% 12% 7% 4% + & a média dos escores brutos e oo desvio-padrio. Figura 14.1 Equivaléncia entre escores brutos e outros escores. 168 _Jurema Avcives Cunaa 5. +5, quando os escores brutos seguem uma distribuigdo normal), e como o seu cdlculo re- sulta em valores com casas decimais, muitas vezes pode causar uma interpretagao errada do escore. Por exemplo, nao é raro ouvirmos que um sujeito com escore Z de -3,1 tem esco- re inferior do que um sujeito com escore -3,5, ou, ainda, que 0 escore 3,25 é maior que o escore 3,3. Para evitar tais confusées, podemos utili- zar 0 escore T, que é calculado através de: T= 50 + 10Z A sua interpretacdo é mais simples, pois temos somente valores positivos, e, se consi- derarmos o escore Z com apenas uma casa decimal, 0 escore T nao teré casas decimais. Existem outros escores calculados com base ho escore padronizado, como o escore Z nor- malizado, que nada mais é que a transforma- a0 do escore Z em percentis, como mostra a Figura 14.1 Outro escore utilizado sao os estaninos, que so 9 regides da curva normal, como mostra a Figura 14.1, delimitados por intervalos de 0,5 desvio padrao, exceto o estanino 1 e 0 9. Por exemplo, o estanino 7 compreende o intervalo de 0,75 a 1,25 desvio padrao. O escore CEEB (College Entrance Examina- tion Board), também baseado no escore Z, é dado pela expressao: CEEB = 500 + 1002, que € 0 escore utilizado pela Universidade Fe- deral do Rio Grande do Sul para calcular os escores padronizados de cada prova. Todos esses escores e outros que possam ser derivados desses so importantes pela possibilidade que eles nos oferecem de com- pararmos individuos ou de compararmos ha- bilidades distintas de um mesmo individuo. Temos de ressaltar que, para 0 uso apropria- do desses escores, temos que ter uma boa aproximagao dos escores brutos com a dis- tribuigdo normal. Para ilustrar 0 uso de tais escores, vamos considerar os escores brutos de 20 individuos em relacao a um teste de raciocinio légico, com média 20 e desvio padrao 5,2, e que esses su- jeitos sejam uma amostra representativa da populacdo, e, por isso, as conclusées feitas com base nessa amostra podem ser extrapoladas para a populagao. Sujeito Escore Percentis Escore Escore Estanino bruto z T 1 6 0-27 BB 1 2 4 120 A238 3 3 117-1040 3 4 16 22 42 3 5 7 (2B 44 4 6 1835 46 OO 7 19 42 48 5 8 2 50 50 5 9 20 © 50 50 5 102050 50 5 112050 50 5 2021 57 52 5 1B O21 57 52 5 14 22S 54. 6 152265 54 6 6 23 O71 56 6 7 2B 58 7 18 (2583 58 7 19 27 63 8 2031 98 n 9 Através desse exemplo, podemos ilustrar a interpretaco de tais escores e compara-los com 0 escore bruto. O primeiro fato que deve- mos notar é que a ordem dos individuos é a mesma para qualquer escore que esteja sendo utilizado. O Sujeito 1 tem o menor escore bruto, sen- do que o seu percentil é menor que 1, ou seja, ‘existe menos do que 1% da populacdo com escore bruto menor do que 6. Através do esco- re Z, podemos dizer que ele esta 2,7 desvios padrao abaixo da média. Como ja foi dito an- tes, menos do que 0,3% da populacdo apre- senta um escore padrao abaixo de -3, e, com isso, podemos dizer que esse individuo esta muito abaixo da média. Pelo escore T, chega- mos & mesma conclusao sobre o Sujeito 1, mas a tinica diferenca é que o escore T é expresso numa escala de ntimeros inteiros positivos e varia entre 20 e 80, sendo que existe menos do que 0,3% de individuos que possam obter escore T fora desse intervalo. Podemos ver que ‘© Sujeito 1 se encontra no Estanino 1, 0 que Psicooendsrico-V 169 significa dizer que ele faz parte dos 4% da po- pulacao com escores mais baixos. Se analisarmos 0 Sujeito 16, que obteve escore bruto igual a 23, podemos dizer que 71% da populacao deve ter um escore bruto ferior ou igual a 23. Esse sujeito esta a 0,6 desvio-padrao da média, ou seja, na regido onde podemos encontrar aproximadamente 68% dos sujeitos. Ainda podemos dizer que o Sujeito 16 pertence ao Estanino 6. 170 Jurema Avcives Cunaa Outra observacao que deve ser feita é que individuos com escores brutos diferentes po- dem apresentar os mesmos, estaninos, como € 0 caso dos Sujeitos 15 e 16. 0 mesmo pode ocorrer com os outros escores, sendo que no caso do escore Z isso é menos freqiiente. Os escores definidos anteriormente e ou- tros escores podem ser encontrados em Anas- tasi (1988), Cronbach (1990) e Guilford ¢ Fru- chter (1973).

You might also like