Coeficiente de homogeneidade em testes de QI


Faz tempo que não escrevo nada sobre testes, mas hoje, ao ler a mensagem de um amigo sobre o assunto, decidi esclarecer alguns pontos. Além disso, como a resposta a ele não cabia no campo do formulário, achei interessante aproveitar a oportunidade e transformar a resposta num pequeno artigo, conforme segue:

Olá, Edu e Jonatas.

Não pude deixar de ler a mensagem abaixo e peço licença para opinar. O fato de dois testes produzirem escores diferentes não significa que sejam ruins ou que um deles seja ruim. E o fato de os escores serem semelhantes não significa que sejam bons. A qualidade, a meu ver, depende mais da validade de critério do que da validade por homogeneidade ou precisão, ou seja, depende da adequação das perguntas ao tipo de variável que se pretende medir. Dois escores muito semelhantes podem ser inclusive um mau indício, pois os bons testes devem ser muito diversificados dentro dos limites das variáveis a serem aferidas, de modo a cobrir, tanto quanto possível, fatores que respondam por mais de 80% ou 90% da variância de todos os traços cognitivos a serem medidos. Quando a homogeneidade é muito elevada num teste com apenas poucas dezenas ou centenas de questões, isso indica que está excessivamente concentrado em poucas variáveis ou tem pouca diversidade nos níveis de dificuldade.

O Conselho Federal de Psicologia estabelece um alfa de Cronbach mínimo de 0,6, se não me engano, entre outros quesitos, naturalmente, para que um teste seja aprovado para uso. Isso é um critério ruim. Deveriam estabelecer um mínimo e um máximo, porque quando o coeficiente de homogeneidade é muito alto, significa que os itens do teste são demasiado semelhantes entre si. Um exemplo é o teste de pensamento espacial do BPR-5, em que todas as questões são basicamente iguais, assim só se mede um traço muito estreito do conjunto de variáveis que deveriam ser medidas e não se pode dizer que um teste desses seja, numa acepção ampla, de “pensamento espacial”, mas apenas um teste para medir a habilidade de entender a lei que rege os movimentos representados pela projeção plana de cubos em rotação. O teste medirá exclusivamente esta habilidade e, indiretamente, algumas outras fortemente correlacionadas, mas um verdadeiro teste de pensamento espacial deveria ser muito mais abrangente e ter itens com conteúdos muito mais diversificados, e essa diversidade reduziria o alfa de Cronbach, o Kuder-Richardson, Spearman-Brown, Guttman-Flanagan, Rulon e outros coeficientes de homogeneidade, fazendo com que as pessoas examinadas tivessem escores mais diferentes entre duas metades equivalentes do teste ou entre dois testes diferentes projetados para medir mesmo tipo de habilidade. Além disso, o corte de 0,6 deveria ser diferente para testes discursivos do que é para os de múltipla escolha. Aliás, o mesmo se aplica aos coeficientes de correlação. Nos testes discursivos não há tanto ruído espúrio afetando o coeficiente, ao passo que nos de múltipla escolha ocorre redução nos coeficientes de homogeneidade em virtude desse ruído. Em 2004 escrevi artigos sobre isso, comprovando esse efeito com dados empíricos e demonstrando a necessidade de revisar este critério. Basicamente o problema é: suponha dois testes com 100 questões discursivas cada. Aplique este teste em 1000 pessoas. Depois calcule a correlação entre eles. Em seguida, coloque 5 alternativas em cada questão de cada teste, mantendo o conteúdo dos enunciados. Aplique novamente o teste a outras 1000 pessoas equivalentes. Calcule novamente a correlação e verá que é significativamente menor quando os testes oferecem múltipla escolha. Obviamente o mesmo é válido para duas metades de um teste.

Outro aspecto importante a ser considerado é que a saturação de g num teste não é uma propriedade inerente ao teste, mas da interação entre o teste e os sujeitos examinados. E “g” não é uma variável a ser medida, ao contrário do que se costuma interpretar, mas sim uma propriedade das variáveis medidas. Se as variáveis forem excessivamente semelhantes entre si, g será mais alto do que se as variáveis forem mais abrangentes e diversificadas.

Escores como 160, 162, 156, 163 em 4 testes diferentes, a meu ver indica algo errado. Escores 120, 187, 146, 192 também indica algo errado. A amplitude de variação dos escores deve ser um meio termo entre estes casos, de modo a indicar que os testes estão de fato medindo aproximadamente a mesma coisa e, ao mesmo tempo, não estão exageradamente focados num traço cognitivo único ou poucos traços fortemente correlacionados. Coincidentemente, estou trabalhando num teste de uma amiga, a ser usado pelo DETRAN, que é uma exceção, por motivos que serão descritos no manual técnico do teste. Não estou envolvido com testes no momento, mas nesse caso específico, por se tratar de uma amiga muito querida e que, muito gentilmente, escreveu um prefácio adorável para meu livro sobre IMC, achei justo direcionar parte de meu tempo para contribuir com o trabalho dela. Além disso, é uma atividade que me agrada.

Abraços!