BRASIL SAI NA VANGUARDA MUNDIAL COM IMPLEMENTAÇÃO DE NOVO SISTEMA DE AVALIAÇÃO PEDAGÓGICA

Por Hindemburg Melão Jr.

No dia 6 de fevereiro de 2006, na Casa da Cultura de Bom Jesus dos Perdões, tive a oportunidade de ministrar uma palestra para professores da rede municipal de ensino sobre as vantagens de usar Teoria de Resposta ao Item (TRI) para avaliação pedagógica. Foi uma experiência duplamente gratificante, porque além de colocar os educadores em contato com tecnologias de ponta, também dedicamos parte da palestra ao ensino das regras básicas do Xadrez, que é um de meus hobbies prediletos.

Para compreender o que é TRI, antes convém falarmos um pouco sobre suas precursoras. As primeiras avaliações psicopedagógicas de que se tem registro surgiram na China, por volta de 3.000a.C. e adotavam uma escala ordinal (Likert), praticamente igual à que é usada atualmente em mais de 99,9% das escolas do mundo. Quase todas as universidades, cursinhos, escolas públicas e particulares usam esta escala. Conforme se pode deduzir por sua antiguidade, é um sistema obsoleto e com muitas limitações. O método é o mais simples possível e consiste em atribuir notas com base na quantidade de respostas certas. Numa prova com 10 questões, a nota é igual ao número de respostas certas, podendo também haver pontuação fracionária para respostas parcialmente certas. Em nosso artigo “A importância das provas no processo educacional”, discutimos com mais detalhes este sistema de avaliação e apresentamos 7 exemplos práticos de problemas comumente causados por esta escala. Estes problemas ocorrem mesmo quando se usa a escala Likert corretamente, e muitas vezes a escala é usada de maneira inadequada, o que agrava muito a situação. Por exemplo: algumas escolas usam notas estratificadas em A, B, C, D, E, e com isso se perde parte das informações, porque tanto o aluno que tirou 3,5 quanto aquele que tirou 6,5 ficam com C, embora o segundo tenha acertado quase o dobro do primeiro. No bimestre seguinte, aquele que tirou 3,5 pode tirar novamente 3,5 e ficar com média C, enquanto o outro que tirou 6,5 pode tirar 3 e ficar com D, portanto fica com nota média menor que a do outro, embora tenha se saído claramente melhor nas provas. Este é um dos problemas de usar 5 estratos (A, B, C, D, E) em vez de escores numéricos. O uso de estratos equivale a “arredondar” as notas. Há casos ainda mais graves, em que se usam 3 estratos: BOM, SATISFATÓRIO E INSATISFATÓRIO. Como estas estratificações são feitas por comparação, muitas vezes um aluno não se enquadra bem no grupo BOM nem no grupo SATISFATÓRIO, mas sim no meio entre estas duas classificações, de modo que esta situação exigiria um estrato adicional “MÉDIO-BOM”, ou algo assim, e outros estratos equivalentes no extremo oposto, além de um extrato adicional “ÓTIMO” etc. Enfim, quanto menor for o número de estratos, pior fica o sistema de avaliação. Existem procedimentos estatísticos que possibilitam criar estratos consistentes, e nestes casos se pode fazer agrupamentos para finalidades diversas, mas durante o cômputo das notas e cálculo de médias, deve-se manter toda a informação disponível, com notas com tantas decimais quantas forem indicadas pelo professor.

Antes de prosseguir, é recomendável conhecer os 7 principais problemas das provas que usam escala ordinal, e para isso citaremos trecho do artigo http://www.sigmasociety.com/provas.pdf:

Algumas importantes utilidades das provas, quando elaboradas, aplicadas e interpretadas seguindo normas que atendam aos nossos padrões de qualidade:

Exemplo 1: No final do ano, um aluno obteve nota média 7,7 em Matemática e nota 9,1 em Língua Portuguesa, e os professores ficaram em dúvida para qual área este aluno apresenta maior vocação. Tanto os professores quanto os alunos acharam que a prova de Matemática estava mais difícil do que a de Português, portanto a nota mais alta em Português não era indicio suficiente de que o aluno apresentava mais talento para a Comunicação. Como proceder nesse caso, a fim de poder orientar corretamente este aluno na escolha de uma carreira?A palestra ensina uma maneira muito simples e segura para resolver este impasse.

Exemplo 2: Tenho uma lista de exercícios com 58 perguntas e desejo elaborar uma prova que contenha as 10 perguntas que melhor representem o conhecimento global de todas as 58. Como devo escolher estas 10 perguntas?

Exemplo 3: Apliquei uma prova de múltipla escolha com 10 perguntas e constatei que para 9 destas perguntas a alternativa mais escolhida era a alternativa certa, mas uma das perguntas teve predominância de escolhas numa alternativa errada. Isto é bom ou mau? Por quê?

Exemplo 4: Quando eu elaboro uma prova de múltipla escolha, é melhor formular alternativas em que o aluno não consiga descartar opções improváveis? Por quê? [Sugerimos leitura do artigo “Pontos fracos na provas da Fuvest”]

Exemplo 5: Desejo atribuir pesos diferentes às provas de cada bimestre. Costumo usar peso 1 no primeiro bimestre, peso 2 no segundo e no terceiro, peso 3 no quarto. Mas tenho notado que algumas vezes as provas com peso 2 são mais representativas da totalidade da matéria e deveriam receber maior peso. Como resolver este problema?

Exemplo 6: Temos um programa de incentivo aos estudantes mais dedicados e, para tanto, oferecemos prêmios aos alunos com melhores notas, além de envia-los para representar a escola em Olimpíadas da Matemática, Física, Química etc. Qual é a maneira mais justa de atribuir estes prêmios e selecionar os representantes da escola, de modo que os premiados sejam efetivamente aqueles que demonstraram melhor desempenho global, tendo em conta fatores tais como o diferente nível de dificuldade das provas?

Exemplo 7: Para os alunos do 3o ano do Ensino Médio, costumamos aplicar provas que visam a simular o desempenho que os alunos teriam no vestibular, e para isso incluímos várias questões extraídas de vestibulares passados e algumas questões novas. No entanto, o desempenho dos alunos nesses simulados costuma ser significativamente diferente do desempenho nos vestibulares propriamente ditos, de modo que estas provas não estão se mostrando como bons preditores de desempenho no vestibular. Como proceder para que estes simulados sejam preditores eficientes? (este problema é enfrentado por praticamente todos os melhores colégios e melhores cursos pré-vestibular).

Para atenuar estes problemas, foi criada a Teoria Clássica dos Testes (TCT), também conhecida (de forma mais geral) como Teoria Clássica da Medida (TCM), que teve seus fundamentos teóricos lançados em 1808 e começou a ser praticada para fins de avaliação psicológica em 1859. Atualmente a TCT é usada em praticamente todos os vestibulares do Brasil e em vários exames psicológicos e educacionais do mundo, inclusive no WAIS (teste individual mais usado no mundo) e no Raven (teste coletivo mais usado no mundo). Vestibulares do ITA, USP, Unicamp, UNESP, universidades federais e grandes concursos usam TCT. A vantagem principal é que com TCT se consegue que os escores obedeçam a uma escala aproximadamente intervalar em mais de 95% dos casos, porque assim como grandezas intervalares se distribuem aproximadamente normalmente, supõe-se que medidas que se distribuem normalmente sejam aproximadamente intervalares, pelo menos no intervalo compreendido entre -2sd e +2sd (dois desvios-padrão abaixo e acima da média). Então basta normalizar a distribuição dos escores brutos para torná-los aproximadamente intervalares, e assim “enriquecer” a informação original. A vantagem de uma escala intervalar é que possibilita realizar operações aritméticas de soma e subtração de escores, o que não é possível se a escala for ordinal. Por exemplo: se João tem nota 9, José tem nota 8 e Pedro tem nota 5, a diferença de notas entre João e José é 1, enquanto a diferença entre José e Pedro é 3. Mas estas diferenças de notas não refletem diferenças em níveis de conhecimento, habilidade ou desempenho, e a diferença 1 entre João e José pode ser (ou não) maior do que a diferença 3 entre as notas de José e Pedro. Numa escala ordinal, conforme o nome diz, os escores podem ser apenas ordenados. O escore 9 é maior do que 8, e o escore 8 é maior do que 5. Porém não há como saber se a diferença entre 8 e 5 é maior ou menor do que entre 9 e 8. Já numa escala intervalar, uma diferença de 1 sempre tem mesmo significado, portanto a diferença 9 para 8 seria menor do que a diferença 8 para 5. Esta é uma das vantagens de se adotar escalas intervalares. Infelizmente, pelo método tradicionalmente usado por 99,9% das escolas, que gera escalas ordinais, temos todos os 7 problemas listados acima. Usando uma escala intervalar e ainda por cima padronizada, vários destes problemas desaparecem ou diminuem muito. Porém ainda há muitas limitações, várias das quais são resolvidas com o uso de TRI.

A TRI surgiu em 1925 e começou a conquistar a atenção dos pesquisadores em 1936. Em 1971 foi usada para avaliação de desempenho de jogadores de Xadrez e na década de 1980 passou a ser usada em exames psicológicos. Atualmente é reconhecida como a mais poderosa ferramenta que existe para tratamento estatístico de questionários, sendo usada em alguns dos mais importantes exames educacionais dos Estados Unidos e da Europa. Devido à tremenda importância desta ferramenta e ao imenso leque de possibilidades que ela nos oferece, o uso de TRI pelo SAEB foi anunciado como reportagem de capa na revista Nova Escola (agosto de 1997). O trabalho estatístico foi realizado pela Cesgranrio e no site desta instituição podemos encontrar o seguinte comentário: “Ao introduzir no Brasil a TRI, a Fundação Cesgranrio se destacou como uma das poucas instituições que dominam e praticam essa tecnologia, ombreando-se com países mais avançados da Europa e da América do Norte, e colocando o Brasil com visibilidade internacional na área de Avaliação de Sistemas Escolares.”

Algumas vantagens de usar TRI em comparação ao uso de TCT são:

  • Maior confiabilidade nos desempenhos indicados pelas notas.
  • Maior eficiência na detecção de alunos com dificuldade de aprendizado.
  • Maior eficiência na detecção de alunos portadores de altas habilidades.
  • Mais exatidão para a orientação vocacional.
  • Prognósticos mais confiáveis em simulados de vestibulares.
  • Proporção mais realista entre notas e conhecimentos ou entre notas e habilidades.
  • Menos trabalho para o professor nas etapas de elaboração e avaliação (criação de bancos de itens, padronização imediata dos resultados finais, correção automatizada).
  • Menores custos operacionais.
  • Maior agilidade em todas as etapas do processo de avaliação.
  • Possibilidade de construir, em poucos segundos, dezenas de provas diferentes a partir do mesmo banco de itens, assegurando equivalência de conteúdo e de dificuldade.
  • Possibilidade de aplicar provas com níveis de dificuldade e conteúdo personalizados para cada aluno, sem demandar mais tempo do que seria necessário para uma prova coletiva tradicional. Por exemplo: numa sala com 50 alunos, pode-se aplicar 50 provas diferentes e assegurar que há equilíbrio de dificuldade e de conteúdo em todas as 50 provas.
  • Possibilidade de comparar a evolução dos alunos ao longo do tempo.
  • Possibilidade de informatização de provas totalmente personalizadas, respondidas em computador, em que o primeiro item é sorteado pseudoaleatoriamente, com ou sem critérios, e cada item subsequente é escolhido com base nas respostas anteriores, de modo a maximizar a abrangência de informação sobre tema avaliado, focando os pontos fracos e fortes de cada aluno.
  • Numerosas outras vantagens para alunos, professores e para a comunidade.
  • Do ponto de vista técnico, as vantagens também são muitas:
    • Gerar escores em escala com vários aspectos de escala de proporção.
    • Corrigir distorções nos valores extremos.
    • Predizer a probabilidades de cada aluno acertar cada item e assim conseguir identificar eventuais fraudes (“cola”) em caso de muita disparidade (pode-se calcular a probabilidade de que cada aluno tenha colado cada questão.
    • Comparação precisa e equidosa entre alunos examinados com provas diferentes, em classes diferenres, séries diferentes, unidades de ensino diferentes, colégios diferentes, mesmo que estas provas não tenham itens em comum (desde que os itens tenham sido extraídos de um banco de itens previamente aplicados em exames “ancorados”).
    • Possibilidade de comparação entre grupos muito heterogêneos, entre alunos de escolas públicas e particulares, de metrópoles e pequenas cidades.
    • Diversas outras vantagens técnicas, conceituais e operacionais.

 

Além de aplicações educacionais, a TRI possibilita tratar de qualquer tipo de questionário e já está sendo usada com extraordinário sucesso em Psicologia, Marketing e Medicina, possibilitando diagnósticos mais confiáveis, planejamentos administrativos e publicitários mais eficientes e lucrativos, conhecimento mais profundo e detalhado sobre as necessidades e expectativas dos clientes, medidas mais exatas sobre gestão de qualidade etc.

Veja parte da apostila sobre a palestra aqui: http://www.sigmasociety.com/provas.pdf

Clique aqui para fazer download do arquivo PPS usado como suporte visual para esta palestra.

______________
Artigos relacionados:
http://www.sigmasociety.com/provas.pdf
http://www.sigmasociety.com/artigos/fuvest_2004_artigo.pdf
http://www.sigmasociety.com/sigma_teste/sigma_sigma_teste.asp
http://www.sigmasociety.com/artigos/norma_setembro_2003.pdf
http://www.sigmasociety.com/artigos/norma_set_2004.pdf
http://www.sigmasociety.com/artigos/st_2006.pdf
http://www.sigmasociety.com/artigos/afh_st.pdf
http://www.sigmasociety.com/xadrez_e_educacao.pdf
http://www.sigmasociety.com/xadrez/sigma_tributo-caissa.asp
http://www.sigmasociety.com/sobre_o_fundador/artigos/introducao_qi.pdf

(Você precisa do acrobat reader para ler os arquivos em PDF)

 
.:: Sigma Society ::.
  Topo
Todos os direitos reservados