A Teoria por Trás do Programa TOEIC

Como determinar se um teste é adequado para o propósito para o qual foi projetado? Essa questão fundamental da validade é uma preocupação para desenvolvedores de testes, pesquisadores e usuários de pontuação. Padrões profissionais passaram a adotar a visão de que os desenvolvedores de testes devem convencer as partes interessadas (ou seja, qualquer pessoa afetada pelo teste) de que o uso pretendido de um teste é adequadamente apoiado ou justificado. Essa visão é formalizada na abordagem baseada em argumentos para justificar o uso de testes.

O artigo Articulating and Evaluating Validity Arguments for the TOEIC^® Tests oferece uma introdução acessível à abordagem baseada em argumentos, sua implementação nos testes TOEIC e seus benefícios percebidos para as partes interessadas.

O artigo começa com uma breve visão geral do argumento do uso de avaliação, uma abordagem proeminente baseada em argumentos para validação. Em seguida, descreve o processo usado para construir argumentos de validação para testes TOEIC.

Esse processo incorporou evidências de diversas fontes, incluindo documentação de testes, atividades de monitoramento e pesquisas. Por fim, o artigo apresenta uma visão geral das duas principais formas pelas quais os argumentos de validação do TOEIC são utilizados: priorizar a pesquisa e comunicar-se com as partes interessadas.

No geral, esse processo demonstra como a pesquisa do TOEIC adota uma abordagem ampla, crítica e rigorosa para apoiar o uso adequado dos testes TOEIC. Esse trabalho também visa melhorar a alfabetização em avaliação dos stakeholders, focando nas alegações críticas que todos os desenvolvedores de testes devem apoiar.

Propósito

A abordagem baseada em argumentos para justificar o uso do teste pressupõe que os desenvolvedores devem convencer as partes interessadas (ou seja, qualquer pessoa afetada pelo teste) de que o uso pretendido do teste é justificado. Para isso, o desenvolvedor do teste faz afirmações explícitas sobre como as pontuações dos testes devem ser interpretadas e usadas para tomar decisões. Essas alegações são apoiadas ou minadas por evidências que podem incluir documentação do processo de desenvolvimento do teste e/ou pesquisas em andamento. Por meio do exame das alegações do desenvolvedor do teste e das evidências que as sustentam, as partes interessadas podem chegar a uma avaliação global sobre se o uso pretendido do teste é justificado. Essa abordagem é usada para:

Desenvolvimento de Testes de Guias
fornecer direção para pesquisas em andamento
servir como uma ferramenta de prestação de contas para diferentes grupos de partes interessadas

Estrutura

Um Argumento de Uso de Avaliação é "um arcabouço conceitual para orientar o desenvolvimento e o uso de uma avaliação linguística específica, incluindo as interpretações e usos que fazemos com base na avaliação" (Bachman e Palmer, 2010, 99). O arcabouço é estruturado como um conjunto hierárquico de afirmações feitas pelo desenvolvedor do teste sobre como as pontuações devem ser interpretadas e usadas para tomar decisões. Ele assume a seguinte forma geral:

Graphic showing test performance leading to score, leading to score interpretation, leading to decision, leading to consequences

Cada componente na figura acima representa uma afirmação. No mais alto nível, o desenvolvedor do teste pode alegar que as consequências que resultam das decisões tomadas com base no teste são benéficas para todos os grupos de partes interessadas (por exemplo, erros de decisão foram minimizados). Isso pressupõe uma afirmação sobre as decisões que decorrem das interpretações das pontuações — especificamente, que as decisões são equitativas e sensíveis aos valores das instituições relevantes (educacionais, sociais, organizacionais, legais). Para justificar interpretações sobre as habilidades do candidato a testes com base nas pontuações, o desenvolvedor faz afirmações sobre a significância, imparcialidade, generalizabilidade, relevância e suficiência das interpretações. Por fim, todas essas afirmações se baseiam na afirmação fundamental de que as pontuações baseadas no desempenho dos examinadores são consistentes entre formulários de teste, administrações e avaliadores. Assim, cada afirmação em uma AUA consiste em:

um resultado do uso do teste (por exemplo, as decisões que decorrem de interpretações sobre as habilidades do teste)
qualidades desse resultado (por exemplo, decisões sensíveis a valores e equitativas)

Tanto os tomadores de decisão quanto os desenvolvedores de testes compartilham a responsabilidade de justificar o uso da avaliação. Espera-se que os desenvolvedores de testes forneçam evidências para apoiar a afirmação de que as pontuações dos testes são consistentes, e que as pontuações podem ser usadas para interpretar as habilidades dos examinadores. Os tomadores de decisão precisam demonstrar que as decisões são sensíveis aos valores e equitativas, e que as consequências das decisões são benéficas. Infelizmente, os tomadores de decisão podem não ter a expertise necessária para fornecer respaldo adequado a essas afirmações (por exemplo, documentação da definição de padrões, estimativas de erros de decisão). Consequentemente, uma AUA pode ser aprimorada por meio da colaboração entre tomadores de decisão e desenvolvedores de testes. No mínimo, o feedback dos tomadores de decisão deve ser buscado pelos desenvolvedores de testes para determinar se as alegações sobre as decisões e consequências baseadas no uso dos testes podem ser justificadas.

Utilidade

Como um todo, a estrutura de um AUA fornece uma base para uma justificativa abrangente do uso de testes que vincula preocupações do mundo real sobre decisões e suas consequências com as preocupações tradicionais dos desenvolvedores de testes — confiabilidade e validade. Como uma lista abrangente de alegações, garantias, respaldos e refutações, pode ser usada para identificar fraquezas no argumento geral para o uso de testes e priorizar pesquisas ou projetos de desenvolvimento de testes.

Por fim, como um conjunto hierárquico simples de reivindicações (como mostrado na figura acima), uma AUA pode ser usada como ferramenta de comunicação que ilustra as questões-chave que determinam qualidades importantes da utilidade de um teste, incluindo justiça, impacto, confiabilidade e validade. As preocupações de indivíduos e grupos de partes interessadas variam, e um dos desafios para a pesquisa é abordar essas preocupações de forma coerente, ao mesmo tempo em que aprimora a alfabetização avaliativa das partes interessadas. As preocupações podem incluir:

Consistência de pontuação
"Como você pode garantir que todos os avaliadores sigam os guias de pontuação?"
A interpretação das pontuações
"Quando calculamos a validade do critério, quem ou qual é o critério?"
As decisões baseadas nessas interpretações
"Quais são os cortes de notas em outras instituições?"
Consequências do uso de testes
"Como os testes TOEIC têm sido úteis para os candidatos a emprego?"
Uso de testes relacionados a vários desses problemas
"Como os recrutadores podem saber que as pontuações do TOEIC atendem às necessidades do mercado?"

Ao fornecer versões de um AUA voltadas para grupos de interesse específicos, um desenvolvedor de testes com um programa de pesquisa forte pode ajudar os interessados a encontrar respostas para suas dúvidas e se tornar consumidores mais sofisticados de produtos de avaliação.

Fornecemos uma descrição de como essa abordagem foi implementada para os testes TOEIC^® Bridge redesenhados no artigo "Defendendo a qualidade e o uso de uma nova avaliação de proficiência linguística: Argumento de validade para os testes TOEIC Bridge redesenhados." Neste artigo, pesquisadores descrevem as evidências que sustentam afirmações específicas sobre consistência de pontuação, a interpretação das pontuações dos testes, decisões baseadas nas pontuações dos testes e as consequências do uso do teste. Essa síntese incentiva as partes interessadas a se envolverem criticamente com as afirmações reais (e evidências) sobre o que um teste mede e como ele deve ser usado. Esse nível de engajamento pode ajudar as partes interessadas a entender melhor se os testes são adequados para atender às suas necessidades, bem como seu papel em facilitar o uso eficaz dos testes.

Bachman, L. F., & Palmer, A. (2010). Avaliação da linguagem na prática. Oxford: Oxford University Press.

Schmidgall, J. (2017). Articulação e avaliação de argumentos de validade para os testes TOEIC^® (Memorando de Pesquisa nº RM-13-09). ETS.

Schmidgall, J., Cid, J., Carter Grissom, E., & Li, L. (2021). Defendendo a qualidade e o uso de uma nova avaliação de proficiência linguística: Argumento de validade para os redesenhados Testes Ponte^{® do} TOEIC (Relatório de Pesquisa nº RR-21-20). ETS.

Pesquisa do TOEIC®

Avançando a avaliação, ensino e aprendizagem da língua inglesa

A Teoria por Trás do Programa TOEIC

Propósito

Estrutura

Utilidade

Pesquisa do TOEIC®

Avançando a avaliação, ensino e aprendizagem da língua inglesa

A Teoria por Trás do Programa TOEIC

The Argument-based Approach

The Purpose, Structure and Utility of an Assessment Use Argument (AUA)

Propósito

Estrutura

Utilidade

Implementations of this Approach for TOEIC Tests

Reference