PESQUISA NO TOEFL

Construindo uma Boa Medida de Habilidades de Escrita em Inglês: Uma Conversa com Larry Davis

30 de março de 2026

Desenvolvendo uma boa medida de habilidades de escrita em inglês

Construindo uma Medida Justa de Habilidades de Escrita em Inglês: Uma Entrevista com Larry Davis

Abaixo está uma conversa entre o Diretor de Pesquisa da ETS, Larry Davis, que tem desempenhado um papel de liderança na pesquisa do TOEFL® por mais de uma década, e John Clark, Diretor de Iniciativas Estratégicas. Você pode ler mais da pesquisa de Larry aqui.

Larry, queria começar com uma pergunta sobre sua formação acadêmica. É verdade que você primeiro obteve um diploma de bacharel em ciências da pesca?

Sim, eu tinha bacharelado em ciências animais com ênfase em aquicultura e depois fiz um mestrado em ciências pesqueiras.

Louco! Pode ser uma pergunta injusta, mas existe alguma ligação entre essas áreas e a avaliação de linguagem, a carreira que você escolheu?

São áreas de estudo muito diferentes, com certeza. Mas há algumas semelhanças. E isso tem a ver com a necessidade de descobrir como medir as coisas e depois analisar o que você mede.

No meu trabalho em pesca, estudamos a fisiologia e o comportamento migratório do salmão. E nem sempre havia formas estabelecidas de medir fenômenos relacionados a essas coisas.

Então, uma grande parte desse trabalho é descobrir, antes de tudo, como medir algo que vai nos dizer algo de interesse? E então, uma vez que você tem esses dados, como você os avalia ou analisa para informar a tomada de decisões?

Em testes de linguagem, o problema é o mesmo. Que tipo de evidência coletamos da capacidade de alguém se comunicar em inglês? Como coletamos esses dados? E como avaliá-la de uma forma que possa ser útil para informar a tomada de decisões?

Então, são áreas muito diferentes, mas ambas enfrentam um tipo de problema semelhante.

Essa é uma comparação muito útil. Aliás, já estive nas escadas de salmão no rio Willamette, no Oregon, onde construíram estruturas que permitem que salmões nadem ao redor de barragens para desovar rio acima. Esse é o limite do meu conhecimento sobre salmão.

Já estive em lugares assim, inclusive dentro de grandes barragens hidrelétricas onde provavelmente nem dá mais acesso por questões de segurança.

Ah! Parece que você escolheu um campo menos perigoso. Mas você preparou o terreno para o tema que eu queria discutir.

Um dos maiores desafios na avaliação em inglês é descobrir como coletar indicadores significativos da habilidade de escrita em inglês de um aluno. Como você pensa sobre os desafios inerentes a testar habilidades de escrita em um exame padronizado?

Acho que um desafio fundamental é que, assim como você sugeriu, só podemos coletar uma amostra muito breve do que alguém pode fazer por escrito.

E então, com base nessa amostra – seja dez minutos, uma hora ou até algumas horas – isso é apenas uma pequena parte de toda a escrita que alguém pode fazer, tanto em termos do número de palavras que escreve ao longo da carreira acadêmica, quanto dos diferentes tipos de escrita que alguém pode fazer em seu estudo acadêmico.

Então o jogo é realmente sobre previsão. Estamos coletando uma amostra do que eles podem fazer. E então, com base nessa amostra, estamos fazendo algumas extrapolações do que achamos que essa pessoa provavelmente será capaz de fazer no mundo real. Esse é o desafio fundamental.

Existem diferentes abordagens razoáveis para enfrentar esse desafio. De certa forma, você pode pegar uma amostra relativamente breve e combiná-la com outros dados para ter uma noção da habilidade geral de alguém. E essa é a abordagem típica dos testes de proficiência em idiomas.

No outro extremo do espectro, você pode pedir para alguém fazer tarefas muito específicas para uma situação específica, e isso pode informar inferências mais diretas sobre o que alguém pode fazer naquela situação.

Esse tipo de teste de 'propósitos específicos' pode ser algo como um exame da ordem, que provavelmente é um pouco mais próximo da escrita que um advogado seria esperado fazer, em vez do tipo de redação geral que costumamos avaliar nos testes de proficiência em idiomas.

Especificamente para o TOEFL, você e nosso colega, John Norris, lideraram nossos esforços para pesquisar o impacto de um novo tipo de pergunta chamado Escrever para uma Discussão Acadêmica. Por que a ETS achou adequado revisitar como testamos a escrita no TOEFL?

Bem, há uma variedade de razões que motivaram o desenvolvimento dessa tarefa. Uma delas é que, desde o desenvolvimento original do IBT do TOEFL, em meados dos anos 1990 e início dos anos 2000, a escrita que ocorre em ambientes universitários tem, talvez, mudado.

Mas o teste não mudou. E assim, sentimos que, neste caso, havia alguma justificativa para considerar tipos de escrita recentemente desenvolvidos. E esses gêneros tendem a ser mais curtos. Eles também costumam ser mais conversacionais.

Queríamos desenvolver uma tarefa que capturasse parte disso. Então essa foi uma das motivações. Outro benefício adicional é que idealmente ajudaria a reduzir o tempo de teste. Na versão anterior do teste, a seção de redação do TOEFL IBT basicamente levava uma hora e tinha dois itens.

Do ponto de vista psicométrico, isso não dá muita informação sobre o tempo que as pessoas gastam nessa parte do teste. Então, essa economia no tempo de teste foi outra vantagem adicional em termos de design da tarefa.

Além de tornar essa seção mais eficiente em termos de tempo, quais foram outras motivações por trás do desenvolvimento da tarefa Escrever para uma Discussão Acadêmica ?

Outro objetivo era fornecer contexto adicional para a escrita. A tarefa que o Write for an Academic Discussion substituiu era uma tarefa de redação muito tradicional. Você recebe uma pergunta de opinião, sabe – qual você prefere, cachorros ou gatos? E é só isso que você recebe.

Este é um tipo de item de teste muito tradicional e usado há muito tempo. Mas não fornece contexto. E não te diz quem é o público. Também não te diz nada sobre a situação mais ampla. Essa falta de contexto tem sido criticada na comunidade de escritores, mas também, na prática, cria problemas na decisão de uma resposta apropriada ou não.

Por exemplo, você pode ter um aluno que escreve em um estilo acadêmico e outro que escreve em um estilo coloquial. Os avaliadores tendem a querer dar uma nota mais alta ao aluno com o estilo mais acadêmico, mas não há realmente uma razão de princípio para privilegiar esse tipo de escrita em vez da gíria porque não dissemos quem é o público.

Então essa é outra questão importante também. Definir claramente propósito e público nos ajuda a pontuar essas respostas de forma mais racional.

Para quem não fez o TOEFL recentemente, a tarefa Escrever para uma Discussão Acadêmica traz um prompt de um professor, além de duas respostas de alunos. E espera-se que o candidato se envolva com esses temas como faria em um fórum acadêmico moderno.

Sim, isso mesmo.

Como ganhar confiança de que um tipo de tarefa como esse é adequado para o exame?

Essa é uma ótima pergunta. E a validade dos testes – que é o que essa pergunta aborda – é algo que estudantes de pós-graduação em avaliação de linguagem dedicam muito tempo estudando. Essa é uma questão à qual a área realmente deu muita atenção ao longo de muitas décadas. E, como resultado, temos alguns procedimentos muito bem estabelecidos para pensar em como justificar uma tarefa de teste.

Isso geralmente assume a forma do que se chama de argumento de validade que deve considerar certos tipos de evidências. Esse tipo de evidência pode ser a relação da tarefa com tarefas do mundo real. Então, quão próximo é ou o que isso nos diz sobre o que alguém pode fazer no mundo real?

Também incluiria evidências sobre como a tarefa é avaliada e se essa pontuação é consistente e justa. E a pontuação realmente captura as partes importantes do que as pessoas precisam fazer nessa tarefa?

Também envolveria coletar evidências sobre como essa medida se relaciona com outras medidas semelhantes do mesmo tipo de capacidade. Por exemplo, se temos uma tarefa de escrita, ela deve ter alguma relação positiva com outras avaliações de escrita.

Por fim, há a questão de como o teste se relaciona com o desempenho no mundo real. Então, se as pessoas tiram uma nota alta na prova, isso significa que elas vão se sair bem em situações reais, como nos trabalhos de escrita? E finalmente, qual é o efeito de retorno?

E por recuar, quero dizer: se as pessoas vão se preparar para essa tarefa, isso realmente beneficia a habilidade linguística delas? Essa preparação realmente ajuda a melhorar suas habilidades? Ou eles estão apenas aprendendo a pular por obstáculos? E as pessoas vão se preparar, se for um teste de alto risco.

Então existe toda essa estrutura e cadeia de raciocínio que justifica essas tarefas. E esse framework fornece uma base para pensar em como decidimos se uma tarefa de teste ou de teste é adequada para uso.

No artigo onde você comparou a tarefa Escrever para uma Discussão Acadêmica com o ensaio independente, você encontrou "semelhanças na qualidade do texto produzido pelos candidatos em termos de complexidade sintática, precisão gramatical, variedade lexical, discurso, coesão e elaboração, e fluência de sua escrita."

E esses termos são importantes porque fazem parte de como avaliamos o desempenho dos alunos. Mas o que você quer dizer quando fala em "complexidade sintática"?

A complexidade sintática está relacionada às estruturas gramaticais usadas na escrita. Alguns ouvintes podem ter diagramado frases na época da escola e saberão do que estou falando, mas uma frase mais sintaticamente complexa terá um diagrama mais longo e complexo. E tende a incluir várias coisas, como múltiplas cláusulas.

Para usar uma metáfora: se uma frase simples é como um pedaço de bambu que sobe reto, uma frase complexa é mais como uma árvore que tem muitos galhos que, idealmente, contribuem para um significado coerente.

Obrigado por esclarecer esse termo – bambu, eu entendo! Conte-me um pouco mais sobre o estudo sobre a nova tarefa de escrita refinada.

A questão básica aqui no estudo que fizemos foi que, quando a tarefa Escrever para uma Discussão Acadêmica foi introduzida, não quisemos mudar a interpretação das notas dos testes. Então, a ideia é que estamos mudando a tarefa, mas ainda deve suportar os mesmos tipos de inferências sobre a habilidade de alguém.

E, nesse caso, é importante olhar para o tipo de evidência que obtemos da tarefa existente naquele momento versus essa nova tarefa. Então pegamos dados de pessoas que já haviam feito ambas as tarefas e depois analisamos as várias características da escrita.

A complexidade sintática foi um ponto de comparação junto com outros que você mencionou, precisão gramatical, uso de vocabulário, coesão, marcadores de discurso, esse tipo de coisa.

Posso perguntar sobre mais uma frase? Variedade lexical. O que isso significa?

É vocabulário. Ou especificamente a variedade de vocabulário. E o motivo de analisarmos isso é que não se trata apenas de usar muitas palavras diferentes ou palavras grandes. É sobre precisão. Se você tiver mais palavras na sua bolsa de palavras, isso permite que você seja mais preciso ao comunicar seus significados.

Entendido! Larry, obrigado por a análise dos bastidores de como projetamos parte do nosso teste. Tenho um filho que está aprendendo a escrever e, para mim, é um milagre que eu não entenda. Mas Larry, você ajudou a desmistificar o processo de medir a escrita em inglês. Muito grato pelo seu tempo.

Foi um prazer conversar, John – e sempre feliz em falar sobre como a linguiça é feita, por assim dizer.

Sim, bem, e falando em jantar, vamos falar de salmão em breve também.

Parece ótimo.

Construindo uma Boa Medida de Habilidades de Escrita em Inglês: Uma Conversa com Larry Davis

Relacionado