O rápido avanço da IA generativa mudou a forma como as pessoas escrevem. A IA agora está incorporada a muitas ferramentas de escrita do dia a dia, ajudando os usuários a gerar ideias, rascunhar conteúdo, revisar frases e melhorar sua escrita. Como resultado, a escrita está se tornando cada vez mais um processo colaborativo entre humanos e IA. Para estudantes, educadores e organizações de avaliação, isso levanta uma questão fundamental: quando a IA se torna parte do processo de escrita, quais habilidades essenciais devemos valorizar e como devemos medi-las?
Essa mudança também desafia os sistemas automatizados de pontuação existentes, que foram desenvolvidos principalmente sob a suposição de que os ensaios foram escritos independentemente por humanos. Recursos como gramática, uso, mecânica e organização são usados há muito tempo como indicadores da qualidade da escrita e são parte fundamental de muitos modelos automatizados de pontuação. Mas quando a IA pode melhorar esses aspectos da escrita com esforço mínimo, seu papel na pontuação automatizada precisa ser reconsiderado. Esse desafio é mais relevante para tarefas de escrita não supervisionadas, onde o uso de IA é difícil de controlar, em vez de testes formais de escrita supervisionados, onde o acesso a tais ferramentas pode ser restringido.
Um artigo recente, "Ensaios Gerados por IA: Características e Implicações para Pontuação Automatizada e Integridade Acadêmica", publicado em Educational Measurement: Issues and Practice (EM:IP), explora essa questão sob a ótica da Avaliação de Escrita Analítica do GRE. O estudo, que evoluiu a partir de um projeto de estágio de verão da ETS, comparou ensaios gerados por IA com redações escritas por humanos e os avaliou usando avaliadores humanos treinados e o motor automático de pontuação e-rater da ETS. Os resultados revelam diferenças importantes entre ensaios gerados por IA e escritos por humanos, oferecendo insights úteis para a próxima geração de sistemas automatizados de pontuação.
A pontuação automatizada enfrenta um novo desafio
A pontuação automatizada desempenha um papel importante na avaliação de escrita em larga escala. Esses sistemas frequentemente dependem de características da linguagem como gramática, uso, mecânica, estilo, organização e escolha de palavras, pois podem ser calculados de forma eficiente com técnicas de PLN. Embora essas características façam parte do conceito em muitos testes de linguagem, em tarefas mais focadas em argumentação e raciocínio, elas frequentemente servem como indicadores indiretos de qualidade mais profunda da escrita, em vez de evidências diretas da qualidade das ideias, evidências ou raciocínio.
Por exemplo, um aluno que escreve com gramática precisa, organização clara e parágrafos bem desenvolvidos frequentemente também demonstra habilidades mais fortes de raciocínio e comunicação.
A IA generativa muda essa relação. Redações geradas por IA podem obter alta pontuação em recursos relacionados ao idioma porque a tecnologia pode produzir uma escrita polida e bem estruturada. No entanto, características de linguagem fortes em ensaios gerados por IA nem sempre vêm acompanhadas de raciocínio forte, análise significativa ou pensamento original.
Como resultado, alguns dos recursos que tradicionalmente eram bons indicadores de qualidade da escrita tornam-se menos confiáveis quando os ensaios são gerados ou fortemente auxiliados por IA.
O que o estudo descobriu
O estudo revelou dois achados importantes.
Primeiro, os ensaios gerados por IA consistentemente superaram os ensaios escritos por humanos sobre aspectos relacionados à linguagem, mesmo quando as ideias ou argumentos subjacentes eram relativamente limitados. Segundo, o e-avaliador® atribuiu notas mais altas aos ensaios gerados por IA do que os avaliadores humanos.
Essa diferença reflete como os sistemas automatizados de pontuação tradicionalmente foram desenvolvidos. O e-rater® foi treinado usando redações escritas por humanos, onde o uso forte da linguagem está tipicamente associado a uma escrita geral mais forte. Como resultado, essas características desempenham um papel importante no processo de pontuação.
Redações geradas por IA podem ter um desempenho excelente nessas características relacionadas à linguagem, mas ainda carecem de raciocínio analítico forte, uso de evidências e profundidade argumentativa. Quando o avaliador® e-ranking atribui os mesmos valores a essas características ao avaliar redações geradas por IA, isso infla as notas.
Avaliadores humanos, por outro lado, avaliam não apenas a qualidade da linguagem, mas também a qualidade do raciocínio, o uso das evidências e o desenvolvimento das ideias, conforme guiado pela rubrica de avaliação. Isso explica por que avaliadores humanos não avaliaram os ensaios gerados por IA tão alto quanto o sistema automatizado.
Importante destacar que esses achados não sugerem que o e-rater® seja falho. Em vez disso, eles destacam como a IA generativa mudou algumas das suposições sobre as quais os sistemas automatizados de pontuação existentes foram construídos.
O que a pontuação automatizada precisa a seguir
Sistemas automatizados de pontuação fazem mais do que apenas atribuir pontuações. Antes de começar a pontuação, normalmente verificam se uma resposta é apropriada para a pontuação. Tradicionalmente, essa etapa tem se concentrado em sinalizar redações que são fora do tema, incomumente curtas ou longas, repetitivas, memorizadas ou que não são adequadas para pontuação.
À medida que a escrita assistida por IA se torna mais comum, esse processo inicial de triagem precisa se expandir para identificar respostas geradas ou fortemente assistidas por IA quando o uso da IA não for permitido. Na verdade, os resultados do artigo EM:IP mostram que ensaios gerados por diversos modelos de IA generativa podem ser detectados com alta precisão. No entanto, os métodos de detecção precisarão ser continuamente atualizados à medida que novos modelos de IA surgirem.
Ao mesmo tempo, os sistemas automatizados de pontuação precisam reconsiderar o quanto dão ênfase a diferentes aspectos da escrita. Características superficiais da linguagem podem ser indicadores menos úteis de raciocínio mais profundo na escrita, quando a IA pode melhorá-las com esforço mínimo.
Sistemas futuros devem dar maior ênfase a qualidades mais profundas da escrita, como o uso eficaz das evidências, qualidade do raciocínio, profundidade de análise e força do argumento.
O futuro da avaliação de escrita
A escrita assistida por IA veio para ficar. À medida que essas ferramentas se tornam parte da escrita cotidiana, a questão central deixa de ser como detectar ou impedir seu uso, mas como redefinir o que esperamos medir a partir da escrita neste novo ambiente.
Responder a essa pergunta exigirá concordância em várias questões importantes, incluindo qual nível de habilidade de escrita independente é esperado, quais tipos de assistência de IA são apropriados e quais evidências devem ser usadas para avaliar a qualidade da escrita. Os sistemas automatizados de pontuação precisam evoluir junto com essa conversa mais ampla, para que continuem apoiando julgamentos válidos e significativos sobre a escrita na era da IA.