Como avaliamos grandes modelos de linguagem?

Não é tão fácil quanto você imagina.

Grandes modelos de linguagem (LLMs), como o ChatGPT da OpenAI e o Llama da Meta, vêm transformando nossas vidas há algum tempo. No entanto, com tantos modelos para escolher, muitas pessoas estão se perguntando qual modelo é "o melhor". Para responder a essa pergunta, tanto pesquisadores quanto usuários frequentemente recorrem a benchmarks e testes para ver qual modelo resolveu os problemas de programação mais difíceis ou obteve a maior pontuação no SAT. Neste post, vou argumentar três pontos.

Nem benchmarks nem testes tradicionais são apropriados para avaliar as capacidades dos LLMs modernos.
LLMs que exibem habilidades humanas sem possuir inteligência e cognição semelhantes às humanas adicionam dimensões totalmente novas ao campo da psicometria.
Será necessária uma pesquisa substancial para chegar a avaliações de LLM cujos resultados possam ser interpretados com confiança.

Referências

Tradicionalmente, benchmarks têm sido usados para avaliar o desempenho de software e hardware. Um benchmark avalia o desempenho de uma ferramenta ao fazê-la completar um conjunto de tarefas para as quais foi especificamente projetada. Um classificador de imagens é benchmarkado ao fazer com que ele classifique uma seleção de imagens, e um processador de computador é avaliado ao executar uma série de cálculos complexos.

Quando se trata de LLMs, benchmarking não é simples. Primeiro, LLMs não são treinados para nenhuma tarefa específica: podem ser usados para classificação de texto, mas não são classificadores de texto; podem ser usados para pontuar redações, mas não são pontuadores automáticos – e assim por diante. Portanto, qualquer resultado de benchmark depende não apenas de qual LLM foi usado, mas também de como ele foi utilizado. Essa ambiguidade prejudica a credibilidade dos resultados e frequentemente leva a debates, por exemplo, sobre se um prompt diferente teria levado a resultados diferentes.

Outros dois problemas comuns com benchmarks são saturação, que significa que todos os modelos recentes estão chegando perto de pontuações perfeitas, e contaminação, que significa que alguns ou todos os elementos de um benchmark são incluídos nos dados de treinamento do modelo. Ambos os problemas são particularmente agudos no caso dos LLMs porque seu progresso é rápido e seus dados de treinamento contêm praticamente toda a internet.

Devido a essas e outras questões, muitos benchmarks de LLM oferecem valor limitado na avaliação da qualidade geral de um LLM. Essa deficiência motivou iniciativas para comparar os benchmarks de acordo com diversos critérios de qualidade. Esses esforços visam estabelecer um conjunto de benchmarks de alta qualidade que compreendam conjuntos de problemas cuidadosamente elaborados, monitorados quanto à saturação e contaminação, e atualizados ou recalibrados se necessário. Nesse sentido, os benchmarks estão se aproximando dos testes tradicionais, onde tais práticas são comuns desde o início. No entanto, a transição do benchmarking para testar IA traz seus próprios desafios.

Testes

Praticamente todos já foram testados em algum momento da vida, seja para admissão na faculdade, licença profissional ou carteira de motorista. Esses testes são bastante diferentes dos benchmarks. Mais importante ainda, a capacidade ou conhecimento avaliado por um teste é complexo demais para ser medido diretamente. Por exemplo, a preparação de um estudante para a faculdade não pode ser testada permitindo que ele frequente uma seleção de programas de graduação. Portanto, os testes precisam ser cuidadosamente elaborados para serem válidos.

Considere dois tipos comuns de evidência de validade: preditiva e relacionada ao conteúdo. A evidência preditiva para a validade de um teste pode ser estabelecida pelo grau em que sua pontuação prevê resultados e desempenhos observáveis importantes. Por exemplo, as pontuações do SAT correlacionam bem com várias medidas de sucesso acadêmico. Evidências relacionadas ao conteúdo sugerem que o teste reflete a capacidade avaliada. Por exemplo, uma questão de álgebra no contexto do tênis não deve exigir conhecimento das regras do tênis, nem deve ser respondida apenas pelo conhecimento das regras do tênis.

Questões de validade inevitavelmente surgem quando deixamos LLMs fazerem testes projetados para humanos. Veja a evidência preditiva: um LLM pode tirar nota máxima no SAT, mas não vai se matricular na faculdade; pode passar no exame da ordem com louvor, mas não representará clientes em tribunal — pelo menos no futuro próximo. Problemas semelhantes surgem com evidências relacionadas ao conteúdo. Se um humano pontua alta em um teste de álgebra, pode-se inferir que ele entende e é capaz de aplicar as leis da álgebra investigadas pelos itens do teste. Em contraste, a questão de como LLMs resolvem problemas de álgebra e se realmente aprendem leis generalizáveis ainda permanece em grande parte sem resposta. Normalmente, quanto mais complexo o construto testado, mais especulativa se torna a interpretação da pontuação de um teste de LLM: Um LLM que pontua alta em um exame de licenciamento médico realmente demonstra conhecimento de medicina clínica ou habilidades de manejo de pacientes?

No entanto, com mais tarefas e responsabilidades sendo delegadas a LLMs, estamos testemunhando o surgimento de testes iniciais projetados especificamente para LLMs. Por exemplo, uma empresa que utiliza um LLM para seu atendimento ao cliente precisa testar um novo modelo antes de implantá-lo. Embora esses testes possam começar como uma coleção de benchmarks e verificações de sanidade, com o tempo tendem a se estruturar e incluir itens mais sofisticados que capturam aspectos importantes de desafios que modelos anteriores enfrentaram e talvez não lidaram com isso. Consequentemente, o teste se tornará um indicador cada vez mais informativo da capacidade de um modelo de atender às necessidades de atendimento ao cliente da empresa.

Embora tais "proto-testes" sejam úteis, eles frequentemente são proprietários, limitados em escopo e movidos por necessidades operacionais, e não por investigação científica.

Desafios de Pesquisa

Como argumentado acima, a inteligência não humana distinta dos LLMs invalida muitas das suposições que sustentam a teoria dos testes e a psicometria. Serão necessários esforços significativos de pesquisa para estabelecer quais testes são apropriados para LLMs e quais interpretações dos resultados dos testes podem ser apoiadas por experimentos cientificamente sólidos.

Além disso, grandes redes treinadas do zero com enormes conjuntos de dados dificilmente permanecerão como os únicos sistemas com habilidades semelhantes às humanas. Por exemplo, Arquiteturas Preditivas de Incorporação Conjunta (JEPAs) aprendem de forma mais humana ao observar e interagir diretamente com seus ambientes, enquanto as IAs neurosimbólicas focam no raciocínio simbólico e na representação explícita do conhecimento. Assim, os pesquisadores podem em breve se deparar com uma multiplicidade de tipos diferentes de inteligência que dão origem às mesmas habilidades.

Isso levanta questões fundamentais: podemos definir construtos independentemente do tipo subjacente de inteligência? A capacidade de "pensar criticamente" é a mesma para humanos e vários tipos de IA? Se sim, como devemos medir isso? Cada tipo de inteligência exigirá seu próprio teste? Por exemplo, um teste de pensamento crítico pode explicar os diferentes graus de alfabetização dos examinadores, mas provavelmente assumirá que todos conseguem contar e conhecer as direções cardeais. Para LLMs, o oposto acontece: eles são altamente alfabetizados por design, mas podem carecer de habilidades básicas. Enquanto tais diferenças não forem consideradas, os resultados dos testes de LLM continuarão sujeitos a interpretações equivocadas.

Por fim, pode haver uma fertilização cruzada interessante entre testes de IA e áreas mais estabelecidas da psicometria. Por exemplo, fatores como idade, gênero, cultura e educação, além de transtornos neurológicos, demonstraram impactar processos cognitivos em indivíduos. Nesse contexto, uma IA pode ser vista como um caso extremo de inteligência neurodivergente. Uma melhor compreensão desse caso extremo poderia abrir caminho para avaliações mais personalizadas, justas e objetivas, permitindo que aprendizes com traços cognitivos únicos demonstrem todo o espectro de suas competências.

Em conclusão, embora a avaliação de LLMs seja um desafio considerável, meus colegas pesquisadores da ETS e eu estamos entusiasmados com a oportunidade de ultrapassar limites e aprimorar as técnicas da psicometria moderna.

Michael Fauss é cientista pesquisador no Instituto de Pesquisa ETS. Seu trabalho foca em IA ética.

{"teaserCardGridModuleHeader":"Insight impulsiona o progresso","teaserCardGridModuleDescription":"Descubra as pesquisas, histórias e ideias que impulsionam educação, trabalho e potencial humano adiante.","teaserCardGridModuleTheme":"ets-xdark","showSeparator":true,"teaserCards":[{"teaserCardTitle":"Descubra IA na ETS","teaserCardDescription":"Conheça nossa visão, princípios e soluções de IA – e como estamos capacitando nossa equipe com habilidades reais em IA.","teaserCardImage":"/content/dam/ets-org/brands/insights-and-perspectives/ai.png","teaserCardImageAlt":"Imagem 1","teaserCardLink":"/ai.html","enableGatedContent":false,"ctas":[]},{"teaserCardTitle":"Relatório de Progresso Humano","teaserCardDescription":"Veja como a missão da ETS ganha vida por meio das pessoas e do impacto. Estas são histórias de transformação, oportunidade e progresso em ação.","teaserCardImage":"/content/dam/ets-org/Rebrand/Photos/insights-teaser-card-image-1.webp","teaserCardImageAlt":"Imagem 2","teaserCardLink":"/human-progress-report.html","enableGatedContent":false,"ctas":[]}],"ctas":[]}