A confiabilidade da IA não é um número único: ela muda conforme o tipo de pergunta. Foi o que mostrou um teste de honestidade em 10 rodadas que comparou o Claude Opus 4.8 com a versão anterior, a 4.7. O modelo mais novo se manteve ou melhorou em desafios de programação e medicina, mas "quebrou" diante de um problema jurídico — e isso diz muito sobre como sua empresa deveria usar a tecnologia.

O que o teste de honestidade revelou

O experimento, divulgado pela imprensa de tecnologia, submeteu os dois modelos a cenários idênticos em quatro áreas: código, diagnóstico médico, análise financeira e interpretação jurídica. A novidade não foi a IA errar uma conta, e sim ela errar com confiança justamente onde o custo do erro é alto. Segundo a análise, o direito é uma área em que "a precisão não é só preferível, é legalmente exigida" — e o modelo tropeçou ali, embora fosse melhor nas demais.

A conclusão central é desconfortável para quem trata número de versão como sinônimo de qualidade: "versões mais altas não garantem melhora linear", e "o teste específico por domínio importa mais do que benchmarks gerais". Ou seja, um modelo pode ser ótimo numa tarefa e falho em outra, e julgar a confiabilidade da IA de forma genérica é um erro.

Os números que sustentam o alerta

Esse comportamento não é uma exceção. Pesquisas do RegLab da Universidade Stanford mostram que modelos de linguagem genéricos alucinam — inventam informações — em 58% a 82% das consultas jurídicas; o GPT-4 errou 58% das vezes, o GPT-3.5 69% e o Llama 2 88%. Mesmo ferramentas jurídicas especializadas não escapam: um estudo seguinte da Stanford apontou taxas de alucinação de 17% no Lexis+ AI e 33% no Westlaw, contra 43% de um modelo genérico. A própria manchete do estudo resume o risco: modelos jurídicos alucinam em pelo menos 1 a cada 6 consultas.

Do outro lado, há progresso real e mensurável. A Anthropic afirma que o Opus 4.8 é "cerca de quatro vezes menos propenso" que o antecessor a deixar passar falhas no código que escreve, e que está "mais propenso a sinalizar incertezas e menos propenso a fazer afirmações sem suporte". Em um teste de navegação web (Online-Mind2Web), o modelo marcou 84%. A confiabilidade está melhorando — mas continua sendo desigual entre os assuntos.

Por que isso importa para o seu negócio

Para uma empresa, a confiabilidade da IA é uma questão de gestão de risco, não de fé na marca. A regra prática é simples: quanto maior a consequência de um erro, mais a resposta da IA deve ser tratada como rascunho a ser validado por uma pessoa. Use a IA para redigir um contrato, resumir uma lei ou organizar um cálculo fiscal — e nunca para bater o martelo sozinha em questões jurídicas, contábeis ou de saúde.

Na prática, isso significa três hábitos: peça à IA que aponte de onde tirou cada informação, cruze respostas críticas com mais de um modelo ou com uma fonte oficial, e mantenha um humano responsável por aprovar o resultado final. Empresas que adotam a confiabilidade da IA como processo — e não como suposição — colhem a velocidade da tecnologia sem herdar o prejuízo de uma alucinação. Para se aprofundar, vale ler o estudo da Stanford HAI sobre alucinações jurídicas.


Conteúdo reescrito e traduzido para PT pela redação luiscortex, revisado por humano.

Fonte: TechBuzz