A Google apostou todas as fichas em agentes autônomos. No Google I/O 2026, realizado em 19 de maio, a empresa apresentou o Gemini 3.5 Flash — um modelo projetado não para responder perguntas, mas para executar tarefas complexas em paralelo, com mínima intervenção humana.

A mudança de posicionamento é deliberada: enquanto a maioria dos grandes modelos de linguagem ainda é associada a chatbots, o Gemini 3.5 Flash foi construído para ser o motor de agentes de IA que operam por horas, tomam decisões, usam ferramentas e coordenam subagentes em paralelo.

O que é o Gemini 3.5 Flash e o que ele entrega

Segundo Koray Kavukcuoglu, tecnologista-chefe do Google DeepMind, o Gemini 3.5 Flash "supera nosso último modelo fronteira, o 3.1 Pro, em quase todos os benchmarks" — incluindo código, raciocínio e tarefas multimodais.

Os números concretos dos benchmarks:

  • Terminal-Bench 2.1 (código): 76,2%
  • GDPval-AA (tarefas agentivas): 1.656 Elo
  • MCP Atlas (uso de ferramentas): 83,6%
  • CharXiv Reasoning (compreensão multimodal): 84,2%

Em termos de velocidade, o modelo roda 4 vezes mais rápido que modelos fronteira concorrentes. Uma variante otimizada chega a 12 vezes mais rápida, mantendo qualidade equivalente — um diferencial crítico para aplicações agentivas onde dezenas de subagentes operam simultaneamente.

A nova API de Agentes Gerenciados do Google permite que uma única chamada de API inicialize um agente completo — com capacidade de raciocinar, usar ferramentas e executar código em contêineres Linux isolados. O estado persiste entre chamadas, tornando sessões multi-etapas fluidas sem perder contexto.

Quanto custa e como se compara com outros modelos

O Gemini 3.5 Flash é precificado em:

  • US$ 1,50 por milhão de tokens de entrada
  • US$ 9,00 por milhão de tokens de saída
  • US$ 0,15 por milhão de tokens de entrada em cache

Em comparação, o modelo é aproximadamente 3 vezes mais caro que o Gemini 3 Flash Preview e 6 vezes mais que o Gemini 3.1 Flash-Lite — uma tendência que reflete a indústria toda: o GPT-5.5 dobrou o preço do GPT-5.4, e o Claude Opus 4.7 subiu cerca de 1,46 vezes em relação ao predecessor.

Porém, a Google argumenta que o custo total de operação cai. Para uma empresa hipotética que processa 1 trilhão de tokens por dia no Google Cloud, migrar 80% das cargas para uma combinação de Flash e modelos fronteira gera uma economia superior a US$ 1 bilhão por ano.

Por que isso importa para o seu negócio

O Gemini 3.5 Flash já está em produção em algumas das maiores empresas do mundo:

  • Shopify executa subagentes em paralelo para análise de dados e previsões de crescimento de lojistas
  • Salesforce integrou ao Agentforce para automação de tarefas empresariais com múltiplos subagentes
  • Ramp usa o modelo para OCR inteligente em faturas e documentos financeiros
  • Xero adotou para fluxos de trabalho complexos de múltiplas semanas
  • Macquarie Bank pilota para onboarding de clientes com análise de documentos de 100+ páginas
  • Databricks emprega em monitoramento de dados em tempo real

Para empreendedores e pequenas e médias empresas, o impacto prático é duplo: primeiro, modelos mais rápidos e baratos tornam a automação via IA acessível para volumes de trabalho que antes seriam caros demais. Segundo, o modelo se torna o padrão do app Gemini e do AI Mode no Google Search — o que significa que qualquer busca com IA no Google já passa pelo Gemini 3.5 Flash.

O Google Antigravity 2.0, plataforma de desenvolvimento orientada a agentes lançada junto, permite que startups e desenvolvedores criem aplicações prontas para produção usando o mesmo modelo que o Shopify e a Salesforce usam.

A era dos chatbots de resposta única ficou para trás. O que está sendo construído agora — com o Gemini 3.5 Flash como protagonista — é uma infraestrutura de agentes que executa trabalho real, end-to-end, sem esperar pela aprovação humana a cada passo.


Conteúdo reescrito e traduzido para PT pela redação luiscortex, revisado por humano.

Fonte: TechCrunch