A Google apostou todas as fichas em agentes autônomos. No Google I/O 2026, realizado em 19 de maio, a empresa apresentou o Gemini 3.5 Flash — um modelo projetado não para responder perguntas, mas para executar tarefas complexas em paralelo, com mínima intervenção humana.
A mudança de posicionamento é deliberada: enquanto a maioria dos grandes modelos de linguagem ainda é associada a chatbots, o Gemini 3.5 Flash foi construído para ser o motor de agentes de IA que operam por horas, tomam decisões, usam ferramentas e coordenam subagentes em paralelo.
O que é o Gemini 3.5 Flash e o que ele entrega
Segundo Koray Kavukcuoglu, tecnologista-chefe do Google DeepMind, o Gemini 3.5 Flash "supera nosso último modelo fronteira, o 3.1 Pro, em quase todos os benchmarks" — incluindo código, raciocínio e tarefas multimodais.
Os números concretos dos benchmarks:
- Terminal-Bench 2.1 (código): 76,2%
- GDPval-AA (tarefas agentivas): 1.656 Elo
- MCP Atlas (uso de ferramentas): 83,6%
- CharXiv Reasoning (compreensão multimodal): 84,2%
Em termos de velocidade, o modelo roda 4 vezes mais rápido que modelos fronteira concorrentes. Uma variante otimizada chega a 12 vezes mais rápida, mantendo qualidade equivalente — um diferencial crítico para aplicações agentivas onde dezenas de subagentes operam simultaneamente.
A nova API de Agentes Gerenciados do Google permite que uma única chamada de API inicialize um agente completo — com capacidade de raciocinar, usar ferramentas e executar código em contêineres Linux isolados. O estado persiste entre chamadas, tornando sessões multi-etapas fluidas sem perder contexto.
Quanto custa e como se compara com outros modelos
O Gemini 3.5 Flash é precificado em:
- US$ 1,50 por milhão de tokens de entrada
- US$ 9,00 por milhão de tokens de saída
- US$ 0,15 por milhão de tokens de entrada em cache
Em comparação, o modelo é aproximadamente 3 vezes mais caro que o Gemini 3 Flash Preview e 6 vezes mais que o Gemini 3.1 Flash-Lite — uma tendência que reflete a indústria toda: o GPT-5.5 dobrou o preço do GPT-5.4, e o Claude Opus 4.7 subiu cerca de 1,46 vezes em relação ao predecessor.
Porém, a Google argumenta que o custo total de operação cai. Para uma empresa hipotética que processa 1 trilhão de tokens por dia no Google Cloud, migrar 80% das cargas para uma combinação de Flash e modelos fronteira gera uma economia superior a US$ 1 bilhão por ano.
Por que isso importa para o seu negócio
O Gemini 3.5 Flash já está em produção em algumas das maiores empresas do mundo:
- Shopify executa subagentes em paralelo para análise de dados e previsões de crescimento de lojistas
- Salesforce integrou ao Agentforce para automação de tarefas empresariais com múltiplos subagentes
- Ramp usa o modelo para OCR inteligente em faturas e documentos financeiros
- Xero adotou para fluxos de trabalho complexos de múltiplas semanas
- Macquarie Bank pilota para onboarding de clientes com análise de documentos de 100+ páginas
- Databricks emprega em monitoramento de dados em tempo real
Para empreendedores e pequenas e médias empresas, o impacto prático é duplo: primeiro, modelos mais rápidos e baratos tornam a automação via IA acessível para volumes de trabalho que antes seriam caros demais. Segundo, o modelo se torna o padrão do app Gemini e do AI Mode no Google Search — o que significa que qualquer busca com IA no Google já passa pelo Gemini 3.5 Flash.
O Google Antigravity 2.0, plataforma de desenvolvimento orientada a agentes lançada junto, permite que startups e desenvolvedores criem aplicações prontas para produção usando o mesmo modelo que o Shopify e a Salesforce usam.
A era dos chatbots de resposta única ficou para trás. O que está sendo construído agora — com o Gemini 3.5 Flash como protagonista — é uma infraestrutura de agentes que executa trabalho real, end-to-end, sem esperar pela aprovação humana a cada passo.
Conteúdo reescrito e traduzido para PT pela redação luiscortex, revisado por humano.
Fonte: TechCrunch





