Em 16 de abril de 2026, a Anthropic lançou o Claude Opus 4.7 com promessa de retomar a liderança em coding e tarefas agênticas — derrotando GPT-5.4 e Gemini 3.1 Pro em 12 dos 14 benchmarks oficiais. SWE-bench Pro subiu de 53,4% para 64,3%. SWE-bench Verified saltou de 80,8% para 87,6%. Números bonitos.
Mas eu já tinha sido enganado por benchmark antes. Então fiz o que sempre faço: peguei o modelo recém-lançado e coloquei pra rodar 7 dias seguidos na agência. Tudo que faço no dia a dia — agentes IA no WhatsApp dos meus clientes, código de novos projetos, criativos pra Meta Ads, análise de planilhas — tudo passou pelo Opus 4.7.
Esse é o relato real, sem filtro: onde ele entrega, onde decepciona, e quanto a brincadeira custou de verdade na fatura.
Por que decidi testar o Opus 4.7 por 7 dias seguidos
Eu rodo a Agência Café Online com cerca de 17 clientes ativos, 7 pessoas no time e uma stack pesada de IA: agentes IA no WhatsApp, automação de processos, blogs SEO, tráfego pago e implementação de sistemas. O Opus 4.6 estava no centro de quase tudo. Trocar de modelo é uma decisão delicada — uma migração mal feita derruba agentes em produção e a fatura no fim do mês pode dobrar.
Quando saiu o Opus 4.7 segunda-feira (16/04), li os benchmarks e desconfiei. Coding 87,6% no SWE-bench Verified é absurdo — o GPT-5.4 fica em 80,6%, o Gemini 3.1 Pro também. Mas já vi modelo bom no benchmark e ruim no mundo real. Então em vez de migrar tudo de uma vez, separei 7 cenários reais e fui rodando dia a dia.
O setup do teste: o que coloquei pra rodar
Pra ter números confiáveis, padronizei o setup:
- Prompt sistema idêntico: peguei o prompt que rodava no 4.6 e usei sem mudar uma vírgula no 4.7
- Mesma temperatura: 0.7 pros agentes WhatsApp, 0.2 pra código
- Logging completo: cada chamada salvou tokens de input, output, latência e custo
- Comparação cega: pedi pra equipe avaliar respostas sem saber qual modelo respondeu
- Sem prompt caching nos 5 primeiros dias: pra ver o custo real, sem otimização
Os cenários cobertos:
- Agente IA WhatsApp de qualificação de leads (cliente do nicho automotivo)
- Agente IA WhatsApp de atendimento clínico (alta sensibilidade no português)
- Refatoração de servidor Flask com 4.500 linhas (Claude Code)
- Implementação de feature nova em sistema CRM existente
- Geração de copy pra criativos Meta Ads (10 conjuntos diferentes)
- Análise de planilha de 28.000 linhas com cruzamento de dados
- Revisão de código de outro dev (PR review usando o novo /ultrareview)
Quer aplicar IA na sua empresa do jeito certo?
A gente implementa agentes IA, automações e dashboards com o modelo certo pra cada caso — sem queimar dinheiro com hype.
Falar com especialistaDias 1-2: agentes WhatsApp em produção
Comecei pelo cenário mais arriscado: trocar o modelo de dois agentes IA que estão em produção respondendo cliente real. Um do nicho automotivo (alto volume, conversas curtas, foco em qualificação) e um do nicho clínico (volume médio, conversas longas, exige cuidado no tom).
Agente automotivo: a surpresa positiva
Esse agente recebe ~400 mensagens/dia, faz qualificação (modelo de carro, prazo, forma de pagamento) e agenda visita. Com o 4.6, a taxa de qualificação completa era 71%. Com o 4.7 subiu pra 79% no segundo dia. O ganho veio principalmente de dois lugares:
- Melhor instruction-following: o agente para de "achar" o que perguntar e segue o roteiro do prompt sistema com mais precisão
- Menos invenção de dados: o 4.6 às vezes inventava nome de modelo de carro que o cliente não tinha falado. O 4.7 só usa o que o cliente disse
Latência ficou praticamente igual (média 1,8s vs 1,7s do 4.6). Custo por conversa subiu 22% — tudo por conta do tokenizer novo.
Agente clínico: a primeira decepção
Esse agente conversa em português formal, faz triagem leve e agenda. Aqui o 4.7 trouxe um problema novo: respostas longas demais. O 4.6 respondia em 2-3 frases curtas; o 4.7 começou a despejar parágrafos com "compreendo", "entendo a situação", "estou aqui para ajudar". Em conversa de WhatsApp, isso é ruim — paciente desiste de ler.
Resolvi com ajuste no prompt sistema (adicionei "responda em no máximo 2 frases curtas, sem floreio") e o problema desapareceu. Lição: o 4.7 é mais "verboso" por padrão, talvez pra parecer mais útil, mas em alguns canais isso atrapalha.
Dias 3-4: código e refatoração com Claude Code
Aqui veio o ganho mais real e mensurável. Peguei um servidor Flask de um cliente meu (4.500 linhas, com integração Z-API WhatsApp + OpenAI + Supabase) que precisava de refatoração. Já tinha uma planilha com 23 problemas mapeados (estrutura ruim, código duplicado, falhas de validação, queries SQL ineficientes).
Comparação direta com o 4.6
Com o 4.6 anterior, eu rodava sessões de refatoração de 4-6h e completava cerca de 8-10 dos 23 itens, com retrabalho frequente (testes quebrando, reintroducão de bugs). Com o 4.7:
- Sessão de 5h resolveu 17 dos 23 itens
- Zero teste quebrado — fato raro com o 4.6
- 3 bugs latentes identificados que nem estavam na planilha original
- Tempo médio por item: caiu de 32min pra 18min
O salto no SWE-bench Verified de 80,8% → 87,6% que a Anthropic anunciou — eu senti na pele. Não é hype: o modelo realmente entende código complexo melhor. Especialmente quando o repositório tem dependências cruzadas, ele rastreia o impacto de uma alteração com mais cuidado.
O comando /ultrareview foi o highlight
O Claude Code ganhou o slash command /ultrareview com o 4.7. Funciona assim: depois que o modelo gera um patch, você roda /ultrareview e ele faz uma revisão crítica do próprio código antes de aceitar a alteração — checa edge cases, segurança, performance, aderência ao padrão do projeto.
Em 4 dias usando esse comando, ele reverteu por conta própria 6 alterações que tinha proposto, dizendo "isso vai quebrar o caso X em produção". Em pelo menos 2 dessas 6, ele estava certo — eu teria deployado um bug.
Dia 5: criativos e copy de tráfego pago
No quinto dia, joguei o 4.7 pra gerar copy de criativos pra Meta Ads — 10 conjuntos diferentes pra clientes diferentes (concessionária de carros, clínica odontológica, e-commerce de roupa, advogado, escola de inglês).
Aqui foi resultado misto:
- Hooks de vídeo: o 4.7 entrega hooks mais ousados, com mais "punch". Em testes A/B no Meta Ads, 6 dos 10 conjuntos do 4.7 superaram o CTR dos do 4.6 em pelo menos 12%
- CTAs: empate técnico — ambos geram CTAs decentes, sem destaque
- Texto longo (LP, descrição): o 4.7 às vezes adiciona "elaborações" que o 4.6 não fazia. Texto fica mais "polido", mas perde força. Pra copywriting de conversão, isso é negativo
Veredicto pro tráfego pago: usar 4.7 pra hooks e abordagens criativas, manter 4.6 pra texto de LP e descrições longas. Mistura faz sentido.
Dia 6: análise de planilhas e dashboards (1M contexto)
Esse foi o teste que mais me decepcionou — e que mais ninguém falou ainda. O Opus 4.7 mantém a janela de 1 milhão de tokens de contexto, mas a recuperação dentro desse contexto piorou.
Joguei uma planilha de 28.000 linhas (cerca de 380 mil tokens) e pedi pra cruzar dados específicos: identificar leads que tinham status "qualificado" no CRM mas que não tinham aparecido em nenhuma campanha de remarketing. Tarefa clássica de análise.
O 4.6 fazia isso bem — encontrava os leads, listava com fonte. O 4.7 alucinou em 3 das 5 vezes que rodei. Citou números que não existiam no arquivo, "lembrou" de filtros que eu não tinha pedido, e em uma das execuções inventou uma coluna inteira.
Fui investigar e encontrei a causa: o benchmark MRCR (Multi-hop Retrieval and Context Recall) do 4.7 caiu de 78,3% pra 32,2%. Em outras palavras: o modelo é melhor no que sabe, mas pior em achar informação espalhada num contexto longo. Pra análise de planilha grande, isso é fatal.
Workaround que acabei usando: fragmentar o arquivo em chunks de 50k tokens, rodar análise por chunk, depois consolidar. Funciona, mas é mais trabalhoso e cara mais (mais chamadas).
Quer um diagnóstico de IA pra sua operação?
Eu mesmo (Felipe) avalio onde IA faz sentido na sua empresa, qual modelo usar e quanto vai custar. Sem enrolação.
Falar com Felipe no WhatsAppDia 7: o problema do novo tokenizer e a fatura real
No sétimo dia parei de testar e fui olhar a fatura. Aqui mora a parte que quase ninguém está discutindo: o Opus 4.7 usa um tokenizer novo, diferente do 4.6.
O preço listado é igual: US$ 5 por milhão de tokens de input, US$ 25 por milhão de tokens de output. Mas como reportou a Finout em análise de pricing, o novo tokenizer fragmenta o mesmo texto em até 35% mais tokens. Em português, o impacto é ainda maior que em inglês.
Os números do meu teste
| Cenário | Custo médio (4.6) | Custo médio (4.7) | Variação |
|---|---|---|---|
| Agente WhatsApp automotivo (por conversa) | US$ 0,082 | US$ 0,100 | +22% |
| Agente WhatsApp clínico (por conversa) | US$ 0,145 | US$ 0,186 | +28% |
| Sessão Claude Code (5h refatoração) | US$ 47 | US$ 58 | +23% |
| Geração de 10 copies Meta Ads | US$ 1,90 | US$ 2,55 | +34% |
| Análise planilha 380k tokens | US$ 2,10 | US$ 2,68 | +27% |
Média geral de aumento: 27%. Isso significa que se sua operação de IA gasta R$ 5.000/mês com Opus 4.6, vai pra R$ 6.350/mês com Opus 4.7 sem nenhum ganho funcional — só pelo tokenizer.
A boa notícia: com prompt caching ativado, dá pra cortar até 90% do custo de input (cache reads custam ~10% do preço normal). Mas exige reestruturação do prompt. Vou tratar disso em artigo separado.
Veredictos por caso de uso
Depois de 7 dias rodando, esse é meu veredicto honesto:
| Caso de uso | Recomendação | Motivo |
|---|---|---|
| Código complexo / refatoração | Migrar pro 4.7 | Ganho de qualidade compensa custo |
| Agentes WhatsApp complexos | Migrar pro 4.7 | Menos alucinação, mais precisão |
| Agentes WhatsApp simples (FAQ) | Manter 4.6 | Aumento de custo não compensa |
| Análise de documentos longos | Manter 4.6 ou Sonnet 4.6 | MRCR caiu, aluminação aumenta |
| Hooks e copy criativo | Migrar pro 4.7 | Hooks mais ousados, melhor CTR |
| Texto longo de LP | Manter 4.6 | 4.7 fica "polido" e perde força |
| Code review (PR review) | Migrar pro 4.7 (com /ultrareview) | Pega bug que o 4.6 deixava passar |
Vale a pena migrar agora?
Resposta curta: migração seletiva, não em massa.
O Opus 4.7 é objetivamente o modelo mais capaz disponível em código e agentic reasoning. Mas é também uma "token eating machine" e tem uma queda real de performance em recuperação de contexto longo. Quem migra tudo de uma vez vai ver fatura subir 25-35% e provavelmente vai pegar regressões em alguns casos de uso.
Minha estratégia pros próximos 30 dias:
- Code agents e Claude Code: 100% no 4.7 (com prompt caching ligado pra controlar custo)
- Agentes WhatsApp complexos: migrar 1 agente por semana, monitorando taxa de qualificação e custo
- Agentes simples: ficar no 4.6 até o preço do 4.7 cair ou novo Haiku 4.5 ganhar capacidade
- Análise de documentos: ficar no 4.6 ou testar Sonnet 4.6 (que mantém o MRCR alto)
- Copy/criativos: migração híbrida (4.7 pra hook, 4.6 pra texto longo)
O ganho real existe — mas exige discernimento. Quem entender onde o 4.7 brilha e onde decepciona vai extrair valor. Quem migrar tudo no escuro vai gastar mais sem perceber ganho proporcional.
Perguntas frequentes
O Claude Opus 4.7 vale a pena vs 4.6? +
Para tarefas de código complexas, refatoração e agentes autônomos: sim, o ganho é real (SWE-bench Verified subiu de 80,8% para 87,6%). Para tarefas simples de escrita e respostas rápidas, o 4.6 ainda é mais barato e rápido na prática, porque o 4.7 usa um novo tokenizer que consome até 35% mais tokens para o mesmo texto.
Quanto custa rodar o Opus 4.7 em produção? +
O preço listado é igual ao 4.6: US$ 5 por milhão de tokens de input e US$ 25 por milhão de tokens de output. Mas como o novo tokenizer fragmenta o texto em mais pedaços, o custo real por requisição pode subir 20% a 35%. Sem prompt caching ativado, o aumento é sentido na fatura.
O Opus 4.7 funciona bem em português? +
Sim, e melhor que o 4.6 em respostas longas e formatação. Mas o impacto do novo tokenizer é maior em português: textos em português são tokenizados em mais pedaços que em inglês, então o custo extra é mais visível. Em testes reais com agentes WhatsApp, o consumo subiu cerca de 28%.
Vale migrar agentes IA do 4.6 para o 4.7 agora? +
Depende do tipo de agente. Para agentes de atendimento simples (FAQ, qualificação básica), o 4.6 ainda entrega o suficiente com custo menor. Para agentes que executam tarefas complexas, agendam, buscam dados em sistemas externos e tomam decisões, o 4.7 vale a migração — a precisão sobe e o número de erros cai.
O que mudou no Claude Code com o Opus 4.7? +
Três coisas: o nível de esforço xhigh (raciocínio mais profundo), task budgets em beta (controle de custo por tarefa) e o comando /ultrareview que faz uma revisão crítica completa do código antes de aceitar a alteração. Na prática, reduziu erros de código em projetos grandes em cerca de 40% nos meus testes.