Testei o Claude Opus 4.7 por 7 Dias Rodando Minha Agência: O Que Mudou de Verdade

Testei o Claude Opus 4.7 7 dias na minha agência: ganhos reais, decepções e custo. SWE-bench 87,6% mas tokenizer cobra +27%.

16 min de leitura Atualizado em 18/04/2026

Em 16 de abril de 2026, a Anthropic lançou o Claude Opus 4.7 com promessa de retomar a liderança em coding e tarefas agênticas — derrotando GPT-5.4 e Gemini 3.1 Pro em 12 dos 14 benchmarks oficiais. SWE-bench Pro subiu de 53,4% para 64,3%. SWE-bench Verified saltou de 80,8% para 87,6%. Números bonitos.

Mas eu já tinha sido enganado por benchmark antes. Então fiz o que sempre faço: peguei o modelo recém-lançado e coloquei pra rodar 7 dias seguidos na agência. Tudo que faço no dia a dia — agentes IA no WhatsApp dos meus clientes, código de novos projetos, criativos pra Meta Ads, análise de planilhas — tudo passou pelo Opus 4.7.

Esse é o relato real, sem filtro: onde ele entrega, onde decepciona, e quanto a brincadeira custou de verdade na fatura.

Resposta direta: O Claude Opus 4.7 é o modelo mais capaz do mercado em código (SWE-bench Verified 87,6%) e agentes complexos, mas o novo tokenizer eleva o custo real em 22-34% e a recuperação em contexto longo piorou (MRCR caiu de 78,3% para 32,2%). Migração seletiva, não em massa.

Por que decidi testar o Opus 4.7 por 7 dias seguidos

Eu rodo a Agência Café Online com cerca de 17 clientes ativos, 7 pessoas no time e uma stack pesada de IA: agentes IA no WhatsApp, automação de processos, blogs SEO, tráfego pago e implementação de sistemas. O Opus 4.6 estava no centro de quase tudo. Trocar de modelo é uma decisão delicada — uma migração mal feita derruba agentes em produção e a fatura no fim do mês pode dobrar.

Quando saiu o Opus 4.7 segunda-feira (16/04), li os benchmarks e desconfiei. Coding 87,6% no SWE-bench Verified é absurdo — o GPT-5.4 fica em 80,6%, o Gemini 3.1 Pro também. Mas já vi modelo bom no benchmark e ruim no mundo real. Então em vez de migrar tudo de uma vez, separei 7 cenários reais e fui rodando dia a dia.

O setup do teste: o que coloquei pra rodar

Pra ter números confiáveis, padronizei o setup:

  • Prompt sistema idêntico: peguei o prompt que rodava no 4.6 e usei sem mudar uma vírgula no 4.7
  • Mesma temperatura: 0.7 pros agentes WhatsApp, 0.2 pra código
  • Logging completo: cada chamada salvou tokens de input, output, latência e custo
  • Comparação cega: pedi pra equipe avaliar respostas sem saber qual modelo respondeu
  • Sem prompt caching nos 5 primeiros dias: pra ver o custo real, sem otimização

Os cenários cobertos:

  1. Agente IA WhatsApp de qualificação de leads (cliente do nicho automotivo)
  2. Agente IA WhatsApp de atendimento clínico (alta sensibilidade no português)
  3. Refatoração de servidor Flask com 4.500 linhas (Claude Code)
  4. Implementação de feature nova em sistema CRM existente
  5. Geração de copy pra criativos Meta Ads (10 conjuntos diferentes)
  6. Análise de planilha de 28.000 linhas com cruzamento de dados
  7. Revisão de código de outro dev (PR review usando o novo /ultrareview)

Quer aplicar IA na sua empresa do jeito certo?

A gente implementa agentes IA, automações e dashboards com o modelo certo pra cada caso — sem queimar dinheiro com hype.

Falar com especialista

Dias 1-2: agentes WhatsApp em produção

Comecei pelo cenário mais arriscado: trocar o modelo de dois agentes IA que estão em produção respondendo cliente real. Um do nicho automotivo (alto volume, conversas curtas, foco em qualificação) e um do nicho clínico (volume médio, conversas longas, exige cuidado no tom).

Agente automotivo: a surpresa positiva

Esse agente recebe ~400 mensagens/dia, faz qualificação (modelo de carro, prazo, forma de pagamento) e agenda visita. Com o 4.6, a taxa de qualificação completa era 71%. Com o 4.7 subiu pra 79% no segundo dia. O ganho veio principalmente de dois lugares:

  • Melhor instruction-following: o agente para de "achar" o que perguntar e segue o roteiro do prompt sistema com mais precisão
  • Menos invenção de dados: o 4.6 às vezes inventava nome de modelo de carro que o cliente não tinha falado. O 4.7 só usa o que o cliente disse

Latência ficou praticamente igual (média 1,8s vs 1,7s do 4.6). Custo por conversa subiu 22% — tudo por conta do tokenizer novo.

Agente clínico: a primeira decepção

Esse agente conversa em português formal, faz triagem leve e agenda. Aqui o 4.7 trouxe um problema novo: respostas longas demais. O 4.6 respondia em 2-3 frases curtas; o 4.7 começou a despejar parágrafos com "compreendo", "entendo a situação", "estou aqui para ajudar". Em conversa de WhatsApp, isso é ruim — paciente desiste de ler.

Resolvi com ajuste no prompt sistema (adicionei "responda em no máximo 2 frases curtas, sem floreio") e o problema desapareceu. Lição: o 4.7 é mais "verboso" por padrão, talvez pra parecer mais útil, mas em alguns canais isso atrapalha.

Dias 3-4: código e refatoração com Claude Code

Aqui veio o ganho mais real e mensurável. Peguei um servidor Flask de um cliente meu (4.500 linhas, com integração Z-API WhatsApp + OpenAI + Supabase) que precisava de refatoração. Já tinha uma planilha com 23 problemas mapeados (estrutura ruim, código duplicado, falhas de validação, queries SQL ineficientes).

Comparação direta com o 4.6

Com o 4.6 anterior, eu rodava sessões de refatoração de 4-6h e completava cerca de 8-10 dos 23 itens, com retrabalho frequente (testes quebrando, reintroducão de bugs). Com o 4.7:

  • Sessão de 5h resolveu 17 dos 23 itens
  • Zero teste quebrado — fato raro com o 4.6
  • 3 bugs latentes identificados que nem estavam na planilha original
  • Tempo médio por item: caiu de 32min pra 18min

O salto no SWE-bench Verified de 80,8% → 87,6% que a Anthropic anunciou — eu senti na pele. Não é hype: o modelo realmente entende código complexo melhor. Especialmente quando o repositório tem dependências cruzadas, ele rastreia o impacto de uma alteração com mais cuidado.

O comando /ultrareview foi o highlight

O Claude Code ganhou o slash command /ultrareview com o 4.7. Funciona assim: depois que o modelo gera um patch, você roda /ultrareview e ele faz uma revisão crítica do próprio código antes de aceitar a alteração — checa edge cases, segurança, performance, aderência ao padrão do projeto.

Em 4 dias usando esse comando, ele reverteu por conta própria 6 alterações que tinha proposto, dizendo "isso vai quebrar o caso X em produção". Em pelo menos 2 dessas 6, ele estava certo — eu teria deployado um bug.

Leia também: Claude Opus 4.6 Agent Teams: A IA que Trabalha em Equipe — entenda a base do que evoluiu pra 4.7 e como funciona o conceito de agentes coordenados.

Dia 5: criativos e copy de tráfego pago

No quinto dia, joguei o 4.7 pra gerar copy de criativos pra Meta Ads — 10 conjuntos diferentes pra clientes diferentes (concessionária de carros, clínica odontológica, e-commerce de roupa, advogado, escola de inglês).

Aqui foi resultado misto:

  • Hooks de vídeo: o 4.7 entrega hooks mais ousados, com mais "punch". Em testes A/B no Meta Ads, 6 dos 10 conjuntos do 4.7 superaram o CTR dos do 4.6 em pelo menos 12%
  • CTAs: empate técnico — ambos geram CTAs decentes, sem destaque
  • Texto longo (LP, descrição): o 4.7 às vezes adiciona "elaborações" que o 4.6 não fazia. Texto fica mais "polido", mas perde força. Pra copywriting de conversão, isso é negativo

Veredicto pro tráfego pago: usar 4.7 pra hooks e abordagens criativas, manter 4.6 pra texto de LP e descrições longas. Mistura faz sentido.

Dia 6: análise de planilhas e dashboards (1M contexto)

Esse foi o teste que mais me decepcionou — e que mais ninguém falou ainda. O Opus 4.7 mantém a janela de 1 milhão de tokens de contexto, mas a recuperação dentro desse contexto piorou.

Joguei uma planilha de 28.000 linhas (cerca de 380 mil tokens) e pedi pra cruzar dados específicos: identificar leads que tinham status "qualificado" no CRM mas que não tinham aparecido em nenhuma campanha de remarketing. Tarefa clássica de análise.

O 4.6 fazia isso bem — encontrava os leads, listava com fonte. O 4.7 alucinou em 3 das 5 vezes que rodei. Citou números que não existiam no arquivo, "lembrou" de filtros que eu não tinha pedido, e em uma das execuções inventou uma coluna inteira.

Fui investigar e encontrei a causa: o benchmark MRCR (Multi-hop Retrieval and Context Recall) do 4.7 caiu de 78,3% pra 32,2%. Em outras palavras: o modelo é melhor no que sabe, mas pior em achar informação espalhada num contexto longo. Pra análise de planilha grande, isso é fatal.

Workaround que acabei usando: fragmentar o arquivo em chunks de 50k tokens, rodar análise por chunk, depois consolidar. Funciona, mas é mais trabalhoso e cara mais (mais chamadas).

Quer um diagnóstico de IA pra sua operação?

Eu mesmo (Felipe) avalio onde IA faz sentido na sua empresa, qual modelo usar e quanto vai custar. Sem enrolação.

Falar com Felipe no WhatsApp

Dia 7: o problema do novo tokenizer e a fatura real

No sétimo dia parei de testar e fui olhar a fatura. Aqui mora a parte que quase ninguém está discutindo: o Opus 4.7 usa um tokenizer novo, diferente do 4.6.

O preço listado é igual: US$ 5 por milhão de tokens de input, US$ 25 por milhão de tokens de output. Mas como reportou a Finout em análise de pricing, o novo tokenizer fragmenta o mesmo texto em até 35% mais tokens. Em português, o impacto é ainda maior que em inglês.

Os números do meu teste

CenárioCusto médio (4.6)Custo médio (4.7)Variação
Agente WhatsApp automotivo (por conversa)US$ 0,082US$ 0,100+22%
Agente WhatsApp clínico (por conversa)US$ 0,145US$ 0,186+28%
Sessão Claude Code (5h refatoração)US$ 47US$ 58+23%
Geração de 10 copies Meta AdsUS$ 1,90US$ 2,55+34%
Análise planilha 380k tokensUS$ 2,10US$ 2,68+27%

Média geral de aumento: 27%. Isso significa que se sua operação de IA gasta R$ 5.000/mês com Opus 4.6, vai pra R$ 6.350/mês com Opus 4.7 sem nenhum ganho funcional — só pelo tokenizer.

A boa notícia: com prompt caching ativado, dá pra cortar até 90% do custo de input (cache reads custam ~10% do preço normal). Mas exige reestruturação do prompt. Vou tratar disso em artigo separado.

Veredictos por caso de uso

Depois de 7 dias rodando, esse é meu veredicto honesto:

Caso de usoRecomendaçãoMotivo
Código complexo / refatoraçãoMigrar pro 4.7Ganho de qualidade compensa custo
Agentes WhatsApp complexosMigrar pro 4.7Menos alucinação, mais precisão
Agentes WhatsApp simples (FAQ)Manter 4.6Aumento de custo não compensa
Análise de documentos longosManter 4.6 ou Sonnet 4.6MRCR caiu, aluminação aumenta
Hooks e copy criativoMigrar pro 4.7Hooks mais ousados, melhor CTR
Texto longo de LPManter 4.64.7 fica "polido" e perde força
Code review (PR review)Migrar pro 4.7 (com /ultrareview)Pega bug que o 4.6 deixava passar
Leia também: Claude com 1 Milhão de Tokens: O Que É e Como Funciona — entenda como o contexto longo funciona e por que o 4.7 piorou em recall.

Vale a pena migrar agora?

Resposta curta: migração seletiva, não em massa.

O Opus 4.7 é objetivamente o modelo mais capaz disponível em código e agentic reasoning. Mas é também uma "token eating machine" e tem uma queda real de performance em recuperação de contexto longo. Quem migra tudo de uma vez vai ver fatura subir 25-35% e provavelmente vai pegar regressões em alguns casos de uso.

Minha estratégia pros próximos 30 dias:

  1. Code agents e Claude Code: 100% no 4.7 (com prompt caching ligado pra controlar custo)
  2. Agentes WhatsApp complexos: migrar 1 agente por semana, monitorando taxa de qualificação e custo
  3. Agentes simples: ficar no 4.6 até o preço do 4.7 cair ou novo Haiku 4.5 ganhar capacidade
  4. Análise de documentos: ficar no 4.6 ou testar Sonnet 4.6 (que mantém o MRCR alto)
  5. Copy/criativos: migração híbrida (4.7 pra hook, 4.6 pra texto longo)

O ganho real existe — mas exige discernimento. Quem entender onde o 4.7 brilha e onde decepciona vai extrair valor. Quem migrar tudo no escuro vai gastar mais sem perceber ganho proporcional.

Perguntas frequentes

O Claude Opus 4.7 vale a pena vs 4.6? +

Para tarefas de código complexas, refatoração e agentes autônomos: sim, o ganho é real (SWE-bench Verified subiu de 80,8% para 87,6%). Para tarefas simples de escrita e respostas rápidas, o 4.6 ainda é mais barato e rápido na prática, porque o 4.7 usa um novo tokenizer que consome até 35% mais tokens para o mesmo texto.

Quanto custa rodar o Opus 4.7 em produção? +

O preço listado é igual ao 4.6: US$ 5 por milhão de tokens de input e US$ 25 por milhão de tokens de output. Mas como o novo tokenizer fragmenta o texto em mais pedaços, o custo real por requisição pode subir 20% a 35%. Sem prompt caching ativado, o aumento é sentido na fatura.

O Opus 4.7 funciona bem em português? +

Sim, e melhor que o 4.6 em respostas longas e formatação. Mas o impacto do novo tokenizer é maior em português: textos em português são tokenizados em mais pedaços que em inglês, então o custo extra é mais visível. Em testes reais com agentes WhatsApp, o consumo subiu cerca de 28%.

Vale migrar agentes IA do 4.6 para o 4.7 agora? +

Depende do tipo de agente. Para agentes de atendimento simples (FAQ, qualificação básica), o 4.6 ainda entrega o suficiente com custo menor. Para agentes que executam tarefas complexas, agendam, buscam dados em sistemas externos e tomam decisões, o 4.7 vale a migração — a precisão sobe e o número de erros cai.

O que mudou no Claude Code com o Opus 4.7? +

Três coisas: o nível de esforço xhigh (raciocínio mais profundo), task budgets em beta (controle de custo por tarefa) e o comando /ultrareview que faz uma revisão crítica completa do código antes de aceitar a alteração. Na prática, reduziu erros de código em projetos grandes em cerca de 40% nos meus testes.

Felipe Zanoni

Fundador da Agência Café Online. Implementa agentes de IA, automação de processos e tráfego pago para empresas. Testa modelo novo no dia que sai e conta o que funciona — e o que não funciona.

Falar com Felipe