Token, contexto e custo: como ler a conta de uma API de IA antes que ela te assuste

Equipe Viver de IA · 2026-06-28
A fatura de IA não é um mistério, é uma conta de padaria que ninguém te ensinou a ler.
A fatura de IA é uma conta de padaria, não uma caixa-preta
Quem me liga assustado com a conta da OpenAI quase sempre fez a mesma coisa: ligou a integração, mandou produção rodar, e só olhou o painel três semanas depois. Aí veio o susto. R$ 200 viraram um valor muito mais alto sem ninguém saber por quê.
O problema não é o preço. É que ninguém entendeu o que estava sendo cobrado. O que está sendo cobrado é simples quando você para pra olhar. A IA não cobra por mensagem, por pergunta ou por usuário. Ela cobra por token. Enquanto você não souber o que é um token, vai escolher modelo no chute e vai pagar caro por coisa que um modelo dez vezes mais barato resolveria igual.
Vou te explicar isso do jeito que explico pro dono de empresa que nunca programou na vida. Sem engenharia. Com a conta na mão.
Token é o pedaço da palavra que vira dinheiro
Um token é um pedaço de texto. Na prática, mais ou menos três quartos de uma palavra em português. A palavra "computador" pode virar dois ou três tokens. "Casa" é um token só. Pontuação, espaço, acento, tudo conta.
A regra de bolso que eu uso com cliente: cada 100 tokens equivale a umas 75 palavras. Uma página de texto Word, daquelas cheias, dá algo entre 500 e 800 tokens. Um e-mail médio, 150 a 300.
O ponto que confunde todo mundo: você paga pelos tokens que entram e pelos tokens que saem. Separados. Quase sempre o que sai (a resposta da IA) custa mais caro por token do que o que entra (sua pergunta). Faz sentido, gerar texto novo dá mais trabalho pro modelo do que ler o que você mandou.
Então toda chamada de IA tem dois medidores rodando ao mesmo tempo, como táxi com bandeira de ida e de volta. Você manda 400 tokens de pergunta, ela responde 600 tokens. São 1.000 tokens naquela única interação, com preços diferentes pra cada metade.
Você não paga por pergunta. Paga por pedaço de texto que entra e por pedaço de texto que sai, e os dois têm preço diferente.
O contexto é a memória que você carrega de graça achando que é
Aqui mora o erro mais caro que eu vejo. O contexto é tudo que a IA precisa "ler" antes de te responder. Isso inclui muito mais do que sua pergunta da vez.
Quando você monta um assistente de atendimento, normalmente manda junto:
- As instruções de como ele deve se comportar (o "prompt de sistema")
- O histórico da conversa até ali
- Documentos de apoio que você anexou (catálogo, política, FAQ)
- A pergunta atual do cliente
Tudo isso é contexto. Tudo isso são tokens de entrada. Tudo isso é cobrado em toda mensagem nova.
É aqui que a conta explode sem ninguém perceber. Imagine um chatbot onde você colou um manual de 20 páginas nas instruções pra ele responder certo. São uns 12 mil tokens. Numa conversa de 15 mensagens, esse manual é reenviado 15 vezes. Você não pagou 12 mil tokens. Pagou 180 mil, só do manual, numa conversa só.
Multiplica por 300 conversas por dia. Agora você entendeu a fatura.
O histórico tem o mesmo problema. Cada mensagem nova carrega todas as anteriores. A décima pergunta de uma conversa custa muito mais que a primeira, porque arrasta tudo que veio antes.
Janela de contexto é o limite do que cabe, não o que você deve usar
Todo modelo tem uma janela de contexto. É o tamanho máximo de texto que ele consegue segurar de uma vez, entrada mais saída. Alguns aguentam 128 mil tokens, outros passam de um milhão.
Vendedor adora esse número. "Esse modelo tem um milhão de tokens de janela." E o gestor acha que precisa disso. Quase nunca precisa.
A janela é um limite, um teto. Encher a janela porque ela existe é como alugar um galpão de mil metros pra guardar uma bicicleta. Você paga pelo espaço que ocupa, não pelo espaço que tem.
O uso real de janela grande é específico: analisar um contrato inteiro de 80 páginas de uma vez, processar uma transcrição longa de reunião, cruzar vários documentos. Pra responder "qual o horário de funcionamento", você não precisa de janela gigante. Precisa mandar três linhas de contexto certas.
Modelo caro nem sempre é o que você precisa, e esse é o trade-off central
Existe sempre o modelo grande, esperto e caro, e o modelo menor, rápido e barato. A diferença de preço entre eles não é de 20%. É de 10, 15, 20 vezes por token.
O erro clássico é usar o modelo top de linha pra tudo. Pra classificar se um e-mail é reclamação ou elogio, você não precisa do cérebro mais caro do mercado. Um modelo pequeno faz isso com a mesma precisão por uma fração do custo.
A regra que eu aplico:
| Critério | Modelo grande (caro) | Modelo pequeno (barato) |
|---|---|---|
| Tarefa | Raciocínio complexo, redação longa, análise jurídica | Classificar, extrair dado, responder FAQ, resumir |
| Volume | Baixo, pontual | Alto, repetitivo |
| Tolerância a erro | Baixa, precisa acertar fino | Média, dá pra revisar |
| Custo por mil chamadas | Alto | Quase irrelevante |
Na ACP Contábil, a automação que montamos não usava o modelo mais caro em tudo. Usava o certo pra cada etapa. O resultado foi R$ 3.300 de economia por mês e 66% menos tempo nas tarefas. Não porque a IA era "melhor", mas porque a tarefa certa foi pro modelo certo.
R$ 3.300: economia mensal na ACP Contábil escolhendo o modelo certo por tarefa
Como estimar a conta antes de ligar o sistema
Dá pra fazer a conta no guardanapo antes de gastar um centavo. Eu faço isso com todo cliente antes de aprovar qualquer projeto. O processo é esse:
- Estimar custo de IA antes de ativar: Conte os tokens
- Conte os tokens: some entrada (instruções + contexto + pergunta) e estime a saída média de uma interação típica
- Multiplique pelo volume: tokens por interação vezes interações por dia vezes 30
- Aplique o preço do modelo: separe preço de entrada e de saída, eles são diferentes
- Compare dois modelos: refaça a conta com o modelo barato e veja se a qualidade cai mesmo
- Defina um teto: configure limite de gasto no painel antes de ir pra produção
Um exemplo numérico pra fixar. Suponha um atendimento onde cada interação usa 1.500 tokens de entrada e 500 de saída. São 2.000 tokens por mensagem. Com 200 interações por dia, dá 400 mil tokens diários, 12 milhões no mês.
Com esse número na mão, você pega a tabela de preço do modelo no site do fornecedor e multiplica. A diferença entre fazer essa conta antes e descobrir na fatura é a diferença entre orçamento e susto.
O passo-a-passo pra cortar custo sem perder qualidade
Depois de mais de uma centena de projetos, os ganhos de custo vêm quase sempre dos mesmos lugares. Na ordem que dão mais resultado:
- Encurte o contexto fixo. Aquele manual de 20 páginas nas instruções? Provavelmente metade não é usada. Corte pro essencial. Cada token cortado é cobrado em toda chamada, então o ganho é multiplicado.
- Não reenvie o histórico inteiro. Em conversas longas, mantenha só as últimas mensagens relevantes ou um resumo do que passou, em vez de arrastar tudo.
- Use o modelo barato como porteiro. Um modelo pequeno classifica e filtra. Só o que é complexo de verdade sobe pro modelo caro. Você paga o preço alto só onde ele faz diferença.
- Busque o documento certo em vez de mandar todos. Em vez de colar o catálogo inteiro, monte um sistema que pega só o trecho relevante pra cada pergunta. Isso derruba os tokens de entrada drasticamente.
- Defina limite de gasto no painel. Todo fornecedor sério deixa você travar um teto mensal. Ligue isso antes de qualquer coisa. É o cinto de segurança.
- Monitore semanalmente nas primeiras semanas. Não olhe a fatura uma vez por mês. Acompanhe os primeiros dias de perto, porque é ali que o desperdício aparece.
Quando você NÃO deve se preocupar com isso
Vou contra o que vendedor de ferramenta gosta de ouvir: nem todo projeto precisa dessa otimização toda no começo.
Se você está testando uma ideia, validando se a IA resolve um problema, fazendo um piloto de poucas semanas com volume baixo, não perca tempo otimizando token. O custo de teste é irrisório perto do custo de demorar pra descobrir se a coisa funciona. Otimizar cedo demais é o equivalente a calcular consumo de gasolina antes de saber se o carro liga.
A hora de apertar a conta é quando o projeto provou valor e vai escalar. Foi assim na Digital Presenc X, onde a automação gerou R$ 54.000 de economia no ano. Primeiro provou que funcionava, depois ajustou pra rodar com custo previsível. Nunca o contrário.
O que não dá é escalar sem nunca ter olhado a conta. Aí você vira refém de uma fatura que cresce sozinha.
O próximo passo é simples e cabe numa tarde
Pega o seu caso de uso mais provável, mesmo que seja só uma ideia. Escreva num papel: quantos tokens entram numa interação típica (some instruções, contexto e pergunta), quanto a IA responde em média, e quantas dessas interações você terá por dia.
Multiplica pelo preço de dois modelos diferentes, um caro e um barato, usando a tabela do próprio fornecedor. Vai aparecer na sua frente uma diferença que muda a decisão.
Se a conta do modelo barato ficar viável e a qualidade aguentar, você acabou de economizar antes mesmo de começar. Se não fizer essa conta, vai aprender a fazer depois, lendo a fatura. A primeira opção custa uma tarde. A segunda custa o susto.
Isto não é teoria. É o que já implementamos.
528 cases reais, todos com número aberto, e 159 soluções de IA prontas para empresas brasileiras.