Calculadora de Custos LLM API

Calculadora de custos de API de Grandes Modelos de Linguagem (LLM) gratuita via OpenRouter. Compare preços dos GPT-5.4, Claude 4.6, Gemini 3.1, DeepSeek V3.2. Calcula de forma precisa o desconto vindo do Cache e os Preços Escalonados por Contexto.

4

Visitas Totais

About Calculadora de Custos LLM API

Como usar a Calculadora de Custos de API de Grandes Modelos de Linguagem (LLM)

Os dados de preços são sincronizados em tempo real a partir do OpenRouter. Compare os custos da API dos modelos mais recentes (como GPT-5.4, Claude 4.6, Gemini 3.1 e DeepSeek V3.2) para prever precisamente os custos reais da sua IA.

Regras Essenciais de Cálculo

  • Descontos de Cache de Contexto (Cache Hit Ratio): Muitos modelos suportam o Cache de Prompt. O sistema calculará de forma automática a taxa de cache que você determinou (0-100%), reduzindo drasticamente o preço do Input nos tokens em cache (geralmente de 5 a 10 vezes mais baratos).
  • Preços Escalonados (Tiered Pricing): Modelos como os do Google variam dinamicamente seus preços dependendo do comprimento do contexto. Se os Tokens de Entrada + Saída ultrapassarem o limite (ex. 128K), a plataforma aplicará de imediato a precificação correta da respectiva faixa.

Entendendo os Custos Básicos por Token

  • Tokens de Entrada: Qualquer texto enviado ao modelo (prompts, códigos, referências) consome custos de entrada.
  • Tokens de Saída: As respostas baseadas na sua requisição. Geralmente, o valor é múltiplas vezes o do Input.
  • Regra de 1 Milhão: Os custos nas tabelas refletem a tabela de 1 milhão (1M) de tokens mensais.

Dicas Técnicas para Economizar

  1. Roteamento Dinâmico: Delegue tarefas simplificadas a modelos ágeis e baratos (como os da linha Flash) e direcione apenas a lógica computacional intensa aos principais LLMs.
  2. Extração pelo Cache: Evite mudar as instruções mestre ou enormes documentos base durante o ciclo de uso para maximizar a janela de uso do Cache com baixo custo.
  3. Limpeza de Contexto: Otimize suas templates, removendo pontuações falsas ou HTMLs pesados que esgotam tokens vitais financeiramente.