Calculadora de Costes LLM API
Calculadora de costos API de Grandes Modelos de Lenguaje (LLM) gratis impulsada por OpenRouter. Compara precios de GPT-5.4, Claude 4.6, Gemini 3.1 y DeepSeek V3.2. Incluye descuentos de caché de contexto y cálculo de precios escalonados.
430
About Calculadora de Costes LLM API
Cómo usar la Calculadora de Costes de la API de Grandes Modelos de Lenguaje (LLM)
Los datos de precios se sincronizan desde OpenRouter. Compara los costes de la API para los últimos modelos insignia como GPT-5.4, Claude 4.6, Gemini 3.1 y DeepSeek V3.2 para pronosticar con precisión tus gastos mensuales.
Reglas de Cálculo Básicas
- Descuentos por Caché de Prompts (Cache Hit Ratio): Los modelos modernos soportan el almacenamiento en caché de contexto. Usa el control deslizante (0-100%) para simular la eficiencia del caché. La calculadora combina automáticamente el precio altamente descontado de "Cache Read" para el porcentaje acertado, con el precio de entrada base para el resto.
- Precios Escalonados (Tiered Pricing): Algunos proveedores (p. ej., Google, Xiaomi) escalan dinámicamente el precio basándose en la longitud del contexto. Si tu suma de Tokens de Entrada + Salida excede un umbral (p. ej., 128K), la calculadora cambia automáticamente y resalta el precio superior aplicable.
Comprender los Costos Básicos por Token
- Tokens de Entrada: Todos los datos enviados al modelo (prompts, contexto, documentos) cuestan dinero.
- Tokens de Salida: Texto generado por el modelo. Esto suele ser significativamente más caro que la entrada.
- Regla del Millón (1M) de Tokens: Todos los precios se calculan por cada 1 millón (1M) de tokens.
Consejos para Reducir Costos
- Enrutamiento Dinámico de Modelos: Usa modelos más pequeños y baratos (como Gemini Flash) para tareas simples, y enruta solo el razonamiento complejo a los modelos insignia.
- Aprovecha la Caché de Prompts: Reutiliza estructuras de sistema idénticas y contextos largos en tus peticiones para desbloquear descuentos del 50-90%.
- Contexto Estructurado: Elimina palabras de relleno, etiquetas HTML o formatos innecesarios para minimizar la longitud bruta de la secuencia.