大语言模型 (LLM) API 成本计算器

免费大模型 (LLM) API 成本计算器。实时接入 OpenRouter 数据,一键对比 GPT-5.4、Claude 4.6、Gemini 3.1 与 DeepSeek V3.2 等 API 定价。内置缓存命中率折扣与长文本阶梯定价精确测算方案。

4

累计访问量

About 大语言模型 (LLM) API 成本计算器

如何使用大语言模型 (LLM) API 成本计算器

本计算器数据实时同步自 OpenRouter,极速对比最新的旗舰大模型(如 GPT-5.4、Claude 4.6、Gemini 3.1、DeepSeek V3.2 等)的 API 定价,精准估算你业务中的 AI 实际使用成本。

核心高级计算规则

  • 上下文缓存折扣 (Cache Hit Ratio):许多现代模型支持 Prompt Caching(如 Anthropic、DeepSeek、xAI)。系统会自动根据你设定的缓存命中率(0-100%),将会命中的部分输入 Token 自动切换为更廉价的 Cache Read 价格计算(通常单价便宜 5-10 倍)。
  • 阶梯定价规则 (Tiered Pricing):像 Google Gemini 或 Xiaomi MiMo 等模型会根据单次请求的总长度跨度实施阶梯收费。当你的输入+输出 Token 总数超过临界点(如 128K 或 256K)时,列表会自动高亮并切换采用更长上下文区间的浮动阶梯单价。

理解基础 Token 费用

  • 输入 Token:发送给模型的所有内容(提示词、文档、代码仓库)都会按 Token 计费。
  • 输出 Token:模型生成的回复内容,单价通常数倍于输入成本。
  • 百万 Token 规则:所有大厂报价均以每 1M(一百万)Token 为单位。作为参考感知:一页标准中文文档平均消耗 700~1000 个 Token。

节省 Token 与降低成本的业务技巧

  1. 动态模型路由:让小模型(如 Kimi、DeepSeek 或 Flash 变体)扛下简单的分类总结脏活,只把需要深度逻辑推理的任务丢给昂贵的旗舰大杯。
  2. 最大化利用上下文缓存:在多轮请求中固定长系统设定或庞大的知识储备文档位置,触发服务商底层的 Cache 机制白嫖极低单价。
  3. 精简死板的 Prompt 骨架:大力清洗传给模型的废话,剔除诸如繁冗的 HTML 标签或者不必要的格式化占位符,每一滴干瘪下去的体积都是省出来的真金白银。