大規模言語モデル (LLM) API コスト計算ツール
OpenRouter連携の無料LLM APIコスト計算ツール。GPT-5.4、Claude 4.6、Gemini 3.1、DeepSeek V3.2のAI価格をリアルタイムで比較。キャッシュヒット割引やコンテキスト長に応じた段階的価格設定も正確にシミュレーション可能。
4
About 大規模言語モデル (LLM) API コスト計算ツール
大規模言語モデル (LLM) API コスト計算ツールの使い方
本計算ツールは OpenRouter からデータをリアルタイムで同期し、GPT-5.4、Claude 4.6、Gemini 3.1、DeepSeek V3.2 などの最新フラッグシップモデルのAPI価格を即座に比較し、ビジネスでの実際のAI使用コストを正確に見積もります。
コアとなる高度な計算ルール
- コンテキストキャッシュ割引 (Cache Hit Ratio):多くの最新モデルはプロンプトキャッシング(Anthropic、DeepSeek、xAIなど)をサポートしています。設定したキャッシュヒット率(0〜100%)に基づき、ヒットした入力トークン部分は自動的に安価な Cache Read 価格(通常5〜10倍割安)で計算されます。
- 段階的価格設定 (Tiered Pricing):Google Gemini や Xiaomi MiMo などの一部のモデルでは、1回のリクエストのコンテキスト長に応じて段階的な料金が適用されます。入力 + 出力トークンの合計が閾値(128K や 256Kなど)を超えると、自動的に強調表示され、より長いコンテキスト向けの変動単価に切り替わります。
基本的なトークン費用の理解
- 入力トークン:モデルに送信されるすべての内容(プロンプト、ドキュメント、コードリポジトリ)はトークン単位で課金されます。
- 出力トークン:モデルが生成する応答内容。通常、入力コストの数倍の単価になります。
- 100万トークンルール:大手プロバイダーの価格はすべて 1M(100万)トークン単位で表示されます。(目安:標準的な資料1ページは平均700〜1000トークンを消費します)
トークンを節約しコストを下げるためのビジネス上のヒント
- 動的モデルルーティング:単純な分類や要約の雑務は小型モデル(Flash バリアントなど)に任せ、深い論理的推論が必要なタスクのみをより高価なフラッグシップモデルにルーティングします。
- コンテキストキャッシュの最大活用:複数のリクエストにわたって長いシステム設定や膨大なナレッジドキュメントの位置を固定し、プロバイダーのキャッシュメカニズムを起動させて圧倒的に低い単価を享受します。
- 冗長なプロンプトの簡素化:モデルに送信する無駄な言葉を大幅に取り除き、冗長なHTMLタグや不要なフォーマットを削除します。圧縮されたサイズはそのままコスト削減に直結します。