FlashLabs株式会社(東京都千代田区)は2026年5月22日、AIルーティングプラットフォーム「OrcaRouter」でAlibabaの「Qwen 3.7 Max API」(最大100万トークンの長文コンテキスト)をサポートしたと発表しました。プロンプト難易度に応じてモデルを自動選択し、LLM支出を約40%削減できるとしています。
同社によると、本番環境のプロンプトの約65%は抽出・分類・整形・簡易要約などの定型処理で、最上位のフロンティアモデル性能が不要なケースが多いといいます。OrcaRouterは定型処理をQwen 3.7 Maxなどの高性能オープンモデルへ、高度な推論はClaude Opus 4.7やGPT 5.5などへ振り分け、品質維持とコスト最適化を両立させる設計です。
統合面ではOpenAI互換APIで既存ワークフローに組み込みやすく、障害時はストリーム途中でもセカンダリモデルへ自動切替します。PII Shieldなどのガードレール(個人情報などを保護する安全策)も組み込み、ルーティング遅延は<1ms、対応モデルは200+、エンタープライズ向け稼働率SLAは99.99%を掲げています。Qwen 3.7 Maxはツール呼び出し1,000回以上の長時間推論も特徴とされています。
今後は、長文処理と複雑推論をまたぐ企業内AIエージェントの適用領域が広がり、全件を高コストモデルへ投入する運用からの転換が進む可能性があります。一方で、削減効果(例:月1万ドル規模のチームで年間純削減額約47,700ドルの試算)は前提条件に左右されるため、各社の業務比率や品質要件に合わせた検証が焦点になりそうです。
【関連リンク】
公式HP:https://www.flashlabs.ai
OrcaRouter:https://www.orcarouter.ai
RSS URL:https://www.flashintel.ai
