株式会社NITI Technology(東京都文京区本郷)は2026年3月23日、ECサイトの商品推薦チャットの品質を定量評価するオープンソースベンチマーク「SOUK」をGitHubで公開しました。英語・日本語・中国語の3言語に対応し、10種類の評価基準で0〜10点のスコアとルーブリックに基づき自動採点します。
会話型コマース市場は2025年に約129億ドル、2026年は141億ドルが見込まれ、CAGRは9.0%とされています。一方で複雑なシナリオではハルシネーション(事実でない内容の生成)の発生率が25%を超えるとの指摘もあり、プロンプトインジェクションなどのリスクを含め「ECチャットを客観的に測る標準」が不足していました。
SOUKはGPT、Claude、Gemini、Amazon Bedrock、OpenAI互換エンドポイントなどをジャッジモデルとして利用し、会話ログを対象にした静的評価と、稼働中エンドポイントを対象にしたライブ評価に対応します。導入はpip install soukやDockerで行え、MCPサーバー機能も備えます。結果はChart.jsのHTMLダッシュボードやJSONで出力できます。
今後は業界特化の評価基準拡張、リアルタイムのモニタリング、匿名化スコア共有によるランキング化を予定しています。EU AI Actの完全施行が2026年8月に控える中、品質とコンプライアンスの両面で評価手法の整備が進むかが焦点になります。
【関連リンク】
SOUK GitHub: https://github.com/NITI-Lab/SOUK
Lemonavi: https://nititech.jp
前回プレスリリース(Lemonavi提供開始): https://prtimes.jp/main/html/rd/p/000000009.000151759.html
