EC商品推薦チャット評価ベンチマーク「SOUK」公開、10基準で0〜10点自動採点

株式会社NITI Technology（東京都文京区本郷）は2026年3月23日、ECサイトの商品推薦チャットの品質を定量評価するオープンソースベンチマーク「SOUK」をGitHubで公開しました。英語・日本語・中国語の3言語に対応し、10種類の評価基準で0〜10点のスコアとルーブリックに基づき自動採点します。

会話型コマース市場は2025年に約129億ドル、2026年は141億ドルが見込まれ、CAGRは9.0%とされています。一方で複雑なシナリオではハルシネーション（事実でない内容の生成）の発生率が25%を超えるとの指摘もあり、プロンプトインジェクションなどのリスクを含め「ECチャットを客観的に測る標準」が不足していました。

SOUKはGPT、Claude、Gemini、Amazon Bedrock、OpenAI互換エンドポイントなどをジャッジモデルとして利用し、会話ログを対象にした静的評価と、稼働中エンドポイントを対象にしたライブ評価に対応します。導入はpip install soukやDockerで行え、MCPサーバー機能も備えます。結果はChart.jsのHTMLダッシュボードやJSONで出力できます。

今後は業界特化の評価基準拡張、リアルタイムのモニタリング、匿名化スコア共有によるランキング化を予定しています。EU AI Actの完全施行が2026年8月に控える中、品質とコンプライアンスの両面で評価手法の整備が進むかが焦点になります。

【関連リンク】
SOUK GitHub: https://github.com/NITI-Lab/SOUK
Lemonavi: https://nititech.jp
前回プレスリリース（Lemonavi提供開始）: https://prtimes.jp/main/html/rd/p/000000009.000151759.html

AI生成記事のため誤りを含む場合があります

PRTIMES

What's Hot

熟酵クレンジングが9代目に刷新、美容成分290種で時短ケアを強化

ルクア、全施工邸で責任施工システム開始　最長10年保証でリフォームの不安を可視化

加古川「COSAJI DINING 9BAN」、小麦粉不使用の“濃厚ガトーショコラ”を5月9日から提供

ジュピター、ピクロス新DLC「箱根探訪編」2026年12月配信へ　30問追加で価格770円

国内バーチャルヒューマン影響度ランキング、イトハが独自調査で公表　1位imma・自社運営「愛峰マリア」は7位

生成AI×RPAの業種特化ERP「MINORI Cloud」、Sei San Seiが建設・製造・福祉向けに本格展開

学生と起業家がバディで伴走、HIBが6月3日に「1年後の自分」語るピッチ開催

What's Hot

熟酵クレンジングが9代目に刷新、美容成分290種で時短ケアを強化

ルクア、全施工邸で責任施工システム開始 最長10年保証でリフォームの不安を可視化