AI開発のElithは12月8日、米サンフランシスコで開かれたROOST・Hugging Face・OpenAI共催の「Open Safeguard Hackathon」に参加し、日本企業で唯一の参加となりました。参加者は約75人で、OpenAIのオープンウェイト安全推論モデル「gpt-oss-safeguard」などを使い、オンライン上のリスク対策技術を検証しました。Elithは主にモデル評価と挙動分析に入り、364件の攻撃プロンプトでgpt-oss-safeguard-20Bをテストし、Fraud(詐欺)やMalware(マルウェア)領域で検出失敗が目立つ傾向を数値で示しました。さらにトークン(文章を分割した最小単位)ごとの注意重みを解析し、安全判定に影響する要素を可視化する手法も実装しました。成果はROOSTのModel Communityで議論投稿として公開しており、今後はオープンな基盤を前提にした安全対策の実装知見が、実運用での評価手法整備へ広がる可能性があります。
【関連情報】
Elith提出内容(GitHub)https://github.com/NaoyaTakashima/attention-safety-guard-api
ROOST Model Community #39 https://github.com/roostorg/model-community/discussions/39
ROOST Model Community #40 https://github.com/roostorg/model-community/discussions/40
source: PR TIMES
