Visual Bankは、AI学習用データ「Qlean Dataset」で「日本語・2話者・社会文化テーマトーク音声コーパスとトランスクリプト」の提供を始めました。日本人の男女2話者による自然対話の音声と書き起こしをセットにし、総収録時間は約450時間です。ASR(自動音声認識)やNLP(自然言語処理)、LLMの開発・評価での利用を想定します。題材は生活、価値観、人間関係、働き方、住環境など日常に根ざした社会文化トピックで、台本なしの会話として相づちや話者交替、話題転換、意見のすり合わせなど実会話に近い構造を含むとしています。データは音声がmp3/wav、テキストがtxt/json/csvで、音声レートは44.1kHz/48kHz、1音声あたり約5〜60分です。研究では合意形成過程の分析、産業では対話型AIの共感応答や文脈保持の検証・学習などに使えるとし、今後はデータパートナーとの協業でラインナップ拡充が見込まれます。【商品情報】
サンプル詳細 https://qleandataset.visual-bank.co.jp/lineup/pn-017
/>Qlean Dataset https://qleandataset.visual-bank.co.jp/
/>AIデータレシピ https://qleandataset.visual-bank.co.jp/lineup
