Visual Bankは、AI学習用データ「Qlean Dataset」で「日本語・2話者・レジャーテーマトーク音声コーパスとトランスクリプト」の提供を始めました。20代〜50代の男女話者による対話音声と書き起こしをセットにし、収録時間は計約400時間です。音声はmp3/wav、レートは44.1kHz、1音声あたり約5〜60分としています。主な内容はドラマやアニメの感想・考察、ゲームやガジェットのレビュー、旅行や外出の体験談など日常的な話題です。台本に依存しない自然会話を前提に、ASR(音声認識)やNLP(自然言語処理)、LLM(大規模言語モデル)の開発・検証で、話者交代や応答関係を含む会話の精度評価に使う想定です。提供元はVisual Bankの子会社アマナイメージズで、権利処理や利用条件を整理したデータ提供を掲げます。今後は、音声UIや対話型AIのPoC、日本語LLMの対話性能評価・追加学習など、用途拡大が見込まれます。

Share.