D-IDは2026年3月18日、ニューヨークで、LLMと連携してリアルタイム対話と台本ベースの長尺動画生成に対応する次世代デジタルヒューマン「V4 Expressive Visual Agents」の提供開始を発表しました。対話応答の低遅延は0.5秒未満で、最大4K解像度の高精度リップシンクに対応します。

基盤には新たな拡散モデルを採用し、実在の俳優の演技データを学習したとしています。低遅延配信に特化して設計し、LLMの応答に合わせて文脈や感情に応じた表情・話し方を自動調整します。相手の感情認識は任意のカメラレイヤーで行い、MCP Appsでは画像・グラフ・動画やフォームなどのインライン表示にも対応します。

提供は本日よりエンタープライズ顧客1500社を対象に開始し、月額5.90ドルからの全プランで利用可能としています。従来モデルの実績として、ビジュアルエージェントは80万体以上、非対話型アバターは3億以上が作成されたといい、1チャットあたりの利用コストは数セント程度、動画制作コストはGoogle VEO 3 Fast比で約70分の1だと説明しました。

今後は、2025年9月に買収したsimpleshowの研修・説明動画エコシステムとの統合と販売網拡大を進め、リアルタイム双方向のビジュアルインターフェースとしての提供強化を図る方針です。買収後のARR成長率は250%としています。

【関連リンク】
公式HP:https://www.d-id.com
プロモーション動画:https://vimeo.com/1155661354/930ea90e6f
感情表現の紹介:https://vimeo.com/1154695614/53fdb27bcf
メディアキット:https://drive.google.com/drive/folders/1BVOi8a6KqUx1y5KN6xf5coYe3sMiNe-5
動画(YouTube):https://www.youtube.com/watch?v=hPI6_ei_6Y8

AI生成記事のため誤りを含む場合があります

PRTIMES

Share.