AI Models

NVIDIA、リアルタイム音声会話AI「PersonaPlex-7B」を公開。フルデュプレックス対応で割り込み・同時発話を実現

NVIDIAが音声対話AI「PersonaPlex-7B-v1」を公開。音声認識と音声生成を同時に処理するフルデュプレックス構成により、人間に近い自然な会話を実現する。商用利用可能でGitHub・Hugging Faceで公開中。

投稿者: AI Tools Aggregator編集部
NVIDIA AI Speech Real-time Open Source Full Duplex

NVIDIA、リアルタイム音声会話AI「PersonaPlex-7B」を公開。フルデュプレックス対応で割り込み・同時発話を実現

2026年1月15日、NVIDIAはリアルタイム音声会話AI「PersonaPlex-7B-v1」をHugging FaceおよびGitHubで公開した。本モデルは音声認識と音声生成を同時に処理する「フルデュプレックス(全二重)」構成を採用し、人間同士の会話で見られる割り込み、同時発話、素早いターンテイキングなどの自然な対話動作を実現する。

商用利用可能なNVIDIA Open Model Licenseのもとで公開されており、開発者や企業は本モデルを自由に利用できる。

概要

PersonaPlex-7B-v1は、パラメータ数70億のTransformerベースの音声対話モデルである。ユーザーの音声入力をリアルタイムで処理しながら、同時に自身の音声出力を生成することで、従来の「話す→聞く→話す」のターンベース対話ではなく、人間同士の会話に近い柔軟な対話を可能にする。

NVIDIAによれば、本モデルは以下の特徴を持つ:

  • 音声入力を継続的にエンコードしながら、同時に音声出力を生成する「デュアルストリーム構成」
  • 会話開始前に音声プロンプト(声質・話し方)とテキストプロンプト(役割・背景・シナリオ)で会話アイデンティティを設定
  • 24kHz音声入力・出力に対応
  • 商用利用可能

本モデルの論文はarXivで公開されている。

主な特徴

フルデュプレックス(全二重)対話

PersonaPlexは、ユーザーの音声を聞きながら同時に自身の音声を生成できる「フルデュプレックス」構成を採用している。これにより以下の動作が可能となる:

  • 割り込み(interruption): ユーザーがモデルの発話中に割り込んで話しかけることが可能
  • バージイン(barge-in): ユーザーの発話をリアルタイムで検出し、即座に応答を調整
  • 同時発話(overlap): モデルとユーザーが同時に話すことを処理
  • 素早いターンテイキング: 発話の切り替えを低遅延で実現

従来のターンベース音声アシスタントでは、ユーザーが話し終えるまで待つ必要があったが、PersonaPlexはユーザーの発話中に内部状態を更新しながら流暢な出力を生成できる。

音声・役割のカスタマイズ

会話開始前に2種類のプロンプトでモデルの振る舞いを制御できる:

  1. 音声プロンプト(voice prompt): 音声トークン列で声質・話し方を設定
  2. テキストプロンプト(text prompt): 役割・背景・シナリオ(例: カスタマーサポート担当者、専門家など)を設定

これらのプロンプトにより、モデルの会話アイデンティティと言語・音響の振る舞いが決定される。

技術的詳細

アーキテクチャ

PersonaPlex-7B-v1は以下のアーキテクチャで構成される:

  • ベースアーキテクチャ: Kyutai LabsのMoshi(Moshikoウェイト)をベースに開発
  • パラメータ数: 70億(7B)
  • 音声エンコーダ: Mimi Speech Encoder(ConvNet + Transformer)
  • コアモデル: Moshi Temporal Transformer + Depth Transformer
  • 音声デコーダ: Mimi Speech Decoder(Transformer + ConvNet)

モデルは音声をニューラルコーデックでエンコードし、テキストトークンと音声トークンを自己回帰的に予測することで音声応答を生成する。

訓練データ

  • 訓練データセット: Fisher English(Part1, Part2
  • データ量: 7,303会話(各会話最大10分)、合計10,000時間未満
  • データモダリティ: 音声(人間による収集)

ベンチマーク性能

NVIDIAはFullDuplexBench公開ベンチマークでの評価結果を公開している。このベンチマークは合成データと実データを組み合わせ、フルデュプレックス対話の様々な側面を評価する。

主要な評価指標:

評価項目指標PersonaPlex-7B-v1の結果
Pause Handling(Synthetic)TOR↓0.358
Pause Handling(Candor)TOR↓0.431
BackchannelTOR↓0.273
BackchannelFreq↑0.042
BackchannelJSD↓0.662
Smooth Turn TakingTOR↑0.908
Smooth Turn TakingLatency↓0.170秒
User InterruptionTOR↑0.950
User InterruptionGPT-4o評価↑4.290
User InterruptionLatency↓0.240秒
User InterruptionSSIM(音声類似度)↑0.650

NVIDIAによれば、PersonaPlexは他のオープンソース・商用音声会話システムと比較して、対話ダイナミクス、応答・割り込み遅延、タスク遵守(質問応答アシスタント、カスタマーサービス役割)において優れた性能を示している。

推論環境

  • 推奨ハードウェア: NVIDIA Ampere(A100)、NVIDIA Hopper(H100)
  • テスト環境: NVIDIA A100 80GB
  • 推奨OS: Linux
  • ランタイムエンジン: PyTorch

ユースケース

NVIDIAは以下のユースケースを想定している:

  • カスタマーサポート: 自然な対話を必要とするカスタマーサービス
  • 音声アシスタント: 質問応答、情報提供
  • 教育・トレーニング: 対話型学習システム
  • エンターテインメント: インタラクティブな会話体験

英語音声入力に対して英語音声応答を生成する用途に適している。

制限事項

  • 言語: 現在は英語のみ対応
  • 音声サンプリングレート: 24kHz(入力・出力)
  • ハードウェア要件: NVIDIA GPU推奨(A100、H100など)

商用利用は可能だが、導入前にNVIDIAの倫理的考慮事項(バイアス、説明可能性、安全性・セキュリティ、プライバシー)を確認し、各業界・ユースケースの要件を満たしているか検証することが推奨される。

リンク

引用

研究での使用時の引用形式:

@misc{roy2026personaplexvoicerolecontrol,
  title={PersonaPlex: Voice and Role Control for Full Duplex Conversational Speech Models},
  author={Rajarshi Roy and Jonathan Raiman and Sang-gil Lee and Teodor-Dumitru Ene and Robert Kirby and Sungwon Kim and Jaehyeon Kim and Bryan Catanzaro},
  year={2026},
  eprint={2602.06053},
  archivePrefix={arXiv},
  primaryClass={cs.CL},
  url={https://arxiv.org/abs/2602.06053},
}

本記事の情報は2026年2月18日時点のものです。モデルの機能や仕様は変更される可能性があります。最新情報は公式サイトをご確認ください。

この記事をシェア

人気記事

Comparison

ChatGPT(OpenAI)とClaude(Anthropic)の機能比較 2026年版。コーディング・長文解析・コスト・API料金の違いを検証

ChatGPT(GPT-4o/o3)とClaude(Sonnet 4.6/Opus 4.5)を2026年時点の最新情報で比較する。コーディング能力、長文処理、日本語品質、API料金、無料プランの違いをSWE-benchなどのベンチマーク結果とともに解説する。

続きを読む →
opinion

【2026年2月20日 所感】「AIがコードを書く」は仮説から現実になった——しかし私たちはその意味をまだ消化できていない

2026年2月20日に観測したコーディングエージェント関連ニュースの総括と所感。Anthropicの自律性研究、cmux、MJ Rathbunのエージェント事故、HN「外骨格 vs チーム」論争、Stripe Minions週1000件PR、Taalas 17k tokens/sec——朝から夜までの流れを通じて見えてきた「AIがコードを書く時代」の実相を考察する。

続きを読む →
tool

868のスキルをnpx 1コマンドで——「Antigravity Awesome Skills」が主要AIコーディングエージェントの共通スキル基盤になりつつある

Claude Code・Gemini CLI・Codex CLI・Cursor・GitHub Copilotなど主要AIコーディングアシスタントを横断する868以上のスキルライブラリ「Antigravity Awesome Skills」(v5.4.0)を詳細分析。Anthropic・Vercel・OpenAI・Supabase・Microsoftの公式スキルを統合した設計思想、ロール別バンドル・ワークフロー機能、SKILL.mdによる相互運用性のアーキテクチャを解説する。

続きを読む →

他のAIツールも探す

生産性、創造性、イノベーションのための60以上のAIツールの厳選ディレクトリをご覧ください。

0 tools selected