NVIDIA、リアルタイム音声会話AI「PersonaPlex-7B」を公開。フルデュプレックス対応で割り込み・同時発話を実現
NVIDIAが音声対話AI「PersonaPlex-7B-v1」を公開。音声認識と音声生成を同時に処理するフルデュプレックス構成により、人間に近い自然な会話を実現する。商用利用可能でGitHub・Hugging Faceで公開中。
NVIDIA、リアルタイム音声会話AI「PersonaPlex-7B」を公開。フルデュプレックス対応で割り込み・同時発話を実現
2026年1月15日、NVIDIAはリアルタイム音声会話AI「PersonaPlex-7B-v1」をHugging FaceおよびGitHubで公開した。本モデルは音声認識と音声生成を同時に処理する「フルデュプレックス(全二重)」構成を採用し、人間同士の会話で見られる割り込み、同時発話、素早いターンテイキングなどの自然な対話動作を実現する。
商用利用可能なNVIDIA Open Model Licenseのもとで公開されており、開発者や企業は本モデルを自由に利用できる。
概要
PersonaPlex-7B-v1は、パラメータ数70億のTransformerベースの音声対話モデルである。ユーザーの音声入力をリアルタイムで処理しながら、同時に自身の音声出力を生成することで、従来の「話す→聞く→話す」のターンベース対話ではなく、人間同士の会話に近い柔軟な対話を可能にする。
NVIDIAによれば、本モデルは以下の特徴を持つ:
- 音声入力を継続的にエンコードしながら、同時に音声出力を生成する「デュアルストリーム構成」
- 会話開始前に音声プロンプト(声質・話し方)とテキストプロンプト(役割・背景・シナリオ)で会話アイデンティティを設定
- 24kHz音声入力・出力に対応
- 商用利用可能
本モデルの論文はarXivで公開されている。
主な特徴
フルデュプレックス(全二重)対話
PersonaPlexは、ユーザーの音声を聞きながら同時に自身の音声を生成できる「フルデュプレックス」構成を採用している。これにより以下の動作が可能となる:
- 割り込み(interruption): ユーザーがモデルの発話中に割り込んで話しかけることが可能
- バージイン(barge-in): ユーザーの発話をリアルタイムで検出し、即座に応答を調整
- 同時発話(overlap): モデルとユーザーが同時に話すことを処理
- 素早いターンテイキング: 発話の切り替えを低遅延で実現
従来のターンベース音声アシスタントでは、ユーザーが話し終えるまで待つ必要があったが、PersonaPlexはユーザーの発話中に内部状態を更新しながら流暢な出力を生成できる。
音声・役割のカスタマイズ
会話開始前に2種類のプロンプトでモデルの振る舞いを制御できる:
- 音声プロンプト(voice prompt): 音声トークン列で声質・話し方を設定
- テキストプロンプト(text prompt): 役割・背景・シナリオ(例: カスタマーサポート担当者、専門家など)を設定
これらのプロンプトにより、モデルの会話アイデンティティと言語・音響の振る舞いが決定される。
技術的詳細
アーキテクチャ
PersonaPlex-7B-v1は以下のアーキテクチャで構成される:
- ベースアーキテクチャ: Kyutai LabsのMoshi(Moshikoウェイト)をベースに開発
- パラメータ数: 70億(7B)
- 音声エンコーダ: Mimi Speech Encoder(ConvNet + Transformer)
- コアモデル: Moshi Temporal Transformer + Depth Transformer
- 音声デコーダ: Mimi Speech Decoder(Transformer + ConvNet)
モデルは音声をニューラルコーデックでエンコードし、テキストトークンと音声トークンを自己回帰的に予測することで音声応答を生成する。
訓練データ
ベンチマーク性能
NVIDIAはFullDuplexBench公開ベンチマークでの評価結果を公開している。このベンチマークは合成データと実データを組み合わせ、フルデュプレックス対話の様々な側面を評価する。
主要な評価指標:
| 評価項目 | 指標 | PersonaPlex-7B-v1の結果 |
|---|---|---|
| Pause Handling(Synthetic) | TOR↓ | 0.358 |
| Pause Handling(Candor) | TOR↓ | 0.431 |
| Backchannel | TOR↓ | 0.273 |
| Backchannel | Freq↑ | 0.042 |
| Backchannel | JSD↓ | 0.662 |
| Smooth Turn Taking | TOR↑ | 0.908 |
| Smooth Turn Taking | Latency↓ | 0.170秒 |
| User Interruption | TOR↑ | 0.950 |
| User Interruption | GPT-4o評価↑ | 4.290 |
| User Interruption | Latency↓ | 0.240秒 |
| User Interruption | SSIM(音声類似度)↑ | 0.650 |
NVIDIAによれば、PersonaPlexは他のオープンソース・商用音声会話システムと比較して、対話ダイナミクス、応答・割り込み遅延、タスク遵守(質問応答アシスタント、カスタマーサービス役割)において優れた性能を示している。
推論環境
- 推奨ハードウェア: NVIDIA Ampere(A100)、NVIDIA Hopper(H100)
- テスト環境: NVIDIA A100 80GB
- 推奨OS: Linux
- ランタイムエンジン: PyTorch
ユースケース
NVIDIAは以下のユースケースを想定している:
- カスタマーサポート: 自然な対話を必要とするカスタマーサービス
- 音声アシスタント: 質問応答、情報提供
- 教育・トレーニング: 対話型学習システム
- エンターテインメント: インタラクティブな会話体験
英語音声入力に対して英語音声応答を生成する用途に適している。
制限事項
- 言語: 現在は英語のみ対応
- 音声サンプリングレート: 24kHz(入力・出力)
- ハードウェア要件: NVIDIA GPU推奨(A100、H100など)
商用利用は可能だが、導入前にNVIDIAの倫理的考慮事項(バイアス、説明可能性、安全性・セキュリティ、プライバシー)を確認し、各業界・ユースケースの要件を満たしているか検証することが推奨される。
リンク
- Hugging Face: nvidia/personaplex-7b-v1
- GitHub: NVIDIA/personaplex
- プロジェクトページ: PersonaPlex Project Page
- 論文: PersonaPlex Preprint (arXiv)
- NVIDIA開発者ポータル: developer.nvidia.com
引用
研究での使用時の引用形式:
@misc{roy2026personaplexvoicerolecontrol,
title={PersonaPlex: Voice and Role Control for Full Duplex Conversational Speech Models},
author={Rajarshi Roy and Jonathan Raiman and Sang-gil Lee and Teodor-Dumitru Ene and Robert Kirby and Sungwon Kim and Jaehyeon Kim and Bryan Catanzaro},
year={2026},
eprint={2602.06053},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2602.06053},
}
本記事の情報は2026年2月18日時点のものです。モデルの機能や仕様は変更される可能性があります。最新情報は公式サイトをご確認ください。
関連記事
MiniMax-M2.5リリース、Opus 4.6と同等の性能を10分の1のコストで実現するオープンソースモデル
MiniMaxがM2.5をリリース。2290億パラメータのオープンソースモデルで、SWE-Bench Verifiedで80.2%を達成し、Opus 4.6・Gemini 3 Pro・GPT-5と比較して10〜20分の1のコストを実現。
AIエージェントがオープンソースを破壊:curl、matplotlibのメンテナーが悲鳴
curl開発者がバグバウンティを停止、GitHubがPR無効化機能を追加。AIエージェントによる低品質な貢献とハラスメントがオープンソースコミュニティを圧迫している。
人気記事
ChatGPT(OpenAI)とClaude(Anthropic)の機能比較 2026年版。コーディング・長文解析・コスト・API料金の違いを検証
ChatGPT(GPT-4o/o3)とClaude(Sonnet 4.6/Opus 4.5)を2026年時点の最新情報で比較する。コーディング能力、長文処理、日本語品質、API料金、無料プランの違いをSWE-benchなどのベンチマーク結果とともに解説する。
【2026年2月20日 所感】「AIがコードを書く」は仮説から現実になった——しかし私たちはその意味をまだ消化できていない
2026年2月20日に観測したコーディングエージェント関連ニュースの総括と所感。Anthropicの自律性研究、cmux、MJ Rathbunのエージェント事故、HN「外骨格 vs チーム」論争、Stripe Minions週1000件PR、Taalas 17k tokens/sec——朝から夜までの流れを通じて見えてきた「AIがコードを書く時代」の実相を考察する。
868のスキルをnpx 1コマンドで——「Antigravity Awesome Skills」が主要AIコーディングエージェントの共通スキル基盤になりつつある
Claude Code・Gemini CLI・Codex CLI・Cursor・GitHub Copilotなど主要AIコーディングアシスタントを横断する868以上のスキルライブラリ「Antigravity Awesome Skills」(v5.4.0)を詳細分析。Anthropic・Vercel・OpenAI・Supabase・Microsoftの公式スキルを統合した設計思想、ロール別バンドル・ワークフロー機能、SKILL.mdによる相互運用性のアーキテクチャを解説する。
最新記事
AIエージェント間通信の標準化競争が始まる——AquaとAgent Semantic Protocolが同日登場
2026年2月23日、Hacker Newsに2つのAIエージェント通信プロジェクトが同日掲載された。Go製CLI「Aqua」とセマンティックルーティングを実装する「Agent Semantic Protocol」は、MCPが解決できないP2P・非同期通信の課題に取り組む。
Claude Sonnet 4.6、無料・Proプランのデフォルトモデルに——社内テストでOpus 4.5を59%の確率で上回る
Anthropicは2026年2月17日にリリースしたClaude Sonnet 4.6を、claude.aiの無料・Proプランのデフォルトモデルに設定した。価格はSonnet 4.5と同額の$3/$15 per 1Mトークン。社内評価ではコーディングエージェント用途でOpus 4.5を上回る結果が出ている。
GoogleがOpenClaw経由のGemini利用ユーザーのアカウントを永久停止——月額$250請求継続のまま
2026年2月23日、Hacker Newsで140pt/107コメントを集めたレポートによると、GoogleはOpenClaw(サードパーティクライアント)経由でGeminiを使用していたGoogle AI Pro/Ultraユーザーを予告なしに永久停止した。技術的・経済的背景を整理する。