WanInfiniteTalkToVideo ノードは、音声入力からビデオシーケンスを生成します。このノードは、1人または2人の話者から抽出された音声特徴量を条件として、ビデオ拡散モデルを使用し、トーキングヘッドビデオの潜在表現を生成します。新しいシーケンスを生成することも、モーションコンテキストとして以前のフレームを使用して既存のシーケンスを拡張することもできます。

## 入力

| パラメータ | 説明 | データ型 | 必須 | 範囲 |
| --- | --- | --- | --- | --- |
| `モード` | 音声入力モード。`"single_speaker"` は1つの音声入力を使用します。`"two_speakers"` は2人目の話者と対応するマスクの入力を有効にします。 | COMBO | はい | `"single_speaker"`<br>`"two_speakers"` |
| `モデル` | ベースとなるビデオ拡散モデル。 | MODEL | はい | - |
| `モデルパッチ` | 音声投影レイヤーを含むモデルパッチ。 | MODELPATCH | はい | - |
| `ポジティブ` | 生成をガイドするポジティブ条件付け。 | CONDITIONING | はい | - |
| `ネガティブ` | 生成をガイドするネガティブ条件付け。 | CONDITIONING | はい | - |
| `vae` | 画像を潜在空間にエンコードし、潜在空間からデコードするために使用されるVAE。 | VAE | はい | - |
| `幅` | 出力ビデオの幅（ピクセル単位）。16で割り切れる必要があります。（デフォルト: 832） | INT | いいえ | 16 - MAX_RESOLUTION |
| `高さ` | 出力ビデオの高さ（ピクセル単位）。16で割り切れる必要があります。（デフォルト: 480） | INT | いいえ | 16 - MAX_RESOLUTION |
| `長さ` | 生成するフレーム数。（デフォルト: 81） | INT | いいえ | 1 - MAX_RESOLUTION |
| `clipビジョン出力` | 追加の条件付けのためのオプションのCLIPビジョン出力。 | CLIPVISIONOUTPUT | いいえ | - |
| `開始画像` | ビデオシーケンスを初期化するためのオプションの開始画像。 | IMAGE | いいえ | - |
| `オーディオエンコーダ出力1` | 最初の話者の特徴量を含むプライマリ音声エンコーダ出力。 | AUDIOENCODEROUTPUT | はい | - |
| `モーションフレーム数` | シーケンスを拡張する際にモーションコンテキストとして使用する過去のフレーム数。（デフォルト: 9） | INT | いいえ | 1 - 33 |
| `オーディオスケール` | 音声条件付けに適用されるスケーリング係数。（デフォルト: 1.0） | FLOAT | いいえ | -10.0 - 10.0 |
| `前のフレーム` | 拡張元となるオプションの以前のビデオフレーム。 | IMAGE | いいえ | - |
| `audio_encoder_output_2` | 2番目の音声エンコーダ出力。`モード` が `"two_speakers"` に設定されている場合に必須です。 | AUDIOENCODEROUTPUT | いいえ | - |
| `mask_1` | 最初の話者のマスク。2つの音声入力を使用する場合に必須です。 | MASK | いいえ | - |
| `mask_2` | 2番目の話者のマスク。2つの音声入力を使用する場合に必須です。 | MASK | いいえ | - |

**パラメータ制約:**

* `mode` が `"two_speakers"` に設定されている場合、パラメータ `audio_encoder_output_2`、`mask_1`、`mask_2` が必須になります。
* `audio_encoder_output_2` が指定された場合、`mask_1` と `mask_2` の両方も指定する必要があります。
* `mask_1` と `mask_2` が指定された場合、`audio_encoder_output_2` も指定する必要があります。
* `previous_frames` が指定された場合、`motion_frame_count` で指定された数以上のフレームが含まれている必要があります。

## 出力

| 出力名 | 説明 | データ型 |
| --- | --- | --- |
| `ポジティブ` | 音声条件付けが適用されたパッチ済みモデル。 | MODEL |
| `ネガティブ` | 追加コンテキスト（開始画像、CLIPビジョンなど）で変更される可能性のあるポジティブ条件付け。 | CONDITIONING |
| `潜在` | 追加コンテキストで変更される可能性のあるネガティブ条件付け。 | CONDITIONING |
| `トリム画像` | 潜在空間で生成されたビデオシーケンス。 | LATENT |
| `trim_image` | シーケンスを拡張する際に、モーションコンテキストの先頭からトリミングする必要があるフレーム数。 | INT |

> このドキュメントは AI によって生成されました。エラーを見つけた場合や改善のご提案がある場合は、ぜひ貢献してください！ [GitHub で編集](https://github.com/Comfy-Org/embedded-docs/blob/main/comfyui_embedded_docs/docs/WanInfiniteTalkToVideo/ja.md)

---
**Source fingerprint (SHA-256):** `6bb976da5cac0b61edb7d4c9d206c7c7ea9ffc0e982034c23c7f2e891e972888`