Вот перевод документации на русский язык в соответствии с вашими правилами:

Узел WanInfiniteTalkToVideo генерирует видеопоследовательности из аудиовхода. Он использует модель диффузии видео, обусловленную аудиохарактеристиками, извлеченными из одного или двух дикторов, для создания латентного представления видео с говорящей головой. Узел может генерировать новую последовательность или расширять существующую, используя предыдущие кадры для контекста движения.

## Входные параметры

| Параметр | Описание | Тип данных | Обязательный | Диапазон |
| --- | --- | --- | --- | --- |
| `режим` | Режим аудиовхода. `"single_speaker"` использует один аудиовход. `"two_speakers"` включает входы для второго диктора и соответствующие маски. | COMBO | Да | `"single_speaker"`<br>`"two_speakers"` |
| `модель` | Базовая модель диффузии видео. | MODEL | Да | - |
| `патч модели` | Патч модели, содержащий слои проекции аудио. | MODELPATCH | Да | - |
| `позитивный` | Положительное кондиционирование для направления генерации. | CONDITIONING | Да | - |
| `негативный` | Отрицательное кондиционирование для направления генерации. | CONDITIONING | Да | - |
| `vae` | VAE, используемый для кодирования изображений в латентное пространство и обратно. | VAE | Да | - |
| `ширина` | Ширина выходного видео в пикселях. Должна делиться на 16. (по умолчанию: 832) | INT | Нет | 16 - MAX_RESOLUTION |
| `высота` | Высота выходного видео в пикселях. Должна делиться на 16. (по умолчанию: 480) | INT | Нет | 16 - MAX_RESOLUTION |
| `длина` | Количество кадров для генерации. (по умолчанию: 81) | INT | Нет | 1 - MAX_RESOLUTION |
| `выход clip vision` | Необязательный выход CLIP vision для дополнительного кондиционирования. | CLIPVISIONOUTPUT | Нет | - |
| `стартовое изображение` | Необязательное начальное изображение для инициализации видеопоследовательности. | IMAGE | Нет | - |
| `выход аудиоэнкодера 1` | Основной выход аудиокодера, содержащий характеристики для первого диктора. | AUDIOENCODEROUTPUT | Да | - |
| `количество кадров движения` | Количество предыдущих кадров, используемых в качестве контекста движения при расширении последовательности. (по умолчанию: 9) | INT | Нет | 1 - 33 |
| `масштаб аудио` | Коэффициент масштабирования, применяемый к аудиокондиционированию. (по умолчанию: 1.0) | FLOAT | Нет | -10.0 - 10.0 |
| `предыдущие кадры` | Необязательные предыдущие кадры видео для расширения. | IMAGE | Нет | - |
| `audio_encoder_output_2` | Второй выход аудиокодера. Требуется, когда `режим` установлен в `"two_speakers"`. | AUDIOENCODEROUTPUT | Нет | - |
| `mask_1` | Маска для первого диктора, требуется при использовании двух аудиовходов. | MASK | Нет | - |
| `mask_2` | Маска для второго диктора, требуется при использовании двух аудиовходов. | MASK | Нет | - |

**Ограничения параметров:**

* Когда `mode` установлен в `"two_speakers"`, параметры `audio_encoder_output_2`, `mask_1` и `mask_2` становятся обязательными.
* Если предоставлен `audio_encoder_output_2`, также должны быть предоставлены `mask_1` и `mask_2`.
* Если предоставлены `mask_1` и `mask_2`, также должен быть предоставлен `audio_encoder_output_2`.
* Если предоставлен `previous_frames`, он должен содержать как минимум столько же кадров, сколько указано в `motion_frame_count`.

## Выходные параметры

| Имя выхода | Описание | Тип данных |
| --- | --- | --- |
| `модель` | Патченная модель с примененным аудиокондиционированием. | MODEL |
| `позитивный` | Положительное кондиционирование, потенциально измененное с добавлением дополнительного контекста (например, начальное изображение, CLIP vision). | CONDITIONING |
| `негативный` | Отрицательное кондиционирование, потенциально измененное с добавлением дополнительного контекста. | CONDITIONING |
| `latent` | Сгенерированная видеопоследовательность в латентном пространстве. | LATENT |
| `trim_image` | Количество кадров от начала контекста движения, которые следует обрезать при расширении последовательности. | INT |

> Эта документация была создана с помощью ИИ. Если вы обнаружите ошибки или у вас есть предложения по улучшению, пожалуйста, внесите свой вклад! [Редактировать на GitHub](https://github.com/Comfy-Org/embedded-docs/blob/main/comfyui_embedded_docs/docs/WanInfiniteTalkToVideo/ru.md)

---
**Source fingerprint (SHA-256):** `6bb976da5cac0b61edb7d4c9d206c7c7ea9ffc0e982034c23c7f2e891e972888`
