### **گره WanInfiniteTalkToVideo**

گره WanInfiniteTalkToVideo توالی‌های ویدئویی را از ورودی صوتی تولید می‌کند. این گره از یک مدل انتشار ویدئو (video diffusion model) استفاده می‌کند که با ویژگی‌های صوتی استخراج‌شده از یک یا دو گوینده، شرطی شده است تا یک نمایش نهفته (latent representation) از ویدئوی چهره‌ی سخنگو تولید کند. این گره می‌تواند یک توالی جدید ایجاد کرده یا با استفاده از فریم‌های قبلی برای زمینه‌ی حرکتی، یک توالی موجود را گسترش دهد.

## **ورودی‌ها**

| پارامتر | توضیحات | نوع داده | اجباری | محدوده |
| --- | --- | --- | --- | --- |
| `حالت` | حالت ورودی صوتی. `"single_speaker"` از یک ورودی صوتی استفاده می‌کند. `"two_speakers"` ورودی‌هایی را برای گوینده دوم و ماسک‌های مربوطه فعال می‌کند. | COMBO | بله | `"single_speaker"`<br>`"two_speakers"` |
| `مدل` | مدل پایه انتشار ویدئو. | MODEL | بله | - |
| `patch مدل` | وصله مدل (model patch) حاوی لایه‌های فرافکنی صوتی. | MODELPATCH | بله | - |
| `مثبت` | شرطی‌سازی مثبت برای هدایت تولید. | CONDITIONING | بله | - |
| `منفی` | شرطی‌سازی منفی برای هدایت تولید. | CONDITIONING | بله | - |
| `vae` | VAE مورد استفاده برای رمزگذاری تصاویر به فضای نهفته و رمزگشایی از آن. | VAE | بله | - |
| `عرض` | عرض ویدئوی خروجی بر حسب پیکسل. باید بر 16 بخش‌پذیر باشد. (پیش‌فرض: 832) | INT | خیر | 16 - MAX_RESOLUTION |
| `ارتفاع` | ارتفاع ویدئوی خروجی بر حسب پیکسل. باید بر 16 بخش‌پذیر باشد. (پیش‌فرض: 480) | INT | خیر | 16 - MAX_RESOLUTION |
| `طول` | تعداد فریم‌های تولیدی. (پیش‌فرض: 81) | INT | خیر | 1 - MAX_RESOLUTION |
| `خروجی بینایی clip` | خروجی بینایی CLIP اختیاری برای شرطی‌سازی اضافی. | CLIPVISIONOUTPUT | خیر | - |
| `تصویر شروع` | یک تصویر شروع اختیاری برای مقداردهی اولیه توالی ویدئو. | IMAGE | خیر | - |
| `خروجی رمزگذار صوتی ۱` | خروجی رمزگذار صوتی اصلی حاوی ویژگی‌های گوینده اول. | AUDIOENCODEROUTPUT | بله | - |
| `تعداد فریم‌های حرکتی` | تعداد فریم‌های قبلی که هنگام گسترش یک توالی به عنوان زمینه حرکتی استفاده می‌شود. (پیش‌فرض: 9) | INT | خیر | 1 - 33 |
| `مقیاس صوتی` | یک عامل مقیاس‌دهی که به شرطی‌سازی صوتی اعمال می‌شود. (پیش‌فرض: 1.0) | FLOAT | خیر | 10.0 - 10.0- |
| `فریم‌های قبلی` | فریم‌های ویدئویی قبلی اختیاری برای گسترش از آن‌ها. | IMAGE | خیر | - |
| `audio_encoder_output_2` | خروجی رمزگذار صوتی دوم. هنگامی که `حالت` روی `"two_speakers"` تنظیم شده باشد، اجباری است. | AUDIOENCODEROUTPUT | خیر | - |
| `mask_1` | ماسک گوینده اول، در صورت استفاده از دو ورودی صوتی اجباری است. | MASK | خیر | - |
| `mask_2` | ماسک گوینده دوم، در صورت استفاده از دو ورودی صوتی اجباری است. | MASK | خیر | - |

**محدودیت‌های پارامتر:**

* هنگامی که `mode` روی `"two_speakers"` تنظیم شده باشد، پارامترهای `audio_encoder_output_2`، `mask_1` و `mask_2` اجباری می‌شوند.
* اگر `audio_encoder_output_2` ارائه شود، هر دو `mask_1` و `mask_2` نیز باید ارائه شوند.
* اگر `mask_1` و `mask_2` ارائه شوند، `audio_encoder_output_2` نیز باید ارائه شود.
* اگر `previous_frames` ارائه شود، باید حداقل به تعداد مشخص‌شده توسط `motion_frame_count` فریم داشته باشد.

## **خروجی‌ها**

| نام خروجی | توضیحات | نوع داده |
| --- | --- | --- |
| `مدل` | مدل وصله‌شده با شرطی‌سازی صوتی اعمال‌شده. | MODEL |
| `مثبت` | شرطی‌سازی مثبت، که احتمالاً با زمینه اضافی (مانند تصویر شروع، بینایی CLIP) اصلاح شده است. | CONDITIONING |
| `منفی` | شرطی‌سازی منفی، که احتمالاً با زمینه اضافی اصلاح شده است. | CONDITIONING |
| `latent` | توالی ویدئوی تولیدشده در فضای نهفته. | LATENT |
| `trim_image` | تعداد فریم‌هایی از ابتدای زمینه حرکتی که هنگام گسترش یک توالی باید حذف شوند. | INT |

> این مستند با هوش مصنوعی تهیه شده است. اگر خطایی دیدید یا پیشنهادی برای بهبود دارید، خوشحال می‌شویم مشارکت کنید! [ویرایش در GitHub](https://github.com/Comfy-Org/embedded-docs/blob/main/comfyui_embedded_docs/docs/WanInfiniteTalkToVideo/fa.md)

---
**Source fingerprint (SHA-256):** `6bb976da5cac0b61edb7d4c9d206c7c7ea9ffc0e982034c23c7f2e891e972888`
