گره TextEncodeHunyuanVideo_ImageToVideo داده‌های شرطی‌سازی (conditioning) را برای تولید ویدئو با ترکیب پرامپت‌های متنی و جاسازی‌های تصویری (image embeddings) ایجاد می‌کند. این گره از یک مدل CLIP برای پردازش همزمان ورودی متن و اطلاعات بصری حاصل از خروجی CLIP vision استفاده می‌کند و سپس توکن‌هایی تولید می‌کند که این دو منبع را با توجه به تنظیمات interleave تصویر ترکیب می‌کند.

## ورودی‌ها

| پارامتر | توضیحات | نوع داده | اجباری | محدوده |
| --- | --- | --- | --- | --- |
| `clip` | مدل CLIP مورد استفاده برای توکن‌سازی و رمزگذاری | CLIP | بله | - |
| `خروجی بینایی clip` | جاسازی‌های بصری حاصل از مدل CLIP vision که زمینه تصویری را فراهم می‌کند | CLIP_VISION_OUTPUT | بله | - |
| `پرامپت` | توضیحات متنی برای هدایت تولید ویدئو، از ورودی چندخطی و پرامپت‌های پویا پشتیبانی می‌کند | STRING | بله | - |
| `درهم‌تنیدگی تصویر` | میزان تأثیر تصویر در مقابل پرامپت متنی. عدد بالاتر به معنای تأثیر بیشتر پرامپت متنی است. (پیش‌فرض: 2) | INT | بله | 1-512 |

## خروجی‌ها

| نام خروجی | توضیحات | نوع داده |
| --- | --- | --- |
| `CONDITIONING` | داده‌های شرطی‌سازی که اطلاعات متن و تصویر را برای تولید ویدئو ترکیب می‌کند | CONDITIONING |

> این مستند با هوش مصنوعی تهیه شده است. اگر خطایی دیدید یا پیشنهادی برای بهبود دارید، خوشحال می‌شویم مشارکت کنید! [ویرایش در GitHub](https://github.com/Comfy-Org/embedded-docs/blob/main/comfyui_embedded_docs/docs/TextEncodeHunyuanVideo_ImageToVideo/fa.md)

---
**Source fingerprint (SHA-256):** `ee748bd1fb1733593eb4cb1187c5cc279171163cfbc389f039378d0e366fc231`