عقدة TextEncodeHunyuanVideo_ImageToVideo تنشئ بيانات التكييف لتوليد الفيديو من خلال دمج مطالبات النص مع تضمينات الصور. تستخدم نموذج CLIP لمعالجة كل من الإدخال النصي والمعلومات البصرية من مخرجات رؤية CLIP، ثم تُنشئ رموزًا تمزج هذين المصدرين وفقًا لإعداد تداخل الصورة المحدد.

## المدخلات

| المعامل | الوصف | نوع البيانات | إلزامي | النطاق |
| --- | --- | --- | --- | --- |
| `كليب` | نموذج CLIP المستخدم في الترميز والتشفير | CLIP | نعم | - |
| `ناتج رؤية الكليب` | التضمينات البصرية من نموذج رؤية CLIP التي توفر سياق الصورة | CLIP_VISION_OUTPUT | نعم | - |
| `الموجه` | الوصف النصي لتوجيه عملية توليد الفيديو، يدعم الإدخال متعدد الأسطر والمطالبات الديناميكية | STRING | نعم | - |
| `تداخل الصورة` | مدى تأثير الصورة مقابل المطالبة النصية. القيمة الأعلى تعني تأثيرًا أكبر من المطالبة النصية. (القيمة الافتراضية: 2) | INT | نعم | 1-512 |

## المخرجات

| اسم المخرج | الوصف | نوع البيانات |
| --- | --- | --- |
| `CONDITIONING` | بيانات التكييف التي تجمع بين معلومات النص والصورة لتوليد الفيديو | CONDITIONING |

> تم إنشاء هذه الوثيقة بواسطة الذكاء الاصطناعي. إذا وجدت أي أخطاء أو لديك اقتراحات للتحسين، فلا تتردد في المساهمة! [تحرير على GitHub](https://github.com/Comfy-Org/embedded-docs/blob/main/comfyui_embedded_docs/docs/TextEncodeHunyuanVideo_ImageToVideo/ar.md)

---
**Source fingerprint (SHA-256):** `ee748bd1fb1733593eb4cb1187c5cc279171163cfbc389f039378d0e366fc231`