گره Kling Avatar 2.0 ویدیوهای دیجیتال انسانی به سبک پخش تلویزیونی را از یک عکس مرجع و یک فایل صوتی تولید می‌کند. این گره یک ویدیوی سخنگوی آواتار با یک پرامپت متنی اختیاری برای تعریف حرکات، احساسات و حرکات دوربین آواتار ایجاد می‌کند.

## ورودی‌ها

| پارامتر | توضیحات | نوع داده | الزامی | محدوده |
| --- | --- | --- | --- | --- |
| `image` | تصویر مرجع آواتار. عرض و ارتفاع باید حداقل ۳۰۰ پیکسل باشد. نسبت تصویر باید بین ۱:۲٫۵ و ۲٫۵:۱ باشد. | IMAGE | بله | - |
| `sound_file` | ورودی صوتی. مدت زمان باید بین ۲ تا ۳۰۰ ثانیه باشد. | AUDIO | بله | - |
| `mode` | حالت تولید مورد استفاده. | COMBO | بله | `"std"`<br>`"pro"` |
| `prompt` | پرامپت اختیاری برای تعریف حرکات، احساسات و حرکات دوربین آواتار. (پیش‌فرض: رشته خالی) | STRING | خیر | - |
| `seed` | دانه (seed) مشخص می‌کند که آیا گره باید دوباره اجرا شود؛ نتایج صرف‌نظر از دانه غیرقطعی هستند. (پیش‌فرض: ۰) | INT | بله | ۰ تا ۲۱۴۷۴۸۳۶۴۷ |

**توجه:** ورودی‌های `image` و `sound_file` الزامات اعتبارسنجی خاصی دارند. تصویر باید حداقل ۳۰۰×۳۰۰ پیکسل با نسبت تصویر بین ۱:۲٫۵ و ۲٫۵:۱ باشد. فایل صوتی باید بین ۲ تا ۳۰۰ ثانیه طول داشته باشد.

## خروجی‌ها

| نام خروجی | توضیحات | نوع داده |
| --- | --- | --- |
| `output` | ویدیوی دیجیتال انسانی تولیدشده. | VIDEO |

> این مستند با هوش مصنوعی تهیه شده است. اگر خطایی دیدید یا پیشنهادی برای بهبود دارید، خوشحال می‌شویم مشارکت کنید! [ویرایش در GitHub](https://github.com/Comfy-Org/embedded-docs/blob/main/comfyui_embedded_docs/docs/KlingAvatarNode/fa.md)

---
**Source fingerprint (SHA-256):** `85793d3820a89ef98bb54cb930486847d4fd64cce5470ba34574ec319f8ea8c6`