گره `CLIP Vision Encode` یک گره رمزگذاری تصویر در ComfyUI است که برای تبدیل تصاویر ورودی به بردارهای ویژگی بصری از طریق مدل CLIP Vision استفاده می‌شود. این گره پل مهمی بین درک تصویر و متن محسوب می‌شود و در طیف گسترده‌ای از گردش‌های کاری تولید و پردازش تصویر مبتنی بر هوش مصنوعی کاربرد دارد.

**عملکرد گره**

- **استخراج ویژگی تصویر**: تبدیل تصاویر ورودی به بردارهای ویژگی با ابعاد بالا
- **پل ارتباطی چندوجهی**: فراهم‌سازی پایه‌ای برای پردازش مشترک تصاویر و متون
- **تولید شرطی**: فراهم‌سازی شرایط بصری برای تولید شرطی مبتنی بر تصویر

## ورودی‌ها

| نام پارامتر | توضیحات | نوع داده |
| --- | --- | --- |
| `clip_vision` | مدل CLIP Vision که معمولاً از طریق گره CLIPVisionLoader بارگذاری می‌شود | CLIP_VISION |
| `تصویر` | تصویر ورودی که باید رمزگذاری شود | IMAGE |
| `برش` | روش برش تصویر، گزینه‌ها: center (برش مرکزی)، none (بدون برش) | Dropdown |

## خروجی‌ها

| نام خروجی | توضیحات | نوع داده |
| --- | --- | --- |
| CLIP_VISION_OUTPUT | ویژگی‌های بصری رمزگذاری‌شده | CLIP_VISION_OUTPUT |

این شیء خروجی شامل موارد زیر است:

- `last_hidden_state`: آخرین حالت پنهان
- `image_embeds`: بردار جاسازی تصویر
- `penultimate_hidden_states`: حالت پنهان ماقبل آخر
- `mm_projected`: نتیجه فرافکنی چندوجهی (در صورت وجود)

> این مستند با هوش مصنوعی تهیه شده است. اگر خطایی دیدید یا پیشنهادی برای بهبود دارید، خوشحال می‌شویم مشارکت کنید! [ویرایش در GitHub](https://github.com/Comfy-Org/embedded-docs/blob/main/comfyui_embedded_docs/docs/CLIPVisionEncode/fa.md)