إليك ترجمة الوثيقة التقنية لعقدة ComfyUI إلى العربية، مع الالتزام بقواعد الترجمة المحددة:

عقدة `CLIP Vision Encode` هي عقدة ترميز صور في ComfyUI، تُستخدم لتحويل الصور المدخلة إلى متجهات سمات بصرية عبر نموذج CLIP Vision. تشكل هذه العقدة جسرًا مهمًا يربط بين فهم الصور والنصوص، وتُستخدم على نطاق واسع في سير عمل متنوعة لتوليد ومعالجة الصور بالذكاء الاصطناعي.

**وظيفة العقدة**

- **استخراج سمات الصورة**: تحويل الصور المدخلة إلى متجهات سمات عالية الأبعاد
- **الربط متعدد الوسائط**: توفير أساس للمعالجة المشتركة بين الصور والنصوص
- **التوليد المشروط**: توفير شروط بصرية للتوليد المعتمد على الصور

## المدخلات

| اسم المعامل | الوصف | نوع البيانات |
| --- | --- | --- |
| `رؤية CLIP` | نموذج رؤية CLIP، يُحمّل عادةً عبر عقدة CLIPVisionLoader | CLIP_VISION |
| `الصورة` | الصورة المدخلة المراد ترميزها | IMAGE |
| `القص` | طريقة اقتصاص الصورة، الخيارات: center (اقتصاص مركزي)، none (بدون اقتصاص) | Dropdown |

## المخرجات

| اسم المخرج | الوصف | نوع البيانات |
| --- | --- | --- |
| CLIP_VISION_OUTPUT | السمات البصرية المُرمّزة | CLIP_VISION_OUTPUT |

يحتوي كائن المخرج هذا على:

- `last_hidden_state`: الحالة المخفية الأخيرة
- `image_embeds`: متجه تضمين الصورة
- `penultimate_hidden_states`: الحالة المخفية قبل الأخيرة
- `mm_projected`: نتيجة الإسقاط متعدد الوسائط (إن وجدت)

> تم إنشاء هذه الوثيقة بواسطة الذكاء الاصطناعي. إذا وجدت أي أخطاء أو لديك اقتراحات للتحسين، فلا تتردد في المساهمة! [تحرير على GitHub](https://github.com/Comfy-Org/embedded-docs/blob/main/comfyui_embedded_docs/docs/CLIPVisionEncode/ar.md)