El nodo `CLIP Vision Encode` es un nodo de codificación de imágenes en ComfyUI, utilizado para convertir imágenes de entrada en vectores de características visuales a través del modelo CLIP Vision. Este nodo constituye un puente importante entre la comprensión de imágenes y texto, y se utiliza ampliamente en diversos flujos de trabajo de generación y procesamiento de imágenes con IA.

**Funcionalidad del nodo**

- **Extracción de características de imagen**: Convierte imágenes de entrada en vectores de características de alta dimensión
- **Puente multimodal**: Proporciona una base para el procesamiento conjunto de imágenes y texto
- **Generación condicional**: Proporciona condiciones visuales para la generación condicional basada en imágenes

## Entradas

| Nombre del parámetro | Descripción | Tipo de dato |
| --- | --- | --- |
| `clip_vision` | Modelo CLIP vision, generalmente cargado mediante el nodo CLIPVisionLoader | CLIP_VISION |
| `image` | La imagen de entrada que se va a codificar | IMAGE |
| `crop` | Método de recorte de imagen, opciones: center (recorte centrado), none (sin recorte) | Desplegable |

## Salidas

| Nombre de salida | Descripción | Tipo de dato |
| --- | --- | --- |
| CLIP_VISION_OUTPUT | Características visuales codificadas | CLIP_VISION_OUTPUT |

Este objeto de salida contiene:

- `last_hidden_state`: El último estado oculto
- `image_embeds`: Vector de incrustación de la imagen
- `penultimate_hidden_states`: El penúltimo estado oculto
- `mm_projected`: Resultado de proyección multimodal (si está disponible)

> Esta documentación fue generada por IA. Si encuentra algún error o tiene sugerencias de mejora, ¡no dude en contribuir! [Editar en GitHub](https://github.com/Comfy-Org/embedded-docs/blob/main/comfyui_embedded_docs/docs/CLIPVisionEncode/es.md)