`CLIP Vision Encode` ノードは、ComfyUI における画像エンコードノードであり、CLIP Vision モデルを通じて入力画像を視覚特徴ベクトルに変換します。このノードは、画像とテキストの理解を結びつける重要なブリッジであり、様々なAI画像生成・処理ワークフローで広く使用されています。

**ノード機能**

- **画像特徴抽出**：入力画像を高次元の特徴ベクトルに変換します
- **マルチモーダルブリッジ**：画像とテキストの統合処理の基盤を提供します
- **条件付き生成**：画像ベースの条件付き生成に視覚的条件を提供します

## 入力

| パラメータ名 | 説明 | データ型 |
| --- | --- | --- |
| `クリップビジョン` | CLIP Visionモデル。通常はCLIPVisionLoaderノードを介して読み込まれます | CLIP_VISION |
| `画像` | エンコードする入力画像 | IMAGE |
| `クロップ` | 画像のクロップ方法。オプション：center（中央クロップ）、none（クロップなし） | ドロップダウン |

## 出力

| 出力名 | 説明 | データ型 |
| --- | --- | --- |
| CLIP_VISION_OUTPUT | エンコードされた視覚特徴 | CLIP_VISION_OUTPUT |

この出力オブジェクトには以下が含まれます：

- `last_hidden_state`：最後の隠れ状態
- `image_embeds`：画像埋め込みベクトル
- `penultimate_hidden_states`：最後から2番目の隠れ状態
- `mm_projected`：マルチモーダル投影結果（利用可能な場合）

> このドキュメントは AI によって生成されました。エラーを見つけた場合や改善のご提案がある場合は、ぜひ貢献してください！ [GitHub で編集](https://github.com/Comfy-Org/embedded-docs/blob/main/comfyui_embedded_docs/docs/CLIPVisionEncode/ja.md)