TextEncodeZImageOmni 节点是一个高级条件节点，它将文本提示以及可选的参考图像编码为适用于图像生成模型的条件格式。该节点最多可处理三张图像，可选择使用视觉编码器和/或 VAE 对其进行编码以生成参考潜变量，并通过特定的模板结构将这些视觉参考与文本提示整合在一起。

## 输入

| 参数 | 描述 | 数据类型 | 是否必需 | 范围 |
| --- | --- | --- | --- | --- |
| `clip` | 用于对文本提示进行分词和编码的 CLIP 模型。 | CLIP | 是 |  |
| `image_encoder` | 可选的视觉编码器模型。如果提供，将用于对输入图像进行编码，生成的嵌入向量将添加到条件中。 | CLIPVision | 否 |  |
| `prompt` | 要编码的文本提示。此字段支持多行输入和动态提示。 | STRING | 是 |  |
| `auto_resize_images` | 启用时（默认：True），输入图像在传递给 VAE 进行编码之前，将根据其像素面积自动调整大小。 | BOOLEAN | 否 |  |
| `vae` | 可选的 VAE 模型。如果提供，将用于将输入图像编码为潜变量表示，这些潜变量将作为参考潜变量添加到条件中。 | VAE | 否 |  |
| `image1` | 第一张可选的参考图像。 | IMAGE | 否 |  |
| `image2` | 第二张可选的参考图像。 | IMAGE | 否 |  |
| `image3` | 第三张可选的参考图像。 | IMAGE | 否 |  |

**注意：** 该节点最多可接受三张图像（`image1`、`image2`、`image3`）。仅当至少提供一张图像时，才会使用 `image_encoder` 和 `vae` 输入。当 `auto_resize_images` 为 True 且连接了 `vae` 时，图像会在编码前调整大小，使其总像素面积接近 1024x1024。

## 输出

| 输出名称 | 描述 | 数据类型 |
| --- | --- | --- |
| `CONDITIONING` | 最终的条件输出，包含编码后的文本提示，如果提供了图像，还可能包含编码后的图像嵌入向量和/或参考潜变量。 | CONDITIONING |

> 本文档由 AI 生成。如果您发现任何错误或有改进建议，欢迎贡献！ [在 GitHub 上编辑](https://github.com/Comfy-Org/embedded-docs/blob/main/comfyui_embedded_docs/docs/TextEncodeZImageOmni/zh.md)

---
**Source fingerprint (SHA-256):** `daa4205acdf72503180eeedb4142708d239d4ff0f689012a298264ae2d8ea949`