TextEncodeHunyuanVideo_ImageToVideo 节点通过将文本提示与图像嵌入相结合，为视频生成创建条件数据。它使用 CLIP 模型处理文本输入和来自 CLIP 视觉输出的视觉信息，然后根据指定的图像交错设置生成融合这两种来源的令牌。

## 输入

| 参数 | 描述 | 数据类型 | 是否必填 | 范围 |
| --- | --- | --- | --- | --- |
| `clip` | 用于分词和编码的 CLIP 模型 | CLIP | 是 | - |
| `clip视觉输出` | 来自 CLIP 视觉模型的视觉嵌入，提供图像上下文 | CLIP_VISION_OUTPUT | 是 | - |
| `提示` | 用于指导视频生成的文本描述，支持多行输入和动态提示 | STRING | 是 | - |
| `图像交错` | 图像相对于文本提示的影响程度。数值越大，文本提示的影响越大。（默认值：2） | INT | 是 | 1-512 |

## 输出

| 输出名称 | 描述 | 数据类型 |
| --- | --- | --- |
| `CONDITIONING` | 结合文本和图像信息用于视频生成的条件数据 | CONDITIONING |

> 本文档由 AI 生成。如果您发现任何错误或有改进建议，欢迎贡献！ [在 GitHub 上编辑](https://github.com/Comfy-Org/embedded-docs/blob/main/comfyui_embedded_docs/docs/TextEncodeHunyuanVideo_ImageToVideo/zh.md)

---
**Source fingerprint (SHA-256):** `ee748bd1fb1733593eb4cb1187c5cc279171163cfbc389f039378d0e366fc231`