CosmosPredict2ImageToVideoLatent 节点用于从图像创建视频潜在表示，以进行视频生成。它可以生成空白视频潜在表示，或结合起始图像和结束图像，创建具有指定尺寸和时长的视频序列。该节点负责将图像编码为适合视频处理的潜在空间格式。

## 输入

| 参数 | 描述 | 数据类型 | 是否必填 | 范围 |
| --- | --- | --- | --- | --- |
| `vae` | 用于将图像编码到潜在空间的 VAE 模型 | VAE | 是 | - |
| `宽度` | 输出视频的宽度（像素），默认值：848，必须能被 16 整除 | INT | 否 | 16 至 MAX_RESOLUTION |
| `高度` | 输出视频的高度（像素），默认值：480，必须能被 16 整除 | INT | 否 | 16 至 MAX_RESOLUTION |
| `长度` | 视频序列的帧数，默认值：93，步长：4 | INT | 否 | 1 至 MAX_RESOLUTION |
| `批次大小` | 要生成的视频序列数量，默认值：1 | INT | 否 | 1 至 4096 |
| `起始图像` | 视频序列的可选起始图像 | IMAGE | 否 | - |
| `结束图像` | 视频序列的可选结束图像 | IMAGE | 否 | - |

**注意：** 当未提供 `start_image` 和 `end_image` 时，节点会生成空白视频潜在表示。当提供图像时，它们会被编码并通过适当的遮罩放置在视频序列的开头和/或结尾。

## 输出

| 输出名称 | 描述 | 数据类型 |
| --- | --- | --- |
| `samples` | 生成的视频潜在表示，包含编码后的视频序列 | LATENT |
| `noise_mask` | 一个遮罩，指示生成过程中应保留潜在表示的哪些部分 | LATENT |

> 本文档由 AI 生成。如果您发现任何错误或有改进建议，欢迎贡献！ [在 GitHub 上编辑](https://github.com/Comfy-Org/embedded-docs/blob/main/comfyui_embedded_docs/docs/CosmosPredict2ImageToVideoLatent/zh.md)

---
**Source fingerprint (SHA-256):** `55fab16180c0e3fa254bcc77694dbc666810b28522e61b9c613f720fae66bd0c`
