Wan22ImageToVideoLatent 节点可从图像创建视频潜在表示。它会生成具有指定维度的空白视频潜在空间，并可选择将起始图像序列编码到初始帧中。当提供起始图像时，该节点会将图像编码到潜在空间，并为修复区域生成相应的噪声遮罩。

## 输入

| 参数 | 描述 | 数据类型 | 是否必需 | 范围 |
| --- | --- | --- | --- | --- |
| `VAE` | 用于将图像编码到潜在空间的 VAE 模型 | VAE | 是 | - |
| `宽度` | 输出视频的像素宽度（默认值：1280，步长：32） | INT | 是 | 32 至 MAX_RESOLUTION |
| `高度` | 输出视频的像素高度（默认值：704，步长：32） | INT | 是 | 32 至 MAX_RESOLUTION |
| `长度` | 视频序列中的帧数（默认值：49，步长：4） | INT | 是 | 1 至 MAX_RESOLUTION |
| `批次大小` | 生成的批次数量（默认值：1） | INT | 是 | 1 至 4096 |
| `起始图像` | 可选的起始图像序列，用于编码到视频潜在空间中 | IMAGE | 否 | - |

**注意：** 当提供 `start_image` 时，节点会将图像序列编码到潜在空间的起始帧中，并生成相应的噪声遮罩。宽度和高度参数必须能被 16 整除，以确保潜在空间维度正确。`length` 参数决定视频潜在空间中的帧数；潜在空间的时间维度计算公式为 `((length - 1) // 4) + 1`。

## 输出

| 输出名称 | 描述 | 数据类型 |
| --- | --- | --- |
| `samples` | 生成的视频潜在表示 | LATENT |
| `noise_mask` | 噪声遮罩，指示生成过程中应去噪的区域 | LATENT |

> 本文档由 AI 生成。如果您发现任何错误或有改进建议，欢迎贡献！ [在 GitHub 上编辑](https://github.com/Comfy-Org/embedded-docs/blob/main/comfyui_embedded_docs/docs/Wan22ImageToVideoLatent/zh.md)

---
**Source fingerprint (SHA-256):** `0f27e20bcc63f0dd224cda0fa26ee676c42898ac74fcfbe0a2b591def933689c`