此文档由 AI 生成。如发现任何错误或有改进建议，欢迎随时贡献！[在 GitHub 上编辑](https://github.com/Comfy-Org/embedded-docs/blob/main/comfyui_embedded_docs/docs/WanAnimateToVideo/en.md)

WanAnimateToVideo 节点通过组合多个条件输入（包括姿态参考、面部表情和背景元素）来生成视频内容。它处理各种视频输入，以创建连贯的动画序列，同时保持帧间的时间一致性。该节点处理潜在空间操作，并可通过延续运动模式来扩展现有视频。

## 输入

| 参数 | 描述 | 数据类型 | 是否必需 | 范围 |
| --- | --- | --- | --- | --- |
| `正向提示` | 正向条件，用于引导生成朝向期望内容 | CONDITIONING | 是 | - |
| `负向提示` | 负向条件，用于引导生成远离不期望内容 | CONDITIONING | 是 | - |
| `VAE` | 用于编码和解码图像数据的 VAE 模型 | VAE | 是 | - |
| `宽度` | 输出视频宽度（像素）（默认值：832，步长：16） | INT | 是 | 16 至 MAX_RESOLUTION |
| `高度` | 输出视频高度（像素）（默认值：480，步长：16） | INT | 是 | 16 至 MAX_RESOLUTION |
| `长度` | 要生成的帧数（默认值：77，步长：4） | INT | 是 | 1 至 MAX_RESOLUTION |
| `批次大小` | 同时生成的视频数量（默认值：1） | INT | 是 | 1 至 4096 |
| `CLIP视觉输出` | 可选的 CLIP 视觉模型输出，用于额外条件控制 | CLIP_VISION_OUTPUT | 否 | - |
| `参考图像` | 用作生成起点的参考图像 | IMAGE | 否 | - |
| `面部视频` | 提供面部表情引导的视频输入 | IMAGE | 否 | - |
| `姿态视频` | 提供姿态和运动引导的视频输入 | IMAGE | 否 | - |
| `继续运动最大帧数` | 从先前运动延续的最大帧数（默认值：5，步长：4） | INT | 是 | 1 至 MAX_RESOLUTION |
| `背景视频` | 与生成内容合成的背景视频 | IMAGE | 否 | - |
| `角色遮罩` | 定义角色区域以进行选择性处理的遮罩 | MASK | 否 | - |
| `继续运动` | 用于保持时间一致性的先前运动序列，以便从中延续 | IMAGE | 否 | - |
| `视频帧偏移` | 在所有输入视频中跳过的帧数。用于按块生成更长的视频。连接到前一个节点的 `视频帧偏移` 输出以扩展视频。（默认值：0，步长：1） | INT | 是 | 0 至 MAX_RESOLUTION |

**参数约束：**

- 当提供了 `pose_video` 时，如果 `trim_to_pose_video` 逻辑处于激活状态（在源代码中当前设置为 `False`），输出长度将调整为与姿态视频持续时间匹配
- `face_video` 在处理时会自动调整为 512x512 分辨率，并归一化到 -1.0 到 1.0 的范围
- `continue_motion` 帧受 `continue_motion_max_frames` 参数限制；仅使用输入中最后的 `continue_motion_max_frames` 帧
- 输入视频（`face_video`、`pose_video`、`background_video`、`character_mask`）在处理前会按 `video_frame_offset` 进行偏移；如果偏移量超过视频长度，则忽略该输入
- 如果 `character_mask` 仅包含一帧，则会在所有帧中重复使用
- 当提供了 `clip_vision_output` 时，它会同时应用于正向和负向条件
- 如果未提供 `reference_image`，则使用黑色图像（全零）作为默认参考
- 如果未提供 `continue_motion`，则初始帧用灰色（强度 0.5）噪声填充

## 输出

| 输出名称 | 描述 | 数据类型 |
| --- | --- | --- |
| `负向提示` | 修改后的正向条件，包含额外的视频上下文，包括 CLIP 视觉输出、姿态视频潜在表示、面部视频像素、拼接后的潜在图像和拼接后的遮罩 | CONDITIONING |
| `潜变量` | 修改后的负向条件，包含额外的视频上下文，包括 CLIP 视觉输出、姿态视频潜在表示、面部视频像素（反转）、拼接后的潜在图像和拼接后的遮罩 | CONDITIONING |
| `修剪潜变量` | 以潜在空间格式生成的视频内容，形状为 [batch_size, 16, latent_length + trim_latent, latent_height, latent_width] | LATENT |
| `修剪图像` | 潜在空间修剪信息，指示要从开头修剪的潜在帧数（对应于参考图像的潜在帧） | INT |
| `视频帧偏移` | 参考运动帧的图像空间修剪信息，指示要从开头修剪的图像帧数 | INT |
| `视频帧偏移` | 用于按块继续视频生成的更新帧偏移量，计算方式为先前偏移量加上生成的长度 | INT |

> 本文档由 AI 生成。如果您发现任何错误或有改进建议，欢迎贡献！ [在 GitHub 上编辑](https://github.com/Comfy-Org/embedded-docs/blob/main/comfyui_embedded_docs/docs/WanAnimateToVideo/zh.md)

---
**Source fingerprint (SHA-256):** `c2ca90f4963f629d51cdd7f4bdb67e01c32ce5ca7d916b1f992ccd220f57566c`