WanDancerVideo 节点用于为 WanDancer 模型的视频生成准备 conditioning 数据和空的潜空间张量。它结合了正向和负向 conditioning，并支持起始图像、遮罩、CLIP 视觉嵌入和音频特征等可选输入，以控制生成的视频。

## 输入

| 参数 | 描述 | 数据类型 | 是否必填 | 范围 |
| --- | --- | --- | --- | --- |
| `正向` | 用于引导视频生成的正向 conditioning。 | CONDITIONING | 是 |  |
| `负向` | 用于引导视频生成的负向 conditioning。 | CONDITIONING | 是 |  |
| `vae` | 用于将起始图像编码到潜空间的 VAE。 | VAE | 是 |  |
| `宽度` | 生成视频的宽度（像素），默认值：480。 | INT | 是 | 16 至 MAX_RESOLUTION（步长：16） |
| `高度` | 生成视频的高度（像素），默认值：832。 | INT | 是 | 16 至 MAX_RESOLUTION（步长：16） |
| `长度` | 生成视频的帧数。对于 WanDancer 应保持为 149（默认值：149）。 | INT | 是 | 1 至 MAX_RESOLUTION（步长：4） |
| `clip视觉输出` | 第一帧的 CLIP 视觉嵌入。 | CLIP_VISION_OUTPUT | 否 |  |
| `clip视觉参考输出` | 参考图像的 CLIP 视觉嵌入。 | CLIP_VISION_OUTPUT | 否 |  |
| `起始图像` | 待编码的初始图像。可以是任意数量的帧，最多不超过指定的 `长度`。 | IMAGE | 否 |  |
| `掩码` | 起始图像的 conditioning 遮罩。白色区域保留，黑色区域生成。用于局部生成。 | MASK | 否 |  |
| `音频编码器输出` | 音频编码器的输出，提供音频特征、fps 和注入比例，用于音频条件生成。 | AUDIO_ENCODER_OUTPUT | 否 |  |

**参数约束说明：**
- `start_image` 和 `mask` 输入为可选，但可同时使用。当提供 `start_image` 时，它会被编码并与潜空间张量拼接。如果同时提供 `mask`，则控制起始图像的哪些部分保留（白色）以及哪些部分重新生成（黑色）。如果未提供 `mask`，则整个起始图像区域将作为 conditioning 引导。
- `clip_vision_output` 和 `clip_vision_output_ref` 输入为可选，可同时使用，为第一帧和参考图像提供视觉上下文。
- `audio_encoder_output` 输入为可选，提供音频特征用于音频条件生成。

## 输出

| 输出名称 | 描述 | 数据类型 |
| --- | --- | --- |
| `负向` | 附加了额外数据（拼接潜空间、CLIP 视觉、音频）的正向 conditioning。 | CONDITIONING |
| `latent` | 附加了额外数据（拼接潜空间、CLIP 视觉、音频）的负向 conditioning。 | CONDITIONING |
| `latent` | 维度与指定的视频长度、高度和宽度匹配的空潜空间张量。 | LATENT |

> 本文档由 AI 生成。如果您发现任何错误或有改进建议，欢迎贡献！ [在 GitHub 上编辑](https://github.com/Comfy-Org/embedded-docs/blob/main/comfyui_embedded_docs/docs/WanDancerVideo/zh.md)

---
**Source fingerprint (SHA-256):** `7ab1b4662eb8d780295ea3a3e3139c64d81e03a979a293a481f82deaf1fc2f7e`