LTXVConcatAVLatent 节点将视频潜在表示和音频潜在表示合并为单个拼接后的潜在输出。它会合并两个输入的 `samples` 张量，如果存在 `noise_mask` 张量也会一并合并，为视频生成流程中的后续处理做好准备。

## 输入

| 参数 | 描述 | 数据类型 | 是否必填 | 范围 |
| --- | --- | --- | --- | --- |
| `video_latent` | 视频数据的潜在表示。 | LATENT | 是 |  |
| `audio_latent` | 音频数据的潜在表示。 | LATENT | 是 |  |

**注意：** 来自 `video_latent` 和 `audio_latent` 输入的 `samples` 张量会被拼接。如果任一输入包含 `noise_mask`，则会使用该掩码；如果缺少掩码，则会为其创建一个全为 1 的掩码（形状与对应的 `samples` 相同）。生成的掩码随后也会被拼接。

## 输出

| 输出名称 | 描述 | 数据类型 |
| --- | --- | --- |
| `latent` | 一个包含拼接后 `samples` 以及（如果适用）来自视频和音频输入的拼接后 `noise_mask` 的单一潜在字典。 | LATENT |

> 本文档由 AI 生成。如果您发现任何错误或有改进建议，欢迎贡献！ [在 GitHub 上编辑](https://github.com/Comfy-Org/embedded-docs/blob/main/comfyui_embedded_docs/docs/LTXVConcatAVLatent/zh.md)

---
**Source fingerprint (SHA-256):** `322d6870f110fb1ef8b472cb49649cc9fff7865f4c7a83fbfd536f1fdfd694f8`
