## 概述

Kling Avatar 2.0 节点可根据单张参考照片和音频文件生成广播级数字人视频。该节点能创建说话头像视频，并支持通过可选文本提示定义数字人的动作、表情及镜头运动。

## 输入

| 参数 | 说明 | 数据类型 | 是否必填 | 取值范围 |
| --- | --- | --- | --- | --- |
| `image` | 数字人参考图像。宽度和高度必须至少为300像素。宽高比需在1:2.5至2.5:1之间。 | IMAGE | 是 | - |
| `sound_file` | 音频输入。时长必须在2至300秒之间。 | AUDIO | 是 | - |
| `mode` | 使用的生成模式。 | COMBO | 是 | `"std"`<br>`"pro"` |
| `prompt` | 可选提示词，用于定义数字人动作、表情及镜头运动。（默认值：空字符串） | STRING | 否 | - |
| `seed` | 种子控制节点是否重新运行；无论种子如何，结果均非确定性。（默认值：0） | INT | 是 | 0 至 2147483647 |

**注意：** `image` 和 `sound_file` 输入具有特定验证要求。图像必须至少为300x300像素，宽高比在1:2.5至2.5:1之间。音频文件时长必须在2至300秒之间。

## 输出

| 输出名称 | 说明 | 数据类型 |
| --- | --- | --- |
| `output` | 生成的数字人视频。 | VIDEO |

> 本文档由 AI 生成。如果您发现任何错误或有改进建议，欢迎贡献！ [在 GitHub 上编辑](https://github.com/Comfy-Org/embedded-docs/blob/main/comfyui_embedded_docs/docs/KlingAvatarNode/zh.md)

---
**Source fingerprint (SHA-256):** `85793d3820a89ef98bb54cb930486847d4fd64cce5470ba34574ec319f8ea8c6`