ElevenLabs语音转文字节点可将音频文件转录为文本。它使用ElevenLabs的API将语音转换为书面文本，支持自动语言检测、识别不同说话者以及标记音乐、笑声等非语音声音。

## 输入

| 参数 | 描述 | 数据类型 | 是否必填 | 取值范围 |
| --- | --- | --- | --- | --- |
| `音频` | 待转录的音频。 | AUDIO | 是 | - |
| `模型` | 用于转录的模型。选择此模型后会显示额外参数。 | COMBO | 是 | `"scribe_v2"` |
| `tag_audio_events` | 在转录文本中标注(笑声)、(音乐)等声音。选择`"scribe_v2"`模型时显示此参数。(默认值：False) | BOOLEAN | 否 | - |
| `diarize` | 标注当前说话者。选择`"scribe_v2"`模型时显示此参数。(默认值：False) | BOOLEAN | 否 | - |
| `diarization_threshold` | 说话者分离灵敏度。数值越低对说话者变化越敏感。选择`"scribe_v2"`模型且启用`diarize`时显示此参数。(默认值：0.22) | FLOAT | 否 | 0.1 - 0.4 |
| `temperature` | 随机性控制。0.0使用模型默认值，数值越高随机性越大。选择`"scribe_v2"`模型时显示此参数。(默认值：0.0) | FLOAT | 否 | 0.0 - 2.0 |
| `timestamps_granularity` | 转录单词的时间精度。选择`"scribe_v2"`模型时显示此参数。(默认值："word") | COMBO | 否 | `"word"`<br>`"character"`<br>`"none"` |
| `语言代码` | ISO-639-1或ISO-639-3语言代码（例如'en'、'es'、'fra'）。留空则自动检测。(默认值："") | STRING | 否 | - |
| `说话人数` | 预测的最大说话者数量。设为0表示自动检测。(默认值：0) | INT | 否 | 0 - 32 |
| `种子` | 用于结果复现的种子（不保证确定性）。(默认值：1) | INT | 否 | 0 - 2147483647 |

**注意：** 当启用`diarize`选项时，`num_speakers`参数不能设置为大于0的值。您必须禁用`diarize`或将`num_speakers`设为0。

## 输出

| 输出名称 | 描述 | 数据类型 |
| --- | --- | --- |
| `语言代码` | 音频转录后的文本。 | STRING |
| `单词 JSON` | 检测到的音频语言代码。 | STRING |
| `words_json` | 包含详细单词级别信息的JSON格式字符串，如果启用则包含时间戳和说话者标签。 | STRING |

> 本文档由 AI 生成。如果您发现任何错误或有改进建议，欢迎贡献！ [在 GitHub 上编辑](https://github.com/Comfy-Org/embedded-docs/blob/main/comfyui_embedded_docs/docs/ElevenLabsSpeechToText/zh.md)

---
**Source fingerprint (SHA-256):** `aca2ac04d7280ef2b604f7c8d29ad7fea1e7abcfc38beabb64ba6b268a8cade1`
