Узел ElevenLabs Speech to Text преобразует аудиофайлы в текст. Он использует API ElevenLabs для преобразования произнесенных слов в письменную расшифровку, поддерживая такие функции, как автоматическое определение языка, идентификация разных говорящих и разметка неречевых звуков, таких как музыка или смех.

## Входные параметры

| Параметр | Описание | Тип данных | Обязательный | Диапазон |
| --- | --- | --- | --- | --- |
| `audio` | Аудио для расшифровки. | AUDIO | Да | - |
| `model` | Модель для расшифровки. Выбор этой модели открывает дополнительные параметры. | COMBO | Да | `"scribe_v2"` |
| `tag_audio_events` | Аннотировать звуки, такие как (смех), (музыка) и т.д., в расшифровке. Этот параметр отображается при выборе модели `"scribe_v2"`. (по умолчанию: False) | BOOLEAN | Нет | - |
| `diarize` | Аннотировать, какой говорящий говорит. Этот параметр отображается при выборе модели `"scribe_v2"`. (по умолчанию: False) | BOOLEAN | Нет | - |
| `diarization_threshold` | Чувствительность разделения говорящих. Более низкие значения более чувствительны к смене говорящего. Этот параметр отображается при выборе модели `"scribe_v2"` и включенном `diarize`. (по умолчанию: 0.22) | FLOAT | Нет | 0.1 - 0.4 |
| `temperature` | Контроль случайности. 0.0 использует значение по умолчанию модели. Более высокие значения увеличивают случайность. Этот параметр отображается при выборе модели `"scribe_v2"`. (по умолчанию: 0.0) | FLOAT | Нет | 0.0 - 2.0 |
| `timestamps_granularity` | Точность временных меток для слов расшифровки. Этот параметр отображается при выборе модели `"scribe_v2"`. (по умолчанию: "word") | COMBO | Нет | `"word"`<br>`"character"`<br>`"none"` |
| `language_code` | Код языка ISO-639-1 или ISO-639-3 (например, 'ru', 'en', 'fra'). Оставьте пустым для автоматического определения. (по умолчанию: "") | STRING | Нет | - |
| `num_speakers` | Максимальное количество говорящих для предсказания. Установите 0 для автоматического определения. (по умолчанию: 0) | INT | Нет | 0 - 32 |
| `seed` | Зерно для воспроизводимости (детерминизм не гарантируется). (по умолчанию: 1) | INT | Нет | 0 - 2147483647 |

**Примечание:** Параметр `num_speakers` не может быть установлен в значение больше 0, когда включена опция `diarize`. Необходимо либо отключить `diarize`, либо установить `num_speakers` в 0.

## Выходные параметры

| Имя выхода | Описание | Тип данных |
| --- | --- | --- |
| `text` | Расшифрованный текст из аудио. | STRING |
| `language_code` | Определенный код языка аудио. | STRING |
| `words_json` | Строка в формате JSON, содержащая подробную информацию на уровне слов, включая временные метки и метки говорящих, если они включены. | STRING |

> Эта документация была создана с помощью ИИ. Если вы обнаружите ошибки или у вас есть предложения по улучшению, пожалуйста, внесите свой вклад! [Редактировать на GitHub](https://github.com/Comfy-Org/embedded-docs/blob/main/comfyui_embedded_docs/docs/ElevenLabsSpeechToText/ru.md)

---
**Source fingerprint (SHA-256):** `aca2ac04d7280ef2b604f7c8d29ad7fea1e7abcfc38beabb64ba6b268a8cade1`
