# ElevenLabs 음성-텍스트 노드

ElevenLabs 음성-텍스트 노드는 오디오 파일을 텍스트로 변환합니다. ElevenLabs의 API를 사용하여 음성 단어를 문자 기록으로 변환하며, 자동 언어 감지, 화자 식별, 음악이나 웃음과 같은 비음성 사운드 태깅 기능을 지원합니다.

## 입력

| 매개변수 | 설명 | 데이터 타입 | 필수 여부 | 범위 |
| --- | --- | --- | --- | --- |
| `audio` | 변환할 오디오입니다. | AUDIO | 예 | - |
| `model` | 변환에 사용할 모델입니다. 이 모델을 선택하면 추가 매개변수가 표시됩니다. | COMBO | 예 | `"scribe_v2"` |
| `tag_audio_events` | 기록에 (웃음), (음악) 등의 사운드에 주석을 추가합니다. 이 매개변수는 `"scribe_v2"` 모델을 선택하면 표시됩니다. (기본값: False) | BOOLEAN | 아니요 | - |
| `diarize` | 말하는 화자에 주석을 추가합니다. 이 매개변수는 `"scribe_v2"` 모델을 선택하면 표시됩니다. (기본값: False) | BOOLEAN | 아니요 | - |
| `diarization_threshold` | 화자 분리 민감도입니다. 값이 낮을수록 화자 변경에 더 민감하게 반응합니다. 이 매개변수는 `"scribe_v2"` 모델을 선택하고 `diarize`가 활성화된 경우 표시됩니다. (기본값: 0.22) | FLOAT | 아니요 | 0.1 - 0.4 |
| `temperature` | 무작위성 제어입니다. 0.0은 모델 기본값을 사용합니다. 값이 높을수록 무작위성이 증가합니다. 이 매개변수는 `"scribe_v2"` 모델을 선택하면 표시됩니다. (기본값: 0.0) | FLOAT | 아니요 | 0.0 - 2.0 |
| `timestamps_granularity` | 기록 단어의 시간 정밀도입니다. 이 매개변수는 `"scribe_v2"` 모델을 선택하면 표시됩니다. (기본값: "word") | COMBO | 아니요 | `"word"`<br>`"character"`<br>`"none"` |
| `language_code` | ISO-639-1 또는 ISO-639-3 언어 코드입니다(예: 'en', 'es', 'fra'). 자동 감지를 위해 비워 둡니다. (기본값: "") | STRING | 아니요 | - |
| `num_speakers` | 예측할 최대 화자 수입니다. 자동 감지를 위해 0으로 설정합니다. (기본값: 0) | INT | 아니요 | 0 - 32 |
| `seed` | 재현성을 위한 시드입니다(결정론은 보장되지 않습니다). (기본값: 1) | INT | 아니요 | 0 - 2147483647 |

**참고:** `diarize` 옵션이 활성화된 경우 `num_speakers` 매개변수를 0보다 큰 값으로 설정할 수 없습니다. `diarize`를 비활성화하거나 `num_speakers`를 0으로 설정해야 합니다.

## 출력

| 출력 이름 | 설명 | 데이터 타입 |
| --- | --- | --- |
| `language_code` | 오디오에서 변환된 텍스트입니다. | STRING |
| `words_json` | 감지된 오디오의 언어 코드입니다. | STRING |
| `words_json` | 타임스탬프와 활성화된 경우 화자 레이블을 포함한 상세한 단어 수준 정보가 포함된 JSON 형식 문자열입니다. | STRING |

> 이 문서는 AI에 의해 생성되었습니다. 오류를 발견하거나 개선 제안이 있으시면 기여해 주세요! [GitHub에서 편집](https://github.com/Comfy-Org/embedded-docs/blob/main/comfyui_embedded_docs/docs/ElevenLabsSpeechToText/ko.md)

---
**Source fingerprint (SHA-256):** `aca2ac04d7280ef2b604f7c8d29ad7fea1e7abcfc38beabb64ba6b268a8cade1`
