以下が翻訳結果です。

ElevenLabs Speech to Text ノードは、オーディオファイルをテキストに文字起こしします。ElevenLabs の API を使用して、音声を書き起こしテキストに変換します。自動言語検出、話者の識別、音楽や笑い声などの非音声サウンドのタグ付けなどの機能をサポートしています。

## 入力

| パラメータ | 説明 | データ型 | 必須 | 範囲 |
| --- | --- | --- | --- | --- |
| `音声` | 文字起こしするオーディオ。 | AUDIO | はい | - |
| `モデル` | 文字起こしに使用するモデル。このモデルを選択すると、追加のパラメータが表示されます。 | COMBO | はい | `"scribe_v2"` |
| `tag_audio_events` | 文字起こし内で (笑い声)、(音楽) などの音を注釈します。このパラメータは、`"scribe_v2"` モデルが選択されたときに表示されます。(デフォルト: False) | BOOLEAN | いいえ | - |
| `diarize` | どの話者が話しているかを注釈します。このパラメータは、`"scribe_v2"` モデルが選択されたときに表示されます。(デフォルト: False) | BOOLEAN | いいえ | - |
| `diarization_threshold` | 話者分離の感度。値が小さいほど、話者の変更に敏感になります。このパラメータは、`"scribe_v2"` モデルが選択され、`diarize` が有効な場合に表示されます。(デフォルト: 0.22) | FLOAT | いいえ | 0.1 - 0.4 |
| `temperature` | ランダム性の制御。0.0 はモデルのデフォルトを使用します。値が大きいほどランダム性が増します。このパラメータは、`"scribe_v2"` モデルが選択されたときに表示されます。(デフォルト: 0.0) | FLOAT | いいえ | 0.0 - 2.0 |
| `timestamps_granularity` | 文字起こしの単語に対するタイミングの精度。このパラメータは、`"scribe_v2"` モデルが選択されたときに表示されます。(デフォルト: "word") | COMBO | いいえ | `"word"`<br>`"character"`<br>`"none"` |
| `言語コード` | ISO-639-1 または ISO-639-3 言語コード (例: 'en'、'es'、'fra')。自動検出の場合は空のままにします。(デフォルト: "") | STRING | いいえ | - |
| `話者数` | 予測する話者の最大数。自動検出の場合は 0 に設定します。(デフォルト: 0) | INT | いいえ | 0 - 32 |
| `シード値` | 再現性のためのシード (決定性は保証されません)。(デフォルト: 1) | INT | いいえ | 0 - 2147483647 |

**注:** `diarize` オプションが有効な場合、`num_speakers` パラメータを 0 より大きい値に設定することはできません。`diarize` を無効にするか、`num_speakers` を 0 に設定する必要があります。

## 出力

| 出力名 | 説明 | データ型 |
| --- | --- | --- |
| `言語コード` | オーディオから文字起こしされたテキスト。 | STRING |
| `単語JSON` | 検出されたオーディオの言語コード。 | STRING |
| `words_json` | タイムスタンプや、有効な場合は話者ラベルを含む、詳細な単語レベルの情報を含む JSON 形式の文字列。 | STRING |

> このドキュメントは AI によって生成されました。エラーを見つけた場合や改善のご提案がある場合は、ぜひ貢献してください！ [GitHub で編集](https://github.com/Comfy-Org/embedded-docs/blob/main/comfyui_embedded_docs/docs/ElevenLabsSpeechToText/ja.md)

---
**Source fingerprint (SHA-256):** `aca2ac04d7280ef2b604f7c8d29ad7fea1e7abcfc38beabb64ba6b268a8cade1`
