### گره تبدیل گفتار به متن ElevenLabs

گره تبدیل گفتار به متن ElevenLabs، فایل‌های صوتی را به متن تبدیل می‌کند. این گره از API شرکت ElevenLabs برای تبدیل کلمات گفتاری به متن نوشتاری استفاده می‌کند و از ویژگی‌هایی مانند تشخیص خودکار زبان، شناسایی گویندگان مختلف و برچسب‌گذاری صداهای غیرگفتاری مانند موسیقی یا خنده پشتیبانی می‌کند.

## ورودی‌ها

| پارامتر | توضیحات | نوع داده | ضروری | محدوده |
| --- | --- | --- | --- | --- |
| `audio` | فایل صوتی برای تبدیل به متن. | AUDIO | بله | - |
| `model` | مدل مورد استفاده برای تبدیل گفتار به متن. انتخاب این مدل، پارامترهای اضافی را نمایش می‌دهد. | COMBO | بله | `"scribe_v2"` |
| `tag_audio_events` | برچسب‌گذاری صداهایی مانند (خنده)، (موسیقی) و غیره در متن خروجی. این پارامتر زمانی نمایش داده می‌شود که مدل `"scribe_v2"` انتخاب شده باشد. (پیش‌فرض: False) | BOOLEAN | خیر | - |
| `diarize` | مشخص کردن اینکه کدام گوینده در حال صحبت است. این پارامتر زمانی نمایش داده می‌شود که مدل `"scribe_v2"` انتخاب شده باشد. (پیش‌فرض: False) | BOOLEAN | خیر | - |
| `diarization_threshold` | حساسیت تفکیک گویندگان. مقادیر پایین‌تر به تغییرات گوینده حساس‌تر هستند. این پارامتر زمانی نمایش داده می‌شود که مدل `"scribe_v2"` انتخاب شده و گزینه `diarize` فعال باشد. (پیش‌فرض: 0.22) | FLOAT | خیر | 0.1 - 0.4 |
| `temperature` | کنترل تصادفی بودن خروجی. مقدار 0.0 از پیش‌فرض مدل استفاده می‌کند. مقادیر بالاتر تصادفی بودن را افزایش می‌دهد. این پارامتر زمانی نمایش داده می‌شود که مدل `"scribe_v2"` انتخاب شده باشد. (پیش‌فرض: 0.0) | FLOAT | خیر | 0.0 - 2.0 |
| `timestamps_granularity` | دقت زمان‌بندی برای کلمات متن خروجی. این پارامتر زمانی نمایش داده می‌شود که مدل `"scribe_v2"` انتخاب شده باشد. (پیش‌فرض: "word") | COMBO | خیر | `"word"`<br>`"character"`<br>`"none"` |
| `language_code` | کد زبان بر اساس استاندارد ISO-639-1 یا ISO-639-3 (مانند 'en'، 'es'، 'fra'). برای تشخیص خودکار خالی بگذارید. (پیش‌فرض: "") | STRING | خیر | - |
| `num_speakers` | حداکثر تعداد گویندگان برای پیش‌بینی. برای تشخیص خودکار مقدار 0 را تنظیم کنید. (پیش‌فرض: 0) | INT | خیر | 0 - 32 |
| `seed` | دانه (seed) برای تکرارپذیری (تکرارپذیری تضمین نمی‌شود). (پیش‌فرض: 1) | INT | خیر | 0 - 2147483647 |

**توجه:** پارامتر `num_speakers` زمانی که گزینه `diarize` فعال است، نمی‌تواند مقداری بیشتر از 0 داشته باشد. باید یا گزینه `diarize` را غیرفعال کنید یا `num_speakers` را روی 0 تنظیم نمایید.

## خروجی‌ها

| نام خروجی | توضیحات | نوع داده |
| --- | --- | --- |
| `text` | متن تبدیل‌شده از فایل صوتی. | STRING |
| `language_code` | کد زبان تشخیص‌داده‌شده از فایل صوتی. | STRING |
| `words_json` | یک رشته با فرمت JSON حاوی اطلاعات دقیق در سطح کلمه، شامل زمان‌بندی و برچسب‌های گوینده در صورت فعال بودن. | STRING |

> این مستند با هوش مصنوعی تهیه شده است. اگر خطایی دیدید یا پیشنهادی برای بهبود دارید، خوشحال می‌شویم مشارکت کنید! [ویرایش در GitHub](https://github.com/Comfy-Org/embedded-docs/blob/main/comfyui_embedded_docs/docs/ElevenLabsSpeechToText/fa.md)

---
**Source fingerprint (SHA-256):** `aca2ac04d7280ef2b604f7c8d29ad7fea1e7abcfc38beabb64ba6b268a8cade1`
