Узнайте, как превратить ваше аудио в текст. Вы можете скопировать всю страницу документации в ChatGPT, нажав на кнопку выше.
transcriptions
mp3
, wav
, m4a
, flac
, ogg
, opus
, mp4
, mov
, avi
и mkv
. Также, поддерживается отправка файлов по их ссылкам и нейронное разделение на говорящих (диаризация).
json
, text
, srt
, verbose_json
, vtt
). Подробнее о форматах вывода читайте на странице Форматы ответа.
json
:
/transcriptions
:
Африкаанс, Арабский, Армянский, Азербайджанский, Белорусский, Боснийский, Болгарский, Каталанский, Китайский, Хорватский, Чешский, Датский, Нидерландский, Английский, Эстонский, Финский, Французский, Галисийский, Немецкий, Греческий, Иврит, Хинди, Венгерский, Исландский, Индонезийский, Итальянский, Японский, Каннада, Казахский, Корейский, Латышский, Литовский, Македонский, Малайский, Маратхи, Маори, Непальский, Норвежский, Персидский, Польский, Португальский, Румынский, Русский, Сербский, Словацкий, Словенский, Испанский, Суахили, Шведский, Тагальский, Тамильский, Тайский, Турецкий, Украинский, Урду, Вьетнамский и Валлийский.
Хотя модель была обучена на 98 языках, список выше содержит только языки, у которых Word Error Rate (WER) не больше 50%. Полный список языков и их кодов в формате ISO-639-1 смотрите на странице Supported Languages.
timestamp_granularities[]
. Для того, чтобы использовать эту функцию, установите verbose_json
в параметре response_format
. Для получения более подробной информации посетите Документацию API.
В настоящее время доступны два уровня детализации временных меток:
segment
:
timestamp_granularities[]='segment'
в API-запрос вместе с response_format='verbose_json'
.verbose_json
будет массив segments
. Каждый элемент этого массива представляет собой 30-секундный фрагмент аудио и содержит:
start
),end
),text
) для данного сегмента.word
:
timestamp_granularities[]='word'
в запрос (также с response_format='verbose_json'
).words
, где каждый объект содержит отдельное слово с точными временами начала (start
) и окончания (end
) в секундах.segments
, как и при сегментной детализации. Даже если вы запрашиваете уровень word
, структура segments
всё равно включается в ответ — это позволяет получить как точные метки слов, так и более широкие сегменты в одном ответе.segment
, если вам нужно примерное разбиение по времени.word
, если вам нужны точные времена начала/конца для отдельных слов. Запрос гранулярности word
удобно предоставляет как массив words
, так и массив segments
.response_format='verbose_json'
.response_format
в вашем запросе, вы можете настроить вывод так, чтобы он наилучшим образом соответствовал вашим потребностям, будь то простой текст, структурированные данные или готовые к использованию файлы субтитров. Примеры смотрите в документации API.
API поддерживает следующие форматы вывода:
json
: Возвращает стандартный JSON-объект, содержащий транскрибированный текст.text
: Возвращает транскрипцию в виде одной строки простого текста.verbose_json
: Возвращает подробный JSON-объект, содержащий текст, язык, продолжительность, а также, возможно, временные метки на уровне сегментов и слов (если запрошено через timestamp_granularities[]
).srt
: Возвращает транскрипцию, отформатированную как файл субтитров SRT.vtt
: Возвращает транскрипцию, отформатированную как файл субтитров WebVTT.srt
или vtt
) не используйте response.text
если делаете запрос через request
библиотеку в Python. Используйте response.json
, как и для остальных форматов ответа.num_speakers
для указания количества говорящих в аудиофайле. Обратите внимание, что этот параметр не гарантирует, что вы получите ровно столько говорящих, сколько указали вы, но помогает модели определить, сколько говорящих в аудиофайле.
Модель поддерживает три режима диаризации:
general
: Общий режим.meeting
: Режим для встреч.telephonic
: Режим для телефонных разговоров.task
: Тип задачи.language
: Язык аудиофайла.duration
: Продолжительность аудиофайла.text
: Транскрибированный текст.segments
: Сегменты аудиофайла с информацией о начале, конце сегмента, ID говорящего и тексте, который он сказал.response_format
.