Поддерживаемые форматы и ограничения
- Поддерживаемые форматы:
mp3
,wav
,m4a
,flac
,ogg
,opus
,mp4
,mov
,avi
,mkv
. Также, можно отправлять ссылки на файлы. - Максимальный размер файла:
1 ГБ
. Если вам нужно больше, напишите в Поддержку - Минимальная длина аудио: 0.3 секунды.
- Максимальная длина аудио: 10 часов.
- Ограничение частоты запросов (Rate limit): 10 запросов в секунду.
ffmpeg -i input.mp4 -vn -c:a aac -b:a 192k output.m4a
В этом примере видеофайл input.mp4
конвертируется в output.m4a
с битрейтом 192 кбит/с.Примеры
Для просмотра примеров ответов, вы можете нажать на кнопку справа, на которой написаноverbose_json_example
, json_example
или diarization_example
.
Authorizations
Используйте ваш API-ключ как Bearer токен в заголовке Authorization. Пример: Authorization: Bearer nx-yourkey
Body
Объект аудиофайла (не имя файла) для транскрибации, в одном из поддерживаемых форматов. Обязательно должен быть отправлен file
или url
в запросе.
Ссылка на аудиофайл, в одном из поддерживаемых форматов. Эта опция не поддерживается OpenAI SDK. Обязательно должен быть отправлен file
или url
в запросе.
"https://upload.wikimedia.org/wikipedia/commons/a/a1/Gettysburg_by_Britton.ogg"
Задача для выполнения. В настоящее время поддерживается только 'transcribe' или 'diarize'. transcribe
- транскрибация аудио, diarize
- разделение аудио на сегменты по говорящим.
transcribe
, diarize
"transcribe"
Идентификатор используемой модели. В настоящее время доступна только whisper-1
.
"whisper-1"
Язык входного аудио (формат ISO-639-1). Определяется автоматически, если не указан.
"ru"
Формат вывода транскрипции. Форматы srt
и vtt
возвращают готовые к использованию форматированные субтитры. Если task
- diarize
, то всегда будет возвращаться JSON объект. Пример смотрите в правой колонке.
json
, text
, srt
, verbose_json
, vtt
"verbose_json"
Количество говорящих в аудио. Если не указано, то будет определено автоматически. Обратите внимание, что этот параметр не гарантирует правильное количество говорящих, но может помочь модели. Параметр игнорируется, если task
- transcribe
.
2
Настройки для модели диаризации. general
- для большинства случаев, meeting
- для встреч, telephonic
- для телефонных разговоров. Параметр игнорируется, если task
- transcribe
.
general
, meeting
, telephonic
"telephonic"
Гранулярность временных меток для включения. word
требует, чтобы response_format
был verbose_json
.
segment
, word
"segment"
Response
Успешный ответ транскрибации или диаризации. Формат зависит от параметра 'response_format'.
Полный транскрибированный текст.
Задача, которая была выполнена. В настоящее время всегда возвращает transcribe
.
Язык входного аудио.
Длительность входного аудио.
Сегменты транскрибированного текста и их детали.
Извлеченные слова и соответствующие им временные метки.