Поддерживаемые форматы и ограничения
- Поддерживаемые форматы:
mp3,wav,m4a,flac,ogg,opus,mp4,mov,avi,mkv. Также, можно отправлять ссылки на файлы. - Максимальный размер файла:
1 ГБ. Если вам нужно больше, напишите в Поддержку - Минимальная длина аудио: 0.3 секунды.
- Максимальная длина аудио: 10 часов.
- Ограничение частоты запросов (Rate limit): 10 запросов в секунду.
Примеры
Для просмотра примеров ответов, вы можете нажать на кнопку справа, на которой написаноverbose_json_example, json_example или diarization_example.
Authorizations
Используйте ваш API-ключ как Bearer токен в заголовке Authorization. Пример: Authorization: Bearer nx-yourkey
Body
Объект аудиофайла (не имя файла) для транскрибации, в одном из поддерживаемых форматов. Обязательно должен быть отправлен file или url в запросе.
Ссылка на аудиофайл, в одном из поддерживаемых форматов. Эта опция не поддерживается OpenAI SDK. Обязательно должен быть отправлен file или url в запросе.
"https://upload.wikimedia.org/wikipedia/commons/a/a1/Gettysburg_by_Britton.ogg"
Задача для выполнения. В настоящее время поддерживается только 'transcribe' или 'diarize'. transcribe - транскрибация аудио, diarize - разделение аудио на сегменты по говорящим.
transcribe, diarize "transcribe"
Идентификатор используемой модели. В настоящее время доступна только whisper-1.
"whisper-1"
Язык входного аудио (формат ISO-639-1). Определяется автоматически, если не указан.
"ru"
Формат вывода транскрипции. Форматы srt и vtt возвращают готовые к использованию форматированные субтитры. Если task - diarize, то всегда будет возвращаться JSON объект. Пример смотрите в правой колонке.
json, text, srt, verbose_json, vtt "verbose_json"
Количество говорящих в аудио. Если не указано, то будет определено автоматически. Обратите внимание, что этот параметр не гарантирует правильное количество говорящих, но может помочь модели. Параметр игнорируется, если task - transcribe.
2
Настройки для модели диаризации. general - для большинства случаев, meeting - для встреч, telephonic - для телефонных разговоров. Параметр игнорируется, если task - transcribe.
general, meeting, telephonic "telephonic"
Гранулярность временных меток для включения. word требует, чтобы response_format был verbose_json.
segment, word "segment"
Response
Успешный ответ транскрибации или диаризации. Формат зависит от параметра 'response_format'.
Полный транскрибированный текст.
Задача, которая была выполнена. В настоящее время всегда возвращает transcribe.
Язык входного аудио.
Длительность входного аудио.
Сегменты транскрибированного текста и их детали.
Извлеченные слова и соответствующие им временные метки.