Транскрибирует аудио из предоставленного аудиофайла. Также поддерживает диаризацию.
mp3, wav, m4a, flac, ogg, opus, mp4, mov, avi, mkv. Также, можно отправлять ссылки на файлы.1 ГБ. Если вам нужно больше, напишите в Поддержкуverbose_json_example, json_example или diarization_example.
Используйте ваш API-ключ как Bearer токен в заголовке Authorization. Пример: Authorization: Bearer nx-yourkey
Объект аудиофайла (не имя файла) для транскрибации, в одном из поддерживаемых форматов. Обязательно должен быть отправлен file или url в запросе.
Ссылка на аудиофайл, в одном из поддерживаемых форматов. Эта опция не поддерживается OpenAI SDK. Обязательно должен быть отправлен file или url в запросе.
"https://upload.wikimedia.org/wikipedia/commons/a/a1/Gettysburg_by_Britton.ogg"
Задача для выполнения. В настоящее время поддерживается только 'transcribe' или 'diarize'. transcribe - транскрибация аудио, diarize - разделение аудио на сегменты по говорящим.
transcribe, diarize "transcribe"
Идентификатор используемой модели. В настоящее время доступна только whisper-1.
"whisper-1"
Язык входного аудио (формат ISO-639-1). Определяется автоматически, если не указан.
"ru"
Формат вывода транскрипции. Форматы srt и vtt возвращают готовые к использованию форматированные субтитры. Если task - diarize, то всегда будет возвращаться JSON объект. Пример смотрите в правой колонке.
json, text, srt, verbose_json, vtt "verbose_json"
Количество говорящих в аудио. Если не указано, то будет определено автоматически. Обратите внимание, что этот параметр не гарантирует правильное количество говорящих, но может помочь модели. Параметр игнорируется, если task - transcribe.
2
Настройки для модели диаризации. general - для большинства случаев, meeting - для встреч, telephonic - для телефонных разговоров. Параметр игнорируется, если task - transcribe.
general, meeting, telephonic "telephonic"
Гранулярность временных меток для включения. word требует, чтобы response_format был verbose_json.
segment, word "segment"
Успешный ответ транскрибации или диаризации. Формат зависит от параметра 'response_format'.
Полный транскрибированный текст.
Задача, которая была выполнена. В настоящее время всегда возвращает transcribe.
Язык входного аудио.
Длительность входного аудио.
Сегменты транскрибированного текста и их детали.
Извлеченные слова и соответствующие им временные метки.