Создать транскрибацию

Поддерживаемые форматы и ограничения

Поддерживаемые форматы: mp3, wav, m4a, flac, ogg, opus, mp4, mov, avi, mkv. Также, можно отправлять ссылки на файлы.
Максимальный размер файла: 1 ГБ. Если вам нужно больше, напишите в Поддержку
Минимальная длина аудио: 0.3 секунды.
Максимальная длина аудио: 10 часов.
Ограничение частоты запросов (Rate limit): 10 запросов в секунду.

Чтобы сэкономить трафик, рекомендуется конвертировать видеофайлы в аудиоформаты, например, с помощью ffmpeg:ffmpeg -i input.mp4 -vn -c:a aac -b:a 192k output.m4aВ этом примере видеофайл input.mp4 конвертируется в output.m4a с битрейтом 192 кбит/с.

Примеры

Для просмотра примеров ответов, вы можете нажать на кнопку справа, на которой написано verbose_json_example, json_example или diarization_example.

# Нажмите "Import cURL" в HTTP Request ноде
# и добавьте n8n Binary File
curl --request POST \
  --url https://api.nexara.ru/api/v1/audio/transcriptions \
  --header 'Authorization: Bearer ВАШ_API_КЛЮЧ' \
  --header 'Content-Type: multipart/form-data'

Авторизации

Authorization

string

header

обязательно

Используйте ваш API-ключ как Bearer токен в заголовке Authorization. Пример: Authorization: Bearer nx-yourkey

Тело

multipart/form-data

file

file | null

Объект аудиофайла (не имя файла) для транскрибации, в одном из поддерживаемых форматов. Обязательно должен быть отправлен file или url в запросе.

url

string | null

Ссылка на аудиофайл, в одном из поддерживаемых форматов. Эта опция не поддерживается OpenAI SDK. Обязательно должен быть отправлен file или url в запросе.

Пример:

"https://upload.wikimedia.org/wikipedia/commons/a/a1/Gettysburg_by_Britton.ogg"

task

enum<string>

по умолчанию:transcribe

Задача для выполнения. В настоящее время поддерживается только 'transcribe' или 'diarize'. transcribe - транскрибация аудио, diarize - разделение аудио на сегменты по говорящим.

Доступные опции:

transcribe,

diarize

Пример:

"transcribe"

model

string

по умолчанию:whisper-1

Идентификатор используемой модели. В настоящее время доступна только whisper-1.

Пример:

"whisper-1"

language

string | null

Язык входного аудио (формат ISO-639-1). Определяется автоматически, если не указан.

Пример:

"ru"

response_format

enum<string>

по умолчанию:json

Формат вывода транскрипции. Форматы srt и vtt возвращают готовые к использованию форматированные субтитры. Если task - diarize, то всегда будет возвращаться JSON объект. Пример смотрите в правой колонке.

Доступные опции:

json,

text,

srt,

verbose_json,

vtt

Пример:

"verbose_json"

num_speakers

number | null

Количество говорящих в аудио. Если не указано, то будет определено автоматически. Обратите внимание, что этот параметр не гарантирует правильное количество говорящих, но может помочь модели. Параметр игнорируется, если task - transcribe.

Пример:

2

diarization_setting

enum<string>

по умолчанию:general

Настройки для модели диаризации. general - для большинства случаев, meeting - для встреч, telephonic - для телефонных разговоров. Параметр игнорируется, если task - transcribe.

Доступные опции:

general,

meeting,

telephonic

Пример:

"telephonic"

timestamp_granularities[]

enum<string>

по умолчанию:segment

Гранулярность временных меток для включения. word требует, чтобы response_format был verbose_json.

Доступные опции:

segment,

word

Пример:

"segment"

Ответ

Успешный ответ транскрибации или диаризации. Формат зависит от параметра 'response_format'.

text

string

обязательно

Полный транскрибированный текст.

task

string | null

Задача, которая была выполнена. В настоящее время всегда возвращает transcribe.

language

string | null

Язык входного аудио.

duration

number<float> | null

Длительность входного аудио.

segments

object[] | null

Сегменты транскрибированного текста и их детали.

Показать дочерние атрибуты

words

object[] | null

Извлеченные слова и соответствующие им временные метки.

Показать дочерние атрибуты

Endpoints

​Поддерживаемые форматы и ограничения

​Примеры

Авторизации

Тело

Ответ

Поддерживаемые форматы и ограничения

Примеры