Перейти к основному содержанию
# Нажмите "Import cURL" в HTTP Request ноде
# и добавьте n8n Binary File
curl --request POST \
  --url https://api.nexara.ru/api/v1/audio/transcriptions \
  --header 'Authorization: Bearer ВАШ_API_КЛЮЧ' \
  --header 'Content-Type: multipart/form-data'
{
"task": "transcribe",
"language": "ru",
"duration": 9.12,
"text": "Пляж был популярным местом в жаркий летний день. Люди купались в океане, строили замки из песка и играли в пляжный волейбол.",
"segments": [
{
"id": 0,
"seek": 0,
"start": 0,
"end": 3.319999933242798,
"text": "Пляж был популярным местом в жаркий летний день.",
"tokens": [
50364,
2903,
1127,
353,
13519,
833,
287,
457,
2483,
741,
1125,
13,
50530
],
"temperature": 0,
"avg_logprob": 0,
"compression_ratio": 0,
"no_speech_prob": 0
}
]
}

Поддерживаемые форматы и ограничения

  • Поддерживаемые форматы: mp3, wav, m4a, flac, ogg, opus, mp4, mov, avi, mkv. Также, можно отправлять ссылки на файлы.
  • Максимальный размер файла: 1 ГБ. Если вам нужно больше, напишите в Поддержку
  • Минимальная длина аудио: 0.3 секунды.
  • Максимальная длина аудио: 10 часов.
  • Ограничение частоты запросов (Rate limit): 10 запросов в секунду.
Чтобы сэкономить трафик, рекомендуется конвертировать видеофайлы в аудиоформаты, например, с помощью ffmpeg:ffmpeg -i input.mp4 -vn -c:a aac -b:a 192k output.m4aВ этом примере видеофайл input.mp4 конвертируется в output.m4a с битрейтом 192 кбит/с.

Примеры

Для просмотра примеров ответов, вы можете нажать на кнопку справа, на которой написано verbose_json_example, json_example или diarization_example.
# Нажмите "Import cURL" в HTTP Request ноде
# и добавьте n8n Binary File
curl --request POST \
  --url https://api.nexara.ru/api/v1/audio/transcriptions \
  --header 'Authorization: Bearer ВАШ_API_КЛЮЧ' \
  --header 'Content-Type: multipart/form-data'

Authorizations

Authorization
string
header
required

Используйте ваш API-ключ как Bearer токен в заголовке Authorization. Пример: Authorization: Bearer nx-yourkey

Body

multipart/form-data
file
file | null

Объект аудиофайла (не имя файла) для транскрибации, в одном из поддерживаемых форматов. Обязательно должен быть отправлен file или url в запросе.

url
string | null

Ссылка на аудиофайл, в одном из поддерживаемых форматов. Эта опция не поддерживается OpenAI SDK. Обязательно должен быть отправлен file или url в запросе.

Example:

"https://upload.wikimedia.org/wikipedia/commons/a/a1/Gettysburg_by_Britton.ogg"

task
enum<string>
default:transcribe

Задача для выполнения. В настоящее время поддерживается только 'transcribe' или 'diarize'. transcribe - транскрибация аудио, diarize - разделение аудио на сегменты по говорящим.

Available options:
transcribe,
diarize
Example:

"transcribe"

model
string
default:whisper-1

Идентификатор используемой модели. В настоящее время доступна только whisper-1.

Example:

"whisper-1"

language
string | null

Язык входного аудио (формат ISO-639-1). Определяется автоматически, если не указан.

Example:

"ru"

response_format
enum<string>
default:json

Формат вывода транскрипции. Форматы srt и vtt возвращают готовые к использованию форматированные субтитры. Если task - diarize, то всегда будет возвращаться JSON объект. Пример смотрите в правой колонке.

Available options:
json,
text,
srt,
verbose_json,
vtt
Example:

"verbose_json"

num_speakers
number | null

Количество говорящих в аудио. Если не указано, то будет определено автоматически. Обратите внимание, что этот параметр не гарантирует правильное количество говорящих, но может помочь модели. Параметр игнорируется, если task - transcribe.

Example:

2

diarization_setting
enum<string>
default:general

Настройки для модели диаризации. general - для большинства случаев, meeting - для встреч, telephonic - для телефонных разговоров. Параметр игнорируется, если task - transcribe.

Available options:
general,
meeting,
telephonic
Example:

"telephonic"

timestamp_granularities[]
enum<string>
default:segment

Гранулярность временных меток для включения. word требует, чтобы response_format был verbose_json.

Available options:
segment,
word
Example:

"segment"

Response

Успешный ответ транскрибации или диаризации. Формат зависит от параметра 'response_format'.

text
string
required

Полный транскрибированный текст.

task
string | null

Задача, которая была выполнена. В настоящее время всегда возвращает transcribe.

language
string | null

Язык входного аудио.

duration
number | null

Длительность входного аудио.

segments
object[] | null

Сегменты транскрибированного текста и их детали.

words
object[] | null

Извлеченные слова и соответствующие им временные метки.

I