# Голосовые сообщения

<a href="https://app.nextbot.ru/option#voice-messages" class="button secondary">Перейти к блоку «Голосовые сообщения»</a>

<figure><img src="/files/DHV3NyIWUrUmvwPtjumh" alt=""><figcaption></figcaption></figure>

## **Реакция агента на получение голосовых сообщений.**

* **Отвечать стандартным сообщением:**

С помощью данной опции вы разрешаете ИИ-агенту отвечать пользователю только заготовленным вами текстовым сообщением, например:\
\&#xNAN;*Я не могу распознавать голосовые сообщения, напишите текстом.*

* **Распознавать голос:**

**Модель распознавания:** ElevenLabs, Whisper, Deepgram - это технологии, которые помогают распознавать речь\
\
\- **ElevenLabs:** Обеспечивает наивысшее качество распознавания с наименьшим количеством ошибок на текущий момент и поддерживает множество языков.\
\- **Whisper:** Поддерживает большее количество языков, и автоматически определяет язык собеседника, устанавливается по умолчанию.\
\- **Deepgram:** Имеет большую точность, но необходимо указывать на каком языке будут обращения.\
\
— Стоимость распознавания: 1 Botcoin за минуту аудиозаписи\
— Работает с: WhatsApp, VK, Авито, Авито PRO, Instagram и Telegram<br>

## Голосовые ответы ИИ-агента (ElevenLabs)

Голосовые ответы позволяют сделать взаимодействие с ИИ-агентом более естественным и приближенным к живому общению. Вместо текстовых сообщений пользователь получает озвученный ответ, который удобнее воспринимать в мессенджерах и голосовых сценариях.

Для синтеза речи используется интеграция с сервисом [**ElevenLabs**](https://doc.nextbot.ru/functional/integrations/elevenlabs). При этом система также поддерживает сценарии работы **без голосовых ответов**, без подключения синтеза речи.

### Поддерживаемые платформы

Голосовой синтез в данный момент доступен в следующих каналах:

* WhatsApp
* VK
* Telegram

> ⚠️ Если ответ ИИ содержит ссылку, она будет отправлена отдельным текстовым сообщением и не будет озвучена.

### Стоимость синтеза речи

Стоимость синтезированной речи рассчитывается на стороне **ElevenLabs** и зависит от выбранного тарифа.\
Для использования голосовых ответов необходимо подключить сервис на странице **Интеграции → ElevenLabs**.

### **Условия синтеза речи**

*(при включённой интеграции с ElevenLabs)*

<div data-full-width="true"><figure><img src="/files/YXNIzbVdDBARgK2rgYLk" alt=""><figcaption></figcaption></figure></div>

Вы можете настроить, в каких случаях ИИ-агент будет отвечать голосовым сообщением. Это позволяет гибко управлять поведением агента и расходом синтеза речи.

Доступны **4 режима условий:**

* **Без условий**

  ИИ-агент всегда отвечает голосовым сообщением, независимо от типа входящего сообщения: текст, голос или изображение.\
  Подходит для сценариев, где голос является основным форматом общения.<br>
* **Только на голосовые сообщения**

  ИИ-агент отвечает голосом только в ответ на голосовые сообщения пользователя.\
  На текстовые сообщения и изображения агент отвечает текстом.<br>
* **По размеру текста**

  Голосовой ответ отправляется только в том случае, если ответ ИИ превышает заданный порог длины.<br>

  Можно настроить:

  * минимальное количество символов
  * или минимальное количество предложений<br>
* **Каждое N-е сообщение**

  Голосовые ответы отправляются периодически, в зависимости от выбранного интервала.<br>

  Пример:\
  если указано «каждое 3-е сообщение», голосовой ответ будет отправляться на каждое третье сообщение пользователя.<br>

  Доступный диапазон: от каждого 2-го до каждого 10-го сообщения.

### Настройка задержки голосовых сообщений

<figure><img src="/files/Z7DM3vDWTsWY7zm0yEWi" alt=""><figcaption></figcaption></figure>

Задержка перед отправкой голосового ответа помогает имитировать поведение реального человека и делает диалог более естественным.

Доступны **3 типа задержек:**

* **Фиксированная**

  Перед отправкой каждого голосового сообщения применяется одинаковая задержка в секундах.<br>
* **Случайный диапазон**

  Задержка выбирается случайным образом в заданном диапазоне.\
  Допустимые значения — от 1 до 60 секунд.<br>
* **В зависимости от длительности**

  Задержка рассчитывается автоматически на основе длительности голосового сообщения и заданного коэффициента.\
  \
  Пример:\
  длительность сообщения — 60 секунд, коэффициент — 0.1 → задержка составит 6 секунд.\ <br>

  <div data-full-width="true"><figure><img src="/files/aUUmlDuzpvJwkX9JsgL4" alt=""><figcaption></figcaption></figure></div>

### Примеры использования без голосового ответа (без интеграции с ElevenLabs).

**Вариант 1:**

Реакция агента на получение аудиофайлов: Отвечать стандартным сообщением => Голосовой ответ: Никогда.

При данной настройке, если пользователь отправит голосовое сообщение, то ИИ-агент ответит текстовым сообщением, которые вы указали в "Стандартное сообщение для аудиофайлов", например "Мне не удобно прослушивать, отправьте текстом", или любое другое сообщение исходя из вашего проекта.

**Вариант 2:**

Реакция агента на получение аудиофайлов: Распознавать голос => Голосовой ответ: Никогда.

При данной настройке, если пользователь отправит голосовое сообщение, то ИИ-агент сможет распознавать голосовое сообщение и ответить текстовым сообщением.\ <br>


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://doc.nextbot.ru/functional/setting-up-agent/golosovye-soobsheniya-i-izobrazheniya/rabota-s-failami.-golosovye-soobsheniya.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.