Голосовые сообщения
Данный функционал позволяет гибко настраивать ИИ-агента при работе с голосовыми сообщениями и аудио файлами.
Перейти к блоку «Голосовые сообщения»

Реакция агента на получение голосовых сообщений.
Отвечать стандартным сообщением:
С помощью данной опции вы разрешаете ИИ-агенту отвечать пользователю только заготовленным вами текстовым сообщением, например: Я не могу распознавать голосовые сообщения, напишите текстом.
Распознавать голос:
Модель распознавания: ElevenLabs, Whisper, Deepgram - это технологии, которые помогают распознавать речь - ElevenLabs: Обеспечивает наивысшее качество распознавания с наименьшим количеством ошибок на текущий момент и поддерживает множество языков. - Whisper: Поддерживает большее количество языков, и автоматически определяет язык собеседника, устанавливается по умолчанию. - Deepgram: Имеет большую точность, но необходимо указывать на каком языке будут обращения. — Стоимость распознавания: 1 Botcoin за минуту аудиозаписи — Работает с: WhatsApp, VK, Авито, Авито PRO, Instagram и Telegram
Голосовые ответы ИИ-агента (ElevenLabs)
Голосовые ответы позволяют сделать взаимодействие с ИИ-агентом более естественным и приближенным к живому общению. Вместо текстовых сообщений пользователь получает озвученный ответ, который удобнее воспринимать в мессенджерах и голосовых сценариях.
Для синтеза речи используется интеграция с сервисом ElevenLabs. При этом система также поддерживает сценарии работы без голосовых ответов, без подключения синтеза речи.
Поддерживаемые платформы
Голосовой синтез в данный момент доступен в следующих каналах:
WhatsApp
VK
Telegram
⚠️ Если ответ ИИ содержит ссылку, она будет отправлена отдельным текстовым сообщением и не будет озвучена.
Стоимость синтеза речи
Стоимость синтезированной речи рассчитывается на стороне ElevenLabs и зависит от выбранного тарифа. Для использования голосовых ответов необходимо подключить сервис на странице Интеграции → ElevenLabs.
Условия синтеза речи
(при включённой интеграции с ElevenLabs)

Вы можете настроить, в каких случаях ИИ-агент будет отвечать голосовым сообщением. Это позволяет гибко управлять поведением агента и расходом синтеза речи.
Доступны 4 режима условий:
Без условий
ИИ-агент всегда отвечает голосовым сообщением, независимо от типа входящего сообщения: текст, голос или изображение. Подходит для сценариев, где голос является основным форматом общения.
Только на голосовые сообщения
ИИ-агент отвечает голосом только в ответ на голосовые сообщения пользователя. На текстовые сообщения и изображения агент отвечает текстом.
По размеру текста
Голосовой ответ отправляется только в том случае, если ответ ИИ превышает заданный порог длины.
Можно настроить:
минимальное количество символов
или минимальное количество предложений
Каждое N-е сообщение
Голосовые ответы отправляются периодически, в зависимости от выбранного интервала.
Пример: если указано «каждое 3-е сообщение», голосовой ответ будет отправляться на каждое третье сообщение пользователя.
Доступный диапазон: от каждого 2-го до каждого 10-го сообщения.
Настройка задержки голосовых сообщений

Задержка перед отправкой голосового ответа помогает имитировать поведение реального человека и делает диалог более естественным.
Доступны 3 типа задержек:
Фиксированная
Перед отправкой каждого голосового сообщения применяется одинаковая задержка в секундах.
Случайный диапазон
Задержка выбирается случайным образом в заданном диапазоне. Допустимые значения — от 1 до 60 секунд.
В зависимости от длительности
Задержка рассчитывается автоматически на основе длительности голосового сообщения и заданного коэффициента. Пример: длительность сообщения — 60 секунд, коэффициент — 0.1 → задержка составит 6 секунд.

Примеры использования без голосового ответа (без интеграции с ElevenLabs).
Вариант 1:
Реакция агента на получение аудиофайлов: Отвечать стандартным сообщением => Голосовой ответ: Никогда.
При данной настройке, если пользователь отправит голосовое сообщение, то ИИ-агент ответит текстовым сообщением, которые вы указали в "Стандартное сообщение для аудиофайлов", например "Мне не удобно прослушивать, отправьте текстом", или любое другое сообщение исходя из вашего проекта.
Вариант 2:
Реакция агента на получение аудиофайлов: Распознавать голос => Голосовой ответ: Никогда.
При данной настройке, если пользователь отправит голосовое сообщение, то ИИ-агент сможет распознавать голосовое сообщение и ответить текстовым сообщением.
Last updated
Was this helpful?