Голосовые сообщения
Данный функционал позволяет гибко настраивать ИИ-агента при работе с голосовыми сообщениями и аудио файлами.

Реакция агента на получение голосовых сообщений.
Отвечать стандартным сообщением:
С помощью данной опции вы разрешаете ИИ-агенту отвечать пользователю только заготовленным вами текстовым сообщением, например: Я не могу распознавать голосовые сообщения, напишите текстом.
Распознавать голос:
Модель распознавания: ElevenLabs, Whisper, Deepgram - это технологии, которые помогают распознавать речь - ElevenLabs: Обеспечивает наивысшее качество распознавания с наименьшим количеством ошибок на текущий момент и поддерживает множество языков. - Whisper: Поддерживает большее количество языков, и автоматически определяет язык собеседника, устанавливается по умолчанию. - Deepgram: Имеет большую точность, но необходимо указывать на каком языке будут обращения. — Стоимость распознавания: 1 Botcoin за минуту аудиозаписи — Работает с: WhatsApp, VK, Авито, Авито PRO, Instagram и Telegram
Голосовые ответы ИИ-агента (ElevenLabs)
Голосовые ответы позволяют сделать взаимодействие с ИИ-агентом более естественным и приближенным к живому общению. Вместо текстовых сообщений пользователь получает озвученный ответ, который удобнее воспринимать в мессенджерах и голосовых сценариях.
Для синтеза речи используется интеграция с сервисом ElevenLabs. При этом система также поддерживает сценарии работы без голосовых ответов, без подключения синтеза речи.
Поддерживаемые платформы
Голосовой синтез в данный момент доступен в следующих каналах:
WhatsApp
VK
Telegram
⚠️ Если ответ ИИ содержит ссылку, она будет отправлена отдельным текстовым сообщением и не будет озвучена.
Стоимость синтеза речи
Стоимость синтезированной речи рассчитывается на стороне ElevenLabs и зависит от выбранного тарифа. Для использования голосовых ответов необходимо подключить сервис на странице Интеграции → ElevenLabs.
Условия синтеза речи
(при включённой интеграции с ElevenLabs)

Вы можете настроить, в каких случаях ИИ-агент будет отвечать голосовым сообщением. Это позволяет гибко управлять поведением агента и расходом синтеза речи.
Доступны 4 режима условий:
Настройка задержки голосовых сообщений

Задержка перед отправкой голосового ответа помогает имитировать поведение реального человека и делает диалог более естественным.
Доступны 3 типа задержек:
Примеры использования без голосового ответа (без интеграции с ElevenLabs).
Вариант 1:
Реакция агента на получение аудиофайлов: Отвечать стандартным сообщением => Голосовой ответ: Никогда.
При данной настройке, если пользователь отправит голосовое сообщение, то ИИ-агент ответит текстовым сообщением, которые вы указали в "Стандартное сообщение для аудиофайлов", например "Мне не удобно прослушивать, отправьте текстом", или любое другое сообщение исходя из вашего проекта.
Вариант 2:
Реакция агента на получение аудиофайлов: Распознавать голос => Голосовой ответ: Никогда.
При данной настройке, если пользователь отправит голосовое сообщение, то ИИ-агент сможет распознавать голосовое сообщение и ответить текстовым сообщением.
Last updated
Was this helpful?
