Голосовые сообщения

Данный функционал позволяет гибко настраивать ИИ-агента при работе с голосовыми сообщениями и аудио файлами.

Реакция агента на получение голосовых сообщений.

  • Отвечать стандартным сообщением:

С помощью данной опции вы разрешаете ИИ-агенту отвечать пользователю только заготовленным вами текстовым сообщением, например: Я не могу распознавать голосовые сообщения, напишите текстом.

  • Распознавать голос:

Модель распознавания: ElevenLabs, Whisper, Deepgram - это технологии, которые помогают распознавать речь - ElevenLabs: Обеспечивает наивысшее качество распознавания с наименьшим количеством ошибок на текущий момент и поддерживает множество языков. - Whisper: Поддерживает большее количество языков, и автоматически определяет язык собеседника, устанавливается по умолчанию. - Deepgram: Имеет большую точность, но необходимо указывать на каком языке будут обращения. — Стоимость распознавания: 1 Botcoin за минуту аудиозаписи — Работает с: WhatsApp, VK, Авито, Авито PRO, Instagram и Telegram

Голосовые ответы ИИ-агента (ElevenLabs)

Голосовые ответы позволяют сделать взаимодействие с ИИ-агентом более естественным и приближенным к живому общению. Вместо текстовых сообщений пользователь получает озвученный ответ, который удобнее воспринимать в мессенджерах и голосовых сценариях.

Для синтеза речи используется интеграция с сервисом ElevenLabsarrow-up-right. При этом система также поддерживает сценарии работы без голосовых ответов, без подключения синтеза речи.

Поддерживаемые платформы

Голосовой синтез в данный момент доступен в следующих каналах:

  • WhatsApp

  • VK

  • Telegram

⚠️ Если ответ ИИ содержит ссылку, она будет отправлена отдельным текстовым сообщением и не будет озвучена.

Стоимость синтеза речи

Стоимость синтезированной речи рассчитывается на стороне ElevenLabs и зависит от выбранного тарифа. Для использования голосовых ответов необходимо подключить сервис на странице Интеграции → ElevenLabs.

Условия синтеза речи

(при включённой интеграции с ElevenLabs)

Вы можете настроить, в каких случаях ИИ-агент будет отвечать голосовым сообщением. Это позволяет гибко управлять поведением агента и расходом синтеза речи.

Доступны 4 режима условий:

  • Без условий

    ИИ-агент всегда отвечает голосовым сообщением, независимо от типа входящего сообщения: текст, голос или изображение. Подходит для сценариев, где голос является основным форматом общения.

  • Только на голосовые сообщения

    ИИ-агент отвечает голосом только в ответ на голосовые сообщения пользователя. На текстовые сообщения и изображения агент отвечает текстом.

  • По размеру текста

    Голосовой ответ отправляется только в том случае, если ответ ИИ превышает заданный порог длины.

    Можно настроить:

    • минимальное количество символов

    • или минимальное количество предложений

  • Каждое N-е сообщение

    Голосовые ответы отправляются периодически, в зависимости от выбранного интервала.

    Пример: если указано «каждое 3-е сообщение», голосовой ответ будет отправляться на каждое третье сообщение пользователя.

    Доступный диапазон: от каждого 2-го до каждого 10-го сообщения.

Настройка задержки голосовых сообщений

Задержка перед отправкой голосового ответа помогает имитировать поведение реального человека и делает диалог более естественным.

Доступны 3 типа задержек:

  • Фиксированная

    Перед отправкой каждого голосового сообщения применяется одинаковая задержка в секундах.

  • Случайный диапазон

    Задержка выбирается случайным образом в заданном диапазоне. Допустимые значения — от 1 до 60 секунд.

  • В зависимости от длительности

    Задержка рассчитывается автоматически на основе длительности голосового сообщения и заданного коэффициента. Пример: длительность сообщения — 60 секунд, коэффициент — 0.1 → задержка составит 6 секунд.

Примеры использования без голосового ответа (без интеграции с ElevenLabs).

Вариант 1:

Реакция агента на получение аудиофайлов: Отвечать стандартным сообщением => Голосовой ответ: Никогда.

При данной настройке, если пользователь отправит голосовое сообщение, то ИИ-агент ответит текстовым сообщением, которые вы указали в "Стандартное сообщение для аудиофайлов", например "Мне не удобно прослушивать, отправьте текстом", или любое другое сообщение исходя из вашего проекта.

Вариант 2:

Реакция агента на получение аудиофайлов: Распознавать голос => Голосовой ответ: Никогда.

При данной настройке, если пользователь отправит голосовое сообщение, то ИИ-агент сможет распознавать голосовое сообщение и ответить текстовым сообщением.

Last updated

Was this helpful?