Оптимизация истории диалога
Ограничение памяти агента - для экономии.
Last updated
Ограничение памяти агента - для экономии.
Last updated
Что делает функция "Оптимизация истории диалога" и как ею пользоваться?
Цена за запрос в нейросеть напрямую зависит от длины контекста, чем больше история диалога, тем выше будет цена. Более того - длина контекста у нейросети ограничена 128 000 токенов на все данные(инструкция, функции, база знаний, история переписки). При длинном диалоге с клиентом будут высокие затраты или вообще ошибка переполнения контекста.
Решение: Выставить нейросети лимит памяти, истории переписки.
Параметр "Ограничение по токенам" похож на то, как работает человеческий мозг, в процессе длинного диалога мы можем забыть его начало, а помнить только последние пару часов. Каждое сообщение в чате занимает определенное количество токенов. Параметр "Максимальное количество токенов" задает, сколько сообщений остается в памяти. Если лимит превышен, старые сообщения удаляются из памяти.
Пример №1:
Система будет сохранять только самое последнее сообщение. Все предыдущие сообщения автоматически удаляются, как только вы отправляете новое.
Пользователь отправляет сообщение №1 → ИИ-агент запоминает его.
Пользователь отправляет сообщение №2 → сообщение №1 забывается, в памяти остается только сообщение №2.
Пользователь отправляет сообщение №3 → сообщение №2 забывается, в памяти остается только сообщение №3.
Пользователь: "Расскажи, как сварить кофе."
Система запоминает это сообщение.
Ответ ИИ-агента: "Для приготовления кофе используйте 2 ложки молотых зерен на 200 мл воды."
Пользователь: "А как лучше молоть зерна?"
Сообщение "Расскажи, как сварить кофе" удаляется.
В памяти остается только последнее сообщение: "А как лучше молоть зерна?"
Ответ ИИ-агента: "Лучше молоть зерна средней грубости для фильтрации или мелко для эспрессо."
Пользователь: "Что делать, если кофе вышел слишком горьким?"
Сообщение "А как лучше молоть зерна?" удаляется.
В памяти остается только последнее сообщение: "Что делать, если кофе вышел слишком горьким?"
Ответ ИИ-агента: "Попробуйте уменьшить время заваривания или использовать меньше кофе."
Минусы: Если выставить низкий лимит, то ИИ-агент будет забывать в ходе диалога важную информацию. Например: человек уже представлялся, но ИИ-агент это забыл и попросит представится ещё раз.
Чтобы определить оптимальный лимит токенов для срезки, нужно учитывать особенности вашего взаимодействия с ИИ-агентом. Вот несколько примеров, которые помогут выбрать подходящий лимит:
1 токен: Подходит для коротких вопросов без сохранения контекста. Пример: "Сколько времени?" → "Как перевести слово?"
10 000 - 20 000 токенов: Оптимально для умеренных бесед.
50 000+ токенов: Используется для сложных проектов, обсуждений или историй, где важно помнить большую часть разговора.
Данная опция позволяет указать, сколько последних сообщений сохранять в истории.
Включите переключатель «Ограничение по количеству сообщений».
В поле «Максимальное количество сообщений» введите число (например, 3).
Лимит: 3 сообщения
История диалога:
"Привет!"
"Как настроить API?"
"Где взять ключ доступа?"
"Сколько стоит подписка?" ➡ Сохраняются только последние 3 сообщения (2, 3, 4). Первое ("Привет!") удаляется.
Функция "Ограничение по времени" позволяет автоматически удалять из истории диалога сообщения, которые были отправлены раньше указанного вами периода.
Как это работает?
Система будет автоматически:
Отслеживать время отправки каждого сообщения
Удалять из истории все сообщения, которые старше установленного вами периода
Учитывать только "свежие" сообщения при генерации ответов
10:00 - Пользователь: "Здравствуйте!" 10:05 - ИИ-агент: "Чем могу помочь?" 10:12 - Пользователь: "Не работает оплата" 10:20 - ИИ-агент учитывает только сообщения после 10:05
→ Сообщение "Здравствуйте!" (10:00) автоматически удаляется
Представьте, что ваш ИИ-агент — это умный помощник с ограниченной памятью. Вы можете задать ему правила, по которым он будет запоминать сообщения:
➡ Пример: Вы сказали ИИ-агенту:
"Запоминай только последние 5 сообщений" (ограничение по количеству сообщений)
"И только то, что написано за последние 10 минут" (ограничение по времени)
📌 Как ИИ-агент будет работать?
Он сохранит максимум 5 сообщений, но только если они не старше 10 минут.
Если сообщений больше 5 или они старые — ИИ-агент их проигнорирует.