Оптимизация истории диалога
Ограничение памяти агента - для экономии.
Last updated
Ограничение памяти агента - для экономии.
Last updated
Что делает функция "Оптимизация истории диалога" и как ею пользоваться?
Цена за запрос в нейросеть напрямую зависит от длины контекста, чем больше история диалога, тем выше будет цена. Более того - длина контекста у нейросети ограничена 128 000 токенов на все данные(инструкция, функции, база знаний, история переписки). При длинном диалоге с клиентом будут высокие затраты или вообще ошибка переполнения контекста.
Решение: Выставить нейросети лимит памяти, истории переписки.
Это похоже на то как работает человеческий мозг, в процессе длинного диалога мы можем забыть его начало, а помнить только последние пару часов. Каждое сообщение в чате занимает определенное количество токенов. Параметр "Лимит токенов" задает, сколько сообщений остается в памяти. Если лимит превышен, старые сообщения удаляются из памяти.
Пример №1:
Система будет сохранять только самое последнее сообщение. Все предыдущие сообщения автоматически удаляются, как только вы отправляете новое.
Пользователь отправляет сообщение №1 → ИИ-агент запоминает его.
Пользователь отправляет сообщение №2 → сообщение №1 забывается, в памяти остается только сообщение №2.
Пользователь отправляет сообщение №3 → сообщение №2 забывается, в памяти остается только сообщение №3.
Пользователь: "Расскажи, как сварить кофе."
Система запоминает это сообщение.
Ответ ИИ-агента: "Для приготовления кофе используйте 2 ложки молотых зерен на 200 мл воды."
Пользователь: "А как лучше молоть зерна?"
Сообщение "Расскажи, как сварить кофе" удаляется.
В памяти остается только последнее сообщение: "А как лучше молоть зерна?"
Ответ ИИ-агента: "Лучше молоть зерна средней грубости для фильтрации или мелко для эспрессо."
Пользователь: "Что делать, если кофе вышел слишком горьким?"
Сообщение "А как лучше молоть зерна?" удаляется.
В памяти остается только последнее сообщение: "Что делать, если кофе вышел слишком горьким?"
Ответ ИИ-агента: "Попробуйте уменьшить время заваривания или использовать меньше кофе."
Минусы: Если выставить низкий лимит, то ИИ-агент будет забывать в ходе диалога важную информацию. Например: человек уже представлялся, но ИИ-агент это забыл и попросит представится ещё раз.
Чтобы определить оптимальный лимит токенов для срезки, нужно учитывать особенности вашего взаимодействия с ИИ-агентом. Вот несколько примеров, которые помогут выбрать подходящий лимит:
1 токен: Подходит для коротких вопросов без сохранения контекста. Пример: "Сколько времени?" → "Как перевести слово?"
10 000 - 20 000 токенов: Оптимально для умеренных бесед.
50 000+ токенов: Используется для сложных проектов, обсуждений или историй, где важно помнить большую часть разговора.