Nextbot
  • Начало
    • Что такое Nextbot?
    • Сценарии использования
      • Ремонт компьютеров
      • Продажа диванов
    • Как начать?
      • Регистрация
      • Создание агента
      • Наполнение базы знаний
      • Добавление функций
      • Публикация ИИ-агента и получение заявок
  • Функционал
    • Аккаунт
      • Безопасность
    • Диалоги
    • Агенты
    • Настройка Агента
      • Системный промпт
      • Стартовое сообщение
      • Температура
      • Оптимизация истории диалога
      • Управление активностью агента
      • Буфер сообщений
      • Форматирование текста. Markdown
      • Дата и время
      • Защита от спама на агента
      • Защита от спама на пользователя
      • Расписание работы ИИ-агента
      • Работа с файлами
        • Голосовые сообщения
        • Изображения
        • Прочие файлы
      • Отложенная отправка
      • Свой ключ OpenAI
    • Чат
    • Источники знаний
      • База знаний
      • Документы
      • OpenAI документы
      • OpenAI веб-поиск
      • Таблицы
        • Создание таблицы вручную
        • Создание таблицы из файла
        • Поиск в таблице
    • Функции
      • Активация функций
      • Название и описание
      • Параметры функций
      • Реакция на выполнение
      • Сценарий поведения после выполнения функции
      • Отправка результатов
        • amoCRM
        • Bitrix24
        • Telegram
        • U-ON.Travel
        • Custom API
        • Python
          • Использование REST API
          • Подключение и работа с Google Таблицам
        • Google Calendar
        • Поиск в таблице
      • Отключить отложенные сообщения
      • Отправка отложенного сообщения
    • Дообучение
      • Как обучить свою модель?
    • Каналы
      • Telegram
        • Инструкция подключения бота к Nextbot
        • Инструкция подключения бота к группе
        • Инструкция подключения бота к личному аккаунту
        • Инструкция получения заявок в Telegram бота
        • Инструкция получения заявок в Telegram чат/группу
      • Вконтакте
      • WhatsApp
      • Авито
      • АвитоPro
        • Подключение аккаунта
        • Управление объявлениями
        • Сценарии поведения ИИ
      • Instagram*
        • Инструкция по подключению Instagram* к Nextbot
      • Jivo
    • Интеграции
      • Notion
        • Подключение
        • Импортирование таблицы
        • Создание таблицы
        • Настройка прав
        • Дополнительная инструкция
        • Примеры
          • Ремонт телефонов
          • Магазин цветов
        • Лимит записей
        • Частые ошибки
      • Bitrix24
        • Подключение
          • Nextbot как канал
          • Nextbot как чатбот
        • Пример использования
        • Отправка шаблонных сообщений в WhatsApp из Bitrix24
      • amoCRM
        • Подключение
        • Отправка шаблонных сообщений в WhatsApp из amoCRM
      • U-ON
      • Google Календарь
        • Создать событие
        • Получить события
        • Удалить событие
        • Получить доступное время
        • Шаблоны функции для работы с Google Calendar
      • ElevenLabs
      • Google Таблицы
      • YCLIENTS
        • Подключение интеграции с YCLIENTS
        • Настройка мастеров и списка услуг для интеграции с YCLIENTS
        • Мастер создания функций YCLIENTS
        • Настройка ИИ-Агента для работы с YCLIENTS
      • Яндекс.Метрика
    • Чат на сайт
    • Аналитика
  • Цены
    • Ценообразование
      • Расходы на LLM
      • Малый бизнес
    • Тарифы
  • Советы
    • Продвинутые техники
      • Мультиагентность
  • Вопрос - ответ
    • Часто задаваемые вопросы
Powered by GitBook
On this page
  • Настройки поиска в файлах
  • Что такое перекрытие фрагментов и зачем оно нужно?
  1. Функционал
  2. Источники знаний

OpenAI документы

Данный функционал позволяет ИИ-агенту искать информацию в загруженных документах.

PreviousДокументыNextOpenAI веб-поиск

Last updated 1 month ago

Настройки поиска в файлах

1. Для поиска необходимо включить опцию "Включить поиск в файлах для агента".

  • Стоимость: Каждый вызов поиска стоит 0.25 BotColn.

  • Дополнительные расходы: Использование поиска увеличивает количество токенов, которые оплачиваются по тарифу выбранной модели ИИ.

2. Хранилище векторов.

  • Это специальное место для хранения документов в OpenAI , которые агент сможет анализировать.

  • Перед загрузкой файлов необходимо создать хранилище, нажав на кнопку "Создать хранилище".

3. Настройки поиска

  • Максимальное число результатов:

    • Определяет, сколько фрагментов информации будет извлечено при поиске.

    • Важно: Использование значения по умолчанию может привести к большим затратам токенов.

  • Минимальный процент совпадений:

    • Этот параметр задает минимальный уровень соответствия фрагмента текста поисковому запросу. Чем выше значение, тем строже поиск.

      Например, если установить 20%, система будет показывать только те фрагменты, которые совпадают с запросом хотя бы на 20%. Все менее релевантные результаты будут отфильтрованы.

      Так можно регулировать точность поиска: выше процент — строже отбор.

    • Рекомендуемое значение: 15-20%.

    • Совет: Начинайте с небольших значений (15-20%) и увеличивайте их, если нужно отсечь лишние результаты. Слишком высокие значения могут привести к тому, что агент не получит никаких данных из файлов.

    4. Загрузка файлов

Стратегия деления файлов:

  • Автоматическая настройка: Рекомендуемые параметры — 800 токенов на фрагмент с перекрытием в 400 токенов.

  • Файлы разбиваются на фрагменты для удобства поиска.

  • Ручная настройка: Вы можете указать свои значения для размера фрагментов и перекрытия.

Важно: Настраиваемая стратегия деления файлов должна осуществляться до загрузки файлов

Поддерживаемые форматы:

  • Текстовые файлы (TXT, MD, JSON), документы (DOC, DOCX, PDF), презентации (PPTX), исходный код (C, C++, Java, Python, JS и др.).

  • Максимальный размер файла: 10MB.

Как загрузить:

• Перетащите файлы в указанную область или нажмите для выбора.

• Можно загружать несколько файлов одновременно.

Важно: Хранилище векторов должно быть создано до загрузки файлов.

Что такое перекрытие фрагментов и зачем оно нужно?

Когда вы загружаете файлы для ИИ-агента, система разбивает их на небольшие фрагменты (например, по 800 токенов). Перекрытие — это часть текста, которая повторяется в соседних фрагментах.

Пример:

Допустим, у вас есть текст:

"Искусственный интеллект (ИИ) — это технология, позволяющая машинам обучаться и выполнять задачи, которые обычно требуют человеческого интеллекта. Современные ИИ-системы используют машинное обучение и нейронные сети."

Если разбить его без перекрытия, получится:

  • Фрагмент 1: "Искусственный интеллект (ИИ) — это технология, позволяющая машинам обучаться и выполнять задачи, которые обычно требуют человеческого интеллекта."

  • Фрагмент 2: "Современные ИИ-системы используют машинное обучение и нейронные сети."

Если же добавить перекрытие (например, 20%), то фрагменты будут выглядеть так:

  • Фрагмент 1: "Искусственный интеллект (ИИ) — это технология, позволяющая машинам обучаться и выполнять задачи, которые обычно требуют человеческого интеллекта."

  • Фрагмент 2: "выполнять задачи, которые обычно требуют человеческого интеллекта. Современные ИИ-системы используют машинное обучение и нейронные сети."

Зачем это нужно?

  1. Контекст не теряется

    • Если фрагмент обрывается на полуслове, ИИ может не понять смысл. Перекрытие сохраняет связность текста.

    • Например, если в первом фрагменте говорится о "задачах ИИ", а во втором — о "машинном обучении", перекрытие помогает агенту связать эти части.

  2. Улучшает поиск

    • Если запрос касается темы на стыке двух фрагментов, перекрытие увеличивает шансы, что агент найдет нужную информацию.

Какие значения перекрытия использовать?

  • Рекомендуется: 20-30% от размера фрагмента.

    • Например, если фрагмент = 800 токенов, перекрытие = 200-300 токенов.

  • Слишком большое перекрытие (например, 50%) увеличит затраты токенов без значительного улучшения качества.

  • Слишком маленькое (например, 0%) может ухудшить результаты поиска.

Вывод

Перекрытие — это страховка от потери контекста. Оно делает поиск в файлах точнее, но требует баланса:

  • Для технических документов (код, формулы) можно уменьшить перекрытие (10-20%).

  • Для сложных текстов (статьи, отчёты) лучше оставить 20-30%.

Если сомневаетесь, используйте рекомендуемые настройки (800 токенов фрагмент + 400 токенов перекрытие) — они подходят для большинства случаев.