OpenAI документы

Данный функционал позволяет ИИ-агенту искать информацию в загруженных документах.

Настройки поиска в файлах

1. Для поиска необходимо включить опцию "Включить поиск в файлах для агента".

  • Стоимость: Каждый вызов поиска стоит 0.25 BotColn.

  • Дополнительные расходы: Использование поиска увеличивает количество токенов, которые оплачиваются по тарифу выбранной модели ИИ.

2. Хранилище векторов.

  • Это специальное место для хранения документов в OpenAI , которые агент сможет анализировать.

  • Перед загрузкой файлов необходимо создать хранилище, нажав на кнопку "Создать хранилище".

3. Настройки поиска

  • Максимальное число результатов:

    • Определяет, сколько фрагментов информации будет извлечено при поиске.

    • Важно: Использование значения по умолчанию может привести к большим затратам токенов.

  • Минимальный процент совпадений:

    • Этот параметр задает минимальный уровень соответствия фрагмента текста поисковому запросу. Чем выше значение, тем строже поиск.

      Например, если установить 20%, система будет показывать только те фрагменты, которые совпадают с запросом хотя бы на 20%. Все менее релевантные результаты будут отфильтрованы.

      Так можно регулировать точность поиска: выше процент — строже отбор.

    • Рекомендуемое значение: 15-20%.

    • Совет: Начинайте с небольших значений (15-20%) и увеличивайте их, если нужно отсечь лишние результаты. Слишком высокие значения могут привести к тому, что агент не получит никаких данных из файлов.

    4. Загрузка файлов

Стратегия деления файлов:

  • Автоматическая настройка: Рекомендуемые параметры — 800 токенов на фрагмент с перекрытием в 400 токенов.

  • Файлы разбиваются на фрагменты для удобства поиска.

  • Ручная настройка: Вы можете указать свои значения для размера фрагментов и перекрытия.

Важно: Настраиваемая стратегия деления файлов должна осуществляться до загрузки файлов

Поддерживаемые форматы:

  • Текстовые файлы (TXT, MD, JSON), документы (DOC, DOCX, PDF), презентации (PPTX), исходный код (C, C++, Java, Python, JS и др.).

  • Максимальный размер файла: 10MB.

Как загрузить:

• Перетащите файлы в указанную область или нажмите для выбора.

• Можно загружать несколько файлов одновременно.

Важно: Хранилище векторов должно быть создано до загрузки файлов.

Что такое перекрытие фрагментов и зачем оно нужно?

Когда вы загружаете файлы для ИИ-агента, система разбивает их на небольшие фрагменты (например, по 800 токенов). Перекрытие — это часть текста, которая повторяется в соседних фрагментах.

Пример:

Допустим, у вас есть текст:

"Искусственный интеллект (ИИ) — это технология, позволяющая машинам обучаться и выполнять задачи, которые обычно требуют человеческого интеллекта. Современные ИИ-системы используют машинное обучение и нейронные сети."

Если разбить его без перекрытия, получится:

  • Фрагмент 1: "Искусственный интеллект (ИИ) — это технология, позволяющая машинам обучаться и выполнять задачи, которые обычно требуют человеческого интеллекта."

  • Фрагмент 2: "Современные ИИ-системы используют машинное обучение и нейронные сети."

Если же добавить перекрытие (например, 20%), то фрагменты будут выглядеть так:

  • Фрагмент 1: "Искусственный интеллект (ИИ) — это технология, позволяющая машинам обучаться и выполнять задачи, которые обычно требуют человеческого интеллекта."

  • Фрагмент 2: "выполнять задачи, которые обычно требуют человеческого интеллекта. Современные ИИ-системы используют машинное обучение и нейронные сети."

Зачем это нужно?

  1. Контекст не теряется

    • Если фрагмент обрывается на полуслове, ИИ может не понять смысл. Перекрытие сохраняет связность текста.

    • Например, если в первом фрагменте говорится о "задачах ИИ", а во втором — о "машинном обучении", перекрытие помогает агенту связать эти части.

  2. Улучшает поиск

    • Если запрос касается темы на стыке двух фрагментов, перекрытие увеличивает шансы, что агент найдет нужную информацию.

Какие значения перекрытия использовать?

  • Рекомендуется: 20-30% от размера фрагмента.

    • Например, если фрагмент = 800 токенов, перекрытие = 200-300 токенов.

  • Слишком большое перекрытие (например, 50%) увеличит затраты токенов без значительного улучшения качества.

  • Слишком маленькое (например, 0%) может ухудшить результаты поиска.

Вывод

Перекрытие — это страховка от потери контекста. Оно делает поиск в файлах точнее, но требует баланса:

  • Для технических документов (код, формулы) можно уменьшить перекрытие (10-20%).

  • Для сложных текстов (статьи, отчёты) лучше оставить 20-30%.

Если сомневаетесь, используйте рекомендуемые настройки (800 токенов фрагмент + 400 токенов перекрытие) — они подходят для большинства случаев.

Last updated

Was this helpful?