OpenAI документы
Данный функционал позволяет ИИ-агенту искать информацию в загруженных документах.
Last updated
Данный функционал позволяет ИИ-агенту искать информацию в загруженных документах.
Last updated
1. Для поиска необходимо включить опцию "Включить поиск в файлах для агента".
Стоимость: Каждый вызов поиска стоит 0.25 BotColn.
Дополнительные расходы: Использование поиска увеличивает количество токенов, которые оплачиваются по тарифу выбранной модели ИИ.
2. Хранилище векторов.
Это специальное место для хранения документов в OpenAI , которые агент сможет анализировать.
Перед загрузкой файлов необходимо создать хранилище, нажав на кнопку "Создать хранилище".
3. Настройки поиска
Максимальное число результатов:
Определяет, сколько фрагментов информации будет извлечено при поиске.
Важно: Использование значения по умолчанию может привести к большим затратам токенов.
Минимальный процент совпадений:
Этот параметр задает минимальный уровень соответствия фрагмента текста поисковому запросу. Чем выше значение, тем строже поиск.
Например, если установить 20%, система будет показывать только те фрагменты, которые совпадают с запросом хотя бы на 20%. Все менее релевантные результаты будут отфильтрованы.
Так можно регулировать точность поиска: выше процент — строже отбор.
Рекомендуемое значение: 15-20%.
Совет: Начинайте с небольших значений (15-20%) и увеличивайте их, если нужно отсечь лишние результаты. Слишком высокие значения могут привести к тому, что агент не получит никаких данных из файлов.
4. Загрузка файлов
Стратегия деления файлов:
Автоматическая настройка: Рекомендуемые параметры — 800 токенов на фрагмент с перекрытием в 400 токенов.
Файлы разбиваются на фрагменты для удобства поиска.
Ручная настройка: Вы можете указать свои значения для размера фрагментов и перекрытия.
Поддерживаемые форматы:
Текстовые файлы (TXT, MD, JSON), документы (DOC, DOCX, PDF), презентации (PPTX), исходный код (C, C++, Java, Python, JS и др.).
Максимальный размер файла: 10MB.
Как загрузить:
• Перетащите файлы в указанную область или нажмите для выбора.
• Можно загружать несколько файлов одновременно.
Когда вы загружаете файлы для ИИ-агента, система разбивает их на небольшие фрагменты (например, по 800 токенов). Перекрытие — это часть текста, которая повторяется в соседних фрагментах.
Пример:
Допустим, у вас есть текст:
"Искусственный интеллект (ИИ) — это технология, позволяющая машинам обучаться и выполнять задачи, которые обычно требуют человеческого интеллекта. Современные ИИ-системы используют машинное обучение и нейронные сети."
Если разбить его без перекрытия, получится:
Фрагмент 1: "Искусственный интеллект (ИИ) — это технология, позволяющая машинам обучаться и выполнять задачи, которые обычно требуют человеческого интеллекта."
Фрагмент 2: "Современные ИИ-системы используют машинное обучение и нейронные сети."
Если же добавить перекрытие (например, 20%), то фрагменты будут выглядеть так:
Фрагмент 1: "Искусственный интеллект (ИИ) — это технология, позволяющая машинам обучаться и выполнять задачи, которые обычно требуют человеческого интеллекта."
Фрагмент 2: "выполнять задачи, которые обычно требуют человеческого интеллекта. Современные ИИ-системы используют машинное обучение и нейронные сети."
Зачем это нужно?
Контекст не теряется
Если фрагмент обрывается на полуслове, ИИ может не понять смысл. Перекрытие сохраняет связность текста.
Например, если в первом фрагменте говорится о "задачах ИИ", а во втором — о "машинном обучении", перекрытие помогает агенту связать эти части.
Улучшает поиск
Если запрос касается темы на стыке двух фрагментов, перекрытие увеличивает шансы, что агент найдет нужную информацию.
Какие значения перекрытия использовать?
Рекомендуется: 20-30% от размера фрагмента.
Например, если фрагмент = 800 токенов, перекрытие = 200-300 токенов.
Слишком большое перекрытие (например, 50%) увеличит затраты токенов без значительного улучшения качества.
Слишком маленькое (например, 0%) может ухудшить результаты поиска.
Вывод
Перекрытие — это страховка от потери контекста. Оно делает поиск в файлах точнее, но требует баланса:
Для технических документов (код, формулы) можно уменьшить перекрытие (10-20%).
Для сложных текстов (статьи, отчёты) лучше оставить 20-30%.
Если сомневаетесь, используйте рекомендуемые настройки (800 токенов фрагмент + 400 токенов перекрытие) — они подходят для большинства случаев.