# OpenAI документы

<h2 align="center"><strong>Видеоурок:</strong> OpenAI документы</h2>

Команда Nextbot подготовила видеоурок об OpenAI документах и как с ними работать

**Посмотреть на YouTube:** <https://www.youtube.com/watch?v=t5HoJZ-M9Js>\
**Посмотреть на Rutube:** [**https://rutube.ru/video/private/db16acb0d7fbc099f36a444fa5dd52ab/?p=0t5fqquXh1hN7ZE6RSz4ag**](https://rutube.ru/video/private/db16acb0d7fbc099f36a444fa5dd52ab/?p=0t5fqquXh1hN7ZE6RSz4ag)

<h2 align="center">Настройки поиска в файлах</h2>

<figure><img src="/files/q0dAeAQ8CwZmAmMvASw2" alt=""><figcaption></figcaption></figure>

\
**1.** Для поиска необходимо включить опцию **"Поиск в файлах OpenAI".**

* **Стоимость**: Каждый вызов поиска стоит 0.25 BotColn.
* **Дополнительные расходы**: Использование поиска увеличивает количество токенов, которые оплачиваются по тарифу выбранной модели ИИ.

**2. Хранилище векторов.**

* Это специальное место для хранения документов в OpenAI , которые агент сможет анализировать.
* Перед загрузкой файлов необходимо создать хранилище, нажав на кнопку **"Создать хранилище"**.

<figure><img src="/files/vtiO6LXSpR0XePLYEaEO" alt=""><figcaption></figcaption></figure>

**3. Настройки поиска**

<figure><img src="/files/kn6g8hvQQ1CIdWIE38wY" alt=""><figcaption></figcaption></figure>

* **Максимальное число результатов**:
  * Определяет, сколько фрагментов информации будет извлечено при поиске.
  * **Важно**: *Использование значения по умолчанию* может привести к большим затратам токенов.
* **Минимальный процент совпадений**:

  * Этот параметр задает минимальный уровень соответствия фрагмента текста поисковому запросу. Чем выше значение, тем строже поиск.

    Например, если установить **20%**, система будет показывать только те фрагменты, которые совпадают с запросом хотя бы на 20%. Все менее релевантные результаты будут отфильтрованы.

    Так можно регулировать точность поиска: выше процент — строже отбор.
  * **Рекомендуемое значение**: 15-20%.
  * **Совет**: Начинайте с небольших значений (15-20%) и увеличивайте их, если нужно отсечь лишние результаты. Слишком высокие значения могут привести к тому, что агент не получит никаких данных из файлов.

  **4. Загрузка файлов**

**Стратегия деления файлов**:

* **Автоматическая настройка**: Рекомендуемые параметры — 800 токенов на фрагмент с перекрытием в 400 токенов.

<figure><img src="/files/0CojakshdGuS4vNgQidx" alt=""><figcaption></figcaption></figure>

* Файлы разбиваются на фрагменты для удобства поиска.
* **Ручная настройка**: Вы можете указать свои значения для размера фрагментов и перекрытия.

{% hint style="info" %}
**Важно: Настраиваемая стратегия деления файлов должна осуществляться до загрузки файлов**
{% endhint %}

<figure><img src="/files/ouvLNwmYCpqv3ngcdsrX" alt=""><figcaption></figcaption></figure>

**Поддерживаемые форматы**:

* Текстовые файлы (TXT, MD, JSON), документы (DOC, DOCX, PDF), презентации (PPTX), исходный код (C, C++, Java, Python, JS и др.).
* **Максимальный размер файла**: 10MB.

**Как загрузить**:

• Перетащите файлы в указанную область или нажмите для выбора.

• Можно загружать несколько файлов одновременно.

{% hint style="info" %}
**Важно**: Хранилище векторов должно быть создано до загрузки файлов.
{% endhint %}

## **Что такое перекрытие фрагментов и зачем оно нужно?**

Когда вы загружаете файлы для ИИ-агента, система разбивает их на небольшие фрагменты (например, по 800 токенов). **Перекрытие** — это часть текста, которая повторяется в соседних фрагментах.

**Пример:**

Допустим, у вас есть текст:

> *"Искусственный интеллект (ИИ) — это технология, позволяющая машинам обучаться и выполнять задачи, которые обычно требуют человеческого интеллекта. Современные ИИ-системы используют машинное обучение и нейронные сети."*

Если разбить его **без перекрытия**, получится:

* **Фрагмент 1**: *"Искусственный интеллект (ИИ) — это технология, позволяющая машинам обучаться и выполнять задачи, которые обычно требуют человеческого интеллекта."*
* **Фрагмент 2**: *"Современные ИИ-системы используют машинное обучение и нейронные сети."*

Если же добавить **перекрытие (например, 20%)**, то фрагменты будут выглядеть так:

* **Фрагмент 1**: *"Искусственный интеллект (ИИ) — это технология, позволяющая машинам обучаться и выполнять задачи, которые обычно требуют человеческого интеллекта."*
* **Фрагмент 2**: *"выполнять задачи, которые обычно требуют человеческого интеллекта. Современные ИИ-системы используют машинное обучение и нейронные сети."*

**Зачем это нужно?**

1. **Контекст не теряется**
   * Если фрагмент обрывается на полуслове, ИИ может не понять смысл. Перекрытие сохраняет связность текста.
   * Например, если в первом фрагменте говорится о "задачах ИИ", а во втором — о "машинном обучении", перекрытие помогает агенту связать эти части.
2. **Улучшает поиск**
   * Если запрос касается темы на стыке двух фрагментов, перекрытие увеличивает шансы, что агент найдет нужную информацию.

**Какие значения перекрытия использовать?**

* **Рекомендуется**: 20-30% от размера фрагмента.
  * Например, если фрагмент = 800 токенов, перекрытие = 200-300 токенов.
* **Слишком большое перекрытие** (например, 50%) увеличит затраты токенов без значительного улучшения качества.
* **Слишком маленькое** (например, 0%) может ухудшить результаты поиска.

**Вывод**

Перекрытие — это страховка от потери контекста. Оно делает поиск в файлах точнее, но требует баланса:

* **Для технических документов** (код, формулы) можно уменьшить перекрытие (10-20%).
* **Для сложных текстов** (статьи, отчёты) лучше оставить 20-30%.

Если сомневаетесь, используйте **рекомендуемые настройки (800 токенов фрагмент + 400 токенов перекрытие)** — они подходят для большинства случаев.

## Несовместимые настройки

Если при использовании "Поиска в файлах OpenAI" вместе с моделями GPT-5 (например, GPT-5 Nano) возникают ошибки при поиске документов, проверьте, не выставлен ли уровень рассуждений на "Минимальный".\
\
Так как этот функционал поддерживается только при уровне рассуждений "Низкий" и выше, рекомендуем установить один из этих уровней — это устранит проблему.

<figure><img src="/files/KLX59wS1GTftKO0vX3ps" alt=""><figcaption></figcaption></figure>


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://doc.nextbot.ru/functional/knowledge-base/openai-dokumenty.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
