RAG и корпоративные базы знаний: как AI работает с вашими данными
RAG позволяет LLM (ChatGPT, Claude) использовать ваши собственные документы и базы знаний. Вместо того чтобы полагаться на знания модели из обучения, система извлекает релевантные документы и даёт AI их контекст. Результат: ответы на основе ваших данных, а не интернета.
12 минут
Алексей Сидоров
Technology # RAG и корпоративные базы знаний: как AI работает с вашими данными
RAG (Retrieval-Augmented Generation) один из самых полезных применений AI в бизнесе. Это когда AI не полагается только на свои знания, а берёт информацию из вашей базы данных и документов.
**Пример без RAG:**
```
Клиент: Какой наш текущий уровень скидок для ВИП-клиентов?
ChatGPT: Я не знаю, спросите вашего менеджера
```
**Пример с RAG:**
```
Клиент: Какой наш текущий уровень скидок для ВИП-клиентов?
AI: (достаёт из базы знаний) Согласно документу "Политика скидок 2025": ВИП-клиентам полагается 15% постоянная скидка + дополнительно 10% на новые товары в первый месяц.
```
## Как работает RAG
### Архитектура
```
1. Документы компании (PDF, Word, инструкции)
↓
2. Vector embedding (превращаем текст в векторы)
↓
3. Vector Database (сохраняем векторы, индексируем)
↓
4. Пользователь задаёт вопрос
↓
5. Вопрос -> вектор
↓
6. Поиск похожих документов в Vector DB
↓
7. Берём найденные документы + вопрос
↓
8. Отправляем в LLM (ChatGPT, Claude)
↓
9. LLM генерирует ответ на основе найденных документов
```
### Что такое embedding
Embedding — это когда текст превращается в вектор чисел. Например:
```
Текст: "Скидка для ВИП 15%"
Embedding: [0.1, 0.45, -0.2, 0.89, ... 1536 чисел]
Текст: "ВИП скидка 15 процентов"
Embedding: [0.12, 0.44, -0.19, 0.90, ... 1536 чисел]
Похожесть: 99% (векторы почти одинаковые)
```
Это позволяет находить семантически похожие документы даже если слова разные.
## Какие Vector Database выбрать
В 2025 году есть несколько хороших вариантов:
### Open source
**Qdrant** (рекомендую для большинства)
- Быстрый, надёжный
- Можно самому хостить или использовать облако
- Хорошо масштабируется
- Цена: бесплатно (self-hosted) или $100+/месяц (облако)
**Weaviate**
- Похож на Qdrant
- Встроенная интеграция с LLM
- Чуть медленнее Qdrant
**Pinecone** (облачный сервис)
- Самый простой в использовании
- Не нужно ничего хостить
- Цена: $0.25 за 1M векторов в месяц
### Что выбрать
- Для стартапа: Pinecone (простота)
- Для компании: Qdrant self-hosted (контроль и цена)
- Для энтерпрайза: Qdrant + кластер (надёжность)
## Как выбрать LLM для RAG
### Характеристики которые важны для RAG
**Размер контекста**
- GPT-4o: 128k токенов (можно дать 50+ страниц документов)
- Claude Opus: 200k токенов (можно дать 100+ страниц)
- Самопальная модель: зависит от размера
Почему это важно? Потому что вы передаёте в LLM найденные документы + вопрос + инструкции. Большой контекст = можете дать больше документов.
**Скорость и стоимость**
- GPT-4 Turbo: дороговато ($0.01 за 1k входящих токенов)
- Claude 3 Sonnet: дешевле ($0.003 за 1k входящих)
- Open source модель (Llama, Mistral): можете запустить на своем сервере
**Качество ответов**
- GPT-4o: лучший
- Claude Opus: почти лучший, дешевле
- Open source модели: 70–80% качества GPT-4
### Рекомендация
Для RAG используйте Claude или GPT-4o. Они лучше всего работают с длинными контекстами и давать правильные ответы.
## Реальный кейс: RAG для внутренней поддержки
**Компания:** IT-компания с 500 сотрудников
**Проблема:**
- Часто люди спрашивают вопросы в Slack: "Какой наш процесс для X?"
- Ответ есть в базе знаний, но её нужно искать 10 минут
- Потрачено 2–3 часа в день на ответы на повторяющиеся вопросы
**Решение:**
- Загрузили всю базу знаний (300 документов, 500 страниц) в Qdrant
- Создали Slack-бота на основе Claude + RAG
- Когда сотрудник спрашивает, бот:
1. Ищет релевантные документы
2. Отправляет в Claude с контекстом
3. Возвращает ответ в Slack
**Результаты:**
- 60% вопросов теперь обработаны ботом
- Средний ответ за 2 секунды вместо 10 минут человека
- Экономия: 2–3 часа в день для всей компании
**Стоимость:**
- Разработка: 150k (2 недели)
- Операционные затраты: Qdrant 100k/месяц + Claude API 50k/месяц
- ROI: окупилось за 2 месяца
## Как загружать документы в RAG
### Проблема: качество embedding зависит от качества данных
Если загрузите в RAG грязные данные, получите грязные ответы.
**Плохо:**
```
PDF с отсканированным текстом (OCR с ошибками)
Word с неправильным форматированием
Документы которые противоречат друг другу
```
**Хорошо:**
```
Чистый текст без ошибок
Документы отсортированы по темам
Версионированные документы (дата обновления)
```
### Процесс загрузки
1. **Экспорт:** Экспортируйте документы в текст (из PDF, Word, etc)
2. **Чистка:** Уберите ошибки OCR, нормализуйте форматирование
3. **Разбиение:** Разбейте большие документы на куски (chunks) по 500–1000 слов
4. **Метаданные:** Добавьте метаданные (дата обновления, категория, источник)
5. **Embedding:** Превратите в векторы
6. **Загрузка:** Загрузите в Vector DB
7. **Тестирование:** Протестируйте поиск на примерах вопросов
### Размер chunks
Это критично. Если chunks слишком маленькие — потеряете контекст. Если слишком большие — много шума.
**Рекомендация:**
- Для технической документации: 500–800 слов
- Для бизнес-документов: 800–1000 слов
- Для FAQ: 200–300 слов
## Как оценить качество RAG
### Метрика 1: Релевантность
Из топ-5 найденных документов, сколько релевантны вопросу?
**Хорошо:** 5/5 (100%)
**Нормально:** 3/5 (60%)
**Плохо:** 1/5 (20%)
Если релевантность ниже 60% — нужно улучшать embedding или документы.
### Метрика 2: Correctness
Из 100 вопросов, сколько AI дал правильный ответ?
**Хорошо:** 90%+
**Нормально:** 80–90%
**Плохо:** <80%
Если ниже 80% — нужно больше документов или лучший LLM.
### Как измерять
Создайте 20–30 тестовых вопросов с правильными ответами. Запустите RAG на каждом и проверьте процент правильных.
## Типичные ошибки при внедрении RAG
### 1. Загрузили всё подряд
Загрузили 1000 документов без подготовки. Результат: много шума, AI может найти неправильный документ.
**Правильно:** Начните с 50–100 документов. Протестируйте. Потом расширяйте.
### 2. Не обновляют документы
Загрузили документы один раз. Потом они устарели, но AI использует старые версии.
**Правильно:** Настройте процесс обновления документов (weekly, monthly).
### 3. Не форматируют документы
Документы грязные, с ошибками, противоречиями. AI не может найти правильную информацию.
**Правильно:** Поработайте с контентом. Удалите дубликаты, исправьте ошибки, версионируйте.
### 4. Хранят всё в одной базе знаний
Если у вас документы по 10 разным темам в одной базе, поиск будет плохой.
**Правильно:** Разделите на несколько Vector DB по темам (HR-базе знаний, техническая документация, политики, FAQ).
### 5. Не проверяют качество
Загрузили систему, думают что работает. На самом деле половина ответов неправильные.
**Правильно:** Регулярно (weekly) проверяйте 10–20 вопросов вручную и смотрите корректны ли ответы.
## Заключение
RAG это один из самых полезных способов применить AI в бизнесе. Это помогает:
- Ускорить ответы на вопросы (с 10 мин до 2 сек)
- Уменьшить нагрузку на людей
- Сделать информацию более доступной
Ключ к успеху RAG:
1. Качественные документы (чистые, актуальные, организованные)
2. Правильный Vector DB (Qdrant или Pinecone)
3. Хороший LLM (Claude, GPT-4o)
4. Регулярная проверка качества
Начните с малого: 50–100 документов, 20 тестовых вопросов. Если работает — расширяйте.
Похожие статьи
Strategy
Как выбрать подрядчика для разработки ПО: чек-лист для бизнеса
Выбор разработчика — критическое решение для бизнеса. В этом гайде разбираем как оценить компетенцию, опыт и финансовую надёжность подрядчика. Узнайте о главных красных флагах и как проверить качество кода перед подписанием контракта.
Technology
AI-автоматизация бизнес-процессов: что реально работает в 2025
Много шума вокруг AI автоматизации, но что реально работает и экономит деньги? На основе 20+ проектов анализируем какие процессы рентабельны для автоматизации и какой ROI реально ожидать.