Как построить RAG чат-бот на docs — 2026

Anatoly Oshmanovsky

Как построить RAG чат-бот

Автор: Anatoly Oshmanovsky · Обновлено 18 апреля 2026

Коротко:

RAG chat-bot за 30 минут: (1) Chunk документы на 500-1000 токенов, (2) Embed через OpenAI text-embedding-3-small ($0.02/1M), (3) Store в Qdrant (Rust open-source), (4) User query → embed → similaritySearch top-5 chunks, (5) Inject в prompt → Claude/GPT-5 generates answer with sources. Stack: Node.js + LangChain.js + Qdrant. Cost: ~$0.001 за query.

Ниже: пошаговая инструкция, рабочие примеры, типичные ошибки, FAQ.

Попробовать бесплатно →

Пошаговая настройка

Установите Qdrant: docker run -p 6333:6333 qdrant/qdrant
Chunk docs: recursive text splitter с overlap 100 токенов
Generate embeddings через OpenAI API (batch 100 docs за запрос)
Upsert в Qdrant collection с payload (source URL, title)
Query pipeline: user input → embed → Qdrant search top-5 → format context
LLM call с system prompt: "Отвечай только из context, укажи sources"
UI: streaming response для UX, show citations в footnotes

Рабочие примеры

Сценарий	Конфиг
LangChain.js full pipeline	import { QdrantVectorStore } from '@langchain/qdrant'; import { OpenAIEmbeddings } from '@langchain/openai'; import { ChatOpenAI } from '@langchain/openai'; const store = await QdrantVectorStore.fromDocuments( chunks, new OpenAIEmbeddings(), { url: 'http://qdrant:6333', collectionName: 'docs' } ); const docs = await store.similaritySearch(query, 5); const llm = new ChatOpenAI({ model: 'gpt-5' }); const answer = await llm.invoke([ { role: 'system', content: `Context: ${docs.join('\n')}` }, { role: 'user', content: query } ]);
Qdrant HNSW tuning	`PUT /collections/docs {"vectors": {"size": 1536, "distance": "Cosine"}, "hnsw_config": {"m": 16, "ef_construct": 100}}`
Python (LlamaIndex)	`from llama_index.core import VectorStoreIndex, SimpleDirectoryReader docs = SimpleDirectoryReader('./docs').load_data() index = VectorStoreIndex.from_documents(docs) query_engine = index.as_query_engine() response = query_engine.query('Your question')`
Chunking strategy	`from langchain.text_splitter import RecursiveCharacterTextSplitter splitter = RecursiveCharacterTextSplitter( chunk_size=800, chunk_overlap=100, separators=['\n\n', '\n', '.', ' '] )`
Hybrid search (dense + sparse)	`# Qdrant: create named vectors (dense + sparse BM25) # Then batch search с weight`

Типичные ошибки

Chunks too small → lose context. Too large → cosine dilution. 500-1000 токенов sweet spot
Not using overlap between chunks — info на boundary теряется. Overlap 10-20% (100-200 токенов)
Вектор DB без filter по source/date → irrelevant matches. Используйте metadata filter
Embedding model mismatch: embedded с text-embedding-3-small, query с text-embedding-3-large — не сработает
Hallucinations не исчезают полностью — add "Если context не содержит ответа, скажи Не знаю"

Больше по теме

Гайды

Глоссарий

Исследования

Часто задаваемые вопросы

Сколько documents нужно?

100 небольших docs уже работают. 10k+ — нужна rerank для quality. 100k+ — sharding vector DB, hybrid search.

Cost?

Embeddings: $0.02/1M токенов. LLM call: $0.15-15/1M. Для 1k queries/день ~$0.50-5.

Лучший LLM для RAG?

Claude Opus 4.7 — лучший для long context. GPT-5 — balanced. Gemini 2.5 — 2M context. Llama 3 70B self-host — free.

Как мониторить RAG quality?

Ragas (Python) measures context_precision, context_recall, answer_relevancy. Set thresholds в CI.

Запустить инструмент, который описан в этой статье

Бесплатный тариф — 20 мониторов, проверки раз в 5 минут, без карты. Платные тарифы — интервал от 1 минуты и проверки из нескольких регионов.

Начать бесплатно Тарифы