Skip to content

Semantic Search

Коротко:

Semantic search — поиск документов по смыслу query, не по keyword match. Принцип: embedding query + doc в vectors → cosine similarity → top-k closest docs. Понимает synonyms ("car" ≈ "automobile"), концептуальные связи ("how to fix engine" → docs про motor troubleshooting). Comparing traditional: BM25/TF-IDF только keyword. Hybrid search: sparse (BM25) + dense (embeddings) + rerank — 2026 best practice.

Ниже: подробности, пример, смежные термины, FAQ.

Попробовать бесплатно →

Подробности

  • Query: "how to setup SSL nginx" → embedding → search
  • Hybrid: weighted combination BM25 score + cosine similarity
  • Rerank: top-50 retrieved → Cohere/Voyage rerank → top-5 final
  • Pre-filter: metadata (date, category, lang) сужает search space
  • Challenges: short queries, multi-hop reasoning (need chain), multilingual

Пример

# Hybrid search с Qdrant
curl -X POST http://localhost:6333/collections/docs/points/search/batch \
  -d '{
    "searches": [
      {"vector": {"name": "dense", "vector": [...]}, "limit": 50},
      {"vector": {"name": "sparse", "vector": {"indices": [...], "values": [...]}}, "limit": 50}
    ]
  }'

Смежные термины

Больше по теме

Часто задаваемые вопросы

Keyword search — deprecated?

Нет. BM25 отличен для exact-match (code, names, rare words). Hybrid (sparse + dense) лучше чем любой alone.

Elasticsearch vs Qdrant?

Elasticsearch: mature, sparse search king, добавил vector в 8+. Qdrant: dense-first, Rust быстрый. Для hybrid — Elasticsearch+vector extension или Weaviate natively.

Latency target?

<100ms для interactive search. HNSW ANN index helps, no full scan. Для >1M docs — ок.