Vector Embedding

Anatoly Oshmanovsky

Автор: Anatoly Oshmanovsky · Обновлено 18 апреля 2026

Коротко:

Vector embedding — dense numeric representation (массив floats) любого объекта: текста, картинки, аудио. 512-3072 dimensions обычно. Пример: "dog" → [0.23, -0.15, 0.67, ...]. Similar objects → close vectors (cosine similarity > 0.8). Используется в semantic search, clustering, RAG, image similarity. Models: OpenAI text-embedding-3 (3072 dim), Cohere embed-v3, jina-embeddings-v3 (open), bge-m3 (multilingual).

Ниже: подробности, пример, смежные термины, FAQ.

Попробовать бесплатно →

Подробности

Properties: dense (все dimensions non-zero), fixed length per model
Distance metrics: cosine (normalized), euclidean, dot product
Cost: $0.02-0.13 за 1M токенов для embedding models
Multilingual: bge-m3, multilingual-e5, jina-v3 — работают для > 100 языков
Fine-tuning: возможен для domain-specific search (medical, legal)

Пример

# OpenAI Embedding API
import { OpenAI } from 'openai';
const openai = new OpenAI();
const response = await openai.embeddings.create({
  model: 'text-embedding-3-large',
  input: 'TCP vs UDP protocols'
});
console.log(response.data[0].embedding); // [0.01, -0.23, ..., 0.05] — 3072 floats

Смежные термины

Больше по теме

Гайды

Глоссарий

Исследования

Часто задаваемые вопросы

Cosine vs euclidean?

Cosine (нормализованные vectors) — доминирует для text/nlp. Euclidean — для images/raw features. Dot product — если vectors pre-normalized.

Size matters?

3072 dim ≫ 512 dim в recall на complex queries, но 6x storage + compute. Balance по dataset size + accuracy requirement.

Rerank нужен?

Embedding search — fast but approximate. Rerank (Cohere Rerank, Voyage rerank) — slower, but лучше на top-5. Pipeline: retrieve 50 → rerank top 10.

Запустить инструмент, который описан в этой статье

Бесплатный тариф — 20 мониторов, проверки раз в 5 минут, без карты. Платные тарифы — интервал от 1 минуты и проверки из нескольких регионов.

Начать бесплатно Тарифы