Как зафайнтюнить LLM на своих данных — 2026

Anatoly Oshmanovsky

Как зафайнтюнить LLM

Автор: Anatoly Oshmanovsky · Обновлено 18 апреля 2026

Коротко:

Fine-tuning 2026: (1) Подготовьте 100-10k examples в JSONL, (2) Выберите platform — OpenAI (gpt-4o-mini FT $3/1M), Together.ai Llama 3 70B LoRA ($5-20), self-host через Axolotl/Unsloth, (3) Upload dataset + start job (1-10 часов), (4) Eval via test set, (5) Deploy — OpenAI создаёт endpoint, Together даёт API. Когда НЕ стоит: если RAG + prompt engineering решают задачу.

Ниже: пошаговая инструкция, рабочие примеры, типичные ошибки, FAQ.

Попробовать бесплатно →

Пошаговая настройка

Соберите 100+ quality examples в JSONL format
Validation split: 80% train / 20% eval
OpenAI: openai fine_tuning.jobs.create -t file-X -m gpt-4o-mini
Together.ai: upload через CLI, config LoRA (rank=16, alpha=32)
Monitor loss curve — stop если overfitting (eval loss растёт)
Eval на test set — accuracy / BLEU / manual grading
Deploy: OpenAI → auto endpoint. Together → API key

Рабочие примеры

Сценарий	Конфиг
OpenAI JSONL format	`{"messages": [ {"role": "system", "content": "You are a customer support bot for Enterno."}, {"role": "user", "content": "Where is my invoice?"}, {"role": "assistant", "content": "You can find invoices at /dashboard → Billing → History."} ]}`
QLoRA локально (Unsloth)	`from unsloth import FastLanguageModel model, tokenizer = FastLanguageModel.from_pretrained('unsloth/llama-3-8b-bnb-4bit') model = FastLanguageModel.get_peft_model(model, r=16, target_modules=['q_proj','k_proj','v_proj']) trainer = SFTTrainer(model=model, train_dataset=ds, max_seq_length=2048) trainer.train()`
Together.ai CLI	`$ together files upload train.jsonl $ together fine-tuning create \ --training-file FILE_ID \ --model meta-llama/Meta-Llama-3.1-70B-Instruct-Reference \ --lora --lora-r 16 --lora-alpha 32`
Start inference после FT	`# OpenAI resp = client.chat.completions.create( model='ft:gpt-4o-mini-2024:myorg::abc', messages=[...] )`
Eval с Ragas	`from ragas import evaluate from ragas.metrics import answer_relevancy, faithfulness results = evaluate(dataset, metrics=[answer_relevancy, faithfulness])`

Типичные ошибки

Не начинайте с FT — сначала проверьте prompt engineering + RAG. 80% cases решаются без FT
Dataset too small (<50 examples) — overfit, не learn general pattern
Inconsistent format между examples — model confused
Training без validation set → не заметите overfitting
FT меняет weights — base model knowledge может degradate ("catastrophic forgetting")

Больше по теме

Гайды

Глоссарий

Исследования

Часто задаваемые вопросы

RAG или FT?

RAG: dynamic knowledge, easy update. FT: style, tone, format consistency. Часто комбинируются — FT для tone + RAG для facts.

Стоимость?

OpenAI gpt-4o-mini FT: $3/1M training tokens. Together Llama 3 70B LoRA: ~$5-20 за run. Self-host: $0 cost если GPU есть.

Как мерить improvement?

Held-out test set (20%). Metrics зависят от task: exact match, BLEU, LLM-as-judge (GPT-4 rates outputs).

LoRA vs full FT?

LoRA: 0.1-1% params updated, fast, cheap. Full FT: all params, лучшее качество но 10-100x cost. Для 95% use cases LoRA достаточно.

Запустить инструмент, который описан в этой статье

Бесплатный тариф — 20 мониторов, проверки раз в 5 минут, без карты. Платные тарифы — интервал от 1 минуты и проверки из нескольких регионов.

Начать бесплатно Тарифы