Зачем строить свою LLM — и как мы создали прототип за $15

Почему все строят свои LLM

2024–2026 годы стали эпохой национальных языковых моделей. Правительства по всему миру осознали: зависимость от чужих AI-систем — это стратегический риск. Данные уходят за рубеж, модели не понимают местный контекст, а инфраструктура принадлежит иностранным компаниям.

Кто уже построил

Страна	Проект	Параметры	Бюджет
ОАЭ	Falcon (TII)	7B–180B	$50–200M
Саудовская Аравия	ALLaM (HUMAIN)	34B	Часть $100B HUMAIN
Франция	Mistral AI	до 123B	$3B+ привлечено
Турция	Kumru AI (TUBITAK)	14B	$10–50M
Казахстан	KAZ-LLM (ISSAI)	8B + 70B	~$5–20M

Узбекистан — единственная крупная страна Центральной Азии без собственной языковой модели. При этом в октябре 2024 президент подписал стратегию развития ИИ (ПП-358), а Минцифры объявило о разработке национальной модели. Цель — $1.5 млрд AI-продуктов к 2030 году.

Кому нужна кастомная LLM

Не только правительствам. Своя модель решает конкретные бизнес-задачи, которые невозможно закрыть через API OpenAI или Anthropic.

🏛

Государство

Суверенитет данных. Обращения граждан, медицинские записи, судебные дела — всё остаётся внутри страны. Госуслуги на национальном языке без зависимости от иностранных API.

🏦

Банки и телеком

Compliance и безопасность. Данные клиентов не уходят в OpenAI. Чат-боты понимают местный контекст: валюта, законодательство, продукты. Регуляторы требуют локальное хранение.

💻

IT-компании

Специализированные агенты. Модель, обученная на ваших API: Telegram, CRM, база данных. Tool calling без промежуточных слоёв. Полный контроль над поведением.

🎓

Образование

Адаптация под местный контекст. AI-репетитор, который знает программу узбекской школы, объясняет на родном языке и учитывает культурные особенности.

🚀

Стартапы

80–90% экономия. GPT-4o стоит $2.50–15 за миллион токенов. Своя 14B-модель на одном GPU — $0.30–0.50/1M. При масштабе это разница в десятки тысяч долларов.

🎥

Контент и медиа

Генерация на национальном языке. GPT-4o и Claude пишут на узбекском посредственно. Своя модель — правильная грамматика, стиль и культурный код.

Когда НЕ нужна своя модель

Честный анализ. Своя LLM — не серебряная пуля. Вот когда лучше использовать готовые API:

Нужен уровень GPT-4o / Claude

Если задача требует frontier-качества — сложные рассуждения, генерация кода уровня Senior, мультимодальность — 14B-модель не заменит 200B+ модель. Используйте API и RAG.

Нет данных для обучения

Fine-tuning без качественных данных бесполезен. Нужно минимум 500–1,000 размеченных примеров для базового результата, 5,000+ для качественного. Если данных нет — начните с промпт-инжиниринга.

Бюджет менее $500

Сам fine-tuning стоит $2–8 за прогон. Но подготовка данных, тестирование, итерации и инфраструктура суммарно требуют $500–1,200 для прототипа. Если бюджет жёстко ограничен — используйте API с оптимизацией.

Правило: начните с API (Anthropic, OpenAI) + RAG. Если упираетесь в стоимость, privacy или качество на вашем языке — тогда fine-tune.

Что мы сделали · MILA LLM v0.1

Мы прошли весь путь от идеи до работающей модели. Вот пошаговый разбор нашего кейса.

BASE MODEL

Qwen3-14B

Почему именно эта модель: Apache 2.0 лицензия (полная свобода), нативная поддержка 119 языков включая узбекский, 14 миллиардов параметров — достаточно для качественных ответов, помещается на один GPU.

METHOD

QLoRA Fine-Tuning

Замораживаем все 8.8 миллиардов параметров, сжимаем в 4-bit. Добавляем маленькие обучаемые адаптеры — 256M параметров (2.91% от общего числа). Обучаем только их. Результат: модель учит новое, не забывая старое.

DATA

12 кастомных примеров

Для proof-of-concept: 8 примеров function calling (Telegram, Calendar, Linear, Convex), 2 примера узбекских знаний, 2 примера доменных знаний. Формат ChatML. Языковой микс: узбекский (латиница), русский, английский.

INFRA

RunPod A100, ~20 минут

NVIDIA A100 80GB на RunPod. Полный цикл: создание пода, загрузка данных, обучение (18 секунд на 12 примерах), merge LoRA-адаптеров, GGUF-квантизация, скачивание результата. Итого: ~$15.

Результат

Параметр	Значение
Размер GGUF	8.4 ГБ (Q4_K_M)
Inference	`ollama run mila-llm:14b`
Языки	Узбекский, русский, английский
Function calling	Telegram, Calendar, Linear, Web
Стоимость	~$15 за полный прогон

Модель работает локально на обычном Mac через Ollama. Отвечает на узбекском, русском и английском. Вызывает инструменты через tool_calls. Полный pipeline отлажен и воспроизводим.

Экономика · Кастомные LLM

Сравнение стоимости

	GPT-4o API	Fine-tuned 14B (self-hosted)	Fine-tuned 14B (cloud)
Стоимость	$2.50–15/1M токенов	$0 (hardware costs)	$0.30–0.50/1M
Данные	Уходят в OpenAI	Остаются у вас	На вашем сервере
Кастомизация	Только промпт	Полная	Полная
Latency	~500 мс	~100 мс (GPU)	~200 мс

Стоимость обучения

QLoRA (рекомендуем): обновляет 0.1% параметров, 10–16 ГБ VRAM — $2–8 за прогон
LoRA: обновляет 0.1–1% параметров, 24–48 ГБ VRAM — $50–200
Full fine-tuning: все параметры, ~200 ГБ VRAM — $2,000–5,000

Сколько пользователей обслужит 1 GPU

GPU	Покупка	Аренда/час	Пользователей
RTX 4090	$1,600–2,000	$0.34–0.44	30–60
L40S	$7,000–10,000	$0.59–1.24	50–100
A100 80GB	$10,000–15,000	$0.67–2.06	80–150
H100 SXM	$27,000–40,000	$1.99–6.16	150–300

Один RTX 4090 за $1,600 обслуживает 30–60 пользователей одновременно. Для стартапа или пилотного проекта — достаточно одной карточки.

Roadmap · От прототипа к продукту

СДЕЛАНО

Прототип

MILA-LLM-14B v0.1 на базе Qwen3-14B. QLoRA, 12 примеров, GGUF 8.4 ГБ, работает через Ollama. Стоимость: ~$15.

1–3 МЕСЯЦА

Валидация

5,000–10,000 обучающих примеров. Бенчмарки: FC accuracy, Uzbek QA, MMLU. A/B тестирование с base моделью. Публикация на HuggingFace. Первые пилотные клиенты.

3–6 МЕСЯЦЕВ

Масштабирование

Full fine-tuning на государственном GPU-кластере (NVIDIA Blackwell B200). Расширенный языковой корпус. DPO alignment. Варианты модели: 4B (edge), 14B (standard), 32B (premium).

6–12 МЕСЯЦЕВ

Продакшн

4–8 GPU в Ташкенте, inference API, 10+ клиентов. UzbekMMLU бенчмарк. Партнёрство с Минцифры. Inference как сервис для бизнеса.

Что нужно для следующего этапа

GPU-кластер — для full fine-tuning и inference (доступен через гос. программу или грант)
Языковой корпус — узбекский текст: новости, книги, документы (проект Минцифры)
Грант $15–40K — на ML-инженеров, расширение данных, инфраструктуру

MILA LLM — open-source модель для Узбекистана

Работающий прототип. Полный pipeline. Apache 2.0 лицензия.

Готовы к партнёрству: государство, бизнес, инвесторы, ML-инженеры.

MILA LLM → Связаться с нами

Why Everyone Is Building Their Own LLM

2024–2026 became the era of national language models. Governments worldwide realized: dependence on foreign AI systems is a strategic risk. Data leaves the country, models don’t understand local context, and infrastructure belongs to foreign companies.

Who Has Already Built One

Country	Project	Parameters	Budget
UAE	Falcon (TII)	7B–180B	$50–200M
Saudi Arabia	ALLaM (HUMAIN)	34B	Part of $100B HUMAIN
France	Mistral AI	up to 123B	$3B+ raised
Turkey	Kumru AI (TUBITAK)	14B	$10–50M
Kazakhstan	KAZ-LLM (ISSAI)	8B + 70B	~$5–20M

Uzbekistan is the only major Central Asian country without its own language model. Yet in October 2024, the President signed an AI development strategy (PP-358), and the Ministry of Digital Technologies announced work on a national model. The goal: $1.5B in AI products by 2030.

Who Needs a Custom LLM

Not just governments. A custom model solves specific business problems that can’t be addressed through OpenAI or Anthropic APIs alone.

🏛

Government

Data sovereignty. Citizen requests, medical records, court cases — everything stays within the country. Public services in the national language without foreign API dependency.

🏦

Banks & Telecom

Compliance and security. Customer data doesn’t go to OpenAI. Chatbots understand local context: currency, legislation, products. Regulators require local storage.

💻

IT Companies

Specialized agents. A model trained on your APIs: Telegram, CRM, databases. Tool calling without middleware layers. Full control over behavior.

🎓

Education

Local context adaptation. An AI tutor that knows the Uzbek school curriculum, explains in the native language, and respects cultural nuances.

🚀

Startups

80–90% cost savings. GPT-4o costs $2.50–15 per million tokens. A self-hosted 14B model on one GPU: $0.30–0.50/1M. At scale, that’s tens of thousands of dollars in savings.

🎥

Content & Media

Native language generation. GPT-4o and Claude write mediocre Uzbek. A custom model means correct grammar, style, and cultural code.

When You Don’t Need Your Own Model

An honest analysis. A custom LLM isn’t a silver bullet. Here’s when you’re better off using existing APIs:

You Need GPT-4o / Claude Level Quality

If the task demands frontier quality — complex reasoning, senior-level code generation, multimodality — a 14B model won’t replace a 200B+ model. Use APIs and RAG instead.

You Have No Training Data

Fine-tuning without quality data is pointless. You need at least 500–1,000 labeled examples for basic results, 5,000+ for quality output. If you don’t have data — start with prompt engineering.

Budget Under $500

Fine-tuning itself costs $2–8 per run. But data prep, testing, iterations, and infrastructure add up to $500–1,200 for a prototype. If budget is tight — use APIs with optimization.

Rule of thumb: start with APIs (Anthropic, OpenAI) + RAG. When you hit cost, privacy, or language quality walls — then fine-tune.

What We Built · MILA LLM v0.1

We went through the entire journey from idea to working model. Here’s a step-by-step breakdown of our case.

BASE MODEL

Qwen3-14B

Why this model: Apache 2.0 license (complete freedom), native support for 119 languages including Uzbek, 14 billion parameters — enough for quality responses, fits on a single GPU.

METHOD

QLoRA Fine-Tuning

We freeze all 8.8 billion parameters, compress to 4-bit. Add small trainable adapters — 256M parameters (2.91% of total). Train only those. Result: the model learns new things without forgetting the old.

DATA

12 Custom Examples

For proof-of-concept: 8 function calling examples (Telegram, Calendar, Linear, Convex), 2 Uzbek knowledge examples, 2 domain knowledge examples. ChatML format. Language mix: Uzbek (Latin script), Russian, English.

INFRA

RunPod A100, ~20 Minutes

NVIDIA A100 80GB on RunPod. Full cycle: pod creation, data upload, training (18 seconds for 12 examples), LoRA adapter merging, GGUF quantization, downloading results. Total: ~$15.

Result

Parameter	Value
GGUF size	8.4 GB (Q4_K_M)
Inference	`ollama run mila-llm:14b`
Languages	Uzbek, Russian, English
Function calling	Telegram, Calendar, Linear, Web
Cost	~$15 for full run

The model runs locally on a regular Mac via Ollama. Responds in Uzbek, Russian, and English. Calls tools via tool_calls. The full pipeline is tested and reproducible.

Economics · Custom LLMs

Cost Comparison

	GPT-4o API	Fine-tuned 14B (self-hosted)	Fine-tuned 14B (cloud)
Cost	$2.50–15/1M tokens	$0 (hardware costs)	$0.30–0.50/1M
Data	Goes to OpenAI	Stays with you	On your server
Customization	Prompt only	Full	Full
Latency	~500 ms	~100 ms (GPU)	~200 ms

Training Costs

QLoRA (recommended): updates 0.1% of parameters, 10–16 GB VRAM — $2–8 per run
LoRA: updates 0.1–1% of parameters, 24–48 GB VRAM — $50–200
Full fine-tuning: all parameters, ~200 GB VRAM — $2,000–5,000

Users per GPU

GPU	Purchase	Rent/hour	Concurrent users
RTX 4090	$1,600–2,000	$0.34–0.44	30–60
L40S	$7,000–10,000	$0.59–1.24	50–100
A100 80GB	$10,000–15,000	$0.67–2.06	80–150
H100 SXM	$27,000–40,000	$1.99–6.16	150–300

A single RTX 4090 at $1,600 serves 30–60 concurrent users. For a startup or pilot project — one card is enough.

Roadmap · From Prototype to Product

DONE

Prototype

MILA-LLM-14B v0.1 based on Qwen3-14B. QLoRA, 12 examples, GGUF 8.4 GB, runs via Ollama. Cost: ~$15.

1–3 MONTHS

Validation

5,000–10,000 training examples. Benchmarks: FC accuracy, Uzbek QA, MMLU. A/B testing against base model. HuggingFace publication. First pilot clients.

3–6 MONTHS

Scaling

Full fine-tuning on government GPU cluster (NVIDIA Blackwell B200). Expanded language corpus. DPO alignment. Model variants: 4B (edge), 14B (standard), 32B (premium).

6–12 MONTHS

Production

4–8 GPUs in Tashkent, inference API, 10+ clients. UzbekMMLU benchmark. Ministry of Digital Technologies partnership. Inference as a service for business.

What’s Needed for the Next Stage

GPU cluster — for full fine-tuning and inference (available through government programs or grants)
Language corpus — Uzbek text: news, books, documents (Ministry project)
Grant $15–40K — for ML engineers, data expansion, infrastructure

MILA LLM — Open-Source Model for Uzbekistan

Working prototype. Complete pipeline. Apache 2.0 license.

Ready for partnerships: government, business, investors, ML engineers.

MILA LLM → Get in touch

Зачем строить свою LLM — и как мы создали прототип за $15

Why Build Your Own LLM — and How We Built a Prototype for $15

Почему все строят свои LLM

Кто уже построил

Кому нужна кастомная LLM

Государство

Банки и телеком

IT-компании

Образование

Стартапы

Контент и медиа

Когда НЕ нужна своя модель

Нужен уровень GPT-4o / Claude

Нет данных для обучения

Бюджет менее $500

Что мы сделали · MILA LLM v0.1

Qwen3-14B

QLoRA Fine-Tuning

12 кастомных примеров

RunPod A100, ~20 минут

Результат

Экономика · Кастомные LLM

Сравнение стоимости

Стоимость обучения

Сколько пользователей обслужит 1 GPU

Roadmap · От прототипа к продукту

Прототип

Валидация

Масштабирование

Продакшн

Что нужно для следующего этапа

MILA LLM — open-source модель для Узбекистана

Why Everyone Is Building Their Own LLM

Who Has Already Built One

Who Needs a Custom LLM

Government

Banks & Telecom

IT Companies

Education

Startups

Content & Media

When You Don’t Need Your Own Model

You Need GPT-4o / Claude Level Quality

You Have No Training Data

Budget Under $500

What We Built · MILA LLM v0.1

Qwen3-14B

QLoRA Fine-Tuning

12 Custom Examples

RunPod A100, ~20 Minutes

Result

Economics · Custom LLMs

Cost Comparison

Training Costs

Users per GPU

Roadmap · From Prototype to Product

Prototype

Validation

Scaling

Production

What’s Needed for the Next Stage

MILA LLM — Open-Source Model for Uzbekistan