Почему все строят свои LLM
2024–2026 годы стали эпохой национальных языковых моделей. Правительства по всему миру осознали: зависимость от чужих AI-систем — это стратегический риск. Данные уходят за рубеж, модели не понимают местный контекст, а инфраструктура принадлежит иностранным компаниям.
Кто уже построил
| Страна | Проект | Параметры | Бюджет |
|---|---|---|---|
| ОАЭ | Falcon (TII) | 7B–180B | $50–200M |
| Саудовская Аравия | ALLaM (HUMAIN) | 34B | Часть $100B HUMAIN |
| Франция | Mistral AI | до 123B | $3B+ привлечено |
| Турция | Kumru AI (TUBITAK) | 14B | $10–50M |
| Казахстан | KAZ-LLM (ISSAI) | 8B + 70B | ~$5–20M |
Узбекистан — единственная крупная страна Центральной Азии без собственной языковой модели. При этом в октябре 2024 президент подписал стратегию развития ИИ (ПП-358), а Минцифры объявило о разработке национальной модели. Цель — $1.5 млрд AI-продуктов к 2030 году.
Кому нужна кастомная LLM
Не только правительствам. Своя модель решает конкретные бизнес-задачи, которые невозможно закрыть через API OpenAI или Anthropic.
Государство
Суверенитет данных. Обращения граждан, медицинские записи, судебные дела — всё остаётся внутри страны. Госуслуги на национальном языке без зависимости от иностранных API.
Банки и телеком
Compliance и безопасность. Данные клиентов не уходят в OpenAI. Чат-боты понимают местный контекст: валюта, законодательство, продукты. Регуляторы требуют локальное хранение.
IT-компании
Специализированные агенты. Модель, обученная на ваших API: Telegram, CRM, база данных. Tool calling без промежуточных слоёв. Полный контроль над поведением.
Образование
Адаптация под местный контекст. AI-репетитор, который знает программу узбекской школы, объясняет на родном языке и учитывает культурные особенности.
Стартапы
80–90% экономия. GPT-4o стоит $2.50–15 за миллион токенов. Своя 14B-модель на одном GPU — $0.30–0.50/1M. При масштабе это разница в десятки тысяч долларов.
Контент и медиа
Генерация на национальном языке. GPT-4o и Claude пишут на узбекском посредственно. Своя модель — правильная грамматика, стиль и культурный код.
Когда НЕ нужна своя модель
Честный анализ. Своя LLM — не серебряная пуля. Вот когда лучше использовать готовые API:
Нужен уровень GPT-4o / Claude
Если задача требует frontier-качества — сложные рассуждения, генерация кода уровня Senior, мультимодальность — 14B-модель не заменит 200B+ модель. Используйте API и RAG.
Нет данных для обучения
Fine-tuning без качественных данных бесполезен. Нужно минимум 500–1,000 размеченных примеров для базового результата, 5,000+ для качественного. Если данных нет — начните с промпт-инжиниринга.
Бюджет менее $500
Сам fine-tuning стоит $2–8 за прогон. Но подготовка данных, тестирование, итерации и инфраструктура суммарно требуют $500–1,200 для прототипа. Если бюджет жёстко ограничен — используйте API с оптимизацией.
Правило: начните с API (Anthropic, OpenAI) + RAG. Если упираетесь в стоимость, privacy или качество на вашем языке — тогда fine-tune.
Что мы сделали · MILA LLM v0.1
Мы прошли весь путь от идеи до работающей модели. Вот пошаговый разбор нашего кейса.
Qwen3-14B
Почему именно эта модель: Apache 2.0 лицензия (полная свобода), нативная поддержка 119 языков включая узбекский, 14 миллиардов параметров — достаточно для качественных ответов, помещается на один GPU.
QLoRA Fine-Tuning
Замораживаем все 8.8 миллиардов параметров, сжимаем в 4-bit. Добавляем маленькие обучаемые адаптеры — 256M параметров (2.91% от общего числа). Обучаем только их. Результат: модель учит новое, не забывая старое.
12 кастомных примеров
Для proof-of-concept: 8 примеров function calling (Telegram, Calendar, Linear, Convex), 2 примера узбекских знаний, 2 примера доменных знаний. Формат ChatML. Языковой микс: узбекский (латиница), русский, английский.
RunPod A100, ~20 минут
NVIDIA A100 80GB на RunPod. Полный цикл: создание пода, загрузка данных, обучение (18 секунд на 12 примерах), merge LoRA-адаптеров, GGUF-квантизация, скачивание результата. Итого: ~$15.
Результат
| Параметр | Значение |
|---|---|
| Размер GGUF | 8.4 ГБ (Q4_K_M) |
| Inference | ollama run mila-llm:14b |
| Языки | Узбекский, русский, английский |
| Function calling | Telegram, Calendar, Linear, Web |
| Стоимость | ~$15 за полный прогон |
Модель работает локально на обычном Mac через Ollama. Отвечает на узбекском, русском и английском. Вызывает инструменты через tool_calls. Полный pipeline отлажен и воспроизводим.
Экономика · Кастомные LLM
Сравнение стоимости
| GPT-4o API | Fine-tuned 14B (self-hosted) | Fine-tuned 14B (cloud) | |
|---|---|---|---|
| Стоимость | $2.50–15/1M токенов | $0 (hardware costs) | $0.30–0.50/1M |
| Данные | Уходят в OpenAI | Остаются у вас | На вашем сервере |
| Кастомизация | Только промпт | Полная | Полная |
| Latency | ~500 мс | ~100 мс (GPU) | ~200 мс |
Стоимость обучения
- QLoRA (рекомендуем): обновляет 0.1% параметров, 10–16 ГБ VRAM — $2–8 за прогон
- LoRA: обновляет 0.1–1% параметров, 24–48 ГБ VRAM — $50–200
- Full fine-tuning: все параметры, ~200 ГБ VRAM — $2,000–5,000
Сколько пользователей обслужит 1 GPU
| GPU | Покупка | Аренда/час | Пользователей |
|---|---|---|---|
| RTX 4090 | $1,600–2,000 | $0.34–0.44 | 30–60 |
| L40S | $7,000–10,000 | $0.59–1.24 | 50–100 |
| A100 80GB | $10,000–15,000 | $0.67–2.06 | 80–150 |
| H100 SXM | $27,000–40,000 | $1.99–6.16 | 150–300 |
Один RTX 4090 за $1,600 обслуживает 30–60 пользователей одновременно. Для стартапа или пилотного проекта — достаточно одной карточки.
Roadmap · От прототипа к продукту
Прототип
MILA-LLM-14B v0.1 на базе Qwen3-14B. QLoRA, 12 примеров, GGUF 8.4 ГБ, работает через Ollama. Стоимость: ~$15.
Валидация
5,000–10,000 обучающих примеров. Бенчмарки: FC accuracy, Uzbek QA, MMLU. A/B тестирование с base моделью. Публикация на HuggingFace. Первые пилотные клиенты.
Масштабирование
Full fine-tuning на государственном GPU-кластере (NVIDIA Blackwell B200). Расширенный языковой корпус. DPO alignment. Варианты модели: 4B (edge), 14B (standard), 32B (premium).
Продакшн
4–8 GPU в Ташкенте, inference API, 10+ клиентов. UzbekMMLU бенчмарк. Партнёрство с Минцифры. Inference как сервис для бизнеса.
Что нужно для следующего этапа
- GPU-кластер — для full fine-tuning и inference (доступен через гос. программу или грант)
- Языковой корпус — узбекский текст: новости, книги, документы (проект Минцифры)
- Грант $15–40K — на ML-инженеров, расширение данных, инфраструктуру
MILA LLM — open-source модель для Узбекистана
Работающий прототип. Полный pipeline. Apache 2.0 лицензия.
Готовы к партнёрству: государство, бизнес, инвесторы, ML-инженеры.
Why Everyone Is Building Their Own LLM
2024–2026 became the era of national language models. Governments worldwide realized: dependence on foreign AI systems is a strategic risk. Data leaves the country, models don’t understand local context, and infrastructure belongs to foreign companies.
Who Has Already Built One
| Country | Project | Parameters | Budget |
|---|---|---|---|
| UAE | Falcon (TII) | 7B–180B | $50–200M |
| Saudi Arabia | ALLaM (HUMAIN) | 34B | Part of $100B HUMAIN |
| France | Mistral AI | up to 123B | $3B+ raised |
| Turkey | Kumru AI (TUBITAK) | 14B | $10–50M |
| Kazakhstan | KAZ-LLM (ISSAI) | 8B + 70B | ~$5–20M |
Uzbekistan is the only major Central Asian country without its own language model. Yet in October 2024, the President signed an AI development strategy (PP-358), and the Ministry of Digital Technologies announced work on a national model. The goal: $1.5B in AI products by 2030.
Who Needs a Custom LLM
Not just governments. A custom model solves specific business problems that can’t be addressed through OpenAI or Anthropic APIs alone.
Government
Data sovereignty. Citizen requests, medical records, court cases — everything stays within the country. Public services in the national language without foreign API dependency.
Banks & Telecom
Compliance and security. Customer data doesn’t go to OpenAI. Chatbots understand local context: currency, legislation, products. Regulators require local storage.
IT Companies
Specialized agents. A model trained on your APIs: Telegram, CRM, databases. Tool calling without middleware layers. Full control over behavior.
Education
Local context adaptation. An AI tutor that knows the Uzbek school curriculum, explains in the native language, and respects cultural nuances.
Startups
80–90% cost savings. GPT-4o costs $2.50–15 per million tokens. A self-hosted 14B model on one GPU: $0.30–0.50/1M. At scale, that’s tens of thousands of dollars in savings.
Content & Media
Native language generation. GPT-4o and Claude write mediocre Uzbek. A custom model means correct grammar, style, and cultural code.
When You Don’t Need Your Own Model
An honest analysis. A custom LLM isn’t a silver bullet. Here’s when you’re better off using existing APIs:
You Need GPT-4o / Claude Level Quality
If the task demands frontier quality — complex reasoning, senior-level code generation, multimodality — a 14B model won’t replace a 200B+ model. Use APIs and RAG instead.
You Have No Training Data
Fine-tuning without quality data is pointless. You need at least 500–1,000 labeled examples for basic results, 5,000+ for quality output. If you don’t have data — start with prompt engineering.
Budget Under $500
Fine-tuning itself costs $2–8 per run. But data prep, testing, iterations, and infrastructure add up to $500–1,200 for a prototype. If budget is tight — use APIs with optimization.
Rule of thumb: start with APIs (Anthropic, OpenAI) + RAG. When you hit cost, privacy, or language quality walls — then fine-tune.
What We Built · MILA LLM v0.1
We went through the entire journey from idea to working model. Here’s a step-by-step breakdown of our case.
Qwen3-14B
Why this model: Apache 2.0 license (complete freedom), native support for 119 languages including Uzbek, 14 billion parameters — enough for quality responses, fits on a single GPU.
QLoRA Fine-Tuning
We freeze all 8.8 billion parameters, compress to 4-bit. Add small trainable adapters — 256M parameters (2.91% of total). Train only those. Result: the model learns new things without forgetting the old.
12 Custom Examples
For proof-of-concept: 8 function calling examples (Telegram, Calendar, Linear, Convex), 2 Uzbek knowledge examples, 2 domain knowledge examples. ChatML format. Language mix: Uzbek (Latin script), Russian, English.
RunPod A100, ~20 Minutes
NVIDIA A100 80GB on RunPod. Full cycle: pod creation, data upload, training (18 seconds for 12 examples), LoRA adapter merging, GGUF quantization, downloading results. Total: ~$15.
Result
| Parameter | Value |
|---|---|
| GGUF size | 8.4 GB (Q4_K_M) |
| Inference | ollama run mila-llm:14b |
| Languages | Uzbek, Russian, English |
| Function calling | Telegram, Calendar, Linear, Web |
| Cost | ~$15 for full run |
The model runs locally on a regular Mac via Ollama. Responds in Uzbek, Russian, and English. Calls tools via tool_calls. The full pipeline is tested and reproducible.
Economics · Custom LLMs
Cost Comparison
| GPT-4o API | Fine-tuned 14B (self-hosted) | Fine-tuned 14B (cloud) | |
|---|---|---|---|
| Cost | $2.50–15/1M tokens | $0 (hardware costs) | $0.30–0.50/1M |
| Data | Goes to OpenAI | Stays with you | On your server |
| Customization | Prompt only | Full | Full |
| Latency | ~500 ms | ~100 ms (GPU) | ~200 ms |
Training Costs
- QLoRA (recommended): updates 0.1% of parameters, 10–16 GB VRAM — $2–8 per run
- LoRA: updates 0.1–1% of parameters, 24–48 GB VRAM — $50–200
- Full fine-tuning: all parameters, ~200 GB VRAM — $2,000–5,000
Users per GPU
| GPU | Purchase | Rent/hour | Concurrent users |
|---|---|---|---|
| RTX 4090 | $1,600–2,000 | $0.34–0.44 | 30–60 |
| L40S | $7,000–10,000 | $0.59–1.24 | 50–100 |
| A100 80GB | $10,000–15,000 | $0.67–2.06 | 80–150 |
| H100 SXM | $27,000–40,000 | $1.99–6.16 | 150–300 |
A single RTX 4090 at $1,600 serves 30–60 concurrent users. For a startup or pilot project — one card is enough.
Roadmap · From Prototype to Product
Prototype
MILA-LLM-14B v0.1 based on Qwen3-14B. QLoRA, 12 examples, GGUF 8.4 GB, runs via Ollama. Cost: ~$15.
Validation
5,000–10,000 training examples. Benchmarks: FC accuracy, Uzbek QA, MMLU. A/B testing against base model. HuggingFace publication. First pilot clients.
Scaling
Full fine-tuning on government GPU cluster (NVIDIA Blackwell B200). Expanded language corpus. DPO alignment. Model variants: 4B (edge), 14B (standard), 32B (premium).
Production
4–8 GPUs in Tashkent, inference API, 10+ clients. UzbekMMLU benchmark. Ministry of Digital Technologies partnership. Inference as a service for business.
What’s Needed for the Next Stage
- GPU cluster — for full fine-tuning and inference (available through government programs or grants)
- Language corpus — Uzbek text: news, books, documents (Ministry project)
- Grant $15–40K — for ML engineers, data expansion, infrastructure
MILA LLM — Open-Source Model for Uzbekistan
Working prototype. Complete pipeline. Apache 2.0 license.
Ready for partnerships: government, business, investors, ML engineers.