MILA GPT · СТАТЬЯ

Зачем строить свою LLM — и как мы создали прототип за $15

Мировой контекст, кому и когда нужны кастомные модели, экономика fine-tuning, и наш опыт создания MILA LLM.

~10 минут чтения Февраль 2026
MILA GPT · ARTICLE

Why Build Your Own LLM — and How We Built a Prototype for $15

Global context, who needs custom models and when, fine-tuning economics, and our experience building MILA LLM.

~10 min read February 2026

Почему все строят свои LLM

2024–2026 годы стали эпохой национальных языковых моделей. Правительства по всему миру осознали: зависимость от чужих AI-систем — это стратегический риск. Данные уходят за рубеж, модели не понимают местный контекст, а инфраструктура принадлежит иностранным компаниям.

Кто уже построил

Страна Проект Параметры Бюджет
ОАЭ Falcon (TII) 7B–180B $50–200M
Саудовская Аравия ALLaM (HUMAIN) 34B Часть $100B HUMAIN
Франция Mistral AI до 123B $3B+ привлечено
Турция Kumru AI (TUBITAK) 14B $10–50M
Казахстан KAZ-LLM (ISSAI) 8B + 70B ~$5–20M

Узбекистан — единственная крупная страна Центральной Азии без собственной языковой модели. При этом в октябре 2024 президент подписал стратегию развития ИИ (ПП-358), а Минцифры объявило о разработке национальной модели. Цель — $1.5 млрд AI-продуктов к 2030 году.

Кому нужна кастомная LLM

Не только правительствам. Своя модель решает конкретные бизнес-задачи, которые невозможно закрыть через API OpenAI или Anthropic.

🏛

Государство

Суверенитет данных. Обращения граждан, медицинские записи, судебные дела — всё остаётся внутри страны. Госуслуги на национальном языке без зависимости от иностранных API.

🏦

Банки и телеком

Compliance и безопасность. Данные клиентов не уходят в OpenAI. Чат-боты понимают местный контекст: валюта, законодательство, продукты. Регуляторы требуют локальное хранение.

💻

IT-компании

Специализированные агенты. Модель, обученная на ваших API: Telegram, CRM, база данных. Tool calling без промежуточных слоёв. Полный контроль над поведением.

🎓

Образование

Адаптация под местный контекст. AI-репетитор, который знает программу узбекской школы, объясняет на родном языке и учитывает культурные особенности.

🚀

Стартапы

80–90% экономия. GPT-4o стоит $2.50–15 за миллион токенов. Своя 14B-модель на одном GPU — $0.30–0.50/1M. При масштабе это разница в десятки тысяч долларов.

🎥

Контент и медиа

Генерация на национальном языке. GPT-4o и Claude пишут на узбекском посредственно. Своя модель — правильная грамматика, стиль и культурный код.

Когда НЕ нужна своя модель

Честный анализ. Своя LLM — не серебряная пуля. Вот когда лучше использовать готовые API:

01

Нужен уровень GPT-4o / Claude

Если задача требует frontier-качества — сложные рассуждения, генерация кода уровня Senior, мультимодальность — 14B-модель не заменит 200B+ модель. Используйте API и RAG.

02

Нет данных для обучения

Fine-tuning без качественных данных бесполезен. Нужно минимум 500–1,000 размеченных примеров для базового результата, 5,000+ для качественного. Если данных нет — начните с промпт-инжиниринга.

03

Бюджет менее $500

Сам fine-tuning стоит $2–8 за прогон. Но подготовка данных, тестирование, итерации и инфраструктура суммарно требуют $500–1,200 для прототипа. Если бюджет жёстко ограничен — используйте API с оптимизацией.

Правило: начните с API (Anthropic, OpenAI) + RAG. Если упираетесь в стоимость, privacy или качество на вашем языке — тогда fine-tune.

Что мы сделали · MILA LLM v0.1

Мы прошли весь путь от идеи до работающей модели. Вот пошаговый разбор нашего кейса.

BASE MODEL

Qwen3-14B

Почему именно эта модель: Apache 2.0 лицензия (полная свобода), нативная поддержка 119 языков включая узбекский, 14 миллиардов параметров — достаточно для качественных ответов, помещается на один GPU.

METHOD

QLoRA Fine-Tuning

Замораживаем все 8.8 миллиардов параметров, сжимаем в 4-bit. Добавляем маленькие обучаемые адаптеры — 256M параметров (2.91% от общего числа). Обучаем только их. Результат: модель учит новое, не забывая старое.

DATA

12 кастомных примеров

Для proof-of-concept: 8 примеров function calling (Telegram, Calendar, Linear, Convex), 2 примера узбекских знаний, 2 примера доменных знаний. Формат ChatML. Языковой микс: узбекский (латиница), русский, английский.

INFRA

RunPod A100, ~20 минут

NVIDIA A100 80GB на RunPod. Полный цикл: создание пода, загрузка данных, обучение (18 секунд на 12 примерах), merge LoRA-адаптеров, GGUF-квантизация, скачивание результата. Итого: ~$15.

Результат

Параметр Значение
Размер GGUF 8.4 ГБ (Q4_K_M)
Inference ollama run mila-llm:14b
Языки Узбекский, русский, английский
Function calling Telegram, Calendar, Linear, Web
Стоимость ~$15 за полный прогон

Модель работает локально на обычном Mac через Ollama. Отвечает на узбекском, русском и английском. Вызывает инструменты через tool_calls. Полный pipeline отлажен и воспроизводим.

Экономика · Кастомные LLM

Сравнение стоимости

GPT-4o API Fine-tuned 14B (self-hosted) Fine-tuned 14B (cloud)
Стоимость $2.50–15/1M токенов $0 (hardware costs) $0.30–0.50/1M
Данные Уходят в OpenAI Остаются у вас На вашем сервере
Кастомизация Только промпт Полная Полная
Latency ~500 мс ~100 мс (GPU) ~200 мс

Стоимость обучения

  • QLoRA (рекомендуем): обновляет 0.1% параметров, 10–16 ГБ VRAM — $2–8 за прогон
  • LoRA: обновляет 0.1–1% параметров, 24–48 ГБ VRAM — $50–200
  • Full fine-tuning: все параметры, ~200 ГБ VRAM — $2,000–5,000

Сколько пользователей обслужит 1 GPU

GPU Покупка Аренда/час Пользователей
RTX 4090 $1,600–2,000 $0.34–0.44 30–60
L40S $7,000–10,000 $0.59–1.24 50–100
A100 80GB $10,000–15,000 $0.67–2.06 80–150
H100 SXM $27,000–40,000 $1.99–6.16 150–300

Один RTX 4090 за $1,600 обслуживает 30–60 пользователей одновременно. Для стартапа или пилотного проекта — достаточно одной карточки.

Roadmap · От прототипа к продукту

СДЕЛАНО

Прототип

MILA-LLM-14B v0.1 на базе Qwen3-14B. QLoRA, 12 примеров, GGUF 8.4 ГБ, работает через Ollama. Стоимость: ~$15.

1–3 МЕСЯЦА

Валидация

5,000–10,000 обучающих примеров. Бенчмарки: FC accuracy, Uzbek QA, MMLU. A/B тестирование с base моделью. Публикация на HuggingFace. Первые пилотные клиенты.

3–6 МЕСЯЦЕВ

Масштабирование

Full fine-tuning на государственном GPU-кластере (NVIDIA Blackwell B200). Расширенный языковой корпус. DPO alignment. Варианты модели: 4B (edge), 14B (standard), 32B (premium).

6–12 МЕСЯЦЕВ

Продакшн

4–8 GPU в Ташкенте, inference API, 10+ клиентов. UzbekMMLU бенчмарк. Партнёрство с Минцифры. Inference как сервис для бизнеса.

Что нужно для следующего этапа

  • GPU-кластер — для full fine-tuning и inference (доступен через гос. программу или грант)
  • Языковой корпус — узбекский текст: новости, книги, документы (проект Минцифры)
  • Грант $15–40K — на ML-инженеров, расширение данных, инфраструктуру

MILA LLM — open-source модель для Узбекистана

Работающий прототип. Полный pipeline. Apache 2.0 лицензия.

Готовы к партнёрству: государство, бизнес, инвесторы, ML-инженеры.

Why Everyone Is Building Their Own LLM

2024–2026 became the era of national language models. Governments worldwide realized: dependence on foreign AI systems is a strategic risk. Data leaves the country, models don’t understand local context, and infrastructure belongs to foreign companies.

Who Has Already Built One

Country Project Parameters Budget
UAE Falcon (TII) 7B–180B $50–200M
Saudi Arabia ALLaM (HUMAIN) 34B Part of $100B HUMAIN
France Mistral AI up to 123B $3B+ raised
Turkey Kumru AI (TUBITAK) 14B $10–50M
Kazakhstan KAZ-LLM (ISSAI) 8B + 70B ~$5–20M

Uzbekistan is the only major Central Asian country without its own language model. Yet in October 2024, the President signed an AI development strategy (PP-358), and the Ministry of Digital Technologies announced work on a national model. The goal: $1.5B in AI products by 2030.

Who Needs a Custom LLM

Not just governments. A custom model solves specific business problems that can’t be addressed through OpenAI or Anthropic APIs alone.

🏛

Government

Data sovereignty. Citizen requests, medical records, court cases — everything stays within the country. Public services in the national language without foreign API dependency.

🏦

Banks & Telecom

Compliance and security. Customer data doesn’t go to OpenAI. Chatbots understand local context: currency, legislation, products. Regulators require local storage.

💻

IT Companies

Specialized agents. A model trained on your APIs: Telegram, CRM, databases. Tool calling without middleware layers. Full control over behavior.

🎓

Education

Local context adaptation. An AI tutor that knows the Uzbek school curriculum, explains in the native language, and respects cultural nuances.

🚀

Startups

80–90% cost savings. GPT-4o costs $2.50–15 per million tokens. A self-hosted 14B model on one GPU: $0.30–0.50/1M. At scale, that’s tens of thousands of dollars in savings.

🎥

Content & Media

Native language generation. GPT-4o and Claude write mediocre Uzbek. A custom model means correct grammar, style, and cultural code.

When You Don’t Need Your Own Model

An honest analysis. A custom LLM isn’t a silver bullet. Here’s when you’re better off using existing APIs:

01

You Need GPT-4o / Claude Level Quality

If the task demands frontier quality — complex reasoning, senior-level code generation, multimodality — a 14B model won’t replace a 200B+ model. Use APIs and RAG instead.

02

You Have No Training Data

Fine-tuning without quality data is pointless. You need at least 500–1,000 labeled examples for basic results, 5,000+ for quality output. If you don’t have data — start with prompt engineering.

03

Budget Under $500

Fine-tuning itself costs $2–8 per run. But data prep, testing, iterations, and infrastructure add up to $500–1,200 for a prototype. If budget is tight — use APIs with optimization.

Rule of thumb: start with APIs (Anthropic, OpenAI) + RAG. When you hit cost, privacy, or language quality walls — then fine-tune.

What We Built · MILA LLM v0.1

We went through the entire journey from idea to working model. Here’s a step-by-step breakdown of our case.

BASE MODEL

Qwen3-14B

Why this model: Apache 2.0 license (complete freedom), native support for 119 languages including Uzbek, 14 billion parameters — enough for quality responses, fits on a single GPU.

METHOD

QLoRA Fine-Tuning

We freeze all 8.8 billion parameters, compress to 4-bit. Add small trainable adapters — 256M parameters (2.91% of total). Train only those. Result: the model learns new things without forgetting the old.

DATA

12 Custom Examples

For proof-of-concept: 8 function calling examples (Telegram, Calendar, Linear, Convex), 2 Uzbek knowledge examples, 2 domain knowledge examples. ChatML format. Language mix: Uzbek (Latin script), Russian, English.

INFRA

RunPod A100, ~20 Minutes

NVIDIA A100 80GB on RunPod. Full cycle: pod creation, data upload, training (18 seconds for 12 examples), LoRA adapter merging, GGUF quantization, downloading results. Total: ~$15.

Result

Parameter Value
GGUF size 8.4 GB (Q4_K_M)
Inference ollama run mila-llm:14b
Languages Uzbek, Russian, English
Function calling Telegram, Calendar, Linear, Web
Cost ~$15 for full run

The model runs locally on a regular Mac via Ollama. Responds in Uzbek, Russian, and English. Calls tools via tool_calls. The full pipeline is tested and reproducible.

Economics · Custom LLMs

Cost Comparison

GPT-4o API Fine-tuned 14B (self-hosted) Fine-tuned 14B (cloud)
Cost $2.50–15/1M tokens $0 (hardware costs) $0.30–0.50/1M
Data Goes to OpenAI Stays with you On your server
Customization Prompt only Full Full
Latency ~500 ms ~100 ms (GPU) ~200 ms

Training Costs

  • QLoRA (recommended): updates 0.1% of parameters, 10–16 GB VRAM — $2–8 per run
  • LoRA: updates 0.1–1% of parameters, 24–48 GB VRAM — $50–200
  • Full fine-tuning: all parameters, ~200 GB VRAM — $2,000–5,000

Users per GPU

GPU Purchase Rent/hour Concurrent users
RTX 4090 $1,600–2,000 $0.34–0.44 30–60
L40S $7,000–10,000 $0.59–1.24 50–100
A100 80GB $10,000–15,000 $0.67–2.06 80–150
H100 SXM $27,000–40,000 $1.99–6.16 150–300

A single RTX 4090 at $1,600 serves 30–60 concurrent users. For a startup or pilot project — one card is enough.

Roadmap · From Prototype to Product

DONE

Prototype

MILA-LLM-14B v0.1 based on Qwen3-14B. QLoRA, 12 examples, GGUF 8.4 GB, runs via Ollama. Cost: ~$15.

1–3 MONTHS

Validation

5,000–10,000 training examples. Benchmarks: FC accuracy, Uzbek QA, MMLU. A/B testing against base model. HuggingFace publication. First pilot clients.

3–6 MONTHS

Scaling

Full fine-tuning on government GPU cluster (NVIDIA Blackwell B200). Expanded language corpus. DPO alignment. Model variants: 4B (edge), 14B (standard), 32B (premium).

6–12 MONTHS

Production

4–8 GPUs in Tashkent, inference API, 10+ clients. UzbekMMLU benchmark. Ministry of Digital Technologies partnership. Inference as a service for business.

What’s Needed for the Next Stage

  • GPU cluster — for full fine-tuning and inference (available through government programs or grants)
  • Language corpus — Uzbek text: news, books, documents (Ministry project)
  • Grant $15–40K — for ML engineers, data expansion, infrastructure

MILA LLM — Open-Source Model for Uzbekistan

Working prototype. Complete pipeline. Apache 2.0 license.

Ready for partnerships: government, business, investors, ML engineers.