ML-хостинг

ML-хостинг — специализированная хостинговая инфраструктура для задач машинного обучения: обучения (training), дообучения (fine-tuning) и развёртывания (inference) нейросетевых и статистических моделей. Ключевое отличие от обычного хостинга — наличие GPU или TPU, высокопропускные NVMe-накопители и специализированное программное окружение (CUDA, cuDNN, PyTorch, TensorFlow).

Как работает ML-хостинг

ML-хостинг делится на два режима: training и inference. При обучении модели вычисления запускаются на GPU-кластере (NVIDIA A100 80 GB, H100 80 GB или потребительских RTX 4090). Данные загружаются с быстрого NVMe-хранилища; для датасетов более 1 ТБ используются параллельные файловые системы типа Lustre или BeeGFS. Для распределённого обучения на нескольких GPU применяется InfiniBand с пропускной способностью 200–400 Гбит/с для синхронизации градиентов (AllReduce). Обученная модель сохраняется в формате ONNX, SafeTensors или SavedModel.

При inference GPU делит вычислительные ресурсы между параллельными запросами через динамический batching. NVIDIA Triton Inference Server управляет очередью запросов, версиями моделей и мониторингом через Prometheus. Для небольших моделей (BERT-base, distilbert) inference возможен на CPU — это дешевле и без задержки GPU-инициализации.

История

До 2012 года ML-вычисления выполнялись преимущественно на CPU. В 2012 году команда Алекса Крижевского обучила AlexNet на двух GPU NVIDIA GTX 580 за 5–6 дней, показав принципиальное преимущество GPU. AWS запустила GPU-инстансы P2 (NVIDIA K80) в 2016 году. Google представила TPU v1 в 2016 году и открыла облачный доступ в 2018. В 2022–2023 годах взрывной рост LLM (GPT-4, LLaMA 2, Mistral) создал острый дефицит GPU и рынок специализированного GPU-хостинга. Цена A100 в облаке: $2–4/час на AWS p4d, $1,5–2/час на Lambda Labs.

Типы ML-хостинга

Managed ML Platform — Google Vertex AI, AWS SageMaker, Azure ML: полный цикл от подготовки данных до деплоя. Автоматическое масштабирование. Дорого, но минимальная операционная нагрузка.
GPU Cloud — Lambda Labs, CoreWeave, Vast.ai, RunPod: почасовая аренда GPU без managed-сервисов. Дешевле на 40–70% относительно AWS/GCP для чистых GPU-задач.
Выделенный GPU-сервер — физический сервер с 4–8 GPU для долгосрочных проектов. Окупается при загрузке более 50% по сравнению с почасовой арендой.
Inference API — Hugging Face Inference Endpoints, Replicate, Groq: развёртывание готовых моделей без управления инфраструктурой. Оплата за токены или запросы.
Edge inference — выполнение квантизированных моделей на CPU VPS без GPU. Llama.cpp позволяет запускать Llama 3 8B на VPS с 16 ГБ RAM (~5–10 токенов/с).

На что обращать внимание

При выборе ML-хостинга: тип и объём GPU-памяти (VRAM) — модель целиком должна помещаться в VRAM (LLaMA 3 70B = 140 ГБ в FP16, требует 2× A100 80 GB); ширина полосы NVLink между GPU (600 ГБ/с для NVLink 3.0 vs 64 ГБ/с для PCIe 4.0 — критично для distributed training); тип хранилища (NVMe обязателен для датасетов более 100 ГБ); наличие CUDA нужной версии (PyTorch 2.x требует CUDA 11.8+); сетевая задержка до хранилища датасетов. Для inference-задач с требованиями к задержке критичен географически близкий дата-центр и возможность размещения endpoint рядом с пользователями.

GPU vs CPU для ML задач

NVIDIA A100 80GB — наиболее распространённый GPU для обучения больших моделей в 2024 году. Пропускная способность памяти 2 ТБ/с vs 50-100 ГБ/с у серверного CPU. Матричные операции (умножение матриц) — основа нейросетей — GPU выполняет в 100-1000 раз быстрее CPU. H100 (следующее поколение) в 2-3 раза быстрее A100 для трансформерных моделей. RTX 4090 (потребительский) — доступная альтернатива для инференса небольших моделей, в 5-10 раз дешевле A100 в аренде.

Провайдеры ML-хостинга

Провайдер	GPU	Специализация	Цена H100/час
AWS SageMaker	A100, H100	MLOps платформа	$32+
RunPod	RTX 4090, A100	Дешёвый инференс	$2-8
Lambda Labs	A100, H100	On-demand GPU	$2-3 (A100)
Vast.ai	Разные	Marketplace GPU	$1-5
Яндекс Cloud	A100	Российские данные	От ₽300/час

Инференс vs обучение: разные требования

Обучение (training) больших языковых моделей требует сотен GPU и недель работы — это задача для крупных компаний с бюджетами в миллионы долларов. Дообучение (fine-tuning) на собственных данных занимает часы/дни на 1-8 GPU. Инференс (запросы к обученной модели) — основная задача для бизнеса: запуск LLM (LLaMA 70B) требует минимум 40 ГБ VRAM (4x RTX 4090 или 1x A100 80GB), а с квантизацией (4-bit GGUF) — 8-16 ГБ VRAM.

Оптимизация ML-инференса

Ускорение inference без смены железа: квантизация модели (FP16 -> INT8 -> INT4) снижает потребление VRAM в 2–4 раза с незначительной потерей качества (perplexity +0,5–2%). TensorRT компилирует PyTorch-модели в оптимизированный engine для конкретного GPU — ускорение inference до 2–5x. vLLM (PagedAttention) эффективно управляет KV-cache для LLM-инференса — throughput в 5–24 раза выше наивной реализации. Flash Attention 2 снижает потребление памяти при attention-вычислениях и ускоряет обучение трансформеров на 2–4x.