Hosting для AI-моделей

Хостинг для AI-моделей — серверная инфраструктура, специализированная для развёртывания и запуска моделей машинного обучения в продакшн. Ключевое отличие от обычного хостинга — наличие GPU, достаточного объёма VRAM и оптимизированного стека для ML-inference (вывода результатов обученных моделей).

Как работает

AI-хостинг работает по двум основным паттернам:

Managed inference — провайдер предоставляет API к готовым моделям (OpenAI, Anthropic, YandexGPT). Разработчик не управляет инфраструктурой, платит за токены или запросы.
Self-hosted inference — арендуем GPU-сервер, разворачиваем модель самостоятельно. Больше контроля, ниже стоимость при высокой нагрузке, соответствие требованиям по локализации данных.

Стек для self-hosted inference:

Ollama — простой запуск LLM локально, REST API из коробки
vLLM — высокопроизводительный движок с Continuous Batching, PagedAttention
TGI (Text Generation Inference) — движок от Hugging Face
Triton Inference Server — enterprise-решение от NVIDIA

Требования к серверу зависят от размера модели. Правило: FP16 требует 2 байта на параметр. LLM 7B ≈ 14 ГБ VRAM, 13B ≈ 26 ГБ, 70B ≈ 140 ГБ (нужна multi-GPU конфигурация). Квантизация (INT4/INT8) снижает требования в 2–4 раза с незначительной потерей качества.

История

До 2022 года AI-модели в продакшн разворачивались преимущественно в облаках AWS SageMaker или Google Cloud Vertex AI. Выход LLaMA (Meta, 2023) и последующая волна открытых моделей сделали self-hosted inference доступным для малых команд. Рост рынка GPU-хостинга в 2023–2024 напрямую связан со спросом на инфраструктуру для LLM.

Выбор инфраструктуры

Для продакшн AI-сервиса важны: latency первого токена (TTFT), throughput (токенов/секунду), стоимость инфраструктуры. Managed API выгоден при небольшом объёме запросов — нет операционных расходов. Self-hosted окупается при высокой нагрузке или требованиях конфиденциальности (данные не покидают сервер).

На что обращать внимание

Мониторинг AI-сервиса включает стандартные метрики (CPU, RAM, GPU utilization) и специфические: TTFT, tokens/second, queue length, error rate. Grafana с кастомными дашбордами позволяет отслеживать производительность inference в реальном времени. Docker + NVIDIA Container Toolkit — стандарт деплоя ML-сервисов, обеспечивает воспроизводимость и изоляцию окружения. Nginx как reverse proxy перед inference-сервером добавляет rate limiting, SSL termination и логирование запросов.

Оптимизация стоимости AI-хостинга

Inference LLM — дорогое удовольствие: NVIDIA A100 в облаке стоит $2–3/час. Для снижения затрат:

Квантизация (GGUF, AWQ, GPTQ) — снижает требования к VRAM в 2–4 раза с минимальной потерей качества
Batching — vLLM и TGI группируют несколько запросов в один GPU-проход, увеличивая throughput
Spot/Preemptible инстансы — дешевле на 60–70%, подходят для задач без требований к постоянной доступности (обучение, batch inference)
CPU inference — небольшие модели (до 7B с квантизацией) работают на CPU приемлемо для неинтерактивных задач

Для небольших команд Яндекс.Облако предоставляет GPU-инстансы с посуточной тарификацией. Сравнивайте стоимость self-hosted с managed API: при малом объёме запросов managed дешевле за счёт отсутствия операционных расходов.

Как работает

История

Выбор инфраструктуры

На что обращать внимание

Оптимизация стоимости AI-хостинга

Другие термины