Хостинг для AI-моделей — серверная инфраструктура, специализированная для развёртывания и запуска моделей машинного обучения в продакшн. Ключевое отличие от обычного хостинга — наличие GPU, достаточного объёма VRAM и оптимизированного стека для ML-inference (вывода результатов обученных моделей).
Как работает
AI-хостинг работает по двум основным паттернам:
- Managed inference — провайдер предоставляет API к готовым моделям (OpenAI, Anthropic, YandexGPT). Разработчик не управляет инфраструктурой, платит за токены или запросы.
- Self-hosted inference — арендуем GPU-сервер, разворачиваем модель самостоятельно. Больше контроля, ниже стоимость при высокой нагрузке, соответствие требованиям по локализации данных.
Стек для self-hosted inference:
- Ollama — простой запуск LLM локально, REST API из коробки
- vLLM — высокопроизводительный движок с Continuous Batching, PagedAttention
- TGI (Text Generation Inference) — движок от Hugging Face
- Triton Inference Server — enterprise-решение от NVIDIA
Требования к серверу зависят от размера модели. Правило: FP16 требует 2 байта на параметр. LLM 7B ≈ 14 ГБ VRAM, 13B ≈ 26 ГБ, 70B ≈ 140 ГБ (нужна multi-GPU конфигурация). Квантизация (INT4/INT8) снижает требования в 2–4 раза с незначительной потерей качества.
История
До 2022 года AI-модели в продакшн разворачивались преимущественно в облаках AWS SageMaker или Google Cloud Vertex AI. Выход LLaMA (Meta, 2023) и последующая волна открытых моделей сделали self-hosted inference доступным для малых команд. Рост рынка GPU-хостинга в 2023–2024 напрямую связан со спросом на инфраструктуру для LLM.
Выбор инфраструктуры
Для продакшн AI-сервиса важны: latency первого токена (TTFT), throughput (токенов/секунду), стоимость инфраструктуры. Managed API выгоден при небольшом объёме запросов — нет операционных расходов. Self-hosted окупается при высокой нагрузке или требованиях конфиденциальности (данные не покидают сервер).
На что обращать внимание
Мониторинг AI-сервиса включает стандартные метрики (CPU, RAM, GPU utilization) и специфические: TTFT, tokens/second, queue length, error rate. Grafana с кастомными дашбордами позволяет отслеживать производительность inference в реальном времени. Docker + NVIDIA Container Toolkit — стандарт деплоя ML-сервисов, обеспечивает воспроизводимость и изоляцию окружения. Nginx как reverse proxy перед inference-сервером добавляет rate limiting, SSL termination и логирование запросов.
Оптимизация стоимости AI-хостинга
Inference LLM — дорогое удовольствие: NVIDIA A100 в облаке стоит $2–3/час. Для снижения затрат:
- Квантизация (GGUF, AWQ, GPTQ) — снижает требования к VRAM в 2–4 раза с минимальной потерей качества
- Batching — vLLM и TGI группируют несколько запросов в один GPU-проход, увеличивая throughput
- Spot/Preemptible инстансы — дешевле на 60–70%, подходят для задач без требований к постоянной доступности (обучение, batch inference)
- CPU inference — небольшие модели (до 7B с квантизацией) работают на CPU приемлемо для неинтерактивных задач
Для небольших команд Яндекс.Облако предоставляет GPU-инстансы с посуточной тарификацией. Сравнивайте стоимость self-hosted с managed API: при малом объёме запросов managed дешевле за счёт отсутствия операционных расходов.