Термин · Глоссарий B2B-ПО

Prediction Service (Prediction Service)

Микросервис, инкапсулирующий ML-модель и предоставляющий предсказания внешним приложениям через API (REST или gRPC). Включает препроцессинг, инференс и постпроцессинг за единым интерфейсом, скрывая детали реализации модели от потребителей.

Буква «P» В категориях: 3 Платформ: 6+

Введение

Prediction Service (сервис предсказаний) – микросервис, предоставляющий ML-модель как сервис через API для получения предсказаний от внешних приложений. Это ключевой компонент production ML-системы: именно Prediction Service обеспечивает доступность модели для бизнес-приложений, скрывая за унифицированным API детали реализации (фреймворк, версия модели, инфраструктура).

Prediction Service может обслуживать Online Inference (синхронные запросы) или Batch Inference (асинхронные задачи) – или оба режима через разные эндпоинты.

История и контекст

Первые Prediction Service появились в крупных компаниях (Google, Amazon, Facebook) в 2012–2015 годах как часть внутренних ML-платформ. TensorFlow Serving (Google, 2016) стал первым популярным опенсорс-инструментом для стандартизированного развёртывания TF-моделей. Позже появились TorchServe (PyTorch), ONNX Runtime Server, NVIDIA Triton Inference Server, KServe (Kubeflow). Сегодня cloud-провайдеры предлагают managed prediction services: AWS SageMaker Endpoints, GCP Vertex AI Endpoints, Azure ML Online Endpoints.

Как это работает

Архитектура Prediction Service включает:

  • API Gateway – принимает запросы, валидирует схему входных данных, аутентифицирует клиентов.
  • Preprocessing Handler – нормализация, токенизация, получение признаков из Feature Store.
  • Model Runtime – исполнение модели (TF Serving, TorchServe, ONNX Runtime, vLLM для LLM).
  • Postprocessing Handler – преобразование raw output модели в бизнес-ответ (JSON с метками, скорами).
  • Observability – логирование запрос/ответ, метрики latency/throughput в Prometheus, трассировка в OpenTelemetry.

Паттерны развёртывания: Canary deployment – постепенное переключение трафика на новую версию; Shadow mode – новая модель получает трафик, но её ответы не используются (только логируются для оценки); A/B deployment – параллельное обслуживание двух версий для сравнения.

Где применяется

  • E-commerce – сервис ранжирования поиска, сервис персональных рекомендаций.
  • Банки – сервис скоринга кредитных заявок в реальном времени.
  • Медицина – сервис анализа медицинских изображений (КТ, МРТ) для клинических систем.
  • NLP-платформы – сервис классификации текста, NER, генерации для корпоративных приложений.
  • Промышленность – сервис предиктивной диагностики оборудования по данным датчиков.

Преимущества и ограничения

Преимущества: технологическая независимость клиентов от деталей ML; возможность обновлять модель без изменения клиентов; стандартный контракт (API schema); независимое масштабирование.

Ограничения: сетевые накладные расходы увеличивают latency; сложность управления версиями API и обратной совместимости; при высоком трафике нужна сложная инфраструктура (load balancer, circuit breaker, rate limiter).

Связь с другими понятиями

Online Inference и Batch Inference – два режима работы, которые может поддерживать Prediction Service. Мониторинг модели получает данные из логов Prediction Service. A/B-тест модели реализуется на уровне Prediction Service через traffic routing. Feature Store предоставляет признаки Prediction Service в real-time. KServe (KubeFlow) – платформа для развёртывания Prediction Service на Kubernetes.

Понятия из глоссария Цифрового маркетплейса, которые часто встречаются вместе с термином «Prediction Service».

Платформы класса «Prediction Service»

Решения из каталога Цифрового маркетплейса, относящиеся к этому классу ПО. Карточки ведут на полные карточки платформ с тарифами, обзорами и кейсами внедрения.

Нейромодуль — программный продукт класса платформ ИИ и нейротехнологий, разработанный ООО «СИТ» (ИНН 667042485...
Цена по запросу
Подробнее →
SD

SDP DataLab

Машинное обучение
SDP DataLab — ML-платформа в составе SberData Platform от СберТех для разработки, обучения и развёртывания мод...
Цена по запросу
★ 4.7
Подробнее →
БАРС.Мониторинг-ЖКХ

БАРС.Мониторинг-ЖКХ

Данные и аналитика
Информационно-аналитическая система для мониторинга и управления жилищно-коммунальным хозяйством на региональн...
Цена по запросу
★ 5.0
Подробнее →
Tarantool Data Grid

Tarantool Data Grid

Данные и аналитика
Tarantool — высокопроизводительная СУБД с поддержкой in-memory и дискового хранения данных, обеспечивающая ACI...
Цена по запросу
★ 4.8
Подробнее →

Категории каталога

Разделы каталога Цифрового маркетплейса, в которые входят решения, использующие «Prediction Service».

Где применяется

Отрасли, в которых «Prediction Service» используется на практике. Откройте отраслевой раздел Цифрового маркетплейса, чтобы увидеть подходящие решения, кейсы и новости.

Частые вопросы про Prediction Service

Чем Prediction Service отличается от обычного REST API?

Prediction Service специализирован под ML: управление версиями моделей, batching, canary deployment, специфический мониторинг (drift, quality degradation), интеграция с Feature Store и Model Registry.

Что такое shadow mode в Prediction Service?

Режим, в котором новая версия модели получает копию реального трафика, но её предсказания не используются. Позволяет оценить качество новой модели на production-данных без риска.

Как обеспечить backward compatibility при обновлении модели?

Версионирование API эндпоинтов (/v1/predict, /v2/predict). Canary deployment с постепенным переключением трафика. Schema validation входных данных.

Что использовать для сервинга LLM?

vLLM, TGI (Text Generation Inference от HuggingFace), TensorRT-LLM (NVIDIA). Специализированы под PagedAttention и continuous batching – многократно повышают throughput LLM.

Как мониторить Prediction Service в production?

Latency P95/P99 (Prometheus), error rate, throughput. Асинхронное логирование запросов и ответов. Периодическое сравнение предсказаний с ground truth для quality monitoring.