Термин · Глоссарий B2B-ПО

Prediction Service (Prediction Service)

Микросервис, инкапсулирующий ML-модель и предоставляющий предсказания внешним приложениям через API (REST или gRPC). Включает препроцессинг, инференс и постпроцессинг за единым интерфейсом, скрывая детали реализации модели от потребителей.

Буква «P» В категориях: 3 Платформ: 6+

Введение

Prediction Service (сервис предсказаний) – микросервис, предоставляющий ML-модель как сервис через API для получения предсказаний от внешних приложений. Это ключевой компонент production ML-системы: именно Prediction Service обеспечивает доступность модели для бизнес-приложений, скрывая за унифицированным API детали реализации (фреймворк, версия модели, инфраструктура).

Prediction Service может обслуживать Online Inference (синхронные запросы) или Batch Inference (асинхронные задачи) – или оба режима через разные эндпоинты.

История и контекст

Первые Prediction Service появились в крупных компаниях (Google, Amazon, Facebook) в 2012–2015 годах как часть внутренних ML-платформ. TensorFlow Serving (Google, 2016) стал первым популярным опенсорс-инструментом для стандартизированного развёртывания TF-моделей. Позже появились TorchServe (PyTorch), ONNX Runtime Server, NVIDIA Triton Inference Server, KServe (Kubeflow). Сегодня cloud-провайдеры предлагают managed prediction services: AWS SageMaker Endpoints, GCP Vertex AI Endpoints, Azure ML Online Endpoints.

Как это работает

Архитектура Prediction Service включает:

API Gateway – принимает запросы, валидирует схему входных данных, аутентифицирует клиентов.
Preprocessing Handler – нормализация, токенизация, получение признаков из Feature Store.
Model Runtime – исполнение модели (TF Serving, TorchServe, ONNX Runtime, vLLM для LLM).
Postprocessing Handler – преобразование raw output модели в бизнес-ответ (JSON с метками, скорами).
Observability – логирование запрос/ответ, метрики latency/throughput в Prometheus, трассировка в OpenTelemetry.

Паттерны развёртывания: Canary deployment – постепенное переключение трафика на новую версию; Shadow mode – новая модель получает трафик, но её ответы не используются (только логируются для оценки); A/B deployment – параллельное обслуживание двух версий для сравнения.

Где применяется

E-commerce – сервис ранжирования поиска, сервис персональных рекомендаций.
Банки – сервис скоринга кредитных заявок в реальном времени.
Медицина – сервис анализа медицинских изображений (КТ, МРТ) для клинических систем.
NLP-платформы – сервис классификации текста, NER, генерации для корпоративных приложений.
Промышленность – сервис предиктивной диагностики оборудования по данным датчиков.

Преимущества и ограничения

Преимущества: технологическая независимость клиентов от деталей ML; возможность обновлять модель без изменения клиентов; стандартный контракт (API schema); независимое масштабирование.

Ограничения: сетевые накладные расходы увеличивают latency; сложность управления версиями API и обратной совместимости; при высоком трафике нужна сложная инфраструктура (load balancer, circuit breaker, rate limiter).

Связь с другими понятиями

Online Inference и Batch Inference – два режима работы, которые может поддерживать Prediction Service. Мониторинг модели получает данные из логов Prediction Service. A/B-тест модели реализуется на уровне Prediction Service через traffic routing. Feature Store предоставляет признаки Prediction Service в real-time. KServe (KubeFlow) – платформа для развёртывания Prediction Service на Kubernetes.

Понятия из глоссария Цифрового маркетплейса, которые часто встречаются вместе с термином «Prediction Service».

Платформы класса «Prediction Service»

Решения из каталога Цифрового маркетплейса, относящиеся к этому классу ПО. Карточки ведут на полные карточки платформ с тарифами, обзорами и кейсами внедрения.

НЕ

Нейромодуль

Нейромодуль — программный продукт класса платформ ИИ и нейротехнологий, разработанный ООО «СИТ» (ИНН 667042485...

Цена по запросу

Подробнее →

SDP DataLab

Машинное обучение

SDP DataLab — ML-платформа в составе SberData Platform от СберТех для разработки, обучения и развёртывания мод...

Цена по запросу

★ 4.7

Подробнее →

OneRPA платформа роботизации рутинных процессов

Данные и аналитика

Платформа RPA

Цена по запросу

Подробнее →

Lasvilla Искусственный Интеллект В ЖКХ

Чат Бот это удобное решение для взаимодействия с Вашими абонентами.

Цена по запросу

Подробнее →

БАРС.Мониторинг-ЖКХ

Данные и аналитика

Информационно-аналитическая система для мониторинга и управления жилищно-коммунальным хозяйством на региональн...

Цена по запросу

★ 5.0

Подробнее →

Tarantool Data Grid

Данные и аналитика

Tarantool — высокопроизводительная СУБД с поддержкой in-memory и дискового хранения данных, обеспечивающая ACI...

Цена по запросу

★ 4.8

Подробнее →

Категории каталога

Разделы каталога Цифрового маркетплейса, в которые входят решения, использующие «Prediction Service».

ML-платформы Платформы ИИ/GenAI API менеджмент

Где применяется

Отрасли, в которых «Prediction Service» используется на практике. Откройте отраслевой раздел Цифрового маркетплейса, чтобы увидеть подходящие решения, кейсы и новости.

Цифровые услуги (B2C, e-commerce, онлайн-сервисы)

Здравоохранение и медицина

Финансы и финтех

Частые вопросы про Prediction Service

Чем Prediction Service отличается от обычного REST API?

Prediction Service специализирован под ML: управление версиями моделей, batching, canary deployment, специфический мониторинг (drift, quality degradation), интеграция с Feature Store и Model Registry.

Что такое shadow mode в Prediction Service?

Режим, в котором новая версия модели получает копию реального трафика, но её предсказания не используются. Позволяет оценить качество новой модели на production-данных без риска.

Как обеспечить backward compatibility при обновлении модели?

Версионирование API эндпоинтов (/v1/predict, /v2/predict). Canary deployment с постепенным переключением трафика. Schema validation входных данных.

Что использовать для сервинга LLM?

vLLM, TGI (Text Generation Inference от HuggingFace), TensorRT-LLM (NVIDIA). Специализированы под PagedAttention и continuous batching – многократно повышают throughput LLM.

Как мониторить Prediction Service в production?

Latency P95/P99 (Prometheus), error rate, throughput. Асинхронное логирование запросов и ответов. Периодическое сравнение предсказаний с ground truth для quality monitoring.

Введение

История и контекст

Как это работает

Где применяется

Преимущества и ограничения

Связь с другими понятиями

Связанные термины

Платформы класса «Prediction Service»

Нейромодуль

SDP DataLab

OneRPA платформа роботизации рутинных процессов

Lasvilla Искусственный Интеллект В ЖКХ

БАРС.Мониторинг-ЖКХ

Tarantool Data Grid

Категории каталога

Где применяется

Частые вопросы про Prediction Service

Чем Prediction Service отличается от обычного REST API?

Что такое shadow mode в Prediction Service?

Как обеспечить backward compatibility при обновлении модели?

Что использовать для сервинга LLM?

Как мониторить Prediction Service в production?

Контур Экстерн

Искусственный интеллект в медицине

Контур Маркет + ОФД — интегрированная платформа для розничной торговли