Термин · Глоссарий B2B-ПО

Online Inference (Online Inference)

Q: Чем Online Inference отличается от Batch Inference?

Online – предсказание формируется немедленно на один запрос, требует постоянной инфраструктуры. Batch – пакетные предсказания для многих объектов по расписанию, значительно дешевле.

Q: Какая допустимая задержка для Online Inference?

Зависит от задачи: антифрод – < 50 мс; рекомендации – < 200 мс; NLP-чат-боты – < 2 сек. Задержки выше критических порогов снижают конверсию и UX.

Q: Как масштабировать Online Inference под пиковую нагрузку?

Горизонтальное масштабирование через auto-scaling (KServe, Kubernetes HPA). Кэширование популярных запросов. Очереди с асинхронной обработкой для сглаживания пиков.

Q: Что такое dynamic batching?

Техника группировки нескольких входящих запросов в один батч для GPU-инференса. Снижает стоимость при сохранении приемлемой latency – Triton Inference Server поддерживает автоматический dynamic batching.

Q: Нужен ли GPU для Online Inference?

Не обязательно. Небольшие модели (BERT-base, лёгкие классификаторы) эффективно работают на CPU. GPU необходим для больших моделей (LLM) и требований к latency < 100 мс.

Режим работы ML-модели, при котором предсказание формируется в реальном времени по одному запросу с минимальной задержкой (latency). Применяется в рекомендательных системах, антифроде, голосовых ассистентах – везде, где требуется немедленный ответ.

Буква «O» В категориях: 3 Платформ: 6+

Введение

Online Inference (онлайн-инференс) – режим работы ML-модели, при котором предсказание формируется немедленно в ответ на входящий запрос, как правило в течение миллисекунд или секунд. Модель развёртывается как постоянно работающий сервис, принимающий запросы через REST или gRPC API. В отличие от Batch Inference, онлайн-режим требует поддержания постоянной инфраструктуры и оптимизации под минимальную задержку.

История и контекст

Online Inference стал массовым явлением с распространением ML в потребительских интернет-сервисах в 2010-х годах. Netflix, Amazon, Spotify – первые компании, внедрившие real-time ML-инференс для рекомендательных систем в масштабе. С 2015 года появились специализированные платформы для сервинга моделей: TensorFlow Serving, TorchServe, Triton Inference Server (NVIDIA), KServe. Сегодня online inference является стандартной частью любой production ML-системы.

Как это работает

Типичная архитектура Online Inference Service:

Preprocessing – получение признаков из Feature Store или вычисление на лету: нормализация, токенизация, эмбеддинги.
Model serving – запуск модели (GPU/CPU) и получение вектора предсказаний или скора.
Postprocessing – преобразование вывода модели в бизнес-ответ (ранжирование, порог, форматирование).
Logging – асинхронная запись запроса и предсказания для мониторинга и последующей переразметки.

Ключевые метрики онлайн-инференса: P95 latency (задержка на 95-м перцентиле), throughput (запросов в секунду), availability (доступность), cost per inference.

Оптимизации для снижения latency

Квантизация модели (INT8, FP16) – снижает вычислительную нагрузку.
Batching с динамической группировкой запросов – амортизация накладных расходов GPU.
Кэширование результатов для повторяющихся запросов.
Model pruning – уменьшение размера модели без значительной потери качества.

Где применяется

Рекомендательные системы – real-time ранжирование товаров/контента при загрузке страницы.
Антифрод – скоринг каждой транзакции в момент её совершения (задержка <50 мс).
NLP-сервисы – классификация текста, NER, генерация ответов в чат-ботах.
Компьютерное зрение – детектирование объектов в видеопотоке реального времени.
Голосовые ассистенты – распознавание речи и синтез ответа в диалоговом режиме.

Преимущества и ограничения

Преимущества: немедленный ответ пользователю; возможность использования актуальных данных в момент запроса; поддержка интерактивных сценариев.

Ограничения: значительно дороже Batch Inference – требует постоянно работающей инфраструктуры (GPU-серверы); сложная инженерия для обеспечения SLA по latency; масштабирование под пиковую нагрузку требует auto-scaling.

Связь с другими понятиями

Online Inference противопоставляется Batch Inference: пакетный режим дешевле, но не подходит для реального времени. Prediction Service – конкретная реализация Online Inference как микросервиса. Feature Store обеспечивает low-latency доступ к признакам для онлайн-инференса. Мониторинг модели логирует каждый запрос и ответ для отслеживания качества. KubeFlow KServe – одна из платформ для развёртывания Online Inference сервисов.

Понятия из глоссария Цифрового маркетплейса, которые часто встречаются вместе с термином «Online Inference».

Платформы класса «Online Inference»

Решения из каталога Цифрового маркетплейса, относящиеся к этому классу ПО. Карточки ведут на полные карточки платформ с тарифами, обзорами и кейсами внедрения.

НЕ

Нейромодуль

Нейромодуль — программный продукт класса платформ ИИ и нейротехнологий, разработанный ООО «СИТ» (ИНН 667042485...

Цена по запросу

Подробнее →

SDP DataLab

Машинное обучение

SDP DataLab — ML-платформа в составе SberData Platform от СберТех для разработки, обучения и развёртывания мод...

Цена по запросу

★ 4.7

Подробнее →

OneRPA платформа роботизации рутинных процессов

Данные и аналитика

Платформа RPA

Цена по запросу

Подробнее →

Lasvilla Искусственный Интеллект В ЖКХ

Чат Бот это удобное решение для взаимодействия с Вашими абонентами.

Цена по запросу

Подробнее →

БАРС.Мониторинг-ЖКХ

Данные и аналитика

Информационно-аналитическая система для мониторинга и управления жилищно-коммунальным хозяйством на региональн...

Цена по запросу

★ 5.0

Подробнее →

Tarantool Data Grid

Данные и аналитика

Tarantool — высокопроизводительная СУБД с поддержкой in-memory и дискового хранения данных, обеспечивающая ACI...

Цена по запросу

★ 4.8

Подробнее →

Категории каталога

Разделы каталога Цифрового маркетплейса, в которые входят решения, использующие «Online Inference».

ML-платформы Платформы ИИ/GenAI LLM-платформы и инференс

Где применяется

Отрасли, в которых «Online Inference» используется на практике. Откройте отраслевой раздел Цифрового маркетплейса, чтобы увидеть подходящие решения, кейсы и новости.

Цифровые услуги (B2C, e-commerce, онлайн-сервисы)

Финансы и финтех

Торговля (оптовая и розничная)

Частые вопросы про Online Inference

Чем Online Inference отличается от Batch Inference?

Online – предсказание формируется немедленно на один запрос, требует постоянной инфраструктуры. Batch – пакетные предсказания для многих объектов по расписанию, значительно дешевле.

Какая допустимая задержка для Online Inference?

Зависит от задачи: антифрод – < 50 мс; рекомендации – < 200 мс; NLP-чат-боты – < 2 сек. Задержки выше критических порогов снижают конверсию и UX.

Как масштабировать Online Inference под пиковую нагрузку?

Горизонтальное масштабирование через auto-scaling (KServe, Kubernetes HPA). Кэширование популярных запросов. Очереди с асинхронной обработкой для сглаживания пиков.

Что такое dynamic batching?

Техника группировки нескольких входящих запросов в один батч для GPU-инференса. Снижает стоимость при сохранении приемлемой latency – Triton Inference Server поддерживает автоматический dynamic batching.

Нужен ли GPU для Online Inference?

Не обязательно. Небольшие модели (BERT-base, лёгкие классификаторы) эффективно работают на CPU. GPU необходим для больших моделей (LLM) и требований к latency < 100 мс.

Введение

История и контекст

Как это работает

Оптимизации для снижения latency

Где применяется

Преимущества и ограничения

Связь с другими понятиями

Связанные термины

Платформы класса «Online Inference»

Нейромодуль

SDP DataLab

OneRPA платформа роботизации рутинных процессов

Lasvilla Искусственный Интеллект В ЖКХ

БАРС.Мониторинг-ЖКХ

Tarantool Data Grid

Категории каталога

Где применяется

Частые вопросы про Online Inference

Чем Online Inference отличается от Batch Inference?

Какая допустимая задержка для Online Inference?

Как масштабировать Online Inference под пиковую нагрузку?

Что такое dynamic batching?

Нужен ли GPU для Online Inference?

Контур Диадок: Взаиморасчеты

Искусственный интеллект в медицине

Контур Маркет + ОФД — интегрированная платформа для розничной торговли