Термин · Глоссарий B2B-ПО

KubeFlow (KubeFlow)

Открытая платформа оркестрации ML-рабочих процессов на Kubernetes. Включает Kubeflow Pipelines (DAG-пайплайны), Katib (автоматический подбор гиперпараметров), KServe (сервинг моделей), Training Operator (распределённое обучение на TensorFlow, PyTorch).

Буква «K» В категориях: 3 Платформ: 6+

Введение

KubeFlow – открытая ML-платформа, предназначенная для развёртывания рабочих процессов машинного обучения на Kubernetes. Разработана Google и впервые представлена в 2018 году. Цель KubeFlow – сделать ML-пайплайны масштабируемыми, портативными и воспроизводимыми в cloud-native окружении. Платформа охватывает весь ML-жизненный цикл: от интерактивной разработки в Jupyter Notebook до продуктового развёртывания модели.

История и контекст

KubeFlow возник из внутренних инструментов Google для запуска TensorFlow на Kubernetes. Проект был опенсорсирован в 2018 году и быстро получил поддержку крупных технологических компаний (Microsoft, IBM, Cisco). К 2023 году KubeFlow стал стандартным компонентом MLOps-стека на облачных платформах (AWS EKS, GCP GKE, Azure AKS). KubeFlow v1.8 (2023) принёс обновлённый Python SDK для Katib, упростив настройку экспериментов по подбору гиперпараметров.

Как это работает

KubeFlow – модульная платформа. Ключевые компоненты:

Kubeflow Pipelines – DAG-ориентированная система оркестрации ML-пайплайнов. Каждый шаг (data loading, preprocessing, training, evaluation) оформляется как контейнеризованная операция. SDK на Python позволяет описывать пайплайны декларативно.
Katib – Kubernetes-нативная система AutoML и подбора гиперпараметров. Поддерживает random search, Bayesian optimization, hyperband, Neural Architecture Search (NAS). Фреймворк-агностик: работает с TensorFlow, PyTorch, XGBoost, scikit-learn.
Training Operator – управление распределённым обучением через CRD Kubernetes: TFJob (TensorFlow), PyTorchJob, MXNetJob, XGBoostJob. Автоматически управляет worker/parameter server топологией.
KServe (ранее KFServing) – serverless-сервинг ML-моделей с поддержкой REST/gRPC, autoscaling до нуля, canary-деплоем, предобработкой и постобработкой запросов.
Kubeflow Hub (Model Registry) – централизованный реестр версий моделей и ML-артефактов.

Где применяется

Крупные ML-команды – стандартизация пайплайнов обучения через единую платформу в Kubernetes-кластере.
Распределённое обучение – запуск обучения на GPU-кластерах с автоматическим управлением ресурсами.
AutoML – автоматический подбор архитектур и гиперпараметров через Katib.
Production ML-сервисы – деплой моделей через KServe с autoscaling и version routing.
Multi-cloud MLOps – портативные пайплайны, работающие на любом Kubernetes (on-prem, GKE, EKS, AKS).

Преимущества и ограничения

Преимущества: полноценный ML-lifecycle в cloud-native стеке; портативность между облаками; нативная интеграция с Kubernetes-экосистемой (RBAC, namespaces, resource quotas); активное сообщество и поддержка Google.

Ограничения: высокая сложность установки и настройки (10–15 минут только для базового развёртывания); требует зрелой Kubernetes-инфраструктуры; значительные накладные расходы для малых команд; по трекингу экспериментов уступает MLflow.

Связь с другими понятиями

MLflow часто используется совместно с KubeFlow: MLflow для трекинга экспериментов и реестра, KubeFlow для оркестрации пайплайнов. AutoML реализован в KubeFlow через компонент Katib. Online Inference и Batch Inference обслуживаются через KServe. Feature Store интегрируется с KubeFlow Pipelines для автоматического получения признаков при обучении. Дрейф данных детектируется через мониторинговые компоненты, интегрированные с KServe.

Понятия из глоссария Цифрового маркетплейса, которые часто встречаются вместе с термином «KubeFlow».

Платформы класса «KubeFlow»

Решения из каталога Цифрового маркетплейса, относящиеся к этому классу ПО. Карточки ведут на полные карточки платформ с тарифами, обзорами и кейсами внедрения.

НЕ

Нейромодуль

Нейромодуль — программный продукт класса платформ ИИ и нейротехнологий, разработанный ООО «СИТ» (ИНН 667042485...

Цена по запросу

Подробнее →

SDP DataLab

Машинное обучение

SDP DataLab — ML-платформа в составе SberData Platform от СберТех для разработки, обучения и развёртывания мод...

Цена по запросу

★ 4.7

Подробнее →

OneRPA платформа роботизации рутинных процессов

Данные и аналитика

Платформа RPA

Цена по запросу

Подробнее →

Lasvilla Искусственный Интеллект В ЖКХ

Чат Бот это удобное решение для взаимодействия с Вашими абонентами.

Цена по запросу

Подробнее →

БАРС.Мониторинг-ЖКХ

Данные и аналитика

Информационно-аналитическая система для мониторинга и управления жилищно-коммунальным хозяйством на региональн...

Цена по запросу

★ 5.0

Подробнее →

Tarantool Data Grid

Данные и аналитика

Tarantool — высокопроизводительная СУБД с поддержкой in-memory и дискового хранения данных, обеспечивающая ACI...

Цена по запросу

★ 4.8

Подробнее →

Категории каталога

Разделы каталога Цифрового маркетплейса, в которые входят решения, использующие «KubeFlow».

ML-платформы Платформы ИИ/GenAI Kubernetes и контейнерная оркестрация

Где применяется

Отрасли, в которых «KubeFlow» используется на практике. Откройте отраслевой раздел Цифрового маркетплейса, чтобы увидеть подходящие решения, кейсы и новости.

Цифровые услуги (B2C, e-commerce, онлайн-сервисы)

Финансы и финтех

Наука и НИИ

Частые вопросы про KubeFlow

Чем KubeFlow отличается от MLflow?

KubeFlow – оркестрация пайплайнов обучения на Kubernetes (workflow engine). MLflow – трекинг экспериментов и управление версиями моделей. Они решают разные задачи и часто используются вместе.

Что такое Katib?

Kubernetes-нативный компонент KubeFlow для AutoML: автоматический подбор гиперпараметров (random search, Bayesian, Hyperband) и Neural Architecture Search. Фреймворк-агностик.

Что такое KServe?

Serverless-платформа сервинга ML-моделей на Kubernetes (ранее KFServing). Поддерживает REST/gRPC, autoscaling до нуля, canary-деплой, трансформацию запросов.

Нужен ли Kubernetes для использования KubeFlow?

Да, KubeFlow работает исключительно на Kubernetes. Можно использовать Minikube для локальной разработки, но production-использование требует полноценного K8s-кластера.

Поддерживает ли KubeFlow PyTorch и TensorFlow?

Да. Training Operator поддерживает TFJob (TensorFlow), PyTorchJob (PyTorch), MXNetJob, XGBoostJob. Katib агностик к фреймворку.

Введение

История и контекст

Как это работает

Где применяется

Преимущества и ограничения

Связь с другими понятиями

Связанные термины

Платформы класса «KubeFlow»

Нейромодуль

SDP DataLab

OneRPA платформа роботизации рутинных процессов

Lasvilla Искусственный Интеллект В ЖКХ

БАРС.Мониторинг-ЖКХ

Tarantool Data Grid

Категории каталога

Где применяется

Частые вопросы про KubeFlow

Чем KubeFlow отличается от MLflow?

Что такое Katib?

Что такое KServe?

Нужен ли Kubernetes для использования KubeFlow?

Поддерживает ли KubeFlow PyTorch и TensorFlow?

Контур НДС+

Регистрация посещения объекта общественного питания для подписки на уведомления о возможном контакте с заболевшим новой коронавирусной инфекцией

Контур Маркет + ОФД — интегрированная платформа для розничной торговли