Термин · Глоссарий B2B-ПО

KubeFlow (KubeFlow)

Открытая платформа оркестрации ML-рабочих процессов на Kubernetes. Включает Kubeflow Pipelines (DAG-пайплайны), Katib (автоматический подбор гиперпараметров), KServe (сервинг моделей), Training Operator (распределённое обучение на TensorFlow, PyTorch).

Буква «K» В категориях: 3 Платформ: 6+

Введение

KubeFlow – открытая ML-платформа, предназначенная для развёртывания рабочих процессов машинного обучения на Kubernetes. Разработана Google и впервые представлена в 2018 году. Цель KubeFlow – сделать ML-пайплайны масштабируемыми, портативными и воспроизводимыми в cloud-native окружении. Платформа охватывает весь ML-жизненный цикл: от интерактивной разработки в Jupyter Notebook до продуктового развёртывания модели.

История и контекст

KubeFlow возник из внутренних инструментов Google для запуска TensorFlow на Kubernetes. Проект был опенсорсирован в 2018 году и быстро получил поддержку крупных технологических компаний (Microsoft, IBM, Cisco). К 2023 году KubeFlow стал стандартным компонентом MLOps-стека на облачных платформах (AWS EKS, GCP GKE, Azure AKS). KubeFlow v1.8 (2023) принёс обновлённый Python SDK для Katib, упростив настройку экспериментов по подбору гиперпараметров.

Как это работает

KubeFlow – модульная платформа. Ключевые компоненты:

  • Kubeflow Pipelines – DAG-ориентированная система оркестрации ML-пайплайнов. Каждый шаг (data loading, preprocessing, training, evaluation) оформляется как контейнеризованная операция. SDK на Python позволяет описывать пайплайны декларативно.
  • Katib – Kubernetes-нативная система AutoML и подбора гиперпараметров. Поддерживает random search, Bayesian optimization, hyperband, Neural Architecture Search (NAS). Фреймворк-агностик: работает с TensorFlow, PyTorch, XGBoost, scikit-learn.
  • Training Operator – управление распределённым обучением через CRD Kubernetes: TFJob (TensorFlow), PyTorchJob, MXNetJob, XGBoostJob. Автоматически управляет worker/parameter server топологией.
  • KServe (ранее KFServing) – serverless-сервинг ML-моделей с поддержкой REST/gRPC, autoscaling до нуля, canary-деплоем, предобработкой и постобработкой запросов.
  • Kubeflow Hub (Model Registry) – централизованный реестр версий моделей и ML-артефактов.

Где применяется

  • Крупные ML-команды – стандартизация пайплайнов обучения через единую платформу в Kubernetes-кластере.
  • Распределённое обучение – запуск обучения на GPU-кластерах с автоматическим управлением ресурсами.
  • AutoML – автоматический подбор архитектур и гиперпараметров через Katib.
  • Production ML-сервисы – деплой моделей через KServe с autoscaling и version routing.
  • Multi-cloud MLOps – портативные пайплайны, работающие на любом Kubernetes (on-prem, GKE, EKS, AKS).

Преимущества и ограничения

Преимущества: полноценный ML-lifecycle в cloud-native стеке; портативность между облаками; нативная интеграция с Kubernetes-экосистемой (RBAC, namespaces, resource quotas); активное сообщество и поддержка Google.

Ограничения: высокая сложность установки и настройки (10–15 минут только для базового развёртывания); требует зрелой Kubernetes-инфраструктуры; значительные накладные расходы для малых команд; по трекингу экспериментов уступает MLflow.

Связь с другими понятиями

MLflow часто используется совместно с KubeFlow: MLflow для трекинга экспериментов и реестра, KubeFlow для оркестрации пайплайнов. AutoML реализован в KubeFlow через компонент Katib. Online Inference и Batch Inference обслуживаются через KServe. Feature Store интегрируется с KubeFlow Pipelines для автоматического получения признаков при обучении. Дрейф данных детектируется через мониторинговые компоненты, интегрированные с KServe.

Понятия из глоссария Цифрового маркетплейса, которые часто встречаются вместе с термином «KubeFlow».

Платформы класса «KubeFlow»

Решения из каталога Цифрового маркетплейса, относящиеся к этому классу ПО. Карточки ведут на полные карточки платформ с тарифами, обзорами и кейсами внедрения.

Нейромодуль — программный продукт класса платформ ИИ и нейротехнологий, разработанный ООО «СИТ» (ИНН 667042485...
Цена по запросу
Подробнее →
SD

SDP DataLab

Машинное обучение
SDP DataLab — ML-платформа в составе SberData Platform от СберТех для разработки, обучения и развёртывания мод...
Цена по запросу
★ 4.7
Подробнее →
БАРС.Мониторинг-ЖКХ

БАРС.Мониторинг-ЖКХ

Данные и аналитика
Информационно-аналитическая система для мониторинга и управления жилищно-коммунальным хозяйством на региональн...
Цена по запросу
★ 5.0
Подробнее →
Tarantool Data Grid

Tarantool Data Grid

Данные и аналитика
Tarantool — высокопроизводительная СУБД с поддержкой in-memory и дискового хранения данных, обеспечивающая ACI...
Цена по запросу
★ 4.8
Подробнее →

Категории каталога

Разделы каталога Цифрового маркетплейса, в которые входят решения, использующие «KubeFlow».

Где применяется

Отрасли, в которых «KubeFlow» используется на практике. Откройте отраслевой раздел Цифрового маркетплейса, чтобы увидеть подходящие решения, кейсы и новости.

Частые вопросы про KubeFlow

Чем KubeFlow отличается от MLflow?

KubeFlow – оркестрация пайплайнов обучения на Kubernetes (workflow engine). MLflow – трекинг экспериментов и управление версиями моделей. Они решают разные задачи и часто используются вместе.

Что такое Katib?

Kubernetes-нативный компонент KubeFlow для AutoML: автоматический подбор гиперпараметров (random search, Bayesian, Hyperband) и Neural Architecture Search. Фреймворк-агностик.

Что такое KServe?

Serverless-платформа сервинга ML-моделей на Kubernetes (ранее KFServing). Поддерживает REST/gRPC, autoscaling до нуля, canary-деплой, трансформацию запросов.

Нужен ли Kubernetes для использования KubeFlow?

Да, KubeFlow работает исключительно на Kubernetes. Можно использовать Minikube для локальной разработки, но production-использование требует полноценного K8s-кластера.

Поддерживает ли KubeFlow PyTorch и TensorFlow?

Да. Training Operator поддерживает TFJob (TensorFlow), PyTorchJob (PyTorch), MXNetJob, XGBoostJob. Katib агностик к фреймворку.