ВКонтакте / VK: мультимодальная система рекомендаций Discovery
Описание проекта
VK внедрила в продукты холдинга технологический стек Discovery — набор нейросетевых компонентов для глубокого понимания контента. Стек включает три ключевых компонента: (1) Мультимодальную языковую модель (MMLM), обученную на более чем 3 млн русскоязычных материалов, которая анализирует видео, изображения, тексты и аудио и сравнивает контент по смыслу и эмоциональному тону; (2) Кросс-форматную контентную модель, объединяющую название, обложку, аудио и видеоряд в едином семантическом пространстве и обеспечивающую кросс-платформенные рекомендации — например, ролик в VK Видео на основе понравившегося поста ВКонтакте; (3) Двухступенчатую систему распознавания известных персон на видео (анализ кадров 1 fps + детекция и «образ» героя), позволяющую учитывать присутствие популярных личностей в рекомендациях. Технологии применяются в VK Видео, VK Клипах и распространяются на другие UGC-продукты холдинга.
Задача
Рекомендательные алгоритмы ранее опирались преимущественно на поведенческие данные пользователей, что замедляло продвижение нового контента (требовались первоначальные реакции). Рекомендации не были кросс-форматными: система не могла связать текстовый пост с похожим видео. Пользователи нередко пропускали контент с любимыми исполнителями или героями из-за отсутствия семантического понимания персон.
Цели внедрения
-
Повысить точность и скорость рекомендаций нового контента без необходимости накапливать первые реакции
-
Обеспечить кросс-форматные и кросс-платформенные рекомендации внутри экосистемы VK
-
Учитывать присутствие конкретных персон в видео при формировании рекомендаций
Результаты
-
Финансы
-
Не раскрыто Время
-
Новый контент получает рекомендации быстрее — без ожидания первых пользовательских реакций Качество и эффективность
-
Число позитивных реакций на контент выросло на 7% в первые месяцы после внедрения
-
Точность рекомендаций похожих по смыслу видео повысилась на 60%
-
MMLM обучена на более чем 3 млн русскоязычных материалов Нагрузка и масштаб
-
Система анализирует видео с частотой 1 кадр в секунду
-
Охватывает все UGC-продукты VK: VK Видео, VK Клипы, музыкальные сервисы Надёжность
-
Две независимые модели для распознавания персон: видеоанализ + детекция лиц Импортозамещение и compliance
-
Полностью российская разработка; модель RuModernBERT для обработки разговорного русского языка опубликована в открытом доступе Качественный эффект: Переход от классической коллаборативной фильтрации к мультимодальному семантическому пониманию контента позволил VK создать единое пространство рекомендаций для разнородных форматов — текста, видео, клипов, музыки.