Кейс Проект #3000 Медиа, искусство и развлечения · опубликовано 1 июля 2025

ВКонтакте / VK: мультимодальная система рекомендаций Discovery

Описание проекта

VK внедрила в продукты холдинга технологический стек Discovery — набор нейросетевых компонентов для глубокого понимания контента. Стек включает три ключевых компонента: (1) Мультимодальную языковую модель (MMLM), обученную на более чем 3 млн русскоязычных материалов, которая анализирует видео, изображения, тексты и аудио и сравнивает контент по смыслу и эмоциональному тону; (2) Кросс-форматную контентную модель, объединяющую название, обложку, аудио и видеоряд в едином семантическом пространстве и обеспечивающую кросс-платформенные рекомендации — например, ролик в VK Видео на основе понравившегося поста ВКонтакте; (3) Двухступенчатую систему распознавания известных персон на видео (анализ кадров 1 fps + детекция и «образ» героя), позволяющую учитывать присутствие популярных личностей в рекомендациях. Технологии применяются в VK Видео, VK Клипах и распространяются на другие UGC-продукты холдинга.

Задача

Рекомендательные алгоритмы ранее опирались преимущественно на поведенческие данные пользователей, что замедляло продвижение нового контента (требовались первоначальные реакции). Рекомендации не были кросс-форматными: система не могла связать текстовый пост с похожим видео. Пользователи нередко пропускали контент с любимыми исполнителями или героями из-за отсутствия семантического понимания персон.

Цели внедрения

Повысить точность и скорость рекомендаций нового контента без необходимости накапливать первые реакции
Обеспечить кросс-форматные и кросс-платформенные рекомендации внутри экосистемы VK
Учитывать присутствие конкретных персон в видео при формировании рекомендаций

Результаты

Финансы
Не раскрыто Время
Новый контент получает рекомендации быстрее — без ожидания первых пользовательских реакций Качество и эффективность
Число позитивных реакций на контент выросло на 7% в первые месяцы после внедрения
Точность рекомендаций похожих по смыслу видео повысилась на 60%
MMLM обучена на более чем 3 млн русскоязычных материалов Нагрузка и масштаб
Система анализирует видео с частотой 1 кадр в секунду
Охватывает все UGC-продукты VK: VK Видео, VK Клипы, музыкальные сервисы Надёжность
Две независимые модели для распознавания персон: видеоанализ + детекция лиц Импортозамещение и compliance
Полностью российская разработка; модель RuModernBERT для обработки разговорного русского языка опубликована в открытом доступе Качественный эффект: Переход от классической коллаборативной фильтрации к мультимодальному семантическому пониманию контента позволил VK создать единое пространство рекомендаций для разнородных форматов — текста, видео, клипов, музыки.

← Все кейсы

ВКонтакте / VK: мультимодальная система рекомендаций Discovery

Описание проекта

Задача

Цели внедрения

Результаты

Контур.Школа

Искусственный интеллект в медицине

Контур Маркет + ОФД — интегрированная платформа для розничной торговли