Recall (полнота)

Введение

Recall (полнота, sensitivity, true positive rate) – метрика, измеряющая, какую долю истинно положительных примеров удалось обнаружить модели. Формула:

Recall = TP / (TP + FN)

Где TP – True Positive (найденные положительные), FN – False Negative (пропущенные положительные – реальные положительные, ошибочно отнесённые к отрицательному классу). Recall отвечает на вопрос: «Из всех реально положительных случаев – сколько модель нашла?»

История и контекст

Recall, как и Precision, пришёл из теории информационного поиска. В медицинской статистике он называется sensitivity (чувствительность) и является ключевым показателем диагностических тестов с 1950-х годов. В ML Recall стал стандартной метрикой для задач обнаружения объектов, медицинской диагностики, антифрода – везде, где пропуск положительного случая критичен.

Как это работает

Пример: в датасете 100 реальных случаев онкологии. Модель идентифицировала 85 из них как онкологию, 15 пропустила (предсказала «норма»).

  • TP = 85
  • FN = 15
  • Recall = 85 / (85 + 15) = 0,85 (85%)

Модель обнаруживает 85% реальных случаев. Для задачи скрининга онкологии это может быть недостаточно – пропущенный рак стоит дороже ложной тревоги.

Precision-Recall tradeoff

При снижении порога классификации модель чаще предсказывает «положительный» → Recall растёт (меньше пропусков), но Precision падает (больше ложных срабатываний). Оптимальный порог выбирается по кривой PR или F1.

Recall и ROC-AUC

TPR (True Positive Rate) в ROC-кривой – это Recall при данном пороге. AUC-ROC отражает качество разделения классов при всех возможных порогах.

Где применяется

  • Медицинская диагностика – высокий Recall критичен при скрининге: лучше лишний раз направить на обследование, чем пропустить патологию.
  • Детектирование аномалий и кибератак – пропущенная атака хуже ложной тревоги.
  • Антифрод – баланс: высокий Recall (не пропустить мошенничество) vs. Precision (не заблокировать легальные операции).
  • Поиск информации – Recall@k: сколько релевантных документов вошло в топ-k.
  • NLP, NER – оценка полноты извлечённых сущностей относительно эталонной разметки.

Преимущества и ограничения

Преимущества: ясно отражает стоимость пропусков; стандартная метрика в медицине (sensitivity); входит в F1 и ROUGE.

Ограничения: не учитывает ложноположительные ошибки; высокий Recall при нулевой Precision означает, что модель предсказывает «положительный» для всего; нужен в связке с Precision и F1 для полной оценки.

Связь с другими понятиями

Recall неразрывно связан с Precision; их гармоническое среднее – F1. ROUGE – recall-ориентированная метрика суммаризации: доля n-грамм эталона, воспроизведённых в гипотезе. В системе Evaluation (МО) Recall дополняет Precision и Accuracy для полной картины. Аномали-детекция (Anomaly Detection) – типичная задача, где высокий Recall важнее Precision. Кросс-валидация позволяет надёжно оценить Recall на разных фолдах.