Введение
F1 – гармоническое среднее двух метрик качества классификатора: Precision (точности) и Recall (полноты). Формула:
F1 = 2 · (Precision · Recall) / (Precision + Recall)
Метрика принимает значения от 0 до 1, где 1 – идеальный классификатор (нет ни ложноположительных, ни ложноотрицательных предсказаний), 0 – если хотя бы одна из метрик равна нулю. F1 является одним из стандартных показателей оценки моделей машинного обучения, особенно при дисбалансе классов.
История и контекст
F-мера (F-measure, F-score) была введена Ван Ридсдорпом (1979) в контексте информационного поиска. В частном случае β=1 она называется F1 и даёт равный вес точности и полноте. В NLP F1 применяется как минимум с 1990-х годов для оценки задач именованных сущностей (NER), извлечения информации и машинного перевода. Сегодня F1 – одна из наиболее часто репортируемых метрик в ML-статьях и бенчмарках.
Как это работает
F1 строится на четырёх базовых величинах из матрицы ошибок:
- TP (True Positive) – верно предсказанные положительные.
- FP (False Positive) – ложноположительные (ошибочно отнесённые к положительному классу).
- FN (False Negative) – ложноотрицательные (пропущенные положительные).
- Precision = TP / (TP + FP); Recall = TP / (TP + FN).
Для мультиклассовых задач используются агрегации:
- Macro F1 – среднее F1 по всем классам без взвешивания. Равномерно учитывает редкие классы.
- Micro F1 – агрегирует TP, FP, FN по всем классам, затем вычисляет F1. Соответствует accuracy при сбалансированных классах.
- Weighted F1 – среднее F1, взвешенное по числу примеров в классе.
Почему не accuracy?
При дисбалансе классов accuracy вводит в заблуждение: классификатор, предсказывающий всегда «отрицательный», достигает 99% accuracy при 1% положительных – но его F1 = 0. F1 учитывает оба вида ошибок.
Где применяется
- NER и извлечение информации – стандартная метрика для оценки разметки именованных сущностей.
- Классификация текста – тональный анализ, рубрикация, детектирование спама.
- Антифрод – оценка детекторов мошенничества с крайне несбалансированными классами.
- Медицинская диагностика – классификация патологий, где ложноотрицательные критичнее ложноположительных.
- Информационный поиск – оценка точности и полноты поисковых систем.
Преимущества и ограничения
Преимущества: учитывает оба типа ошибок; устойчив при дисбалансе классов; интерпретируем; позволяет балансировать Precision и Recall через параметр β (F_β).
Ограничения: одинаково штрафует FP и FN – при необходимости приоритизировать один тип ошибок используют F_β (например, F2 при важности recall); не учитывает TP отрицательного класса (специфичность); при многоклассовой задаче выбор между Macro/Micro/Weighted влияет на интерпретацию.
Связь с другими понятиями
F1 – синтез Precision и Recall. ROUGE в метрике ROUGE-N F1 использует тот же принцип: объединяет ROUGE-recall и ROUGE-precision. В системе Evaluation (МО) F1 входит в стандартный набор метрик для классификационных задач. Кросс-валидация используется для надёжной оценки F1 на ограниченных датасетах. Регуляризация при обучении модели влияет на порог классификации и, следовательно, на соотношение Precision и Recall.