Введение
Hallucination (галлюцинация LLM) – явление, при котором языковая модель генерирует информацию, которая звучит правдоподобно и уверенно, но является фактически ошибочной, выдуманной или не подкреплённой источниками. Термин заимствован из психологии, где галлюцинация – это восприятие несуществующего стимула. Для LLM это системная проблема: авторегрессионная модель максимизирует вероятность связного текста, а не достоверность утверждений.
Это одна из ключевых проблем безопасного внедрения LLM в промышленные системы, особенно критичная в медицине, юриспруденции и финансах.
История и контекст
Проблема галлюцинаций была зафиксирована ещё в нейронных машинных переводчиках (Raunak et al., 2021). С распространением ChatGPT в 2022–2023 годах она вышла на первый план в AI Safety. Бенчмарк TruthfulQA (Lin et al., 2022) показал, что большинство коммерческих моделей галлюцинируют в 20–50% случаев на вопросах с распространёнными заблуждениями. Отдельная область исследований – «hallucination mitigation»: методы снижения частоты галлюцинаций, включая RAG, RLHF, Chain-of-Thought и верификацию через внешние инструменты.
Как это работает
Галлюцинации классифицируются по источнику и характеру:
- Intrinsic hallucination – сгенерированный текст противоречит переданному в промпте контексту. Например, в суммаризации документа модель указывает неверные цифры, прямо противоречащие исходному тексту.
- Extrinsic hallucination – модель добавляет информацию, которую нельзя ни подтвердить, ни опровергнуть по исходному контексту. Часто включает выдуманные факты, несуществующих авторов, ложные ссылки на законы.
- Factuality hallucination – вывод противоречит реальным фактам реального мира: «Столица Канады – Торонто» вместо «Оттава».
- Faithfulness hallucination – ответ нарушает логическую согласованность с инструкцией или контекстом.
Причины галлюцинаций: статистическое предсказание следующего токена без проверки фактов; редкие знания плохо представлены в обучающих данных; RLHF-обучение стимулирует уверенный стиль ответов, маскирующий незнание; «snowball effect» в длинных ответах – ошибки накапливаются.
Где применяется
- Аудит юридических AI-инструментов – верификация ссылок на нормы права и судебную практику.
- Контроль качества медицинских ассистентов – проверка диагностических рекомендаций.
- Верификация финансовых отчётов, генерируемых LLM.
- Оценка RAG-систем – корректность ответов относительно исходных документов.
- Мониторинг чат-ботов поддержки на предмет ложных обещаний и некорректных инструкций.
Преимущества и ограничения
Методы снижения галлюцинаций:
- RAG (Retrieval-Augmented Generation) – привязка ответов к конкретным верифицированным документам.
- Chain-of-Thought – пошаговая проверка логики снижает частоту ошибок.
- Self-consistency – голосование по нескольким независимым генерациям.
- Grounding – верификация утверждений через поисковые системы или knowledge base.
- Fine-tuning на верифицированных данных – обучение «не придумывать» через RLHF.
Полностью устранить галлюцинации невозможно – они являются фундаментальным свойством авторегрессионных языковых моделей на текущем уровне развития технологии.
Связь с другими понятиями
Галлюцинации – основная мотивация для Evaluation (МО): системы необходимо проверять перед выпуском в production. Chain-of-Thought снижает их частоту, делая рассуждения прозрачными. Перплексия частично коррелирует с качеством: модели с низкой перплексией на домене задачи галлюцинируют реже. Few-shot ограничивает пространство допустимых ответов примерами. Мониторинг модели в production должен включать автоматическое детектирование галлюцинаций через NLI-модели или LLM-as-a-judge.