Введение
Chain-of-Thought (CoT) – техника промптинга, при которой языковая модель явно формирует последовательность промежуточных рассуждений («мыслей») перед финальным ответом. Вместо того чтобы немедленно выдать результат, модель «думает вслух»: раскладывает задачу на шаги, проверяет промежуточные утверждения и только затем формулирует итоговый вывод. Это значительно повышает точность на задачах, требующих нескольких логических переходов.
История и контекст
Метод систематически исследован в статье «Chain-of-Thought Prompting Elicits Reasoning in Large Language Models» (Wei et al., 2022, Google Brain). Авторы показали, что добавление примеров с явными рассуждениями (тройки «задача → рассуждение → ответ») кратно повышает точность. На математическом бенчмарке GSM8K модель PaLM 540B с восемью CoT-примерами достигла 56,9% точности – против 17,9% при стандартном few-shot (рост в 3,2 раза).
Параллельно Kojima et al. (2022) открыли zero-shot CoT: добавление фразы «Let's think step by step» активирует цепочку рассуждений даже без примеров. Это открытие сделало CoT практически применимым без специальной подготовки промптов. Сегодня цепочки рассуждений встроены в системные промпты многих коммерческих AI-продуктов.
Важная граница применимости: CoT является эмерджентной способностью и эффективен только для моделей примерно от 100 млрд параметров. Для меньших моделей добавление CoT-примеров может ухудшить результат.
Как это работает
Существуют две основные формы Chain-of-Thought:
- Few-shot CoT – в промпт включаются 2–8 примеров, каждый содержит тройку «задача → развёрнутое рассуждение → ответ». Модель воспроизводит паттерн рассуждений для новой задачи.
- Zero-shot CoT – к запросу добавляется инструкция «Рассуждай пошагово» или «Думай шаг за шагом». Модель строит цепочку самостоятельно.
Расширенные вариации
- Self-Consistency CoT – генерация нескольких независимых цепочек рассуждений, финальный ответ выбирается большинством голосов. Повышает надёжность через усреднение.
- Tree-of-Thought (ToT) – исследование дерева альтернативных путей рассуждений с откатами. Для особо сложных многошаговых задач.
- Program-of-Thought – рассуждение через написание и исполнение кода вместо текстовых шагов. Снижает арифметические ошибки.
Где применяется
- Математика и расчёты – пошаговое решение уравнений, финансовые вычисления, статистические задачи.
- Юридический анализ – квалификация ситуации по нормам права, построение правовой аргументации.
- Медицинская диагностика – дифференциальная диагностика по симптомам с аргументацией для каждого шага.
- Логистика и планирование – оптимизация маршрутов, планирование с ограничениями.
- Отладка кода – пошаговый разбор причин ошибки перед генерацией исправленного кода.
Преимущества и ограничения
Преимущества: значительный прирост точности на многошаговых задачах; интерпретируемость – пользователь видит ход рассуждений и может проверить логику; снижение галлюцинаций за счёт самопроверки промежуточных шагов; не требует дообучения.
Ограничения: цепочка рассуждений потребляет дополнительные токены и увеличивает стоимость запроса; малые модели не способны поддерживать связную цепочку и CoT ухудшает их результаты; модель может ошибиться на промежуточном шаге и уверенно прийти к неверному итогу.
Связь с другими понятиями
CoT – расширение техники few-shot с добавлением явных рассуждений к примерам. В zero-shot режиме реализуется одной фразой-инструкцией. Hallucination снижается при CoT, поскольку промежуточные шаги создают внутренние ограничения на допустимые выводы. Evaluation (МО) CoT-систем включает оценку корректности не только финального ответа, но и качества промежуточных рассуждений. Токен (LLM) – единица стоимости: CoT увеличивает потребление токенов, что важно учитывать при проектировании production-систем.