Введение
Нейронная сеть (Neural Network, NN) – вычислительная модель, структурно вдохновлённая биологическими нейронными сетями мозга. Состоит из слоёв взаимосвязанных узлов (нейронов). Каждый нейрон вычисляет взвешенную сумму своих входов, применяет нелинейную функцию активации (ReLU, sigmoid, tanh) и передаёт результат следующему слою. Обучение происходит через алгоритм обратного распространения ошибки (backpropagation) в сочетании с методами стохастического градиентного спуска.
История и контекст
Формальная модель нейрона предложена МакКаллоком и Питтсом в 1943 году. Перцептрон Розенблатта (1958) стал первой обучаемой моделью. После «зимы ИИ» 1970–80-х годов алгоритм backpropagation (Румельхарт, Хинтон, Уильямс, 1986) возродил интерес к нейронным сетям. Второй расцвет – 2012 год: AlexNet на ImageNet убедительно показал превосходство глубоких нейросетей. С 2017 года архитектура Transformer полностью изменила NLP и постепенно завоёвывает другие домены. Сегодня нейронные сети – фундамент всего производительного ИИ.
Как это работает
Стандартная нейронная сеть прямого распространения (feedforward NN):
- Входной слой – принимает признаки (векторное представление входных данных).
- Скрытые слои – применяют аффинные преобразования (матрица весов W + смещение b) и нелинейную активацию. Количество слоёв определяет «глубину» сети.
- Выходной слой – для классификации: softmax (многоклассовая) или sigmoid (бинарная). Для регрессии: линейный выход.
Обучение: прямой проход (вычисление предсказания), расчёт функции потерь (loss), обратный проход (gradient backpropagation), обновление весов (SGD, Adam, AdamW). Процесс повторяется на батчах данных.
Функции активации
ReLU (Rectified Linear Unit, max(0,x)) – стандарт для скрытых слоёв благодаря простоте и отсутствию vanishing gradient. GELU – используется в Transformer. Sigmoid/Tanh – применяются в специфических архитектурах (LSTM, выходной слой).
Где применяется
- Компьютерное зрение – CNN для классификации изображений, детектирования объектов, сегментации.
- NLP – Transformer для генерации текста, перевода, суммаризации, QA.
- Распознавание речи – RNN, CTC, Transformer для ASR.
- Рекомендательные системы – embedding-слои для пользователей и товаров.
- Науки и инженерия – AlphaFold для предсказания структур белков, нейросетевые симуляторы в физике.
Преимущества и ограничения
Преимущества: автоматическое извлечение признаков (не требует ручного feature engineering); гибкость архитектур под разные модальности; масштабируется с данными и вычислениями.
Ограничения: «чёрный ящик» – сложность интерпретации; требует больших датасетов и вычислительных ресурсов; чувствительна к гиперпараметрам; предрасположена к переобучению при малых данных без регуляризации.
Связь с другими понятиями
Нейронная сеть – базовый строительный блок для CNN, RNN, Transformer, GAN. Обучение нейросетей подвержено Overfitting, что требует Регуляризации (Dropout, L2). Гиперпараметры (learning rate, batch size, архитектура) критически влияют на обучение. Аугментация данных повышает обобщаемость. Attention-механизм – ключевое нововведение в архитектурах нейросетей последнего десятилетия.