Deep Double Descent (Глубокий двойной спуск)

Опубликовано 17 February 2020

Мы выявили, что явление двойного спуска возникает в CNN, ResNets и других преобразователях: производительность сначала улучшается, затем ухудшается, а затем снова повышается с увеличением размера модели, размера данных или времени обучения. Этого эффекта часто избегают путем тщательной регуляризации. Хотя это поведение выглядит достаточно универсальным, мы еще не до конца понимаем, почему это происходит, и рассматриваем дальнейшее изучение этого явления как важное направление исследований.

Deep Double Descent (Глубокий двойной спуск)

Многие классы современных моделей глубокого обучения, в том числе CNN, ResNets и другие преобразователи, демонстрируют наблюдаемое ранее явление двойного спуска, когда не используется ранняя остановка или регуляризация. Пик наступает предсказуемо в «критическом режиме», когда модели едва способны соответствовать тренировочному набору. По мере того как мы увеличиваем количество параметров в нейронной сети, ошибка теста первоначально уменьшается, увеличивается и, как только модель способна соответствовать набору поездов, подвергается второму спуску.

Ни общепринятые представления классических статистиков о том, что слишком большие модели хуже, ни современная парадигма ML о том, что более крупные модели лучше поддерживают. Мы обнаружили, что двойной спуск также происходит во время тренировки. Удивительно, но мы показываем, что эти явления могут привести к режиму, когда больший объем данных наносит ущерб, а тренировка глубокой сети на большом обучении на самом деле работает хуже.

Модельный двойной спуск

1. Есть режим, когда большие модели хуже.

Deep Double Descent (Глубокий двойной спуск)

Модельное явление двойного спуска может привести к режиму, при котором обучение большему количеству данных вредит. На приведенной выше диаграмме пик ошибки теста возникает около порога интерполяции, когда модели едва достаточно велики, чтобы соответствовать набору тренировок.

Во всех случаях, которые мы наблюдали, изменения, которые влияют на порог интерполяции (такие как изменение алгоритма оптимизации, количество выборок тренировок или количество шума метки), также соответственно влияют на местоположение пика ошибки теста. Явление двойного спуска наиболее заметно в установках с добавленным шумом метки; без этого пик меньше и его легко пропустить. Добавление шума метки усиливает это общее поведение и позволяет нам легко исследовать.

Образец немонотонности

2. Существует режим, при котором большое количество образцов вредит.

Deep Double Descent (Глубокий двойной спуск)

На приведенной выше диаграмме показаны преобразователи, обученные выполнению задания по переводу языка без добавления шума меток. Как и ожидалось, увеличение количества образцов сдвигает кривую вниз в сторону более низкой ошибки теста. Однако, поскольку для большего количества выборок требуются более крупные модели, увеличение количества выборок также сдвигает порог интерполяции (и пик ошибки теста) вправо.

Для промежуточных размеров модели (красные стрелки) эти два эффекта объединяются, и мы видим, что обучение на 4,5 раза большем количестве образцов фактически снижает производительность теста.

Эпохальный двойной спуск

3. Существует режим, при котором тренировки дольше меняют оснащение.


Deep Double Descent (Глубокий двойной спуск)

Deep Double Descent (Глубокий двойной спуск)

Диаграммы выше показывают ошибки теста и тренировки в зависимости от размера модели и количества шагов оптимизации. Для заданного количества шагов оптимизации (фиксированная координата y), ошибка теста и тренировки демонстрирует двойное снижение размера модели. Для данного размера модели (фиксированная x-координата), по мере продолжения обучения, ошибка теста и тренировки уменьшается, увеличивается и снова уменьшается; мы называем это явление эпохальным двойным спуском.

В общем, пик ошибки теста появляется систематически, когда модели едва вписываются в состав тренировки.

Мы предполагаем, что для моделей на пороге интерполяции фактически существует только одна модель, которая соответствует данным тренировки, и вынуждая ее соответствовать даже слегка зашумленным или неправильно заданным меткам разрушит ее глобальную структуру. То есть не существует «хороших моделей», которые бы интерполировали набор тренировок и хорошо работали на тестовом наборе. Тем не менее, в режиме чрезмерной параметризации есть много моделей, которые подходят к набору тренировок, и существуют такие хорошие модели. Более того, неявное смещение стохастического градиентного спуска (SGD) приводит его к таким хорошим моделям по причинам, которые мы еще не понимаем.

Мы оставляем полное понимание механизмов двойного спуска в глубоких нейронных сетях как важный открытый вопрос.

Авторы

Преетум Наккиран Гал Каплун Ямини Бансал Тристан Ян Боаз Барак Илья Суцкевер