Тестирование устойчивости ИИ против непредвиденных противников

Опубликовано 03 March 2020

Open AI разработали метод, позволяющий оценить, может ли классификатор нейронной сети надежно защитить от атак, не встречающихся во время обучения. Их метод позволяет получить новую метрику UAR (устойчивость к непредвиденным атакам), которая оценивает устойчивость одной модели к неожиданным атакам и подчеркивает необходимость измерения производительности в более разнообразном диапазоне непредвиденных атак.

Современные нейронные сети достигли высокой точности по широкому кругу контрольных задач. Тем не менее, они остаются восприимчивыми к противодействующим силам, небольшим, но тщательно продуманным искажениям входов, созданным противниками для обмана сетей. Например, состязательный пример с L∞ искажение ниже отличается от исходного изображения максимум на 32 в каждом значении пикселя RGB; Человек все еще может классифицировать измененное изображение, но его уверенно неверно классифицирует стандартная нейронная сеть.


Образцы изображений (черный лебедь), полученные в результате атак со стороны различных видов искажений. Каждое искажение оптимизировано, чтобы обмануть сеть.

Тестирование устойчивости ИИ против непредвиденных противников

  1. Значение каждого пикселя может быть изменено максимум на 32.
  2. Вектор значений пикселей может быть изменен на вектор, ограниченный в L_1L1 -норма.
  3. JPEG: изображение преобразуется в JPEG-сжатый вектор и искажается.
  4. Эластичный: к изображению применяется поток вдоль локального векторного поля.
  5. Туман: искажение в виде тумана ограниченной величины применяется к изображению.
  6. Рябь: аддитивный шум добавлен, чтобы состыковать текстуру изображения.
  7. Снег: снежинки построены так, чтобы частично скрыть изображение.


Системы искусственного интеллекта, развернутые в дикой природе, должны быть устойчивы к непредвиденным атакам, но большинство средств защиты до сих пор были сосредоточены на определенных известных типах атак. Поле добилось прогресса в укреплении моделей против таких атак; однако устойчивость к одному типу искажений часто не превращается в устойчивость к атакам, непредвиденным разработчиками модели. Следовательно, оценка только по одному типу искажения может дать ложное чувство безопасности относительно модели в дикой природе, которая может оставаться уязвимой для непредвиденных атак, таких как поддельные очки и враждебные наклейки.


Тестирование устойчивости ИИ против непредвиденных противников

Пример, когда состязательность не переносится хорошо. Усиление модели против искажения A изначально повышает устойчивость к искажениям A и B. Тем не менее, по мере дальнейшего укрепления устойчивости состязательности наносится ущерб для искажения B, но она остается примерно такой же для искажения A. [1] (A = L_ \ L∞ , B = L_1L1 )


Принципы метода


Open AI создали трехэтапный метод, чтобы оценить, насколько хорошо модель справляется с новым типом искажения. Их метод оценивает различные непредвиденные атаки в широком диапазоне искажений и сравнивает результаты с сильной защитой, которая знает тип искажения. Это также дает новую метрику, UAR, которая оценивает состязательную устойчивость моделей против непредвиденных типов искажений.


1. Оценить против различных непредвиденных типов искажений


Типичные статьи о противостоянии защиты оцениваются только против широко изученного L∞ или L2 типов искажений. Тем не менее, мы показываем, что оценка против L_pLп искажения дают очень похожую информацию о состязательности. Мы пришли к выводу, что оценка против Lp искажений недостаточно, чтобы предсказать состязательность против других типов искажений. Вместо этого мы предлагаем, чтобы исследователи оценивали модели по противодействующим искажениям, которые не похожи на те, которые используются в обучении. Мы предлагаем L_2- JPEG, Elastic и Fog атаки в качестве отправной точки. Мы предоставляем реализации, предварительно обученные модели и калибровки для различных атак в нашем программном пакете.


2. Выберите широкий диапазон размеров искажений, откалиброванных по сильным моделям


Мы обнаружили, что, учитывая слишком узкий диапазон размеров искажений, можно обратить качественные выводы об устойчивости состязательности. Чтобы выбрать диапазон, мы изучаем изображения, полученные в результате атаки с различными размерами искажения, и выбираем самый большой диапазон, для которого изображения все еще распознаются человеком. Однако, как показано ниже, атака с большим бюджетом искажений использует его только против сильной защиты. Мы рекомендуем выбирать откалиброванный диапазон размеров искажений, сравнивая их со специально обученными моделями (мы также предоставляем откалиброванные размеры для широкого спектра атак в нашем кодовом пакете).


Образцы изображений (кофейника) одной и той же сильной атаки, примененной к различным моделям защиты. Атака более сильной защиты вызывает большее визуальное искажение.

Тестирование устойчивости ИИ против непредвиденных противников

  1. Незащищенный.
  2. Слабо защищенный.
  3. Сильно защищен.


3. Контрольная оценка состязательности против обученных моделей


Мы разработали новую метрику, UAR, которая сравнивает надежность модели против атаки с состязательной подготовкой против этой атаки. Обучение состязательности - сильная защита, которая использует знания противника, обучаясь на изображениях, подвергшихся нападению. [3]

Чтобы вычислить UAR, мы усредняем точность защиты по нескольким размерам искажений и нормализуем по характеристикам обученной модели; точное определение в нашей статье.


Оценка UAR около 100 против непредвиденной атаки соперника подразумевает производительность, сопоставимую с защитой с предварительным знанием атаки, что делает эту задачу сложной.


Мы вычислили баллы UAR обученных моделей для нескольких различных типов искажений. Как показано ниже, надежность, придаваемая состязательной тренировкой, не приводит к непредвиденным искажениям. Фактически, устойчивость к известным искажениям может снизить устойчивость к непредвиденным искажениям. Эти результаты подчеркивают необходимость оценки против значительно более разнообразных атак, таких как Elastic, Fog, Gabor и Snow.

Тестирование устойчивости ИИ против непредвиденных противников

Оценка UAR для состязательно обученных моделей против состязательных атак с различными типами искажений.


Следующие шаги

Мы надеемся, что исследователи, разрабатывающие невероятно устойчивые модели, будут использовать методологию Open AI для оценки более разнообразного набора непредвиденных атак. Наш код включает в себя набор атак, обученных соперниками моделей и калибровок, которые позволяют легко вычислить UAR. Смотреть код.


Авторы разработки

Даниэль Кан Ги Сун Дан Хендрикс Том Браун Джекоб Стейнхардт