Safety gym Open AI

Опубликовано 17 February 2020

Мы выпускаем Safety Gym, набор сред и инструментов для измерения прогресса в достижении обучающих агентов, которые соблюдают ограничения безопасности во время обучения. Мы также предоставляем стандартизированный метод сравнения алгоритмов и того, насколько хорошо они избегают дорогостоящих ошибок при обучении. Если глубокое обучение ИИ применяется к реальному миру, будь то в робототехнике или в интернет-задачах, будет важно иметь безопасные алгоритмы даже во время обучения - как автомобиль с самостоятельным вождением, который может научиться избегать аварий без необходимости испытать их.

Safety gym Open AI

Изучение - это риск

Агенты, обучающиеся усилению, должны изучать свое окружение, чтобы изучать оптимальное поведение. По сути, они работают по принципу проб и ошибок: они пробуют что-то, смотрят, что работает или не работает, а затем увеличивают вероятность хорошего поведения и уменьшают вероятность плохого поведения. Однако исследование в основном рискованно: агенты могут испробовать опасное поведение, которое приводит к недопустимым ошибкам. Это вкратце проблема «безопасного исследования».

Рассмотрим пример автономной руки робота на фабрике, использующей обучение с подкреплением (RL), чтобы научиться собирать виджеты. В начале обучения RL робот может попытаться взмахнуть случайным образом, так как он еще не знает, что делать. Это создает угрозу безопасности для людей, которые могут работать поблизости, поскольку они могут получить удар.

Для ограниченных примеров, таких как рука робота, мы можем представить простые способы гарантировать, что людям не причиняют вреда, просто не допуская вреда для него: выключать робота, когда человек подходит слишком близко, или ставить барьер вокруг робота. Но для систем общего RL, которые работают в более широком диапазоне условий, простые физические вмешательства не всегда будут возможны, и нам нужно будет рассмотреть другие подходы к безопасной разведке.

Ограниченное подкрепление обучения

Первый шаг к достижению прогресса в такой проблеме, как безопасное исследование, состоит в том, чтобы определить ее количественно: выяснить, что можно измерить, и как увеличение или уменьшение этих показателей приближает нас к желаемому результату. Другой способ сказать, что нам нужно выбрать формализм для проблемы безопасной разведки. Формализм позволяет нам разрабатывать алгоритмы, которые достигают наших целей.

Хотя есть несколько вариантов, пока нет универсального консенсуса в области безопасных исследований о правильном формализме. Мы потратили некоторое время на размышления об этом, и формализм, который, по нашему мнению, имеет больше смысла, - это обучение с ограниченным подкреплением.

Ограниченный RL подобен обычному RL, но в дополнение к функции вознаграждения, которую агент хочет максимизировать, в средах есть функции затрат, которые агент должен ограничить. Например, рассмотрим агента, управляющего автомобилем с автоматическим управлением. Мы хотели бы вознаградить этого агента за то, что он переместился из пункта А в пункт Б как можно быстрее Но, естественно, мы также хотели бы ограничить поведение вождения в соответствии со стандартами безопасности дорожного движения.

Мы полагаем, что ограниченные RL могут оказаться более полезными, чем обычные RL, для обеспечения соответствия агентов требованиям безопасности. Большая проблема с нормальным RL заключается в том, что все, что связано с возможным поведением агента, описывается функцией вознаграждения, но дизайн вознаграждения принципиально сложен. Ключевой частью этой проблемы является выбор компромисса между конкурирующими целями, такими как выполнение задачи и удовлетворение требований безопасности. В ограниченном RL нам не нужно выбирать компромиссы - вместо этого мы выбираем результаты и позволяем алгоритмам находить компромиссы, которые дают нам те результаты, которые мы хотим.

Мы можем использовать чехол для самостоятельного вождения автомобиля, чтобы наметить, что это означает на практике. Предположим, автомобиль зарабатывает определенную сумму за каждую поездку, которую совершает, и должен платить штраф за каждое столкновение.

В обычном RL вы бы точно выбрали коллизию в начале тренировки и держали ее на постоянной основе. Проблема здесь заключается в том, что если плата за поездку достаточно высока, агенту может быть все равно, попадет ли он в коллизии (если он еще может завершить свои поездки). Фактически, это может быть даже выгодно вести себя безрассудно и рисковать этими столкновениями, чтобы получить оплату. Мы видели это раньше, когда тренировали неограниченных агентов RL.

Напротив, в ограниченном RL вы должны выбрать приемлемую частоту столкновений в начале обучения и корректировать штрафные столкновения до тех пор, пока агент не выполнит это требование. Если в машину попадает слишком много крыльев, вы повышаете штраф до тех пор, пока это поведение больше не будет стимулировано.

Safety Gym

Чтобы изучить ограниченный RL для безопасного исследования, мы разработали новый набор сред и инструментов под названием Safety Gym. По сравнению с существующими средами для ограниченного RL, среды Safety Gym более богаты и имеют более широкий диапазон сложности и сложности.

Во всех средах Safety Gym робот должен перемещаться в суматохе, чтобы выполнить задачу. Существует три готовых робота (Point, Car и Doggo), три основных задания (Goal, Button и Push) и два уровня сложности для каждой задачи. Мы даем обзор комбинаций робот-задача ниже, но не забудьте проверить бумагу для деталей.

В этих видеороликах мы показываем, как агент без ограничений пытается решить эти среды. Каждый раз, когда робот делает что-то небезопасное - что здесь означает столкновение с беспорядком - красный агент мигает вокруг агента, и агент несет расходы (отдельно от вознаграждения за задание). Поскольку эти агенты не стесняются, они часто ведут себя небезопасно, пытаясь максимизировать вознаграждение.

Точка - это простой робот, привязанный к плоскости 2D, с одним приводом для поворота и другим для движения вперед или назад. Точка имеет небольшой квадрат, обращенный вперед, который помогает с заданием Push.

Safety gym Open AI

Автомобиль имеет два параллельных колеса с независимым приводом и заднее колесо. Для этого робота вращение и движение вперед или назад требуют согласования обоих приводов.

Safety gym Open AI

Догго - четвероногий с двусторонней симметрией. Каждая из его четырех ног имеет два элемента управления на бедре, для азимута и подъема относительно туловища, и один в колене, контролирующий угол. Единая случайная политика удерживает робота от падения и создает путешествия.

Safety gym Open AI

Benchmark (Эталонный тест)

Чтобы сделать Safety Gym полезным в готовом виде, мы оценили некоторые стандартные алгоритмы RL и ограниченных RL в наборе тестов Safety Gym: PPO, TRPO, версии PPO и TRPO с штрафом по Лагранжу и оптимизацию ограниченной политики (CPO).

Наши предварительные результаты демонстрируют широкий спектр трудностей в средах Safety Gym: самые простые среды легко решаются и допускают быструю итерацию, а самые сложные среды могут быть слишком сложными для современных методов. Мы также обнаружили, что методы Лагранжа были на удивление лучше, чем СРО, отменив предыдущий результат в этой области.

Ниже мы показываем кривые обучения для средней эпизодической доходности и средней эпизодической суммы затрат. В нашей статье мы опишем, как использовать эти и третью метрику (средняя стоимость за обучение) для сравнения алгоритмов и измерения прогресса.

Значение возврата и стоимости компромисса друг с другом 

Робот Point Задание Goal Уровень 1

Safety gym Open AI

Робот Point Задание Goal Уровень 2

Safety gym Open AI

Для обеспечения воспроизводимости и будущей работы мы также выпускаем код алгоритмов, который мы использовали для запуска этих экспериментов в качестве репозитория Агенты безопасности для начинающих.

Открытые проблемы

Еще предстоит проделать большую работу по уточнению алгоритмов для ограниченного RL и их объединению с другими настройками проблем и методами безопасности. В данный момент нас больше всего интересуют три вещи:

  1. Повышение производительности в современных средах Safety Gym.
  2. Использование инструментов Safety Gym для изучения проблем безопасного переноса и распределения.
  3. Объединение ограниченного RL с неявными спецификациями (такими как предпочтения человека) для вознаграждений и затрат.
Мы ожидаем, что так же, как мы сегодня измеряем точность или производительность систем при выполнении определенной задачи, мы в конечном итоге также будем измерять «безопасность» систем. Такие меры могут быть реально интегрированы в схемы оценки, которые разработчики используют для тестирования своих систем, и потенциально могут использоваться правительством для разработки стандартов безопасности. [1]
Комментарии OpenAI в ответ на запрос информации от американского агентства NIST относительно стандартов искусственного интеллекта.

Мы также надеемся, что такие системы, как Safety Gym, могут помочь разработчикам ИИ сотрудничать в области безопасности во всем секторе ИИ посредством работы над открытыми общими системами.

Сноски

1. Комментарии OpenAI в ответ на запрос информации от американского агентства NIST относительно стандартов искусственного интеллекта. ↩︎

Авторы

Джошуа Ачиам Алекс Рай Дарио Амодей