Использование инструмента Emergent: искусственный интеллект играет в прятки

Опубликовано 29 February 2020
Мы наблюдали, как агенты AI осваивают все более и более сложное использование инструментов, играя в простую игру в прятки. Посредством обучения в нашей новой моделируемой среде прятки агенты ИИ создают серию из шести различных стратегий и контрстратегий, некоторые из которых мы не знали, что наша среда поддерживает. Возникающая сложность с самоконтролем в этой простой среде также предполагает, что ко-адаптация нескольких агентов ИИ может однажды привести к чрезвычайно сложному и интеллектуальному поведению.




В нашей среде агенты ИИ играют в командную игру в прятки. Задача скрывающихся (синего цвета) - избегать прямой видимости со стороны ищущих (красного цвета), а ищущим - сохранять зрение скрывающих. Есть объекты, разбросанные по всей среде, которые скрывающиеся и ищущие могут захватить и заблокировать на месте, а также случайно сгенерированные неподвижные комнаты и стены, которые агенты должны научиться ориентировать. Перед началом игры скрывающимся предоставляется подготовительная фаза, на которой ищущие обездвиживаются, чтобы дать им возможность убежать или изменить свое окружение.

Использование инструмента Emergent: искусственный интеллект играет в прятки

Нет явных стимулов для агентов ИИ взаимодействовать с объектами в окружающей среде; единственное наблюдение дано через цель прятки. Агенты получают командное вознаграждение; Скрывающиеся получают награду +1, если все скрывающиеся скрыты, и -1, если ищущий видит любого скрыватеющегося. Искатели получают противоположную награду: -1, если все скрывающиеся скрыты, и +1 в противном случае. Чтобы ограничить поведение агента разумным пространством, агенты наказываются, если они выходят слишком далеко за пределы игровой площадки. На этапе подготовки все агенты получают нулевое вознаграждение.


Автокуррикула и эмерджентное поведение


Когда агенты тренируются друг с другом в прятках, появляется до шести различных стратегий. Каждая новая стратегия создает ранее несуществующее давление для агентов, чтобы перейти к следующему этапу. Обратите внимание, что нет прямых стимулов для агентов взаимодействовать с объектами или исследовать; скорее, возникающие стратегии, показанные ниже, являются результатом autocurriculum, вызванного конкуренцией с несколькими агентами и простой динамикой игры в прятки.


Появление в простой среде

Сначала мы покажем возникающие стратегии, изученные в простой среде с 2-мя скрывающимися, 2-мя искателями, 2-мя коробками, 1-м пандусом и комнатой с 1-2 случайно расположенными дверями.

Использование инструмента Emergent: искусственный интеллект играет в прятки

Агенты ИИ перемещаются случайным образом.



Использование инструмента Emergent: искусственный интеллект играет в прятки

Искатели преследуют скрывающихся.

Использование инструмента Emergent: искусственный интеллект играет в прятки

Блокировка дверей: учатся захватывать и перемещать коробки, чтобы заблокировать двери.


Использование инструмента Emergent: искусственный интеллект играет в прятки

Использование прыжков: Искатели учатся использовать прыжки, чтобы преодолевать препятствия.

Использование инструмента Emergent: искусственный интеллект играет в прятки
Скрывающиеся защищают блок для прыжков: учатся перемещать блок внутрь комнаты, чтобы не позволить искателям использовать его.

Использование инструмента Emergent: искусственный интеллект играет в прятки

Скрывающиеся учатся координировать, кто будет блокировать какую дверь, а кто пойдет за пандусом. В тех случаях, когда ящики находятся далеко от дверей, скрывающиеся передают ящики друг другу, чтобы вовремя заблокировать двери.



Появление в полной среде


Далее мы покажем возникающие стратегии, изученные в среде с гораздо большей рандомизацией, включая 1–3 скрывающихся, 1–3 ищущих, 3–9 блоков, 2 ската и рандомизированные комнаты и двери. В этой полной среде агенты проходят через две дополнительные фазы возникающей стратегии, чем в предыдущей простой среде.

Использование инструмента Emergent: искусственный интеллект играет в прятки

Эпизод 0. Агенты перемещаются случайным образом.

Использование инструмента Emergent: искусственный интеллект играет в прятки

Эпизоды 0–22 миллиона. Погоня: искатели учатся преследовать прячущихся.

Использование инструмента Emergent: искусственный интеллект играет в прятки

Эпизоды 22–88 млн. Строительство укрытия: скрывающиеся учатся строить укрытие, в котором можно спрятаться.

Использование инструмента Emergent: искусственный интеллект играет в прятки

Эпизоды 88–115 млн. Использование пандуса: Искатели учатся использовать пандусы, чтобы перепрыгивать через препятствия.

Использование инструмента Emergent: искусственный интеллект играет в прятки

Эпизоды 115–388 млн. Скрывающиеся защищают пандусы: учатся блокировать пандусы, чтобы искатели не могли их использовать.

Использование инструмента Emergent: искусственный интеллект играет в прятки

Эпизоды 388–458 млн. Перенос коробок: Искатели учатся доставлять ящик на запертый пандус, чтобы прыгнуть на верхнюю часть ящика. Перенос коробок возможен благодаря исполнительному механизму агентов искусственного интеллекта, который позволяет им применять силу к себе независимо от того, находятся они на земле или нет.

Использование инструмента Emergent: искусственный интеллект играет в прятки

Эпизоды 458–481 млн. Скрывающиеся защищаются: учатся блокировать все пандусы и боксы, чтобы предотвратить серфинг в боксах.


Как искусственный интеллект учат играть в прятки


Мы используем ту же учебную инфраструктуру и алгоритмы, которые используются для обучения OpenAI Five и Dactyl. Однако в нашей среде каждый агент ИИ действует независимо, используя свои собственные наблюдения и скрытое состояние памяти. Агенты используют объектно-ориентированное представление мира, основанное на состоянии, которое является инвариантным по отношению к объектам и другим агентам.


Каждый объект внедряется, а затем проходит через замаскированный остаточный блок самовосприятия, аналогичный тем, которые используются в трансформаторах, где внимание сосредоточено на объектах, а не во времени. Объекты, которые не находятся в зоне прямой видимости и перед агентом, маскируются так, что агент не имеет о них информации.


Использование инструмента Emergent: искусственный интеллект играет в прятки


Агенты обучаются с помощью самостоятельной игры и оптимизации проксимальных политик. Во время оптимизации агенты могут использовать привилегированную информацию о скрытых объектах и других агентах в своей функции значения.

Мы обнаружили, что крупномасштабное обучение имеет решающее значение для агентов, проходящих через различные стадии появления. Ниже мы показываем как время, так и количество эпизодов, которые требуются агентам, чтобы достичь стадии 4 (защита рампы) для разных размеров партий. Мы обнаруживаем, что увеличение размера партии значительно ускоряет сходимость настенных часов, хотя не сильно влияет на эффективность выборки на уровне или выше 32 КБ. Однако мы обнаружили, что размеры партий 8k и 16k никогда не достигали стадии 4 в отведенном количестве эпизодов.


Увеличение размера партии ускоряет процесс конвергенции

Использование инструмента Emergent: искусственный интеллект играет в прятки

Примечание. Мы сообщаем размер пакета в количестве смежных кусков переходов, используемых при обратном распространении во времени, каждый из которых содержит 10 переходов, что означает, что сообщенный размер пакета 64 КБ фактически содержит 640 КБ переходов.


Мультиагентная конкуренция против внутренней мотивации


В этой работе мы показываем доказательства того, что агенты изучают сложные стратегии и контрстратегии посредством самоконтроля самоконтроля в прятки. Другим методом обучения навыкам без присмотра является внутренняя мотивация, которая стимулирует агентов исследовать различные метрики, такие как ошибка модели или число состояний. Мы провели исследование на основе подсчета в нашей среде, в которой агенты ведут точный подсчет посещенных ими состояний и заинтересованы в том, чтобы посещать редко посещаемые состояния. Основным выбором моделирования для настройки в этом параметре является представление состояния; например, в нашей первой базовой линии мы включаем только 2-мерные позиции в состоянии, так что у агентов есть только стимул взаимодействовать и перемещать рамки в новые позиции. Затем мы сравниваем это с политикой, основанной на подсчете, которая принимает полное состояние, данное агентам, которые играют в прятки.


Использование инструмента Emergent: искусственный интеллект играет в прятки

Как можно видеть, агенты, обученные игре в прятки, качественно сосредотачиваются на гораздо более человечески интерпретируемом поведении, таком как строительство укрытия, тогда как агенты, обученные с внутренней мотивацией, перемещают объекты, казалось бы, ненаправленным образом. Кроме того, по мере того, как пространство состояний усложняется, мы обнаруживаем, что внутренние методы мотивации имеют все меньше и меньше значимых взаимодействий с объектами в их среде. По этой причине мы полагаем, что конкуренция между несколькими агентами будет более масштабируемым методом для формирования необходимых для человека навыков без присмотра, поскольку среда продолжает увеличиваться в размере и сложности.


Передача и доводка в качестве оценки


В предыдущем разделе мы качественно сравнили поведение, изученное в прятках, с поведением, мотивированным. Тем не менее, по мере увеличения масштабов среды возрастают трудности качественного измерения прогресса. Отслеживание вознаграждения является недостаточной оценочной метрикой в ​​настройках нескольких агентов, поскольку она может быть неоднозначной, указывая на то, улучшаются ли агенты равномерно или они находятся на прежнем уровне. Такие метрики, как ELO или Trueskill, могут более надежно определить, улучшается ли производительность по сравнению с предыдущими версиями политик или другими политиками в совокупности; однако эти показатели по-прежнему не позволяют понять, вызвано ли повышение производительности новыми адаптациями или улучшением ранее приобретенных навыков. Наконец, использование статистики, специфичной для окружающей среды, такой как перемещение объекта, также может быть неоднозначным (например, выбор для отслеживания абсолютного движения не определяет, какие агенты направления сместились), и разработка достаточных метрик станет сложной и дорогостоящей по мере масштабирования среды.


Мы предлагаем использовать набор тестов интеллекта, специфичных для предметной области, которые нацелены на возможности, которые, по нашему мнению, агенты могут в итоге приобрести. Эффективность передачи в этих настройках может выступать в качестве количественного показателя качества представления или навыка, и мы сравниваем его с предварительной подготовкой, основанной на подсчете, а также с базовым уровнем подготовки.

Использование инструмента Emergent: искусственный интеллект играет в прятки

1. Подсчет объектов. Агент закрепляется на месте и его просят предсказать, сколько объектов прошло вправо или влево, проверяя память агента и ощущение постоянства объекта.

2. Блокировка и возврат. Агент должен найти блок, заблокировать его и вернуться в исходное положение, что проверяет долговременную память агента о его местонахождении.

3. Последовательная блокировка. Агент должен блокировать ящики в порядке, незаметном для агента. Ящики могут быть заблокированы только в правильном порядке, поэтому агент должен помнить состояние ящиков, которые он видел.

Использование инструмента Emergent: искусственный интеллект играет в прятки

4. Конструкция светокопии. Агент должен переместить коробки в целевые местоположения.

5. Конструкция укрытия. Агент должен построить укрытие вокруг цилиндра.


Хотя агент «прятки» лучше выполняет многие задачи переноса, он не приводит к значительному улучшению производительности или времени конвергенции. Наблюдая за его поведением, мы знаем, что он обладает скрытым умением точно перемещать объекты, чтобы построить укрытие в игре в прятки; однако, он не может использовать этот навык в других контекстах, когда тренируется с небольшим количеством образцов.


Мы полагаем, что причина смешанных результатов переноса коренится в агентах, обучающих представлениям навыков, которые запутаны и трудно подстраиваются. По мере того как будущие среды становятся более разнообразными, и агенты должны использовать навыки в большем количестве контекстов, мы считаем, что увидим более обобщенные представления навыков и более значимый сигнал в этом подходе к оценке. Мы также с открытым исходным кодом оцениваем задачи как способ оценки прогресса обучения в нашей среде.


Неожиданное поведение


Мы показали, что агенты могут научиться использовать сложные инструменты в симуляторе высокой точности физики; однако на этом пути было извлечено много уроков. Построить окружение нелегко, и довольно часто агенты находят способ использовать среду, которую вы строите, или физический движок непреднамеренным образом.


Использование инструмента Emergent: искусственный интеллект играет в прятки

1.Перемещение ящика.  Поскольку агенты перемещаются, применяя силы к себе, они могут схватить ящик, находясь на нем, и «заняться серфингом» к месту нахождения охотника.

2. Бесконечный бег. Без добавления явных отрицательных наград для агентов, покидающих игровую площадку, в редких случаях агенты научатся брать ящик и бесконечно бегать с ним.

3. Эксплуатация на рампе (скрывающиеся). Изучение подкрепления поражает поиском небольшой механики для использования. В этом случае скрывающиеся злоупотребляют физикой контакта и убирают пандусы из игровой площадки.

4. Эксплуатация рампы (ищущие). В этом случае ищущие узнают, что, если они бегут к стене с рампой под прямым углом, они могут начать движение вверх.


С нетерпением


Мы предоставили еще одно доказательство того, что стратегии и навыки, имеющие отношение к человеку, гораздо более сложные, чем исходная игровая динамика и окружающая среда, могут появиться в результате масштабной конкуренции между несколькими агентами и стандартных алгоритмов обучения с подкреплением. Эти результаты внушают уверенность в том, что в более открытой и разнообразной среде динамика нескольких агентов может привести к чрезвычайно сложному и релевантному человеку поведению.


Авторы

Боуэн Бейкер Ингмар Каничейдер Тодор Марков Yi WuGlenn Powell Bob McGrewIgor Mordatch