GPT-2: релиз 1.5B

Опубликовано 28 February 2020

В качестве финальной версии поэтапного выпуска GPT-2, мы выпускаем самую большую версию (1,5B параметров) GPT-2 вместе с кодом и весами моделей для облегчения обнаружения выходов моделей GPT-2. Хотя с августа были выпущены более крупные языковые модели, мы продолжили наш первоначальный поэтапный план выпуска, чтобы предоставить сообществу тестовый пример полного поэтапного процесса выпуска. Мы надеемся, что этот тестовый пример будет полезен для разработчиков будущих мощных моделей, и мы активно продолжаем разговор с сообществом AI об ответственной публикации.


Наши выводы


1. Люди считают результаты GPT-2 убедительными.


Наши партнеры из Корнелльского университета опросили людей, чтобы присвоить тексту GPT-2 оценку достоверности по размерам моделей. Люди дали модели 1,5B «показатель достоверности» 6,91 из 10. Это незначительно превышает результаты модели 774M (6,72) и значительно выше модели со средней 355M (6,07). Эти результаты делают нас более склонными к выпуску модели 1.5B, поскольку постепенное увеличение воспринимаемого человеком доверия к 774M кажется низким.


2. GPT-2 может быть настроен для неправильного использования.


Наши партнеры из Центра по борьбе с терроризмом, экстремизмом и контртерроризмом (CTEC) Института международных исследований Мидлбери обнаружили, что экстремистские группы могут использовать GPT-2 для неправильного использования, в частности, путем точной настройки моделей GPT-2 на четырех идеологических позициях: превосходство белых, марксизм, джихадистский исламизм и анархизм. CTEC продемонстрировал, что можно создавать модели, которые могут генерировать синтетическую пропаганду для этих идеологий. Они также показывают, что, несмотря на низкую точность обнаружения на синтетических выходах, методы обнаружения на основе ML могут дать экспертам обоснованное подозрение, что актер генерирует синтетический текст.


3. Выявление является сложной задачей.


Мы ожидаем, что основанное на контенте выявление синтетического текста является долгосрочной проблемой. Чтобы проверить, могут ли подходы машинного обучения помочь сегодня, мы провели собственное исследование выявления и разработали модель выявлени, у которой частота выяывления составляет = 95% для выявления текста, генерируемого GPT-2 1,5B. [1]

В частности, мы основали классификатор последовательности на RoBERTaBASE (125 миллионов параметров) и RoBERTaLARGE (355 миллионов параметров) и настроили его так, чтобы классифицировать выходные данные модели 1.5B GPT-2 по сравнению с WebText, набором данных, который мы использовали для обучения GPT- 2 модель.


 Мы считаем, что это недостаточно высокая точность для самостоятельного выявления и должна быть сопряжена с подходами, основанными на метаданных, человеческим суждением и просвещением общественности, чтобы быть более эффективной. Мы выпускаем эту модель, чтобы помочь исследованию в области обнаружения синтетического текста, хотя это позволяет злоумышленникам с доступом лучше избегать обнаружения.


Хотя мы обнаружили, что точность выявления в значительной степени зависит от методов выборки, используемых при обучении и тестировании, мы также обнаружили, что выявление будет более надежным при обучении по ряду методов выборки. Как видно из рисунка ниже, мы заметили, что выходные данные более крупных моделей более сложно классифицировать, но обучение выходным данным более крупных моделей делает результаты обнаружения более точными и надежными. Мы ожидаем, что эта тенденция сохранится и что обнаружение будет более сложным с увеличением размера модели.


Переданная точность модели (образцы ядра)

GPT-2: релиз 1.5B

4. До сих пор мы не видели убедительных доказательств злоупотребления.


В то время как мы наблюдали некоторое обсуждение потенциала GPT-2 для расширения операций с большими объемами / малой доходностью, таких как спам и фишинг, мы не видели доказательств написания кода, документации или случаев неправильного использования. Мы считаем, что генераторы синтетического текста имеют больше шансов на неправильное использование, если их результаты станут более надежными и согласованными. Мы признаем, что не можем знать обо всех угрозах и что мотивированные субъекты могут воспроизводить языковые модели без выпуска модели.


5. Нам нужны стандарты для изучения предубеждений.


Языковые модели имеют предубеждения. Разработка того, как изучать эти предубеждения, обсуждать их и решать их, является проблемой для исследовательского сообщества ИИ. Мы решили проблему предвзятости двумя способами:


  • Издание модельной карты [2]
Которую мы основали на «Модельных картах для отчетности по моделям» Митчелла и др.


 наряду с нашими моделями на GitHub, чтобы дать людям представление о проблемах, присущих языковым моделям, таким как GPT-2.

  • Выполнение качественной внутренней оценки некоторых отклонений в GPT-2: мы исследовали GPT-2 на наличие каких-либо гендерных, расовых и религиозных предубеждений, используя эти результаты для информирования нашей модельной карты. Эти зонды не являются исчерпывающими и вызывают необходимость сотрудничества в рамках анализа смещения.


Следующие шаги


Наш опыт работы с GPT-2 за последние 9 месяцев дал нам ценную информацию о проблемах и возможностях для создания ответственных норм публикации в AI. Мы продолжаем нашу работу по этому вопросу, участвуя в проекте Партнерства по проекту «Ответственные нормы публикации для машинного обучения» и в дискуссиях с нашими коллегами из исследовательского сообщества.

Если вы хотите разработать крупномасштабные системы искусственного интеллекта и подумать об их последствиях, мы рады сотрудничеству.


Сноски

1. В частности, мы основали классификатор последовательности на RoBERTaBASE (125 миллионов параметров) и RoBERTaLARGE (355 миллионов параметров) и настроили его так, чтобы классифицировать выходные данные модели 1.5B GPT-2 по сравнению с WebText, набором данных, который мы использовали для обучения GPT- 2 модель. ↩︎

2. Которые мы основали на «Модельных картах для отчетности по моделям» Митчелла и др. ↩︎

Авторы

Ирэн Солайман Джек Кларк Майлз Брандейдж