1 марта 2024

Гарри Поттер и методы глубокого разобучения

Future Crew

Блок инноваций ПАО «МТС»

Разработчики больших языковых моделей (a large language model, LLM) в последнее время всё чаще сталкиваются с серьёзными проблемами, связанными с обучением искусственного интеллекта на контенте, защищённом авторским правом. Проблема в том, что заставить модель на самом деле забыть какую-то часть материалов невозможно. А начинать весь процесс обучения с нуля, очистив от копирайта тот корпус текстов, на которых тренируется модель — трудно, поскольку это предполагает большие временные и финансовые затраты. Поэтому остро встает вопрос разобучения ИИ-моделей.

Проблема в том, что заставить модель на самом деле забыть какую-то часть материалов невозможно. А начинать весь процесс обучения с нуля, очистив от копирайта тот корпус текстов, на которых тренируется модель — трудно, поскольку это предполагает большие временные и финансовые затраты. Поэтому остро встает вопрос разобучения ИИ-моделей.

В конце 2023 года исследователи Microsoft Ронен Элдан и Марк Руссинович предложили методологию разобучения LLM на примере книг про Гарри Поттера. Их задача состояла в том, чтобы научить ИИ предоставлять правдоподобную альтернативу (в терминах учёных — универсальное предсказание) оригинальному сюжету книг о волшебнике. То есть чтобы на вопрос “кто лучшие друзья Гарри Поттера?” модель отвечала, к примеру, “говорящий кот и дракон”, а не “Рон и Гермиона”.

Иначе говоря, их целью была модель, которая способна отвечать на вопросы так, как на них ответил бы искусственный интеллект, не обученный на книгах о Гарри Поттере.

Чтобы обучить ИИ таким универсальным предсказаниям, Элдан и Руссинович использовали комбинацию двух методов:

Бутстрэппинг с подкреплением

Исследователи создали языковую модель с подкреплением, дополнительно натренированную на текстах о Гарри Поттере. Далее они сравнивали ответы на вопросы о книгах, которые давали обычная модель и модель с подкреплением. Универсальными предсказаниями считались те ответы, вероятность которых не повышалась в модели с подкреплением. Однако этого метода оказалось недостаточно, поскольку даже разобученный таким образом ИИ всё ещё может выдавать ответы, связанные с волшебным миром Джоан Роулинг.

Якорные термины

По сути, этот метод предполагает создание альтернативного словаря книг о Гарри Поттере. С помощью GPT-4 Элдан и Руссинович создали список выражений, имён и объектов, характерных для вселенной Гарри Поттера. Затем для этого списка GPT-4 разработал альтернативные термины, при использовании которых по-прежнему создаётся связный текст, но не имеющий прямого отношения к миру Роулинг. К примеру, “Мистическая академия” вместо “Хогвартс”.

Элдан и Руссинович проверили свой способ разобучения на двух разных языковых моделях. В обоих случаях в подавляющем большинстве ответов ИИ на тестовые запросы не было обнаружено следов знакомства моделей с книгами о Гарри Поттере. Однако исследователи отмечают, что знания ИИ о вселенной Гарри не исчезают полностью и находятся где-то на уровне Википедии (оригинальные модели воспроизводили информацию непосредственно из книг). Если, например, попросить ИИ составить список магических школ, Хогвартс в нем будет упомянут.

Стоит отметить, что эта методология разобучения не идеальна. Она подходит только для художественных текстов и вряд ли совместима с другими типами контента вроде научпопа или учебников, хотя бы потому, что предполагает подмену терминов. Да и с более реалистической художественной литературой могут возникнуть сложности из-за менее специфического языка.

Гарри Поттер и методы глубокого разобучения

Другие статьи