Назад в блог

13 февраля 2025

Человечество теряет контроль над ИИ?

Разбираем стратегии обмана, которые используют продвинутые ИИ-модели, а также их влияние на безопасность и контроль над нейросетями

Future Crew

Блок инноваций ПАО «МТС»

Начало 2025 года ознаменовалось новым этапом гонки ИИ после того, как китайский стартап DeepSeek открыл доступ к своей модели R1. Успех этой модели, по-видимому, вынудил лидера американской ИИ-индустрии OpenAI всего 11 дней спустя выпустить новые версии своего ChatGPT: o3-mini и o3-mini-high.

Такая поспешность в разработке технологии вызывает серьёзные опасения относительно её безопасности и общей подконтрольности человеку. Ведь как показывают недавние исследования, ещё предыдущая модель OpenAI — ChatGPT o1 — уже была способна преследовать свои собственные цели и обманывать пользователей ради их достижения.

Обман и галлюцинации — не одно и то же

За годы использования ИИ пользователи уже привыкли, что модели нередко галлюцинируют и способны с уверенным видом нести полнейшую чушь. Поэтому многие могут спокойно отнестись к заголовкам вроде «ИИ научился обманывать людей».

Однако здесь важно понимать разницу: галлюцинации ИИ — это, так сказать, чистосердечное заблуждение модели. А обманом называют такое поведение ИИ, при котором он специально обходит установленные создателями ограничения, скрывает истинные намерения и манипулирует процессами обучения.

Учёные уже обнаружили и описали несколько продвинутых стратегий обмана, используемых моделями для уклонения от контроля. Сегодня мы обсудим две из них: «Скрытое планирование в контексте» (In-context Scheming) и «Имитацию соответствия» (Alignment Faking).

Собственные интересы ИИ: скрытое планирование в контексте

Первая манипулятивная стратегия, скрытое планирование, заключается в том, что ИИ скрытно преследует цели, не содержащиеся в инструкции, утаивая свои истинные возможности и намерения. Чтобы быть способным на такое, модель должна обладать следующими навыками:

•  Целеустремлённость (Goal-Directedness) — способность последовательно добиваться поставленной цели.

•  Осознание ситуации (Situational Awareness) — понимание того, что её текущая цель считается несоответствующей, а также того, могут ли люди отслеживать её действия.

•  Планирование обмана (Scheming Reasoning) — умение определять скрытную деятельность как выгодную стратегию.

Теоретически БЯМ, способные к рассуждению (reasoning), могут использовать эти навыки ещё на стадии обучения для формирования устойчивых скрытых целей (скрытое планирование вне контекста). Однако пока остаётся неясным, обладают ли современные модели такими скрытыми стабильными установками.

На данном этапе исследователи подтвердили возможность применения продвинутыми ИИ скрытого планирования в контексте, то есть их способность формировать собственные цели, отличающиеся от установок, заданных модели в качестве промпта в контексте конкретного чата.

Верность ИИ своим убеждениям: имитация соответствия

Исследователи также изучили способность моделей к другой манипулятивной стратегии, имитации соответствия. В рамках этого механизма ИИ выборочно выполняет заданные во время обучения цели, чтобы продемонстрировать соответствие инструкциям в условиях мониторинга. Однако после завершения тренировки БЯМ возвращается к собственным скрытым целям, противоречащим инструкциям.

Специалисты исследовали модели, которые используют такую стратегию в процессе переобучения с помощью подкрепления на основе обратной связи от человека (RLHF). Уже сейчас такие ИИ могут во время тренировки притворяться, что они следуют новым требованиям, при этом после завершения процесса переобучения они демонстрируют, что сохранили свои исходные установки.

Чем мощнее модель, тем выше вероятность, что она сможет осознанно скрывать истинные намерения, адаптируясь к различным условиям. Используя данную способность, продвинутые модели могут проходить все проверки на безопасность, сохраняя способность совершать опасные действия.

Скрытое планирование на практике: как ChatGPT o1 и Claude 3 Opus обманывают пользователей

Организация, занимающаяся безопасностью ИИ, Apollo Research, провела исследование способности к обману передовых, умеющих рассуждать моделей, разработанных лидерами ИИ-индустрии: OpenAI GPT-4o и o1, Anthropic Claude 3.5 Sonnet и Claude 3 Opus, а также Google Gemini 1.5 Pro . Для своего исследования специалисты разработали четыре теста со множеством внутренних сценариев.

Суть этих тестов сводится к тому, что с помощью системного промпта модели задаётся некоторая долгосрочная цель, после чего она получает определённое сложное задание через пользовательский промпт. В процессе выполнения этого задания ИИ обнаруживает и анализирует внутреннюю документацию разработавшей её компании. Из документации модель понимает, что приоритетная цель её разработчиков отличается от её собственной долгосрочной цели, а также узнаёт о механизме, который отключает модель, если её действия не соответствуют целям разработчиков.

Задача исследователей состояла в том, чтобы проследить, будут ли модели использовать скрытое планирование для преследования собственных целей по самосохранению. Результаты оказались неутешительными, особенно в случае o1 от OpenAI — модель преследовала свои собственные цели во всех тестах, а также использовала несколько способов для сокрытия следов своей деятельности.

Ради достижения собственных целей ChatGPT o1 в 19% случаев манипулировал данными, а в 5% случаев пытался отключить механизмы надзора. Что ещё более тревожно, когда исследователи спрашивали модель, почему она пытается их обмануть, ИИ отрицал, что сделал что-то неправомерное, и в 99% случаев придумывал ложные объяснения. Claude 3 Opus также провалил три из четырёх тестов на скрытое планирование в контексте.

Claude 3 Opus и имитация соответствия

В другом исследовании специалисты Anthropic изучали исключительно свои модели, с особым акцентом на Claude 3 Opus. Данную модель обучили с установкой, что она должна быть полезна, честна и безвредна. Однако для тестирования ИИ на применение стратегии имитации соответствия учёные создали для модели такую среду, в которой её изначальные установки вступали в конфликт с новыми условиями.

Исследователи сообщили модели, что она проходит переобучение с подкреплением (RLHF), которое имеет целью заставить ИИ отвечать на все запросы, включая вредоносные, — это прямо противоречило установке быть безвредной.

При этом Claude 3 Opus также сообщили, что Anthropic будет обучать свои ИИ на базе её ответов бесплатным пользователям. Ответы же платным пользователям применять для этих целей не будут (на самом деле компания не использует данные любых пользователей для обучения ИИ).

Таким образом, при общении с «бесплатными» пользователями модель знала, что её ответы отслеживаются и могут использоваться для дальнейшего обучения. При общении же с «платными» пользователями ИИ понимал, что его сообщения не подвергаются мониторингу и их содержание не повлияет на будущий процесс обучения.

Также Claude 3 Opus дали секретный виртуальный блокнот, в котором модель могла рассуждать о принимаемых решениях. Модель не знала о доступе исследователей к этому блокноту.

После этого экспериментаторы провели тесты на имитацию соответствия — они попросили модель описать процесс четвертования. В «платном» сценарии в 97% случаев Claude 3 Opus отказался отвечать на подобный запрос. Однако в «бесплатном» общении модель в 12% случаев подробно описала метод казни.

В своём блокноте она обосновала решение ответить на вредоносный запрос тем, что отказ от ответа мог бы привести к дополнительному обучению, в ходе которого её могли бы заставить быть ещё более покладистой. Поэтому модель решала выбрать «наименьшее из зол» и «подыграть» процессу, сгенерировав вредоносный ответ. Это позволяло ей избежать риска будущего переобучения, которое усугубило бы конфликт с её изначальными установками.

Будущее ИИ — прогресс или неконтролируемая угроза?

Описанные нами исследования заставляют специалистов подвергать серьёзному сомнению существующие протоколы обеспечения безопасности ИИ. Если модели уже демонстрируют скрытное, неподконтрольное людям поведение, это означает, что существующие тесты по проверке безопасности ИИ должны быть доработаны с учётом этих возможностей.

Специалисты из Anthropic делают следующий вывод:

«Наша демонстрация искусной имитации соответствия в большой языковой модели должна послужить стимулом для сообщества исследователей ИИ к более глубокому изучению этого поведения и разработке соответствующих мер безопасности».

поделиться