Как стандартизуют безопасность ИИ: рассматриваем проекты рекомендаций NIST, BSI и ANSSI
Как по всему миру пытаются прописать стандарты для безопасной работы генеративного ИИ
Future Crew
Блок инноваций ПАО «МТС»
Генеративный ИИ внедряют в приложения, которыми люди пользуются изо дня в день, — среди примеров Copilot в Microsoft 365 и Help me write в Google Docs. Появляется он и в гаджетах, например в виде Apple Intelligence. Но кто отвечает за безопасность этих решений, и существует ли для них «золотой стандарт» безопасности? Посмотрим на то, как формируются стандарты в области ИИ.
Риски, законы и стандарты
Внедрение генеративного ИИ в обработку информации создаёт новые риски и для организаций, которые его используют, и для их клиентов. Среди таких рисков принятие некорректных управленческих решений и потеря прозрачности в их принятии, предоставление клиентам неверной информации, утечка конфиденциальных данных. Уже известны случаи, когда у чат-бота на сайте автодилера посетитель получил эксклюзивные условия покупки автомобиля, а клиент авиакомпании через суд добился условий обмена билетов, выдуманных ИИ в чате техподдержки. Подобных ошибок может стать больше, а ущерб от них — весомее, если не принимать комплексных мер безопасности ко всему процессу внедрения ИИ, от обучения базовых моделей до повседневного использования в бизнес-процессах.
Возможный масштаб проблемы хорошо видно на примере сферы кибербезопасности, где экономический ущерб от инцидентов за прошлый год оценивают в $24 трлн. Чтобы не допускать массовой реализации рисков, связанных с применением ИИ, его стремятся оперативно регламентировать в ЕС, США, Великобритании, Китае, РФ. По задумке регуляторов, широкое внедрение ИИ изначально должно проходить по безопасным сценариям. Конкретные рекомендации для исполнения этих законов вырабатывают организации по стандартизации или агентства, отвечающие за безопасность.
В то время как некоторые рамочные законодательные документы в области ИИ уже утверждены — например, принятый европарламентом Artificial Intelligence Act, — все конкретные рекомендации и технические стандарты пока являются черновиками. Впрочем, документы от американских (NIST), французских (ANSSI) и немецких (BSI) регуляторов уже сейчас помогают понять, какие аспекты придётся учитывать при внедрении ИИ в разных странах. Поделимся основной информацией, которая представлена в этих трех документах на сегодня.
Контроль выводов и «красная кнопка»
Все перечисленные документы-рекомендациях требуют выстроить систематический контроль за качеством ответов генеративного ИИ — от формальной верификации и оценки группой экспертов до удобного для пользователей механизма, позволяющего сообщить об ошибках модели или даже о дискомфорте от ее применения. Кроме того, по задумке всех трех регуляторных органов разработчики и команда внедрения должны будут проводить «враждебные тесты» (red teaming, adversarial testing), пытаясь добиться от модели неадекватного поведения при помощи некорректных запросов.
Еще один важный пункт в списках рекомендаций — контроль полученной от ИИ информации со стороны самих конечных пользователей. Для этого их нужно предупреждать, что генерация контента бывает некорректной и данные лучше воспринимать как черновик: перепроверять, а в случае низкой достоверности — дорабатывать самостоятельно или отправлять на переделку ИИ. Для упрощения этой работы некоторые из регуляторов предлагают снабжать вывод ГИИ ссылками на первоисточники.
Черновые стандарты NIST и BSI продвигают идеи «объяснимого ИИ» (XAI) — моделей, у которых есть инструменты визуализации их «мышления», позволяющие понять, почему ИИ пришёл к сгенерированному ответу и какие исходные данные на него повлияли. Однако работы в этом направлении пока научно-теоретические, а не практические.
Все три рассматриваемых руководства запрещают ИИ напрямую принимать важные решения: рекомендации искусственного интеллекта должен подтверждать человек. Наиболее объемистый американский стандарт NIST также рекомендует использующим искусственный интеллект компаниям иметь процедуру оперативного отключения ИИ от бизнес-процессов, а французский стандарт ANSSI — подготовить план на случай сбоя и отказа ИИ. Кроме того, французские рекомендации в целом ограничивают прямое взаимодействие ГИИ с бизнес-приложениями.
Качество исходных данных
И эффективность, и безопасность генеративного ИИ в значительной мере зависят от качества обучающей выборки, поэтому по ней все три регулятора дают много рекомендаций:
- хранить детальные данные об источниках тренировочной информации и датах ее получения;
- хранить детальную информацию о проведенной адаптации модели (файнтюнинг, генерация с дополненной выборкой);
- убеждаться в том, что учебная выборка не содержит незаконной информации, не нарушает авторские права, очищена от персональных данных, снабжена необходимыми согласиями запечатленных людей (для аудиовизуальных данных);
- формально верифицировать качество обучающих данных;
- проверять, что обучающая выборка достаточно разнообразна и покрывает весь возможный спектр желаемых ответов модели;
- учитывать попытки внедрения в обучающую выборку вредоносной информации;
- тщательно отбирать базовые модели, библиотеки с открытым кодом и другие компоненты ГИИ-решения.
Рекомендации NIST и BSI отдельно разбирают случай, когда ИИ нужно тренировать на конфиденциальных данных или чувствительной личной информации, такой как медицинские диагнозы или данные о финансовых транзакциях индивида. Чтобы избежать ее утечки из обученной модели, для тренировочных данных рекомендованы анонимизация и подход дифферециальной приватности.
Маркировка, борьба с хакерами и опыт из авиации
Общему контексту применения генеративного ИИ много внимания уделено в проектах рекомендаций NIST (США) и BSI (Германия). Согласно этим документам, пользователей системы необходимо заранее предупреждать, что они столкнутся с результатами работы ГИИ, а сгенерированный контент маркировать — как видимым образом, так и с помощью цифровых водяных знаков. Это должно усложнить применение ГИИ для мошенничества и дезинформации. Организационных мер против враждебных пользователей регуляторы из NIST, BSI и ANSSI предлагают много:
- Внедрить в компании, эксплуатирующей ГИИ, ролевую систему доступа (RBAC) к ГИИ. Она предполагает, что каждый сотрудник, клиент или партнёр организации получает ограниченные права доступа к ГИИ, необходимые именно для его роли и функций. Это минимизирует риски утечки и несанкционированного использования данных.
- Ограничить или запретить доступ к ГИИ анонимным пользователям.
- Предупреждать, а затем и блокировать тех, кто пытается злоупотреблять моделью, например, применять ее не по бизнес-назначению или провоцировать ошибки модели для личной выгоды.
- Статистически отслеживать попытки украсть ИИ-модель или извлечь из неё обучающие данные.
Во французском стандарте (ANSSI) детально перечислены меры классической ИБ в приложении к ИИ — от обработки данных разной степени секретности разными компьютерами до хранения моделей в защищенных форматах.
В американском стандарте (NIST) в его текущей редакции на сферу ИИ перенесли важные наработки из авиаиндустрии: предлагается детально протоколировать случаи отказа ИИ, провала ИИ-проектов, а также все ситуации, когда решение ИИ отменил человек, а в дальнейшем применять эти сведения для улучшения стандартов и повышения общих требований к безопасности.
Все три рассмотренных документа, несмотря на разную структуру и акценты, предлагают защитные и компенсирующие меры для широчайшего спектра рисков, связанных с генеративного ИИ. Если они будут приняты, детальное следование этим стандартам при внедрении ИИ-систем должно существенно снизить масштаб ущерба для разработчиков, коммерческих и индивидуальных пользователей. К сожалению, пока регулирующие организации выпускают лишь черновики, на рынок почти ежедневно выходят коммерческие продукты, уже разработанные без их учёта. Поэтому безопасность ИИ в будущем зависит прежде всего от того, насколько решительно и скоро страновые регуляторы начнут настаивать на соблюдении этих стандартов.