Как компании самостоятельно маркируют ИИ-контент
Почему крупные компании маркируют ИИ-контент, и какие технологии они используют для этого
Future Crew
Блок инноваций ПАО «МТС»
В прошлом посте мы рассказали о том, как регуляторы в КНР, Евросоюзе, России и США подходят к регулированию маркировки контента, созданного ИИ. В одних странах разработка таких нормативных актов только обсуждается, в других уже формируется сложная система регулирования искусственного интеллекта. При этом ряд компаний не дожидаясь требований регуляторов решили самостоятельно маркировать ИИ-контент. Сегодня мы расскажем, как крупнейшие IT-компании маркируют такой контент, и почему их действия пока не решают проблему избытка ИИ-фейков.
Как маркируют ИИ-контент
Хотя законодательные требования о маркировке ИИ-контента еще не вступили в силу в большинстве юрисдикций, крупные технологические компании уже делают это добровольно.
В начале июля Яндекс объявил, что изображения, созданные нейросетью YandexART для применения в рекламе, будут промаркированы — чтобы увидеть эту отметку, нужно нажать на три точки внутри рекламного блока. В марте платформа YouTube выполнила обещание, данное в конце осени, и начала демонстрировать плашку «Altered or Synthetic content» при воспроизведении видео, сгенерированных ИИ. Правда, автоматически она будет появляться, только если видео обработано ИИ-инструментами прямо на платформе. А если видео сгенерировано ИИ вне YouTube, тот, кто загружает файл на платформу, обязан включить отметку про синтетический контент самостоятельно — этого требуют обновленные условия использования.
С мая этого год в TikTok ввел систему автоматической маркировки ИИ-контента. Маркировка будет производиться с помощью технологии Content Credentials, которая проверяет происхождение и подлинность контента. Материалы, созданные нейросетями, будут отмечаться специальным ярлыком «Создано ИИ».
Что касается главного китайского приложения WeChat, то оно с июня требует от пользователей маркировать ИИ-контент при загрузке на платформу. Китайские платформы активизировали ИИ-маркировку только этой весной, после угроз со стороны регулятора, требовавшего удалять аккаунты нарушителей ИИ-политик.
Криптографическая маркировка
Самой эффективной технологией маркировки ИИ-индустрия и фотоиндустрия считают криптографические подписи и цифровые водяные знаки. Большой пул компаний объединился в Коалицию за аутентичность и контролируемое происхождение контента (C2PA), которая разработала стандарт цифровой подписи для изображений и их модификаций. Фотоаппарат, сделавший изображение, подписывает его своей уникальной цифровой подписью. ИИ-генератор, нарисовавший картинку по описанию, делает то же самое. Каждая следующая правка и ретушь, даже самая несложная, дописывается в файл с цифровой подписью редактора, в котором это было сделано. С помощью специальных сайтов или прямо внутри любого совместимого инструмента можно увидеть всю историю происхождения изображения и всех правок. OpenAI, Stability AI, Adobe и многие другие производители генеративных ИИ-инструментов уже добавляют в созданные изображения метки C2PA.
Альтернативной C2PA является более старая технология IPTC, позволяющая снабжать цифровые фото дополнительной информацией, метаданными. В IPTC можно записать теги, свидетельствующие о синтетическом происхождении изображения, но эти метки никак не защищены от манипуляций. Тем не менее, этим инструментом пользуется, например, Google в своих моделях Gemini. В Google DeepMind дополнительно внедрили технологию водяных знаков SynthID, однако за пределами Google она не используется.
В дополнение к невидимой цифровой маркировке некоторые генераторы изображений (например, Bing Image Creator) добавляют на него видимые водяные знаки.
Маркировка — не панацея
Хотя маркировка позволяет проверить происхождение определенного файла, а видимые отметки на ИИ-изображениях в соцсетях усложняют распространение подделок, чисто технические решения не решат проблему ИИ-фейков в комплексе, о чем детально пишут в черновике NIST. На данный момент по изображению или видео без маркировки нельзя уверенно сказать, является ли оно аутентичным или сгенерированным:
- по данным ресурса Photutorial, в сервисе Google Image Search проиндексировано более 136 миллиардов изображений. Поскольку стандарты маркировки еще не получили всемирного распространения, доля маркированных изображений в сети пренебрежимо мала;
- в публичном доступе есть нейросети, генерирующие немаркированный контент;
- маркировку с созданных фото и видео можно удалить — либо специальными приложениями, либо попросту пересняв ИИ-изображение с экрана на телефон.
Поэтому параллельно с внедрением технических мер в ИИ-инструменты и соцмедиа-платформы рекомендуется активно обучать пользователей внимательности и критическому отношению к интернет-контенту. А крупным СМИ и другим авторитетным источникам информации нужно скорее внедрять маркировку в аутентичных, по-настоящему снятых фото и видео.