11 ноября 2024

Битва за выживание: ИИ-компании против правообладателей

Как иски об авторских правах могут изменить индустрию ИИ и весь известный нам интернет

Future Crew

Блок инноваций ПАО «МТС»

Авторское право всегда защищало творчество человека. Но благодаря ИИ появились произведения, созданные почти без человеческого участия — если забыть о художниках, фотографах, писателях и журналистах, на чьих работах обучен ИИ. Вопрос о том, кому принадлежат авторские и смежные права в этой ситуации, всё чаще доходит до суда. Крупные иски против создателей и пользователей ИИ могут изменить финансовую модель этой индустрии — а то и закрыть её вовсе. Уже сейчас, не дожидаясь исхода судов, множество популярных сайтов ограничивают доступ к своим материалам, чтобы воспрепятствовать обучению на них ИИ.

Почему авторы ополчились на ИИ

Основные опасения и претензии авторов собраны в резонансном «Заявлении об обучении ИИ», появившемся в октябре и уже подписанном более 28 тыс. творческих людей, включая звёзд первой величины. Они протестуют против нелицензированного использования их творчества для обучения ИИ и требуют запретить эту практику, угрожающую их источникам дохода.

Веб-сайты теряют трафик и подписчиков, которые получают всё им нужное в ИИ-ответах, не заходя на сайт, а уникальный фирменный стиль художника или писателя может обесцениться из-за изобилия ИИ-клонов. Но всё это становится возможным, только если ИИ сначала научится на статьях веб-сайта и работах автора. Пример приведён в иске NYT против OpenAI: истцы заявляют, что ChatGPT напрямую конкурирует с газетой за роль источника надёжной информации, хотя по сути использует её статьи. В иске упоминаются «миллиарды долларов фактического ущерба».

Для обучения генеративных нейросетей ИИ-компаниям нужны триллионы образцов текстов, изображений и видео. Ранние модели обучались на специально отобранных лицензированных данных, но такие выборки давно кончились, а данных нужно гораздо больше. Поэтому сегодня на нужды обучения идёт весь доступный контент из интернета, включая передовицы ведущих СМИ, художественные работы с сайтов галерей, мемы с форумов и дискуссии с сайтов вроде Reddit. В итоге все ведущие ИИ-модели отчасти обучены на контенте, который защищён авторским правом и собран с нарушением лицензионных соглашений. По этому поводу сейчас ведутся крупные суды: Dow Jones vs Perplexity, Andersen vs Stability AI — всего более 30 дел. Истцы утверждают, что ответчики извлекают выгоду из их творчества, не указывая авторов и не выплачивая им никаких компенсаций.


Добросовестный ИИ

ИИ-компании в защите ссылаются на широко применяемую в американской юриспруденции доктрину «добросовестного использования» (fair use), которая в ряде случаев допускает использование объектов авторского права без разрешения, например для научных трудов или при существенном преобразовании исходного материала. Ответчики заявляют, что при обучении исходные материалы многократно преобразуются и смешиваются, то есть трансформируются, и ни в итоговой модели, ни в результатах её работы нельзя указать на конкретные защищённые авторским правом произведения, ставшие первоосновой сгенерированного материала.

Юристы считают, что эта линия защиты может сработать, но всё зависит от конкретики применения ИИ. Обучение модели на работах Дали для научных целей, возможно, будет признано добросовестным использованием, но генерация десяти новых работ в стиле Дали для платной выставки — уже нет. С некоторыми современными художниками подобное «похищение фирменного стиля» уже случилось. В иске NYT говорится, что некоторые ответы ChatGPT почти цитируют статьи издания, поэтому степень трансформации контента при обучении не так уж велика.       

ИИ и авторы: новые отношения

Эксперты по авторскому праву солидарны, что победитель непредсказуем. Многое зависит от того, докажут ли истцы, что ИИ имитирует именно их стиль. Пока в одном важном иске против Stability AI и Midjourney истцы достигли промежуточного успеха — суд счёл основания иска достаточными для рассмотрения по существу и изучения доказательств. Это означает, что ИИ-компании будут вынуждены предоставить внутреннюю переписку и документацию, связанную со своими моделями, а также что суд не согласился с расширительной трактовкой добросовестного использования.

Победа правообладателей значительно изменит индустрию. Некоторые эксперты вспоминают судьбу музыкального сервиса Napster, сделавшего обмен музыкой крайне популярным в начале века, но обанкротившегося в результате судов с правообладателями.  По аналогии с этим случаем, специалисты называют нынешние суды потенциальным убийцей текущих ИИ-моделей, если их использование будет запрещено. В более мягкой версии судебного решения ИИ-компаниям придётся выплатить правообладателям компенсации, а ИИ-сервисы существенно подорожают за счёт лицензионных отчислений. Именно этот путь после закрытия Napster привёл к появлению Spotify.

Ну а пока идут суды, всё больше сайтов закрывают свой контент от индексации ботами, чтобы его не использовали в тренировке ИИ, и информация с сайта не попадала в ответы чатботов. Побочные эффекты ощущают и обычные пользователи — многие сайты не показывают контент без регистрации, отказываются работать под VPN, ограничивают число просмотров.

Автоматизировать блокировки ботов, собирающих обучающий контент, предложила Cloudflare. Провайдер сервисов для распределения нагрузки на веб-сайты и защиты от DDoS-атак позволяет своим клиентам заблокировать известные боты буквально одной кнопкой — при посещении сайтов индексирующим ботом одного из известных ИИ-провайдеров, бот не получит никакой информации.

Впрочем, массовые блокировки вряд ли решат конфликт. Разработчики Cloudflare видят выход в простом и массовом лицензировании контента — не только для гигантов вроде New York Times, но и сайтов маленького размера. Для них компания создаёт нечто вроде биржи, на которой можно оценить стоимость своего контента и договориться с поставщиками ИИ о его платном использовании через автоматическую платформу.