ПРАВО.ru
Must-read
28 февраля 2023, 8:43

Нейросети против авторского права: кто кого

Нейросети против авторского права: кто кого
Нейросети нарисуют вам любую картинку и напишут любой текст. Это не только развлечение, но еще и индустрия, которая привлекает миллионы долларов. Но все может разрушиться, если суды решат, что это нелегально, раз нейросети учатся на контенте из интернета. Но могут ли они брать его без лицензии или оплаты? Еще неясен статус результата. Одна пользовательница с помощью нейросети скопировала работы известной художницы и разрешила использовать их бесплатно. Художницу это обидело, но сможет ли она что-то предпринять? Ответы дал журнал The Verge, а мы перевели эту статью.

Для генеративного искусственного интеллекта (ИИ, который отвечает за создание оригинального контента, например видео или изображенийсейчас время расцвета. Корпорации Microsoft, Adobe и GitHub и другие внедряют эти технологии в свои продукты. Стартапы собирают сотни миллионов долларов, чтобы потягаться с гигантами. Технологии даже оказывают культурное влияние: интеллект, который преобразовывает текст в картинки, породил бесчисленное количество мемов. Но прислушайтесь к дискуссиям, которые ведутся в индустрии, и где-то на фоне вы услышите тихий вопрос юристов и критиков: а это вообще законно?

Вопрос связан со способом обучения нейросетей. Большинство работают путем выявления и воспроизведения закономерностей в данных. Они выдают сгенерированные код, текст, музыку или рисунки, а исходники для обучения берут из интернета, где объекты так или иначе защищены авторскими правами.

Раньше это не представлялось угрозой. В 2010-е системы искусственного интеллекта умели создавать только размытые черно-белые изображения лиц размером с ноготок. Но со временем вопросы права и этики встали гораздо острее: сейчас один пользователь может с помощью нейросети типа Stable Diffusion, генерирующей картинки, скопировать стиль известных художников. Так случилось с иллюстратором Холли Менгерт, которая работала на «Дисней». Другая пользовательница скопировала ее работы, а потом разрешила всем пользователям бесплатно использовать результаты — новые картинки в том же стиле.

«Как будто кто-то забирает все, что я сделала и чему обучилась, и использует это, чтобы создать новые изображения. Но я на это не давала разрешения», — описала свои впечатления Менгерт осенью 2022 года.

«Как будто кто-то забирает все, что я сделала и чему обучилась, и использует это, чтобы создать новые изображения. Но я на это не давала разрешения».

Справедливо ли это? И может ли Менгерт что-то сделать?

Некоторые эксперты, включая юристов, аналитиков и работников ИИ-стартапов, уверенно говорят, что нейросети могут нарушить авторское право и столкнуться с серьезными правовыми проблемами в ближайшем будущем. Другие с такой же уверенностью возражают: все, что сейчас происходит в поле генеративного ИИ, соответствует закону и любые иски обречены на провал.

Слева — портреты в стиле Пабло Пикассо от нейросети DALL-E. Справа — работы Пикассо
 
 
Ученый Андрес Гуадамуз, который специализируется на ИИ и праве интеллектуальной собственности в Университете Сассекса (Великобритания), утверждает, что неясных аспектов много, но ключевых вопросов в теме лишь несколько:

  • Можно ли защитить авторским правом итог работы ИИ? Если да, то кому принадлежат такое право?
  • Если у вас есть авторское право на объекты, на которых обучают ИИ, есть ли у вас право предъявлять какие-то требования к модели или производимому контенту?

Когда ответы на эти два вопроса готовы, появляются еще более обширные: что делать с последствиями этой технологии? Какие правовые ограничения надо — или хорошо было бы — наложить на сбор данных? И возможен ли мир между теми, кто создает эти системы, и теми, чьи объекты используются для их создания?

Давайте разберемся по порядку.

Можно ли защитить авторским правом то, что создает ИИ?

Ответ на первый вопрос не такой сложный. В США нельзя защитить авторство работ, созданных исключительно машиной. (В России, думается, тоже: в силу ст. 1255 и ст. 1257 ГК авторское право принадлежит гражданину, чьим творческим трудом создано произведение науки, искусства и культуры. — Прим. ред.) Но речь об авторском праве может идти в тех ситуациях, когда создатель доказал существенный вклад человека.

В сентябре Бюро авторского права США зарегистрировало первый в своем роде комикс, созданный с помощью искусственного интеллекта Midjourney. Это полноценное 18-страничное произведение с героями и диалогами. Но затем решение пересмотрели. Кристину Каштанову, которая стоит за этим комиксом, попросили раскрыть детали работы и показать, в чем существенный вклад человека в творческий процесс. (21 декабря, когда статья-источник уже вышла, стало известно, что комиксу отказали в правовой защите. — Прим. ред.)

Как говорит Гуадамуз, этот вопрос будет всплывать постоянно, когда разговор пойдет о возможности авторского права на работы, созданные с помощью ИИ. 

Если вы просто напечатаете «Кот кисти Ван Гога», не думаю, что этого будет достаточно, чтобы получить авторское право в США. Но если вы начнете экспериментировать с запросами, получать несколько результатов, доводить их до ума, плотнее займетесь инженерией ИИ, я уверен, что это можно защитить законом.

Андрес Гуадамуз 

Если исходить из этого, то получится, что нельзя поставить знак авторского права на большую часть результатов работы ИИ. Но более сложные процессы дают больше шансов на успех. Здесь можно привести спорные примеры типа изображения от ИИ, которое было отмечено первым местом на художественном конкурсе. Как заявлял его создатель, он потратил недели на то, чтобы отточить запросы и вручную доработать получившийся результат. Это выглядит как относительно высокий уровень интеллектуального вовлечения.

Джорджио Францешелли, специалист в области информатики и автор работ на тему искусственного интеллекта и авторского права, утверждает, что определение доли человеческого участия может быть особенно актуально в Евросоюзе. А Великобритания — одна из немногих юрисдикций, где защиту могут получить объекты, созданные исключительно ИИ. Согласно местным нормам, автором становится тот, кто «принимает меры, необходимые для создания объекта». Опять-таки, есть место для разночтений: этот человек — это разработчик или оператор модели? Но это почва для признания определенного авторского права.

Вопрос ввода: можно ли обучать ИИ на объектах, защищенных авторским правом?

Для большинства экспертов самый большой вопрос касается данных, на которых обучаются модели. Большинство систем изучают огромное количество информации, автоматически собранной в интернете, будь это текст, код или визуальные объекты. Например, нейросеть Stable Diffusion, одна из самых больших и влиятельных, содержит миллиарды изображений, полученных с сотен доменов, начиная с персональных блогов и заканчивая платформами для художников типа DeviantArt и сайтов со стоковыми фото типа Shutterstock и Getty Images.

Исследователи ИИ, стартапы и компании оправдывают этот подход тем, что по крайней мере в США на изображения распространяется доктрина свободного использования. Чтобы определить свободное использование, надо ответить на два ключевых вопроса, говорит Дэниел Джервейс, профессор юридической школы Вандербильта (США): какова природа использования и какое влияние на рынок оно оказывает? Иными словами, преобразовывается ли объект и угрожает ли это заработку автора оригинала, соперничая с его работой? Джервейс считает, что обучение нейросетей на объектах, защищенных авторским правом, «вероятнее будет, чем не будет» признано свободным использованием. Но это необязательно применимо к результату, который выдает ИИ. Другими словами, можно тренировать нейросеть, но то, что от нее получают, может быть нарушением.

Если ИИ-модель натренирована на бесчисленных миллионах иллюстраций и делает картинки к тексту, очень маловероятно, что это нарушит чьи-то права. Но если обучить ИИ на ста работах конкретного художника и генерировать файлы, которые копируют его стиль, у недовольного художника будет больше правовых аргументов для иска.

Если загрузить в нейросеть десять романов Стивена Кинга и дать ей команду создать еще один, тогда вы напрямую будете соперничать с Кингом. Можно ли это назвать свободным использованием? Думаю, что нет.

Дэниел Джервейс

Но между двумя этими полюсами есть бесчисленное множество сценариев, где ввод, вывод информации и цель могут быть разными и по-разному сочетаться, склоняя решение суда в ту или иную сторону. 

Большинство игроков рынка знают об этих отличиях, утверждает Райан Хурана, директор по персоналу компании Wombo, которая занимается ИИ. «Все крупные игроки рынка своими правилами запрещают использовать запросы, которые опираются на защищенные авторским правом работы, — заявил он. — Но принудить к исполнению этого правила сложно. И компании скорее стремятся придумать, как предотвратить использование ИИ неправовыми способами, чем ограничить объем данных для обучения».

Еще один аспект, который позволяет определить свободное использование, — созданы ли нейросеть и обучающий материал учеными-исследователями или некоммерческими организациями. Это усиливает позиции защитников свободного использования, и стартапы об этом знают. К примеру, Stability AI — компания, которая распространяет нейросеть Stable Diffusion (создает изображения по текстовому описанию), — не собирала данные для обучения самостоятельно и не тренировала нейросеть. Вместо этого она оплатила и скоординировала работу ученых, которые этим занимались. Сама модель Stable Diffusion лицензирована немецким университетом. Это позволяет компании Stability AI превратить модель в коммерческий сервис, юридически дистанцируясь от своего творения.

Специалист по технологиям Энди Байо окрестил такую практику «отмыванием данных ИИ». Он отмечает, что способ использовали и раньше, когда создавались методы распознавания лиц. Это напоминает кейс базы данных MegaFace, созданной исследователями из Университета Вашингтона из изображений на фотохостинге Flickr. «Теперь все эти данные, включая миллионы личных фотографий, в руках компании [распознавания лиц] Clearview AI, правоохранительных органов и китайского правительства», — констатирует Байо. (Китай известен массовыми слежками за гражданами с помощью высоких технологий. Госучреждения разместили более 20 млн камер видеонаблюдения. — Прим. ред.)

Что примирит авторов и компании, создающие ИИ?

Даже если обучение генеративных ИИ признают подпадающим под концепцию свободного использования, это вряд ли решит проблемы отрасли. Как минимум, это не успокоит авторов, разозленных тем, что их работы используются для обучения коммерческих нейросетей. А еще это решение необязательно признают разумным для других сфер, где работает генеративный ИИ, вроде создания кода или музыки. Вопрос остается: какие есть способы позволить нейросетям процветать, при этом признавая авторство или выплачивая компенсации авторам, чьи работы сделали отрасль возможной?

Самое очевидное решение — лицензировать данные и платить их создателям. Но Брайан Кейси и Марк Лемли, авторы статьи «Свободное использование», утверждают, что наборы данных для обучения настолько велики, что нет жизнеспособных вариантов лицензировать все фотографии, видео, аудиофайлы или тексты для нового использования. По их словам, решение разрешить какие-либо авторские притязания приведет не к тому, что владельцы прав получат деньги, а к тому, что любое использование будет запрещено. Свободное использование, наоборот, поощряет инновации и позволяет системам ИИ развиваться, считают авторы.

Другие несколько экспертов, к которым обращалась The Verge, указывают, что обществу уже приходилось ориентироваться в проблеме похожего характера и масштаба. В эру музыкального пиратства программы обмена нелегальным контентом процветали до тех пор, пока не появились новые договоренности, признающие авторское право. Так появились сервисы стриминга вроде Spotify и iTunes. «Тогда все заинтересованные стороны сели за стол переговоров и сделали так, чтобы все заработало. Мысль, что нечто подобное невозможно в сфере ИИ, меня слегка пугает», — признается юрист Мэттью Баттерик, который сейчас судится с компаниями за сбор данных для обучения нейросетей.

Есть и альтернативы. Сервис стоковых фото Shutterstock планирует создать фонд для компенсаций авторам, чьи работы продают ИИ-стартапам. Сообщество креативных иллюстраторов DeviantArt создало метатег для изображений, которые нельзя использовать исследователям ИИ. Эти решения, правда, получили смешанные оценки в сообществах художников. Может ли разовая оплата лицензии компенсировать потерю источника средств к существованию? И как поможет запрещающий тег авторам, чьи работы уже были использованы для обучения нейросетей?

Может ли разовая оплата лицензии компенсировать потерю источника средств к существованию? И как поможет запрещающий тег авторам, чьи работы уже были использованы для обучения нейросетей?

Но ИИ-стартапы, по крайней мере, предлагают новые подходы на будущее. Один очевидный шаг для ИИ-исследователей — создать базы данных, с которыми невозможно нарушить чьи-то права. Эти массивы могут состоять из материалов, которые уже должным образом лицензированы или специально созданы для целей обучения нейросетей. Пример — набор данных The Stack для обучения ИИ, специально созданный, чтобы избежать обвинений в нарушении авторских прав. Эта база данных состоит из кода с максимально свободной опенсорс-лицензией и предлагает программистам легкий способ удалить фрагменты их авторства по запросу.

«Этот подход определенно можно адаптировать к другим медиа», — уверен Ясин Жернит из Hugging Face, которая создала The Stack. По словам Жернита, его компания хочет помочь на 180 градусов повернуть отношение исследователей ИИ к создателям объектов. 

Впрочем, пока этот подход остается редкостью. 

Свободный сокращенный перевод статьи автора The Verge Джеймса Винсента The scary truth about AI copyright is nobody knows what will happen next.