Языковая модель до суда доведет
Можно ли найти единое решение споров правообладателей и разработчиков ИИ
Разработчик искусственного интеллекта впервые выиграл суд по авторскому праву. Речь об американской компании Anthropic, это один из главных конкурентов OpenAI. В прошлом году несколько писателей подали против нее иск. Они заявили, что разработчик без разрешения использовал их книги, чтобы обучить свою модель искусственного интеллекта. Но суд решил, что это можно считать добросовестным использованием. Эта концепция описывает случаи, когда разрешение правообладателя не требуется.
Фото: Dado Ruvic / Illustration / Reuters
Фото: Dado Ruvic / Illustration / Reuters
Чем важно решение? И как оно повлияет на другие подобные споры? На эти вопросы “Ъ FM” ответила адвокат, партнер Digital & Analogue Partners Екатерина Смирнова: «Те нормы права, которые были разработаны исключительно для отношений, в которых участвуют люди, были применены по отношению к модели искусственного интеллекта. С точки зрения правовой логики в решении нет ничего нового. Случаи добросовестного использования — это достаточно разработанные нормы права, которые давно и часто применяются. Любой университет, например, использует защищаемые авторским правом книги и делает это весьма законно, как раз опираясь на доктрину fair use, потому что целью является обучение. В данном деле судья решил, что если мы учим языковую модель, никаких исключений не предусмотрено.
Сомневаюсь, что это станет повсеместной практикой. Поскольку если вдруг вы создаете конкурента, например, по смыслу ваша языковая модель может конкурировать с первоисточником, то уже нельзя применить доктрину добросовестного использования. Тут можно вспомнить самые громкие кейсы, например, The New York Times против OpenAI. Суть претензии The New York Times не просто в том, что модель учат на охраняемом авторским правом контенте. Дело в том, что пользователи могут задать вопрос языковой модели, получают ответ и не переходят на сайт The New York Times, не читают статьи и не покупают подписку».
В тоже время Anthropic обвиняли в использовании пиратских копий книг. Этот вопрос еще не закрыт, суд разберет его отдельно. Хотя выработать единый подход будет непросто, отмечает руководитель практики интеллектуальной собственности компании Comply Максим Али: «Искусственный интеллект обучается на большом объеме данных, который полностью проконтролировать с точки зрения его юридической чистоты невозможно. У нас подобная проблема была, когда стали появляться социальные сети и крупные интернет-ресурсы, куда кто угодно мог загружать какой угодно контент. Выработался подход, в соответствии с которым социальная сеть должна реагировать на жалобы правообладателей, если контент пиратский, удалять его, тогда она не считается нарушителем. Похожая ситуация и с нейросетями, потому что они обучаются на большом объеме данных и могут случайно забрать контент, который является пиратским.
В случае с соцсетями все просто и понятно: мы удаляем контент — проблемы нет и мы больше не считаем соцсеть нарушителем. В случае с провайдером ИИ проблема в том, что просто так удалить контент из модели мы не можем, нужно ее переобучать. И требование об удалении какого-то небольшого фрагмента может потребовать огромных вливаний со стороны провайдера, чтобы заново эту модель переобучить. Это может парализовать всю работу, привести к большим убыткам. И здесь нужно будет, видимо, выбирать какой-то компромиссным подход на стыке юридических вопросов и технологических, который будет учитывать интересы обеих сторон. Готового решения на данный момент, пожалуй, нет».
Параллельно Anthropic судится с блог-платформой Reddit. Площадка также утверждает, что разработчик незаконно использовал ее контент для обучения нейросети. Reddit при этом сотрудничает со сферой искусственного интеллекта на коммерческой основе. Bloomberg оценивал одну из подобных сделок в $60 млн.
С нами все ясно — Telegram-канал "Ъ FM".