Нейросети заплатят за обучение
В чем суть нового стандарта лицензирования контента в интернете
Создатели сайтов смогут требовать плату с компаний, которые используют их контент для обучения нейросетей. Новый стандарт лицензирования позволит владельцам интернет-ресурсов устанавливать условия использования своих материалов и получать выплату за сбор данных языковыми моделями. Инициатором выступила организация RSL Collective, основанная бывшим вице-президентом Yahoo Экартом Вальтером.
Фото: Евгений Разумный, Коммерсантъ
Фото: Евгений Разумный, Коммерсантъ
Успех нового стандарта зависит от того, насколько его поддержат крупные игроки отрасли, говорит партнер компании Digital & Analogue Partners Юрий Брисов: «Отдельные корпорации, в том числе и OpenAI, сейчас пытаются придумать решения, чтобы можно было обучать модели на каких-то платных данных, на авторских материалах, и это не было бы нарушением. Плюс необходимо урегулировать механизм, при котором материалы, создаваемые компанией или человеком с использованием AI, могут как-то защищаться. Либо копирайт, либо авторское право, либо какой-то новый отдельный механизм защиты права. Потому что AI — это технология, за которой в любом случае стоят люди, они используют AI при создании контента, но какой-то элемент творчества в этом всегда есть.
Сейчас корпорации понимают, что они могут интегрировать AI во все свои сервисы, и просто так использовать AI и постоянно судиться с New York Times, с Disney и с другими компаниями, такими как Universal, которые сейчас предъявляют им иски, невозможно. Даже если они эти суды будут выигрывать, это будет тянуться годы. И это очень большие риски, поскольку требования, которые к ним предъявляют, — это миллиарды долларов. Нельзя спокойно развивать свой продукт, рискуя через год-два заплатить штраф, допустим, $3 млрд. Появление нового стандарта лицензирования отразится на затратной части компаний-гигантов, внедряющих искусственный интеллект. Возможно, это будет частично перенесено на пользователя через повышение стоимости подписки».
Свою поддержку инициативе уже выразили такие компании, как Reddit, Medium и Quora. При этом другой крупный игрок рынка — Cloudflare начал предоставлять возможность блокировать ИИ-ботов еще в 2023-м. Впрочем, несанкционированный сбор данных для обучения нейросетей все еще находятся в серой зоне правового регулирования, объясняет советник практики интеллектуальной собственности компании ЭБР Артем Евсеев: «Нейросети используют все, что лежит в открытом доступе. Неважно, на каких условиях это распространяется.
Этот стандарт направлен на то, чтобы установить технически нейтральную схему, когда ИИ-системы при обращении к сайтам должны будут платить определенное лицензионное вознаграждение правообладателю.
В настоящее время как в России, так и за рубежом возможности обучения искусственного интеллекта находятся в серой зоне: какие исходные данные он может использовать при обучении и так далее. Когда мы говорим про использование контента в открытом доступе, нужно понимать, что он распространяется на определенных условиях.
Аналогичный пример с open source кодом. Это код, который распространяется по открытым лицензиям, то есть его исходный код лежит в открытом доступе, каждый может скачать эту программу, но использовать ее на определенных условиях. Соответственно, стандарт для ИИ-систем по факту вдохновлен уже имеющимся опытом использования защиты open source. Логично предположить, что суды будут также защищать этот стандарт распространения контента, поскольку суды во многих юрисдикциях, даже в России, признают защиту open source. Мне кажется, что в ближайшей перспективе реально, что такие стандарты будут действительно способны быть защищены в судах».
По данным Cloudflare, на одного «живого» пользователя сайтов приходится 14 поисковых роботов Google, 1,7 тыс. запросов от OpenAI и 73 тыс. ботов Anthropic.
С нами все ясно — Telegram-канал "Ъ FM".