WP: текстовые нейросети нарушили авторские права более 15 млн сайтов
Что скрывается в «черном ящике»? Кто позволяют ИИ выглядеть такими умными? Чтобы выяснить это, редакция The Washington Post проделала титаническую работу, и проанализировала набор данных, на котором обучались нейросети.
Речь идет о датасете C4 от Google, который использовали для обучения больших языковых моделей Google T5 и LLaMA (на чем OpenAI обучала ChatGPT, компания скрывает). Оказалось, что он содержит информация с 15 млн сайтов преимущественно из таких из таких отраслей, как журналистика, развлечения, разработка программного обеспечения, медицина и создание контента. По мнению WP, именно эти отрасли больше всех могут пострадать в итоге от негативного влияния нейросетей.
Оценив, какое количество информации «одолжил» модели каждый сайт, редакторы WP составили рейтинг источников в каждой категории.
В ТОП-3 самых «ограбленных» сайтов попали:
№1 — Patents.google.com, который содержит описания патентов, выданных по всему миру;
№2 — Wikipedia.org
№3 — Scribd.com, цифровая библиотека, доступная только по подписке.
Упоминается также, что в перечне сайтов датасета — пиратские библиотеки литературы, а 5 млн из фигурантов базы уже закрылись — их больше нет в сети.
Интересно, что материал, собранный журналистами The Washington Post, уже стал основанием для некоторых компаний подавать иски к владельцам ИИ с требованием компенсировать убытки от нарушения авторских прав.
Комментарии 0