Новости

WP: текстовые нейросети нарушили авторские права более 15 млн сайтов

25 апреля 2023

Ольга Логинова

25 апреля 2023

Что скрывается в «черном ящике»? Кто позволяют ИИ выглядеть такими умными? Чтобы выяснить это, редакция The Washington Post проделала титаническую работу, и проанализировала набор данных, на котором обучались нейросети.

Речь идет о датасете C4 от Google, который использовали для обучения больших языковых моделей Google T5 и LLaMA (на чем OpenAI обучала ChatGPT, компания скрывает). Оказалось, что он содержит информация с 15 млн сайтов преимущественно из таких из таких отраслей, как журналистика, развлечения, разработка программного обеспечения, медицина и создание контента. По мнению WP, именно эти отрасли больше всех могут пострадать в итоге от негативного влияния нейросетей.

Оценив, какое количество информации «одолжил» модели каждый сайт, редакторы WP составили рейтинг источников в каждой категории.

В ТОП-3 самых «ограбленных» сайтов попали:

№1 — Patents.google.com, который содержит описания патентов, выданных по всему миру;
№2 — Wikipedia.org
№3 — Scribd.com, цифровая библиотека, доступная только по подписке.

Упоминается также, что в перечне сайтов датасета — пиратские библиотеки литературы, а 5 млн из фигурантов базы уже закрылись — их больше нет в сети.

Интересно, что материал, собранный журналистами The Washington Post, уже стал основанием для некоторых компаний подавать иски к владельцам ИИ с требованием компенсировать убытки от нарушения авторских прав.

нейросети

WP: текстовые нейросети нарушили авторские права более 15 млн сайтов

Читайте также

Комментарии 0

WP: текстовые нейросети нарушили авторские права более 15 млн сайтов

Читайте также

Комментарии 0

Обзор индустрии, новости, кейсы, мнения экспертов

Вы подписались на рассылку

Вход

Регистрация

Мы отправили вам на почту письмо для подтверждения регистрации

Восстановление пароля

Мы отправили вам на почту инструкцию по восстановлению пароля.