UARU

UARU

OpenAI отныне сканирует интернет с помощью GPTBot

- Реклама -

На фоне продолжающихся споров по поводу законности извлечения контента web-сайтов из интернета без согласия владельца, OpenAI выпустила GPTBot для автоматического сканирования сайтов. Этот бот будет собирать данные, имеющиеся в публичном доступе, для тренировки моделей искусственного интеллекта. При этом в компании обещают обеспечить прозрачность процесса и ответственный подход к нему.

В документации OpenAI, сопровождающей выпуск web-сканера, говорится о том, что он будет отфильтровывать источники, требующие платного доступа, а также изымать персональные данные (PII) или тексты, нарушающие политику компании. Создатели GPT утверждают, что предоставление боту доступа к сайтам поможет повысить точность и возможности систем искусственного интеллекта будущего. Его можно идентифицировать с помощью следующего кода:

User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

С другой стороны, вы также можете запретить доступ GPTBot к вашему сайту, добавив GPTBot к файлу robot.txt его корневого каталога. Это означает, что владельцам web-сайтов придётся самостоятельно выключать доступ OpenAI к своим ресурсам, вместо того чтобы соглашаться на обучение.

Подписывайтесь на Mediasat в Telegram: здесь самые интересные новости из мира технологий
User-agent: GPTBot
Disallow: /

Вы также можете контролировать доступ GPTBot к определенным частям вашего web-сайта, включив в файл robot.txt указанный ниже код.

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

Несмотря на то, что в OpenAI признают, что выгребают контент из интернета для обучения своих мощных языковых моделей – таких, как GPT-4, всё это всё равно выглядит как несовершенная попытка решить этическую дилемму, связанную с копированием данных, размещённых на web-сайтах других людей.

Пользователи сайта HackerNews обсуждают нравственную сторону выпуска упомянутого web-сканера для обучения моделей искусственного интеллекта. «OpenAI даже не делает ссылок. Он просто выполняет свою работу без ссылок, скрывая таким образом источники», – пишет один из пользователей. Кроме того, в OpenAI не признают факт использования контента web-сайтов для построения своих предыдущих моделей.

Недавно OpenAI также подал заявку на регистрацию торговой марки GPT-5, и это свидетельствует о том, что компания обучает свою следующую версию GPT-4, которая, согласно сообщениям нескольких источников, будет приближена к AGI, что и было целью компании в течение длительного времени. Очевидно, что GPTBot поможет компании собрать больше данных из интернета для обучения этой модели. Кроме того, компания также прекратила работу над своим проектом AI Classifier для обнаружения текста, сгенерированного GPT.

- Реклама -

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter.

Борис Скуратовский
Борис Скуратовский
Журналист, медиа-эксперт и «летописец» истории украинского радио. Образование: филолог (должен был обучать детишек английскому языку, а также украинскому языку и литературе, но в итоге просвещаю взрослых дядь и тёть, информируя их о новостях из мира радио, телевидения и сопутствующих технологий). За развитием телевидения и радио в Украине слежу с 1990 года – вначале как пассивный наблюдатель, а с февраля 1997, когда на страницах киномузыкального еженедельника «П’ятниця» впервые вышла моя рубрика «Новости радио», - как журналист. Впоследствии в разное время сотрудничал с такими изданиями, как газета «Хрещатик», а также журналы «Телерадіокур’єр», «Телемир», «Медиа-Эксперт» и рядом других. С 1998 по 2001 год работал на «Радио РОКС – Украина», где впервые получил возможность изучить радио «изнутри». Затем какое-то время работал редактором-наполнителем сайта радиостанции «ХИТ FM», а потом сотрудничал ещё с несколькими радиостанциями в качестве копирайтера. С 1999 года веду собственный интернет-портал ProRadio.Org.Ua, всецело посвящённый теме радиовещания в Украине. Люблю классический хард-рок, ценю оригинальность и нестандартность. Интересуюсь историей, лингвистикой, психологией.
- Реклама -

Читайте также

В Японии продемонстрировали работу 6G-связи со скоростью 100 Гбит/с

Передача данных со скоростью 100 Гбит/сек может стать нормой для сетей беспроводной связи 6G уже в ближайшие несколько лет.

SES покупает конкурента Intelsat за $3,1 млрд для создания многоорбитального спутникового оператора

Люксембургская спутниковая компания SES достигла соглашения о приобретении американского оператора спутниковой связи Intelsat за 3,1 миллиарда долларов.

В 2024 году в Казахстане начнет работу спутниковый интернет OneWeb

Уже в текущем году жители Республики Казахстан смогут пользоваться высокоскоростным спутниковым интернетом от компании OneWeb.

Disney представил первый тизер анимационного фильма «Муфаса: Король Лев»

Сюжет новой анимационной картины будет рассказывать предысторию отца главного героя предыдущего фильма Симбы - льва Муфасы.

В США возобновляют политику сетевого нейтралитета, нанося удар по провайдерам услуг доступа к интернету

Крупным провайдерам снова придется придерживаться четких правил "дорожного движения", запрещающих им блокировать или тормозить трафик.

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: