OpenAI отныне сканирует интернет с помощью GPTBot

- Реклама -

На фоне продолжающихся споров по поводу законности извлечения контента web-сайтов из интернета без согласия владельца, OpenAI выпустила GPTBot для автоматического сканирования сайтов. Этот бот будет собирать данные, имеющиеся в публичном доступе, для тренировки моделей искусственного интеллекта. При этом в компании обещают обеспечить прозрачность процесса и ответственный подход к нему.

В документации OpenAI, сопровождающей выпуск web-сканера, говорится о том, что он будет отфильтровывать источники, требующие платного доступа, а также изымать персональные данные (PII) или тексты, нарушающие политику компании. Создатели GPT утверждают, что предоставление боту доступа к сайтам поможет повысить точность и возможности систем искусственного интеллекта будущего. Его можно идентифицировать с помощью следующего кода:

User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

С другой стороны, вы также можете запретить доступ GPTBot к вашему сайту, добавив GPTBot к файлу robot.txt его корневого каталога. Это означает, что владельцам web-сайтов придётся самостоятельно выключать доступ OpenAI к своим ресурсам, вместо того чтобы соглашаться на обучение.

Подписывайтесь на Mediasat в Telegram: здесь самые интересные новости из мира технологий

User-agent: GPTBot
Disallow: /

Вы также можете контролировать доступ GPTBot к определенным частям вашего web-сайта, включив в файл robot.txt указанный ниже код.

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

Несмотря на то, что в OpenAI признают, что выгребают контент из интернета для обучения своих мощных языковых моделей – таких, как GPT-4, всё это всё равно выглядит как несовершенная попытка решить этическую дилемму, связанную с копированием данных, размещённых на web-сайтах других людей.

Пользователи сайта HackerNews обсуждают нравственную сторону выпуска упомянутого web-сканера для обучения моделей искусственного интеллекта. «OpenAI даже не делает ссылок. Он просто выполняет свою работу без ссылок, скрывая таким образом источники», – пишет один из пользователей. Кроме того, в OpenAI не признают факт использования контента web-сайтов для построения своих предыдущих моделей.

Недавно OpenAI также подал заявку на регистрацию торговой марки GPT-5, и это свидетельствует о том, что компания обучает свою следующую версию GPT-4, которая, согласно сообщениям нескольких источников, будет приближена к AGI, что и было целью компании в течение длительного времени. Очевидно, что GPTBot поможет компании собрать больше данных из интернета для обучения этой модели. Кроме того, компания также прекратила работу над своим проектом AI Classifier для обнаружения текста, сгенерированного GPT.

- Реклама -

OpenAI отныне сканирует интернет с помощью GPTBot

Читайте также

В Японии продемонстрировали работу 6G-связи со скоростью 100 Гбит/с

SES покупает конкурента Intelsat за $3,1 млрд для создания многоорбитального спутникового оператора

В 2024 году в Казахстане начнет работу спутниковый интернет OneWeb

Disney представил первый тизер анимационного фильма «Муфаса: Король Лев»

В США возобновляют политику сетевого нейтралитета, нанося удар по провайдерам услуг доступа к интернету

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам:

Ваш комментарий (необязательно):