На фоне продолжающихся споров по поводу законности извлечения контента web-сайтов из интернета без согласия владельца, OpenAI выпустила GPTBot для автоматического сканирования сайтов. Этот бот будет собирать данные, имеющиеся в публичном доступе, для тренировки моделей искусственного интеллекта. При этом в компании обещают обеспечить прозрачность процесса и ответственный подход к нему.
В документации OpenAI, сопровождающей выпуск web-сканера, говорится о том, что он будет отфильтровывать источники, требующие платного доступа, а также изымать персональные данные (PII) или тексты, нарушающие политику компании. Создатели GPT утверждают, что предоставление боту доступа к сайтам поможет повысить точность и возможности систем искусственного интеллекта будущего. Его можно идентифицировать с помощью следующего кода:
User agent token: GPTBot Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)
С другой стороны, вы также можете запретить доступ GPTBot к вашему сайту, добавив GPTBot к файлу robot.txt его корневого каталога. Это означает, что владельцам web-сайтов придётся самостоятельно выключать доступ OpenAI к своим ресурсам, вместо того чтобы соглашаться на обучение.
User-agent: GPTBot Disallow: /
Вы также можете контролировать доступ GPTBot к определенным частям вашего web-сайта, включив в файл robot.txt указанный ниже код.
Подписывайтесь на Mediasat в Telegram: здесь самые интересные новости из мира технологий
User-agent: GPTBot Allow: /directory-1/ Disallow: /directory-2/
Несмотря на то, что в OpenAI признают, что выгребают контент из интернета для обучения своих мощных языковых моделей – таких, как GPT-4, всё это всё равно выглядит как несовершенная попытка решить этическую дилемму, связанную с копированием данных, размещённых на web-сайтах других людей.
Пользователи сайта HackerNews обсуждают нравственную сторону выпуска упомянутого web-сканера для обучения моделей искусственного интеллекта. «OpenAI даже не делает ссылок. Он просто выполняет свою работу без ссылок, скрывая таким образом источники», – пишет один из пользователей. Кроме того, в OpenAI не признают факт использования контента web-сайтов для построения своих предыдущих моделей.
Недавно OpenAI также подал заявку на регистрацию торговой марки GPT-5, и это свидетельствует о том, что компания обучает свою следующую версию GPT-4, которая, согласно сообщениям нескольких источников, будет приближена к AGI, что и было целью компании в течение длительного времени. Очевидно, что GPTBot поможет компании собрать больше данных из интернета для обучения этой модели. Кроме того, компания также прекратила работу над своим проектом AI Classifier для обнаружения текста, сгенерированного GPT.