Поки тривають суперечки стосовно законності витягування контенту web-сайтів з інтернету без згоди власника, OpenAI випустив GPTBot для автоматичного сканування сайтів. Цей бот збиратиме дані, наявні у публічному доступі, для тренування моделей штучного інтелекту. При цьому у компанії обіцяють забезпечити прозорість процесу і відповідальний підхід до нього.
У документації OpenAI, що супроводжує випуск web-сканера, йдеться про те, що він відфільтровуватиме джерела, які вимагають платного доступу, а також вилучатиме персональні дані (PII), або тексти, що порушують політику компанії. Творці GPT стверджують, що надання боту доступу до сайтів допоможе підвищити точність та можливості систем штучного інтелекту майбутнього. Його можна ідентифікувати за допомогою наведеного нижче коду:
User agent token: GPTBot Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)
З іншого боку, ви також можете заборонити GPTBot доступ до вашого сайту, додавши GPTBot до файлу robot.txt його кореневого каталогу. Це означає, що власникам web-сайтів доведеться самостійно вимикати доступ OpenAI до своїх ресурсів, замість того, щоб погоджуватися на навчання.
Підписуйтесь на Mediasat в Telegram: тут найцікавіші новини зі світу технологій
User-agent: GPTBot Disallow: /
Ви також можете контролювати доступ GPTBot до певних частин вашого web-сайту, включивши у файл robot.txt наведений нижче код.
User-agent: GPTBot Allow: /directory-1/ Disallow: /directory-2/
Попри те, що в OpenAI визнають, що вигрібають контент з інтернету для навчання своїх потужних мовних моделей – таких як GPT-4, все це все одно виглядає як недосконала спроба розв’язати етичну дилему, пов’язану із копіюванням даних, розміщених на web-сайтах інших людей.
Користувачі сайту HackerNews обговорюють етичний бік випуску згаданого web-сканера для навчання моделей штучного інтелекту. «OpenAI навіть не робить посилань. Він просто виконує свою роботу без жодних посилань, приховуючи таким чином джерела», – пише один із користувачів. Окрім цього, в OpenAI не визнають факт використання контенту web-сайтів для побудови своїх попередніх моделей.
Нещодавно OpenAI також подав заявку на реєстрацію торгової марки «GPT-5», і це свідчить про те, що компанія навчає свою наступну версію GPT-4, яка, згідно з повідомленнями кількох джерел, буде наближена до AGI, що й було метою компанії протягом тривалого часу. Очевидно, що GPTBot допоможе компанії зібрати більше даних з інтернету для навчання цієї моделі. З іншого боку, компанія також припинила роботу над своїм проєктом AI Classifier для виявлення тексту, згенерованого GPT.