UARU
UARU

OpenAI відтепер сканує інтернет за допомогою GPTBot

- Реклама -

Поки тривають суперечки стосовно законності витягування контенту web-сайтів з інтернету без згоди власника, OpenAI випустив GPTBot для автоматичного сканування сайтів. Цей бот збиратиме дані, наявні у публічному доступі, для тренування моделей штучного інтелекту. При цьому у компанії обіцяють забезпечити прозорість процесу і відповідальний підхід до нього.

У документації OpenAI, що супроводжує випуск web-сканера, йдеться про те, що він відфільтровуватиме джерела, які вимагають платного доступу, а також вилучатиме персональні дані (PII), або тексти, що порушують політику компанії. Творці GPT стверджують, що надання боту доступу до сайтів допоможе підвищити точність та можливості систем штучного інтелекту майбутнього. Його можна ідентифікувати за допомогою наведеного нижче коду:

User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

З іншого боку, ви також можете заборонити GPTBot доступ до вашого сайту, додавши GPTBot до файлу robot.txt його кореневого каталогу. Це означає, що власникам web-сайтів доведеться самостійно вимикати доступ OpenAI до своїх ресурсів, замість того, щоб погоджуватися на навчання.

Підписуйтесь на Mediasat в Telegram: тут найцікавіші новини зі світу технологій
User-agent: GPTBot
Disallow: /

Ви також можете контролювати доступ GPTBot до певних частин вашого web-сайту, включивши у файл robot.txt наведений нижче код.

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

Попри те, що в OpenAI визнають, що вигрібають контент з інтернету для навчання своїх потужних мовних моделей – таких як GPT-4, все це все одно виглядає як недосконала спроба розв’язати етичну дилему, пов’язану із копіюванням даних, розміщених на web-сайтах інших людей.

Користувачі сайту HackerNews обговорюють етичний бік випуску згаданого web-сканера для навчання моделей штучного інтелекту. «OpenAI навіть не робить посилань. Він просто виконує свою роботу без жодних посилань, приховуючи таким чином джерела», – пише один із користувачів. Окрім цього, в OpenAI не визнають факт використання контенту web-сайтів для побудови своїх попередніх моделей.

Нещодавно OpenAI також подав заявку на реєстрацію торгової марки «GPT-5», і це свідчить про те, що компанія навчає свою наступну версію GPT-4, яка, згідно з повідомленнями кількох джерел, буде наближена до AGI, що й було метою компанії протягом тривалого часу. Очевидно, що GPTBot допоможе компанії зібрати більше даних з інтернету для навчання цієї моделі. З іншого боку, компанія також припинила роботу над своїм проєктом AI Classifier для виявлення тексту, згенерованого GPT.

- Реклама -

Якщо ви знайшли помилку, будь ласка, виділіть фрагмент тексту та натисніть Ctrl+Enter.

Борис Скуратівський
Борис Скуратівський
Журналіст, медіа-експерт та «літописець» історії українського радіо. За освітою – філолог (мав навчати діточок розмовляти, читати й писати англійською мовою, а також – любити українську мову та літературу, але так вже склалося, що несу знання дорослим і поважним людям, інформуючи їх про новини зі світу радіо, телебачення та суміжних технологій). За розвитком телебачення і радіо в Україні уважно слідкую з 1990-го року (коли почали з’являтися перші недержавні мовники) – спочатку робив це як пасивний спостерігач, а з лютого 1997 року, коли на шпальтах кіномузичного тижневика «П’ятниця» вперше вийшла моя рубрика «Новини радіо», - вже в якості журналіста. Згодом в різні роки співпрацював з газетою «Хрещатик», а також галузевими журналами «Телерадіокур’єр», «Телемир», «Медиа-Эксперт» та низкою інших видань. З 1998 по 2001 рік працював на радіостанції «Радіо РОКС – Україна», де вперше отримав можливість вивчати життя радіо, так би мовити, «зсередини». Згодом протягом певного часу працював редактором-наповнювачем сайту радіостанції «ХІТ FM», а потім співпрацював ще з низкою радіостанцій в якості копірайтера. З 1999 року веду власний інтернет-портал ProRadio.Org.Ua – один з перших україномовних ресурсів для фахівців в Україні, який став продовженням моєї газетної рубрики «Новини радіо» і повністю присвячений темі радіомовлення в Україні. Люблю класичний хард-рок, ціную оригінальність та нестандартність. Цікавлюсь історією, лінгвістикою, сучасним українським кінематографом та психологією.
- Реклама -

Читайте також

У Росії планують заблокувати YouTube восени 2024 року

Процес відключення сервісу планується здійснювати поетапно, починаючи з погіршення якості роботи в окремих регіонах протягом липня-серпня.

Фінал ЄВРО-2024: де дивитися вирішальний матч Іспанія – Англія

У неділю, 14 липня, відбудеться фінальний матч Чемпіонату Європи з футболу 2024 року між збірними Іспанії та Англії. Ось де покажуть матч в Україні.

Нацрада скасувала реєстрацію телеканалу «Суспільне Новини» та змінила технічні характеристики мовлення «Суспільне Крим»

Національна рада України з питань телебачення і радіомовлення ухвалила низку важливих рішень щодо телеканалів Суспільного мовлення.

Енергонезалежний інтернет охоплює 41% абонентів в Україні

Міністерство цифрової трансформації України прогнозує подальше зростання частки користувачів енергонезалежних PON-мереж...

Національна рада визначила переможців конкурсу на цифрове ефірне мовлення

Національна рада з питань телебачення і радіомовлення підбила підсумки конкурсу на цифрове ефірне мовлення у загальнонаціональних мережах МХ-1, МХ-3 та МХ-5.

Повідомити про помилку

Текст, який буде надіслано нашим редакторам: