UARU
UARU

OpenAI відтепер сканує інтернет за допомогою GPTBot

- Реклама -

Поки тривають суперечки стосовно законності витягування контенту web-сайтів з інтернету без згоди власника, OpenAI випустив GPTBot для автоматичного сканування сайтів. Цей бот збиратиме дані, наявні у публічному доступі, для тренування моделей штучного інтелекту. При цьому у компанії обіцяють забезпечити прозорість процесу і відповідальний підхід до нього.

У документації OpenAI, що супроводжує випуск web-сканера, йдеться про те, що він відфільтровуватиме джерела, які вимагають платного доступу, а також вилучатиме персональні дані (PII), або тексти, що порушують політику компанії. Творці GPT стверджують, що надання боту доступу до сайтів допоможе підвищити точність та можливості систем штучного інтелекту майбутнього. Його можна ідентифікувати за допомогою наведеного нижче коду:

User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

З іншого боку, ви також можете заборонити GPTBot доступ до вашого сайту, додавши GPTBot до файлу robot.txt його кореневого каталогу. Це означає, що власникам web-сайтів доведеться самостійно вимикати доступ OpenAI до своїх ресурсів, замість того, щоб погоджуватися на навчання.

Підписуйтесь на Mediasat в Telegram: тут найцікавіші новини зі світу технологій
User-agent: GPTBot
Disallow: /

Ви також можете контролювати доступ GPTBot до певних частин вашого web-сайту, включивши у файл robot.txt наведений нижче код.

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

Попри те, що в OpenAI визнають, що вигрібають контент з інтернету для навчання своїх потужних мовних моделей – таких як GPT-4, все це все одно виглядає як недосконала спроба розв’язати етичну дилему, пов’язану із копіюванням даних, розміщених на web-сайтах інших людей.

Користувачі сайту HackerNews обговорюють етичний бік випуску згаданого web-сканера для навчання моделей штучного інтелекту. «OpenAI навіть не робить посилань. Він просто виконує свою роботу без жодних посилань, приховуючи таким чином джерела», – пише один із користувачів. Окрім цього, в OpenAI не визнають факт використання контенту web-сайтів для побудови своїх попередніх моделей.

Нещодавно OpenAI також подав заявку на реєстрацію торгової марки «GPT-5», і це свідчить про те, що компанія навчає свою наступну версію GPT-4, яка, згідно з повідомленнями кількох джерел, буде наближена до AGI, що й було метою компанії протягом тривалого часу. Очевидно, що GPTBot допоможе компанії зібрати більше даних з інтернету для навчання цієї моделі. З іншого боку, компанія також припинила роботу над своїм проєктом AI Classifier для виявлення тексту, згенерованого GPT.

- Реклама -

Якщо ви знайшли помилку, будь ласка, виділіть фрагмент тексту та натисніть Ctrl+Enter.

Борис Скуратівський
Борис Скуратівський
Журналіст, медіа-експерт та «літописець» історії українського радіо. За освітою – філолог (мав навчати діточок розмовляти, читати й писати англійською мовою, а також – любити українську мову та літературу, але так вже склалося, що несу знання дорослим і поважним людям, інформуючи їх про новини зі світу радіо, телебачення та суміжних технологій). За розвитком телебачення і радіо в Україні уважно слідкую з 1990-го року (коли почали з’являтися перші недержавні мовники) – спочатку робив це як пасивний спостерігач, а з лютого 1997 року, коли на шпальтах кіномузичного тижневика «П’ятниця» вперше вийшла моя рубрика «Новини радіо», - вже в якості журналіста. Згодом в різні роки співпрацював з газетою «Хрещатик», а також галузевими журналами «Телерадіокур’єр», «Телемир», «Медиа-Эксперт» та низкою інших видань. З 1998 по 2001 рік працював на радіостанції «Радіо РОКС – Україна», де вперше отримав можливість вивчати життя радіо, так би мовити, «зсередини». Згодом протягом певного часу працював редактором-наповнювачем сайту радіостанції «ХІТ FM», а потім співпрацював ще з низкою радіостанцій в якості копірайтера. З 1999 року веду власний інтернет-портал ProRadio.Org.Ua – один з перших україномовних ресурсів для фахівців в Україні, який став продовженням моєї газетної рубрики «Новини радіо» і повністю присвячений темі радіомовлення в Україні. Люблю класичний хард-рок, ціную оригінальність та нестандартність. Цікавлюсь історією, лінгвістикою, сучасним українським кінематографом та психологією.
- Реклама -

Читайте також

ICTV2 покаже історичний екшен «Захар Беркут»

Телеканал ICTV2 представить телевізійну прем'єру історичного екшену «Захар Беркут», знятого за мотивами однойменної повісті Івана Франка. Показ стрічки відбудеться 25 січня о 21:00.

LG представила безплатний сервіс потокового аудіо LG Radio+

LG Electronics оголосила про запуск LG Radio+ — сервісу потокового аудіо з підтримкою реклами, який тепер доступний на смарттелевізорах LG на базі webOS 6.0 та новіших версій.

ПриватБанк впровадив технологію RCS-повідомлень для клієнтів

ПриватБанк першим з-поміж українських банків запровадив новий канал комунікації з клієнтами через технологію RCS (Rich Communication Services). Технологія вже доступна для користувачів Android в Україні, а незабаром стане доступною для пристроїв iOS.

В Україні операторів зв’язку пропонують визнати об’єктами критичної інфраструктури

У Раді зареєстрували законопроєкт, який пропонує визначити провайдерів та операторів мобільного зв'язку об'єктами критичної інфраструктури.

lifecell впровадив технологію IPv4/IPv6 Dual Stack для покращення якості мобільного інтернету

Мобільний оператор lifecell активував підтримку протоколів IPv4/IPv6 Dual Stack, що надасть абонентам можливість отримати швидше та надійніше інтернет-з'єднання.

Повідомити про помилку

Текст, який буде надіслано нашим редакторам: