UARU
UARU

OpenAI відтепер сканує інтернет за допомогою GPTBot

- Реклама -

Поки тривають суперечки стосовно законності витягування контенту web-сайтів з інтернету без згоди власника, OpenAI випустив GPTBot для автоматичного сканування сайтів. Цей бот збиратиме дані, наявні у публічному доступі, для тренування моделей штучного інтелекту. При цьому у компанії обіцяють забезпечити прозорість процесу і відповідальний підхід до нього.

У документації OpenAI, що супроводжує випуск web-сканера, йдеться про те, що він відфільтровуватиме джерела, які вимагають платного доступу, а також вилучатиме персональні дані (PII), або тексти, що порушують політику компанії. Творці GPT стверджують, що надання боту доступу до сайтів допоможе підвищити точність та можливості систем штучного інтелекту майбутнього. Його можна ідентифікувати за допомогою наведеного нижче коду:

User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

З іншого боку, ви також можете заборонити GPTBot доступ до вашого сайту, додавши GPTBot до файлу robot.txt його кореневого каталогу. Це означає, що власникам web-сайтів доведеться самостійно вимикати доступ OpenAI до своїх ресурсів, замість того, щоб погоджуватися на навчання.

Підписуйтесь на Mediasat в Telegram: тут найцікавіші новини зі світу технологій
User-agent: GPTBot
Disallow: /

Ви також можете контролювати доступ GPTBot до певних частин вашого web-сайту, включивши у файл robot.txt наведений нижче код.

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

Попри те, що в OpenAI визнають, що вигрібають контент з інтернету для навчання своїх потужних мовних моделей – таких як GPT-4, все це все одно виглядає як недосконала спроба розв’язати етичну дилему, пов’язану із копіюванням даних, розміщених на web-сайтах інших людей.

Користувачі сайту HackerNews обговорюють етичний бік випуску згаданого web-сканера для навчання моделей штучного інтелекту. «OpenAI навіть не робить посилань. Він просто виконує свою роботу без жодних посилань, приховуючи таким чином джерела», – пише один із користувачів. Окрім цього, в OpenAI не визнають факт використання контенту web-сайтів для побудови своїх попередніх моделей.

Нещодавно OpenAI також подав заявку на реєстрацію торгової марки «GPT-5», і це свідчить про те, що компанія навчає свою наступну версію GPT-4, яка, згідно з повідомленнями кількох джерел, буде наближена до AGI, що й було метою компанії протягом тривалого часу. Очевидно, що GPTBot допоможе компанії зібрати більше даних з інтернету для навчання цієї моделі. З іншого боку, компанія також припинила роботу над своїм проєктом AI Classifier для виявлення тексту, згенерованого GPT.

- Реклама -

Якщо ви знайшли помилку, будь ласка, виділіть фрагмент тексту та натисніть Ctrl+Enter.

Борис Скуратівський
Борис Скуратівський
Журналіст, медіа-експерт та «літописець» історії українського радіо. За освітою – філолог (мав навчати діточок розмовляти, читати й писати англійською мовою, а також – любити українську мову та літературу, але так вже склалося, що несу знання дорослим і поважним людям, інформуючи їх про новини зі світу радіо, телебачення та суміжних технологій). За розвитком телебачення і радіо в Україні уважно слідкую з 1990-го року (коли почали з’являтися перші недержавні мовники) – спочатку робив це як пасивний спостерігач, а з лютого 1997 року, коли на шпальтах кіномузичного тижневика «П’ятниця» вперше вийшла моя рубрика «Новини радіо», - вже в якості журналіста. Згодом в різні роки співпрацював з газетою «Хрещатик», а також галузевими журналами «Телерадіокур’єр», «Телемир», «Медиа-Эксперт» та низкою інших видань. З 1998 по 2001 рік працював на радіостанції «Радіо РОКС – Україна», де вперше отримав можливість вивчати життя радіо, так би мовити, «зсередини». Згодом протягом певного часу працював редактором-наповнювачем сайту радіостанції «ХІТ FM», а потім співпрацював ще з низкою радіостанцій в якості копірайтера. З 1999 року веду власний інтернет-портал ProRadio.Org.Ua – один з перших україномовних ресурсів для фахівців в Україні, який став продовженням моєї газетної рубрики «Новини радіо» і повністю присвячений темі радіомовлення в Україні. Люблю класичний хард-рок, ціную оригінальність та нестандартність. Цікавлюсь історією, лінгвістикою, сучасним українським кінематографом та психологією.
- Реклама -

Читайте також

Українське радіо під час війни #41: нова серія подкастів, мобільні застосунки та кардинальне оновлення станції «FM Галичина»

Читайте нову публікацію в рубриці «Українське радіо під час війни». Борис Скуратівський, як завжди, повідомляє про останні новини українського радіопростору.

HomeNet запустив безоплатну Wi-Fi зону у селищі на Херсонщині

За словами Головкова Федора, керівника Південного управління HomeNet, цей проєкт став можливим завдяки відновленню оптичної мережі у Посад-Покровському.

Starlink виривається вперед у супутникових перегонах. Однак, конкуренти не сильно відстають

Згідно з інформацією аналітичної агенції Ookla, послуга супутникового широкосмугового зв’язку Starlink від компанії SpaceX б’є рекорди швидкості передачі даних.

Vodafone Україна готує до запуску Telescope – сервіс масової SMS-розсилки

На етапі тестування сервісу вартість посилання одного SMS-повідомлення на один номер становить 1 гривню (ціна містить в собі всі податки й збори).

Атака WiKI-Eve: перехоплення натискань клавіш смартфонів через уразливість Wi-Fi

Атака, що отримала назву WiKI-Eve, використовує функцію Beamforming Feedback Information (BFI), яку вперше було включено у специфікацію WiFi 5 у 2013 році.

Повідомити про помилку

Текст, який буде надіслано нашим редакторам: