UARU

UARU

OpenAI відтепер сканує інтернет за допомогою GPTBot

Поки тривають суперечки стосовно законності витягування контенту web-сайтів з інтернету без згоди власника, OpenAI випустив GPTBot для автоматичного сканування сайтів. Цей бот збиратиме дані, наявні у публічному доступі, для тренування моделей штучного інтелекту. При цьому у компанії обіцяють забезпечити прозорість процесу і відповідальний підхід до нього.

У документації OpenAI, що супроводжує випуск web-сканера, йдеться про те, що він відфільтровуватиме джерела, які вимагають платного доступу, а також вилучатиме персональні дані (PII), або тексти, що порушують політику компанії. Творці GPT стверджують, що надання боту доступу до сайтів допоможе підвищити точність та можливості систем штучного інтелекту майбутнього. Його можна ідентифікувати за допомогою наведеного нижче коду:

- Реклама -
User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

З іншого боку, ви також можете заборонити GPTBot доступ до вашого сайту, додавши GPTBot до файлу robot.txt його кореневого каталогу. Це означає, що власникам web-сайтів доведеться самостійно вимикати доступ OpenAI до своїх ресурсів, замість того, щоб погоджуватися на навчання.

User-agent: GPTBot
Disallow: /

Ви також можете контролювати доступ GPTBot до певних частин вашого web-сайту, включивши у файл robot.txt наведений нижче код.

Підписуйтесь на Mediasat у Telegram: тут найцікавіші новини ТБ та телекому
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

Попри те, що в OpenAI визнають, що вигрібають контент з інтернету для навчання своїх потужних мовних моделей – таких як GPT-4, все це все одно виглядає як недосконала спроба розв’язати етичну дилему, пов’язану із копіюванням даних, розміщених на web-сайтах інших людей.

Користувачі сайту HackerNews обговорюють етичний бік випуску згаданого web-сканера для навчання моделей штучного інтелекту. «OpenAI навіть не робить посилань. Він просто виконує свою роботу без жодних посилань, приховуючи таким чином джерела», – пише один із користувачів. Окрім цього, в OpenAI не визнають факт використання контенту web-сайтів для побудови своїх попередніх моделей.

Нещодавно OpenAI також подав заявку на реєстрацію торгової марки «GPT-5», і це свідчить про те, що компанія навчає свою наступну версію GPT-4, яка, згідно з повідомленнями кількох джерел, буде наближена до AGI, що й було метою компанії протягом тривалого часу. Очевидно, що GPTBot допоможе компанії зібрати більше даних з інтернету для навчання цієї моделі. З іншого боку, компанія також припинила роботу над своїм проєктом AI Classifier для виявлення тексту, згенерованого GPT.

- Реклама -

Якщо ви знайшли помилку, будь ласка, виділіть фрагмент тексту та натисніть Ctrl+Enter.

Борис Скуратівський
Борис Скуратівський
Журналіст, медіа-експерт та «літописець» історії українського радіо. За освітою – філолог (мав навчати діточок розмовляти, читати й писати англійською мовою, а також – любити українську мову та літературу, але так вже склалося, що несу знання дорослим і поважним людям, інформуючи їх про новини зі світу радіо, телебачення та суміжних технологій). За розвитком телебачення і радіо в Україні уважно слідкую з 1990-го року (коли почали з’являтися перші недержавні мовники) – спочатку робив це як пасивний спостерігач, а з лютого 1997 року, коли на шпальтах кіномузичного тижневика «П’ятниця» вперше вийшла моя рубрика «Новини радіо», - вже в якості журналіста. Згодом в різні роки співпрацював з газетою «Хрещатик», а також галузевими журналами «Телерадіокур’єр», «Телемир», «Медиа-Эксперт» та низкою інших видань. З 1998 по 2001 рік працював на радіостанції «Радіо РОКС – Україна», де вперше отримав можливість вивчати життя радіо, так би мовити, «зсередини». Згодом протягом певного часу працював редактором-наповнювачем сайту радіостанції «ХІТ FM», а потім співпрацював ще з низкою радіостанцій в якості копірайтера. З 1999 року веду власний інтернет-портал ProRadio.Org.Ua – один з перших україномовних ресурсів для фахівців в Україні, який став продовженням моєї газетної рубрики «Новини радіо» і повністю присвячений темі радіомовлення в Україні. Люблю класичний хард-рок, ціную оригінальність та нестандартність. Цікавлюсь історією, лінгвістикою, сучасним українським кінематографом та психологією.
- Реклама -

Читайте також

Аналог Starlink: Vodafone та AST SpaceMobile створюють спільну супутникову мережу для Європи

Vodafone та AST SpaceMobile запускають супутникову систему для прямого зв'язку зі смартфонами. Операційний центр розмістять у Німеччині.

Starlink та Veon уклали найбільшу угоду про прямий супутниковий зв’язок

Starlink та Veon уклали найбільшу угоду про прямий супутниковий зв'язок для смартфонів. Доступ до Direct to Cell отримають понад 150 млн абонентів телекомгрупи.

Sky може придбати медійні активи ITV за 2,15 млрд доларів

Телекомпанія Sky веде переговори про придбання медійного підрозділу ITV за 2,15 млрд доларів США. Угода дозволить ITV зосередитися на виробництві контенту.

Таджикистан створює національний консорціум для розгортання мережі 5G

У Таджикистані створюють національний консорціум 5G для координації дій держави та операторів. Комерційний запуск перших 5G-мереж планують завершити до кінця 2026 року, масове покриття – до 2030-го.

lifecell переводить Івано-Франківщину з 3G на 4G

12 листопада lifecell вимкне 3G-зв'язок на території Івано-Франківській області. Звільнені частоти використають для розширення 4G-мережі в регіоні.

Повідомити про помилку

Текст, який буде надіслано нашим редакторам: