DarkBERT може досліджувати даркнет, аби виявляти та позначати потенційні загрози для кібербезпеки, зокрема – витік даних та програми-вимагачі.
Дослідники з Корейського інституту науки й передових технологій (KAIST) в рамках спільного проєкту з організацією аналізу даних S2W представили DarkBERT – генеративну мовну модель штучного інтелекту, яка була навчена виключно на наборах даних, отриманих із так званої темної мережі або даркнету.
Метою проєкту було створення не чогось, подібного до ChatGPT або Bard, а інструменту, здатного аналізувати набори даних та давати відповіді на конкретні запити. DarkBERT може перевірити, чи дозволить використання даркнету як набору даних інструментам штучного інтелекту краще розуміти мову, яка використовується в цих мережах, що потенційно робить його цінним помічником для фахівців з проблем кібербезпеки та співробітників правоохоронних органів.
Підписуйтесь на Mediasat в Telegram: тут найцікавіші новини зі світу технологій
Дослідники використали Tor для навчання моделі штучного інтелекту
Для того, аби оптимізувати процес адаптації DarkBERT до мови, яка використовується в даркнеті, команда дослідників створила масштабну базу даних, скануючи мережу віртуальних тунелів Tor. Команда також застосувала дедуплікацію, фільтрацію даних і попередню обробку, аби усунути етичні проблеми, пов’язані використанням контенту з «темної мережі», адже він часто містить конфіденційну інформацію.
Протягом 16 днів модель «годували» даними з двох наборів. При цьому ці дані було попередньо відредаговано, аби вилучити з них назви організацій-жертв, деталі витоку даних, заяви про загрози та нелегальні зображення. Понад тисяча сторінок з цього набору даних належала до категорії розваг для дорослих.
З огляду на потенційно ризикований характер матеріалів даркнету, DarkBERT найближчим часом не буде доступний для широкої громадськості. Однак, наразі можна надсилати запити на використання цієї моделі штучного інтелекту в академічних цілях.