DarkBERT может исследовать даркнет, выявляя и обозначая потенциальные угрозы для кибер-безопасности, в частности – утечку данных и программы-вымогатели.
Исследователи из Корейского института науки и передовых технологий (KAIST) в рамках совместного проекта с организацией анализа данных S2W представили DarkBERT – генеративную языковую модель искусственного интеллекта, обученную исключительно на наборах данных, полученных из так называемой тёмной сети или даркнета.
Целью проекта было создание не чего-то, подобного ChatGPT или Bard, а инструмента, способного анализировать наборы данных и давать ответы на конкретные запросы. DarkBERT может проверить, позволит ли использование даркнета в качестве набора данных инструментам искусственного интеллекта лучше понимать язык, используемый в этих сетях, что потенциально делает его ценным помощником для специалистов по проблемам кибербезопасности и сотрудников правоохранительных органов.
Подписывайтесь на Mediasat в Telegram: здесь самые интересные новости из мира технологий
Исследователи использовали Tor для обучения модели искусственного интеллекта
Чтобы оптимизировать процесс адаптации DarkBERT к языку, используемому в даркнете, команда исследователей создала масштабную базу данных, сканируя сеть виртуальных тоннелей Tor. Команда также задействовала дедупликацию, фильтрацию данных и предварительную обработку, чтобы устранить этические проблемы, связанные с использованием контента из «тёмной сети», поскольку он часто содержит конфиденциальную информацию.
В течение 16 дней модель «кормили» данными из двух наборов. При этом эти данные были предварительно отредактированы, чтобы извлечь из них названия организаций-жертв, детали утечки данных, заявления об угрозах и нелегальные изображения. Более тысячи страниц из данного набора данных относились к категории развлечений для взрослых.
Учитывая потенциально рискованный характер материалов даркнета, DarkBERT в ближайшее время не будет доступен широкой общественности. Однако, уже сейчас можно отправлять запросы на использование данной модели искусственного интеллекта в академических целях.