Спеціалісти британської компанії NCC Group продемонстрували технологію, здатну відтворювати голос людини практично миттєво. Система генерує синтетичний голос із затримкою лише 0,5 секунди, що робить можливим її використання під час телефонних розмов. Про це пише ENGtechnica.
Нова розробка працює на стандартному обладнанні — для її функціонування достатньо ноутбука з графічним процесором RTX A1000. Це суттєво відрізняється від попередніх рішень, які потребували попереднього синтезу голосу або працювали зі значними затримками.
Технологія не вимагає високоякісних зразків для створення голосового профілю. Навіть аудіофайли низької якості стають основою для генерації імітації. Фахівці поєднали цей метод із підміною ідентифікатора абонента, що дозволило реалізувати атаки типу «дипфейк-вішинг» — шахрайські дзвінки з використанням штучно створеного голосу.
Результати тестування показали високу ефективність системи. У більшості випадків люди не змогли відрізнити синтетичний голос від справжнього. Технологія відтворює індивідуальні характеристики мовлення, включаючи тембр, частотний діапазон та особливості інтонування.
Підписуйтесь на Mediasat у Telegram: тут найцікавіші новини ТБ та телекому
Експерти NCC Group наголошують, що розробка демонструє комплексну проблему на перетині апаратних рішень, алгоритмів машинного навчання, телекомунікаційних мереж та інформаційної безпеки. Голосова ідентифікація втрачає статус надійного методу верифікації особи, оскільки сучасні системи здатні обманювати як людське сприйняття, так і автоматизовані засоби розпізнавання.
Компанія рекомендує організаціям переоцінити рівень довіри до голосових каналів комунікації. Серед запропонованих захисних заходів — впровадження багаторівневої автентифікації, моніторинг нетипових шаблонів вхідних дзвінків та застосування спеціалізованих інструментів для виявлення синтетичного аудіо.
Зазначимо, що дипфейк-загрози стосуються не лише голосу. Саме тому YouTube нещодавно запустив тестування системи, що виявляє відео з підробленими обличчями.
