«Гудіні» обманює системи розпізнавання мови

"Ти! Не вір усьому, що чуєш! ", - як би каже нам ілюзіоніст Гаррі Гудіні.


Нещодавно ми писали про те, як вчені обманюють нейронні мережі, незначно змінюючи зображення - зрозуміло, в дослідницьких цілях. У результаті алгоритми невірно розпізнають картинки і можуть прийняти гібона за панду, а Сінді Кроуфорд - за Джека Ніколсона. Нещодавно науковці з Університету імені Бар-Ілана (івр. ‏אוניברסיטת Лід-Лас-Лана) і Facebook AI Research показали, що цей принцип поширюється не тільки на зображення, а й на розпізнавання. Препринт роботи опублікований в репозиторії arXi


У 2014 році фахівці з ШІ виявили, що для певної мережі (або групи мереж) можна створити зображення, яке вона буде неправильно класифікувати. Для цього картинку потрібно певним чином змінити, причому зміни часом непомітні людському оку. Тепер дослідники створили алгоритм під назвою «Гудіні» (Houdini) - він накладає на аудіокліпи шар шуму, модифікуючи їх так, що люди підступу не відчувають, але ПЗ для розпізнавання мови починає помилятися.

Вчені провели експеримент: за допомогою алгоритму змінили кілька записів і прогнали їх через Google Voice - програма повинна була перевести промову в текст. Для порівняння використовували оригінальні аудіозаписи. В одному з файлів було записано:

Відрізнялася прекрасною фігурою і поставою; вона увійшла, ведучи за руку сина; перед нею йшли дві служниці з восковими свічками, які горіли в срібних підсвічниках.

Після розпізнавання це перетворилося на:

Відрізнялася прекрасною фігурою і поставою; вона увійшла, ведучи за руку сина; перед ним слідували дві служниці з восковими свічками, які горіли в срібних підсвічниках.

Змінений запис звучав для людського вуха так само, як попередній, але Google Voice почув приблизно таке:


Мері була вдячна, потім зізналася, що дозволила своєму синові, перш ніж ходити в Мейс, хотіла б фільтр печі ломтик нарахував шість.

Крім того, дослідники перевірили, наскільки добре люди відрізняють змінені кліпи від оригінальних. Для цього добровольцям дали прослухати два записи - звичайну і «зіпсовану», а потім показали третю і запитали, на яку з двох попередніх вона більше схожа. Всього за допомогою алгоритму «Гудіні» згенерували 100 файлів, кожен з яких прослухали як мінімум 9 осіб. Виявилося, що люди можуть на слух відрізнити тільки половину таких записів (53,7%).

Може здатися, що обман нейронних мереж - досить дивна тема для дослідження, але таким чином вчені отримують можливість перевірити алгоритми на міцність, а заодно придумати способи захисту. Нейронні мережі і технології машинного навчання вже застосовуються в системах розпізнавання осіб, безпілотних автомобілях і багатьох інших областях, тому питання про те, чи можна їх атакувати і як з цим боротися, актуальне вже зараз.

COM_SPPAGEBUILDER_NO_ITEMS_FOUND