ШІ навчили генерувати фейкові відео з Обамою

Нейронні мережі здатні майже на що завгодно: навіть змусити колишнього президента говорити під фонограму.


Вчені з Вашингтонського університету (University of Washington) навчилися робити фейкові відео Барака Обами на основі звукової доріжки. Змусити колишнього президента говорити що завгодно поки не можна, але можна згодувати нейромережам аудіо, записане двадцять років тому і отримати ролик, в якому п'ятдесятирічний Обама говорить те ж саме. Новий метод спрацює і з іншими людьми - були б матеріали для тренування ШІ. Опис технології опубліковано у збірнику матеріалів конференції SIGGRAPH 2017


Це вже далеко не перший раз, коли знаменитостей намагаються змусити говорити те, що потрібно. Вчені давно працюють над створенням цифрових «балакучих голів», які можна було б використовувати при виробництві фільмів і відеоігор або в якості аватарів у віртуальній реальності. Торік дослідники зі США та Німеччини створили алгоритм Face2Face, які дозволяє в реальному часі «анімувати» Джорджа Буша та інших знаменитостей: актор рухає губами, і персонаж на відео робить те ж саме. Новий метод працює інакше: якщо Face2Face переносить рухи рота з одного ролика в інший, то нова технологія синтезує їх на основі аудіодоріжки.

Автори роботи пояснюють, що створити реалістичне відео на основі звуку дуже складно, тому що люди вкрай уважні до міміки обличчя. Якщо губи рухаються не так, як зазвичай або навколо них не утворюється зморшок, глядачі відразу це відчувають. Інша складність - технічного характеру: в інтернеті багато роликів зі знаменитостями, але в багатьох з них людей показують збоку або здалеку, а часом відео не можна використовувати через авторські права. Дослідники вирішили використовувати ролики з щотижневими зверненнями колишнього президента США Барака Обами. По-перше, всі вони знаходяться у відкритому доступі, по-друге, їх набралося дуже багато (17 годин записів за 8 років), а по-третє, на них Обама дивиться прямо в камеру, і його обличчя відмінно видно.

Спрощено нову технологію можна описати так: нейронної мережі дають звукову доріжку, на основі якої вона створює приблизний контур доль. За цим контуром алгоритм будує текстури рота, щік і підборіддя, вони вбудовуються в потрібний ролик, і ролик підганяється за часом. Дослідники порівняли свій метод з Face2Face і дійшли висновку, що їх Обама виходить більш реалістичним: особливо помітно відрізняються рухи доль і зморшки навколо рота. Однак потрібно враховувати, що Face2Face використовує тільки два ролики, а новій техніці для тренування нейронної мережі потрібні кілька годин відеозаписів.

Вчені продемонстрували можливості свого методу, згенерувавши ролик, в якому «сучасний» Обама вимовляє слова, сказані понад 25 років тому. Поки алгоритми недосконалі - вони періодично прилаштовують колишньому президенту друге підборіддя і допускають інші помилки, які, втім, не так легко помітити неозброєним оком. Крім того, новий метод не моделює емоції, тому вираз обличчя може не відповідати змісту мови. Дослідники використовували слова, вимовлені Обамою в реальності, але вони не виключають, що скоро знаменитостей можна буде змусити говорити що завгодно.

Нова робота показує, що розпізнати такі фейки цілком реально. Зокрема, автори зазначили, що при створенні відео на основі промови губи і зуби часто розмиваються. "Це може бути непомітно людському оку, але можна розробити програму, яка порівнює, наскільки розмите зображення навколо рота порівняно з іншим відео. Вона буде давати досить достовірні результати ", - говорить Супасорн Суваджанакорн (Supasorn Suwajanakorn), один з авторів роботи.

Нова технологія могла б поліпшити якість зв'язку в Скайпі і подібних йому програмах, добудовуючи відео на основі аудіо. Або анімувати аудіозвонки для глухих людей, щоб вони могли читати по губах. Не кажучи вже про виробництво ігор і кіно. Вчені припускають, що зв'язок між звуками і обрисами рота може бути до деякої міри універсальним. Якщо це так, нейронну мережу, натреновану на прикладі Обами, можна перевчити на іншу людину, якщо додати небагато даних. Вони так само не виключають, що в майбутньому вдасться створити єдину мережу, придатну для роботи з різними роликами.


COM_SPPAGEBUILDER_NO_ITEMS_FOUND