MuZero від DeepMind може поліпшити алгоритми трансляції відео в Youtube

MuZero - нова розробка від DeepMind.


Недавня ШІ-розробка компанії DeepMind обігрує своїх попередників в го, шахи, села та ігри від Atari, засвоюючи правила гри без допомоги людини. Зараз її вже починають пробувати використовувати в прикладних завданнях, наприклад у пошуку нових способів стиснення відео, які змогли б прискорити передачу даних при відтворенні потокового відео на YouTube.


Девід Сільвер (David Silver), головний дослідник DeepMind'a, поговорив з BBC:

"Світ навколо нас - безладний і складний, але ніхто нам не розповідає, за якими правилами він функціонує. Тим не менш, люди здатні будувати плани і стратегії щодо того, що робити далі ".

Вперше у людей є система, яка сама вибудовує свою картину світу, своє уявлення про те, як він працює, і навіть використовує його, щоб будувати плани на кілька кроків вперед. Вона вчиться методом проб і помилок, засвоює правила гри і виводить кращі стратегії для перемоги, не порівнянні з тими, які може вивести людина.

DeepMind анонсував MuZero в 2019, але не починав дискусію навколо проекту, так як чекав, поки відповідна публікація пройде процес рецензування в журналі Nature.

MuZero - це великий успіх в області навчання з підкріпленням, в якій використовуються моделі нейромереж, що навчаються методом проб і помилок. Розробку можна поставити в один логічний ряд з:

  • Програмою, відомою як DQN, яка перевершила людських гравців у відеоіграх від Atari, маючи як вхідні дані тільки пікселі картинки і поточний рахунок,
  • AlphaGo, програмою, яка в 2016 році, після навчання на корпусі завершених ігор, обіграла в го майстра гри Лі Седоля (Lee Sedol) з рахунком 4:1,
  • AlphaGo Zero, яка тренувалася сама, будучи забезпеченою тільки правилами гри, і в 2017 році обіграла AlphaGo,
  • AlphaZero, в якій узагальнені принципи AlphaGo Zero таким чином, що програма може працювати і з іншими іграми.

А зовсім недавно DeepMind за допомогою цієї ж технології зробив прорив у фолдингу білків.


В даний момент, за словами Сільвера, йде робота з пошуку нових алгоритмів стиснення відео за допомогою MuZero. Враховуючи, що Google володіє YouTube'ом, найбільшою платформою потокового відео, нове більш ефективне кодування дозволить компанії зменшити витрати на передачу даних.

DeepMind не перший спробував створити ШІ-агента, який сам моделює середовище і сам же вчиться орієнтуванню в ньому, але попередні спроби зазнавали невдач через високу складність «візуально багатих» (visually rich) старих комп'ютерних ігор типу Pac-Man'a.

Компанія вважає, що успіх досягнутий завдяки тому, що MuZero моделює тільки ті аспекти середовища, які є важливими для процесу прийняття рішень, а не все середовище з усією її складністю.

Знання, що парасолька допоможе не промокнути, корисніше, ніж моделювання поведінки крапель води в повітрі.

так написано в блозі компанії.

Стаття в Nature свідчить, що MuZero грає в го трохи краще, ніж AlphaZero, але робить менше кроків пошуку в дереві пошуку. Також вона в 42 з 57 ігор обіграла R2D2 - найкращий алгоритм для ігор Atari, і це на рівні, коли процес навчання був пройдений лише наполовину. Це все вказує на те, що MuZero може вичленувати більше набоїв з меншої кількості даних, ніж це було можливо раніше.

Потенційні області застосування агента - це розробка віртуальних асистентів, алгоритмів персоналізованої медицини і технологій для пошуку і порятунку людей.


Венді Холл (Wendy Hall), професорка інформатики з Університету Саутгемптона (University of Southampton), підкреслює, що досягнуті результати дійсно разючі. Однак її засмучує, що розробники приділяють мало уваги етичним аспектам наслідків застосування на практиці даної розробки.

COM_SPPAGEBUILDER_NO_ITEMS_FOUND