Штучний інтелект від Google: аркадні ігри та моделі світу

Процес навчання моделі середовища для платформи DreamerV2.


Google представила систему штучного інтелекту DreamerV2, здатну до самонавчання в якості програмного агента на аркадних комп'ютерних іграх. DreamerV2 використовує механізм навчання з підкріпленням (reinforcement learning), однак на відміну від більшості подібних агентів спирається на модель зовнішнього середовища, яка враховує поведінку і просторові співвідношення об'єктів ігрового світу. Нова версія системи ШІ є продовженням попередніх розробок компанії і вперше показала кращу продуктивність на тестовій лінійці ігор Atari порівняно з провідними системами ШІ, заснованими на безмодельному навчанні. Digger - класична аркадна іграшка.


Компанії-розробники самонавчальних нейромереж і систем штучного інтелекту в якості полігону часто використовують старі аркадні ігри (класичний приклад - Digger). Завдання полягає у створенні та навчанні програмного агента, що взаємодіє з об'єктами гри, і на ньому можна обкатувати різні підходи до навчання нейромережі. У реальному світі такі системи ШІ в майбутньому могли б, наприклад, використовуватися в автономному транспорті. Після навчання вони повинні визначати, як транспортний засіб буде реагувати на навколишнє транспортне середовище, зокрема, на який сигнал світлофора слід проїхати тощо.

Традиційні підходи до навчання з підкріпленням без використання моделей (model-free) навчають систему вибирати успішні дії шляхом численних проб і помилок при взаємодії з оточенням. У цьому випадку система отримує потік інформації з різноманітних датчиків (наприклад, автомобіль отримує зображення зі своїх камер) і вибирає дії у відповідь на них - у разі автомобіля це може бути завдання команд для двигунів. Навчання полягає в тому, що дії можуть в частині випадків «заохочуватися» або «каратися» залежно від того, чи призводять вони до бажаної мети чи ні (наприклад, задається деяка функція корисності, яка в подальшому допомагає вибирати стратегію взаємодії з середовищем, враховуючи попередній досвід). Безмодельне навчання з підкріпленням передбачає безпосереднє передбачення оптимальних дій на основі вхідних сигналів - це підхід «чорної скриньки». Якщо говорити про застосування в аркадних іграшках, то система нічого «не знає» і не може знати про правила гри, її код, поведінку персонажів, від яких потрібно тікати (або які потрібно перемагати) - вона просто спостерігає за картинкою на екрані і вчиться по ній. Для кожної налаштування об'єктів система вчиться надавати перевагу діям, що приносять максимум очок. Навчання агента DreamerV2 в аркадних іграх Atari.

Розробки останніх років у галузі навчання з підкріпленням (Reincorced Learning, RL) дозволили вийти на новий рівень з використанням підходів на основі моделей зовнішнього середовища («моделей світу», або world models). Система освоює такі моделі середовища, виходячи з зображень, що подаються на вхід, і використовує їх для планування дій. «Моделі світу» дозволяють навчитися на основі меншої кількості актів взаємодії з оточенням, а також, в теорії, полегшують узагальнення на підставі офлайн-даних (навчання за масивами архівних даних) і використання одних і тих же результатів навчання на безлічі різних завдань.

Якщо система ШІ розглядає оточення не просто як чорну скриньку, а в рамках спрощеної моделі зовнішнього середовища, вона вже може передбачати потенційний результат тих чи інших дій, тобто вміє програвати можливі сценарії розвитку подій і, відповідно, приймати поінформовані рішення про поведінку в нових ситуаціях. Тим самим можна суттєво скоротити кількість «проб і помилок» для навчання. У цієї ідеї є один недолік: поки що якість моделей середовища і підсумкові результати навчання в цьому підході відчутно програвали провідним системам, що використовують «лобовий» безмодельний підхід, включаючи і деякі розробки Google, наприклад, алгоритм DQN (Deep Q-Network) від Google DeepMind. В якості одного з полігонів для перевірки можливостей систем ШІ використовується набір декількох десятків старих аркадних ігор платформи Atari (Atari benchmark).

У березні 2020 року Google представила попередню версію системи ШІ, Dreamer (v.1), яка реалізувала алгоритм масштабованого навчання з підкріпленням (scalable reinforcement learning) з використанням моделей середовища. Система для основних тестових ігор навчалася в середньому за 20 - 30 годин, тоді як безмодельні сітки вимагали для порівнянного результату навчання близько 20 днів. Однак система ще не могла перевершити провідних «безмодельних» конкурентів у стандартному тесті (55 ігор Atari). У лютому 2021 року вийшла вдосконалена модель ШІ DreamerV2, яка змогла обійти їх за результативністю і, нарешті, подолала умовну планку порівняння з можливостями людини (human-level performance).

Навчання за пікселями за допомогою «прихованої динаміки».


Як і в попередній версії, DreamerV2 для побудови моделі зовнішнього середовища використовує алгоритм PlaNet (Deep Planning Network) - ігрового агента, який компанія Google представила в 2019 році. Цей «движок» призначений для вивчення динамічних моделей з картинок на вході і відповідного планування майбутніх дій. Це крок вперед порівняно з іншими підходами, які використовують «планування зображень» (plan over images). Розробники PlaNet використовували модель прихованої динаміки (latent dynamics model), яка спирається на «приховані», або латентні, стани. Замість прямого передбачення від одного зображення до наступного зображення та винагорода за дії агента на кожному наступному кроці прораховуються виходячи з обчислених прихованих станів. Така методика стиснення інформації дозволяє агенту навчатися на більш абстрактних уявленнях, враховуючи, наприклад, і положення, і швидкості об'єктів. Порівняння результативності різних систем ШІ на іграх платформи Atari.

Поліпшення моделей зовнішнього середовища порівняно з попередніми версіями вдалося досягти завдяки кільком нововведенням. Так, для представлення зображень DreamerV2 вводить якісні (категорійні) змінні замість звичайних кількісних, тобто гаусових випадкових змінних. Для таких змінних використовуються свої методики статистичної обробки (непараметрична статистика), відмінні від роботи з числовими змінними. Зображення кодуються за допомогою 32 таких категорійних змінних, кожна з яких може приймати значення в одному з 32 класів. Наприклад, одна зі змінних може бути «положення об'єкта», що приймає будь-яке з допустимих значень, інша - «постріл противника (-ів)» зі значеннями «є/ні» і т. д. Це дозволило перейти до дискретного представлення ігрового «світу». З різних причин у специфічному оточенні консольної гри така параметризація виявилася кращою. Інше нововведення полягає в особливому використанні «функції втрат», яка застосовується для порівняння апріорних та апостеріорних розподілів при прорахуванні передбачень моделі. Автори називають це удосконалення «KL-балансуванням» (KL balancing), і тут мова йде про якесь більш оптимальне використання стандартної в таких завданнях міри порівняння розподілів - відносної ентропії Кульбака-Лейблера (KL). Більш детально фахівці в галузі машинного навчання та ті, хто цікавиться, можуть прочитати в оригінальній дослідницькій статті; також див. розширену відеопрезентацію алгоритму безпосередньо від авторів розробки.

У підсумку DreamerV2 виявилася першою моделлю середовища, яка змогла досягти рівня людини на стандартному тестовому наборі платформи Atari. Для порівняння результативності з іншими системами ШІ використовували набір з 55 популярних ігор Atari, які зазвичай застосовуються в таких завданнях. Як еталон порівняння використовувалися і кілька провідних безмодельних систем - DQN, IQN і Rainbow. На відміну від попередніх розробок, включаючи Dreamer v.1, нова система зі спрощеною моделлю зовнішнього середовища нарешті може конкурувати і з ними. Очевидно, це ще один етап на шляху до розуміння нейромережею реального світу.

COM_SPPAGEBUILDER_NO_ITEMS_FOUND