Найбільша і найпотужніша на сьогодні мовна модель у світі - 530 мільярдів параметрів

Динаміка розмірів сучасних NLP-моделей.


Генеративні моделі природної мови стають все більш потужними. Їх можливості в обробці текстової інформації прямо залежать від розмірності. У кого ж мовна модель найбільша і «неперевершено точна»?


Найбільша на сьогоднішній день генеративна модель природної мови представлена в блозі техногіганта Nvidia - це створена у співпраці з Microsoft Megatron-Turing (MT-NLG) з 530 мільярдами параметрів. Для порівняння, попередній лідер - модель GPT-3 зі 175 мільярдами параметрів. Навіть порівняно невеликі, за мірками лідерів індустрії, рішення на основі GPT-3 можуть багато чого і працюють не тільки з англійською мовою. Існують, зокрема, моделі ruGPT-3 у варіантах з 760 мільйонами параметрів (читайте про неї в торішній статті Сергія Маркова на Хаоч), з 1,3 млрд параметрів і з 13 млрд параметрів (див. про них тут).

Попередники моделі - створена Microsoft Turing NLG 17B і розробка Nvidia - нейросетева модель-трансформер Megatron-LM.

105-шара мегамодель вимагає мегаресурсів. Для роботи MT-NLG потрібно 280 графічних процесорів NVIDIA A100, а для її навчання був задіяний один з найпотужніших (шоста позиція в рейтингу Top-500) суперкомп'ютерів - Selene. У процесі навчання використовувалося 11 великих баз даних, серед яких - бази Вікіпедії, PubMed, корпуси художньої літератури.

Розробники повідомляють про деякі цікаві можливості нової моделі. Наприклад, вона показує деяке «розуміння» математики, виходячи «за рамки простого запам'ятовування арифметичних дій».

Результати роботи моделі як і раніше сильно залежать від якості даних, використаних для навчання. Тому MT-NLG може бути «упередженою і токсичною», переймаючи проникаючі в тексти стереотипи носіїв мови. Це відома проблема, Microsoft і NVIDIA націлені на її рішення, заявляючи про прихильність принципам «відповідального ШІ».

COM_SPPAGEBUILDER_NO_ITEMS_FOUND