GEM - новий еталонний тест для алгоритмів генерації природничої мови

GEM - нова віха в обробці природної мови.


З метою більш ефективного відстеження прогресу в галузі розробки моделей генерації природничої мови (natural language generation, NLG) був створений тест GEM (Generation, Evaluation, and Metrics - генерація, оцінка і метрики) - «живий еталон» оцінки якості створеного тексту. Він сформований в рамках міжнародного проекту, в якому брали участь 55 дослідників з більш ніж 40 організацій.


Як вхідні дані моделі NLG використовує як текстові, так і нетекстові представлення інформації. Вони автоматично створюють зрозумілий текст на основі вхідної інформації. Еталони зіставлення в обробці природної мови (NLP - natural language processing), такі як GLUE (general language understanding evaluation - оцінка розуміння спільної мови), вже застосовувалися в моделях NLG і NLU (natural language understanding - розуміння природної мови) Хоча такі еталони для оцінки якості моделі об'єднують в одному фреймворку численні тести і допомагають дослідникам ефективно порівнювати моделі, є ймовірність того, що рішення такої складної задачі буде зведено лише до числа в таблиці лідерів моделей. Як зазначає дослідницька група у статті "Тест GEM: генерація природною мовою, її оцінка і метрики "(The GEM Benchmark: Natural Language Generation, its Evaluation and Metrics), єдина метрика не може належним чином охарактеризувати ефективність системи, оскільки такі критерії, як розмір навчальної вибірки і достовірність передбачень, не беруться до уваги.

Перший автор цієї статті, дослідник мовних моделей в Google AI Себастьян Германн (Sebastian Gehrmann), пояснює, що дослідники планують провести спільний семінар-практикум цього літа, 2021 року, на Щорічних зборах Асоціації комп'ютерної лінгвістики: "Оскільки дані, моделі та оцінка еволюціонують разом, еталони зіставлення (тести) повинні бути оновлені з усіх з цих аспектів. Як «живий еталон зіставлення», GEM не має фіксованого набору метрик або списку лідируючих моделей. Замість цього ми прагнемо виявити недоліки моделей і їх можливості для досягнення прогресу. Для цього спільне для всіх моделей завдання складатиметься з двох частин: моделювання та оцінки. По-перше, ми просимо представити результати на 11 наборах даних і з 7 мов у різних завданнях NLG. У другій частині учасники аналізують результати ".

Автоматизовані метрики, як правило, працюють по-різному при різних налаштуваннях, а також будучи застосованими до різних завдань і мов. Дослідники NLG часто проводять оцінку того, наскільки добре рейтинги, складені експертами, і автоматизовані метрики, співвідносяться з оцінками, заснованими на завданнях. Набори тестів, представлені в GEM, допоможуть дослідникам NLG вивчити те загальне, що є у всіх варіантах тестування, фактично перетворюючи GEM на еталонне середовище для оцінки алгоритмів NLG. За допомогою команди людей-розмітників, які вручну верифікуватимуть результати оцінки, дослідники також сподіваються створити набір відтворюваних і послідовних практик людської верифікації результатів для майбутніх досліджень у галузі NLG. Крім того, «щоб відбити полювання до» сходження на пагорби «[на графіках результатів], - твітнув Германн, - розроблюваний нами інструмент аналізу результатів допоможе отримати уявлення про оцінку без акценту на порівнянні з найкращим результатом на даний момент (state of the art)».

Кінцева мета проекту GEM полягає в тому, щоб забезпечити поглиблений аналіз даних і моделей, а не в тому, щоб зосередити увагу на якомусь одному показнику. Якщо оцінювати прогрес NLG на 13 наборах даних, що охоплюють багато завдань і мов, то можна сподіватися, що еталонний тест GEM може також забезпечити стандарти для майбутньої оцінки генерованого тексту з використанням як автоматизованих, так і людських метрик.

Дослідники надали науково-дослідному співтовариству доступ до проекту, і старші розробники готові допомогти новачкам зробити внесок у розвиток галузі. Всі використані дані можна знайти в датасетах Huggingface, а більше про еталон зіставлення GEM можна дізнатися на gem-benchmark.com.

COM_SPPAGEBUILDER_NO_ITEMS_FOUND