Ithaca відновлює давньогрецькі тексти

Цей відновлений напис є указом, який стосується афінського Акрополя, і датується 485 - 484 роком до н. е.


Фахівці з DeepMind розробили нейросетеву модель під назвою «Ітака» (Ithaca), здатну відновлювати частково втрачені давньогрецькі написи.


Для початку команда DeepMind у співпраці з колегами з університетів Венеції, Оксфорда і Афін, взявши необроблений датасет, що складається з 178551 розшифрованого напису, розробила алгоритм переведення його у відповідний для машинного навчання стан. За допомогою цього алгоритму вдалося зменшити шум, нормалізувати використовувані символи, ефективно нівелювати різні «нерівності» зображень і супроводити всі написи метаданими, що відносяться до часу і місця створення. Всього було враховано 84 стародавні регіони, а також можливість використання в написі декількох мов, різні способи визначення хронологічної інформації та багато іншого. Не всі вихідні написи вдалося таким чином досить якісно обробити, проте в багатозадачному датасеті набралося 78 608 описаних і розмічених написів, створених у період з 800 р. до н.е. по 800 р. н.е. На цьому корпусі розробники і навчили «Ітаку».

Потім вони приховали частину зображення в тих же написах, щоб перевірити, чи правильно Ithaca заповнить ці прогалини. Після цього фахівці дали нейромережі нове завдання - відновити близько 8 тис. частково втрачених написів. З'ясувалося, що ШІ відновлює тексти з точністю 62%; творці моделі стверджують, що це краще, ніж виходить у професійних епіграфістів (фахівців у галузі вивчення стародавніх написів, зроблених на твердих матеріалах: камені, кераміці, металі). А ось коли ШІ «об'єднується» з фахівцями-людьми, додають автори проекту, точність відновлення текстів сягає 72%.

Крім того, додаток навчили «прив'язувати» досліджуваний текст до часу і місця, порівнюючи його з текстами, походження яких встановлено. Датування текстів ШІ-модель виробляє в діапазоні достовірності до 30 років.

Останнім часом епіграфісти покладаються у своїй роботі на великі цифрові корпуси вже відомої інформації, проте пошук «паралельних місць» значною мірою залежить від формулювання пошукового запиту, через яке можуть бути втрачені релевантні результати. Застосовані фахівцями DeepMind методи машинного навчання в поєднанні з значними обчислювальними потужностями використовуваного обладнання дозволили подолати це обмеження.

COM_SPPAGEBUILDER_NO_ITEMS_FOUND