Розпізнавання мови - важливі не тільки слова

Розпізнавання мови - процес перетворення мовного сигналу на цифрову інформацію. Перші експериментальні пристрої для цього з'явилися в середині XX століття, але тільки в 1990-ті з'явилися комерційні продукти, придатні для широкого використання. Ілюстрація: Ю. Макаренко, 1965.


Для того щоб комп'ютери навчилися дійсно розуміти людську мову, а не тільки розпізнавати вимовлені слова, необхідно навчити їх фіксувати інтонації, особливості вимови, все те, що може не тільки нести додатковий сенс, але і змінити сенс висловлювання до протилежного.


На 168-й зустрічі Американського акустичного товариства (ASA), яка проходить з 27 по 31 жовтня 2014 року в Indianapolis Marriott Downtown Hotel в Індіанаполісі, Валері Фрімен (Valerie Freeman), докторант (Ph.D. Candidate) на кафедрі лінгвістики в університеті Вашингтона (UW), виступить з доповіддю про проект ATAROS (Automatic Tagging and Recognition of Stance). Мета цього проекту - навчити комп'ютер розпізнавати різні позиції, думки і погляди, про які сигналізує мова людини.

"Чому, коли ми про щось говоримо, наше ставлення до цього зрозуміло, але якщо ми надрукуємо ці ж слова, це розуміння втрачається? Як люди примудряються передавати різні повідомлення, використовуючи одні й ті самі слова? Проект ATAROS націлений на те, щоб відповісти на ці питання ", - пояснює Фрімен.

Колектив проекту, в який, крім Фрімен, входять професори кафедри лінгвістики Джина-Енн Левоу (Gina-Anne Levow) і Річард Райт (Richard Wright), а також професор кафедри радіоелектроніки Мері Остендорф (Mari Ostendorf), які почали з аналізу аудіозаписів різних розмов, які реться, для Маркtendorf), щоб прийняти аудіозаписи.

«При аналізі записів розмови пари людей, що працюють разом для виконання різних завдань, ми виявили, що вони, як правило, говорять швидше, голосніше і з більш виразними акцентами при вираженні твердої думки на противагу слабкій думці», - говорить Фрімен.

Не дивно? Може бути, але дослідники виявили ті ж закономірності в звичайних розмовах. Виявилося, що люди говорять швидше і більше, коли обговорюють найбільш цікаві завдання. При розмові про нецікавий предмет мова сповільнюється, в ній частіше виникають фальстарти, озвучені «паузи хезитації» і повторення.

Дослідження в рамках проекту знаходиться на початковій стадії. Наразі за параметром зміни втікача проаналізовано промову всього 24 осіб. Всього в дослідженнях брали участь 68 осіб з різних районів Сполучених Штатів, різного віку і професій.


"Ми плануємо продовжувати аналізувати розмови на наявність більш тонких сигналів і більш складних структур, варіації вимови, порівнюючи позитивні і негативні думки, мова чоловіків і жінок, молоді і людей похилого віку, - говорить Фрімен. - У майбутньому, ми сподіваємося залучити людей з інших місць, щоб побачити, чи існують регіональні відмінності в способі вираження однієї і тієї ж думки ".

Уроки, отримані з цієї роботи повинні допомогти у створенні систем розпізнавання мови майбутнього.

"Думаю, що реально створити дивовижні речі, подібні говорящому комп'ютеру з Star Trek, - підсумовує Фрімен. - Щоб досягти такого рівня складності, нам потрібні комп'ютери, здатні вловити всі тонкощі мовного спілкування, не просто значення слів. Проекти, подібні ATAROS працюють над тим, щоб допомогти комп'ютерам розуміти, що люди дійсно мають на увазі, коли говорять, так що в майбутньому техніка буде здатна реагувати на мову в набагато більш "людській" манері ".

COM_SPPAGEBUILDER_NO_ITEMS_FOUND