Новий алгоритм розпізнає твіти, написані під впливом алкоголю

За допомогою нового алгоритму вчені сподіваються вивчити споживання алкоголю і пов'язані з ним проблеми.


Вчені з Рочестерського університету (University of Rochester) створили комп'ютерний алгоритм, здатний впізнавати твіти, пов'язані зі споживанням спиртного. Дослідники стверджують, що цей метод може суттєво вплинути на те, як суспільство реагує на проблеми охорони здоров'я, викликані вживанням алкоголю.


Наукова група на чолі з Набілем Хоссейном (Nabil Hossain) натренувала алгоритм машинного навчання впізнавати твіти про алкоголь і повідомлення, відправлені людьми, які розпивають спиртне. Крім того, програма може визначити місце розташування будинку користувача і зрозуміти, чи п'є він у власному оселі або де-небудь ще.

Вчені зібрали позначені геотегами твіти, відправлені з липня 2013 по липень 2014 з Нью-Йорка і округу Монро. З цього набору даних вони відфільтрували всі твіти, які згадують алкоголь або пов'язані з ним слова, такі як «п'яний», «пиво», «вечірка» і так далі.

Потім вони найняли добровольців через інтернет-ринок краудсорсерської праці Amazon Mechanical Turk, щоб ті проаналізували твіти більш детально. Вчені попросили трьох осіб визначити, чи пов'язаний кожен твіт з алкоголем, чи написаний він людиною, яка вживає спиртне, і чи відправлений він в той момент, коли користувач пив гарячі напої.

У результаті вчені відібрали 11 000 твітів, так чи інакше пов'язаних з алкоголем. Цей масив даних виявився досить великим для того, щоб алгоритм міг навчитися відрізняти такі повідомлення. Потім дослідники задалися питанням - де знаходяться люди, коли пишуть у Твіттер про спиртне? Вдома чи десь ще?

Щоб визначити місце розташування будинків користувачів, використовуючи тільки твіти з геометками, вчені розробили кілька методів. Спочатку вони визначали місце, звідки користувач посилав твіти найчастіше, місце, звідки йшов останній за день твіт, або локацію, звідки твіти відправлялися з години до шостої години ранку. Однак всі ці методи мали свої слабкі місця, і на них не можна було покластися.

Тоді дослідники застосували інший підхід. Вони склали список слів і словосполучень, які користувачі використовують, коли пишуть твіти з дому, наприклад «Нарешті вдома!», «диван», «ванна», «телевізор» і так далі. Вони відфільтрували повідомлення з цими словами, опитали трьох добровольців і відібрали тільки ті твіти, які всі троє визнали відправленими з дому.


За допомогою цих даних вчені навчили алгоритм впізнавати твіти, відправлені користувачами з власного житла. Програма визначала, як місце розташування будинку корелює з іншими показниками, такими, як місце, звідки був відправлений останній за день твіт, відсоток твітів, відправлених з певної локації тощо. Цей метод виявився набагато ефективнішим. Вчені стверджують, що тепер можуть визначити місце розташування будинку користувача з точністю до ста метрів у 80% випадків.

Новий алгоритм дозволив науковій групі визначити, коли і де люди п'ють спиртне, а також вивчити вживання алкоголю в Нью-Йорку та окрузі Монро. Дослідники розділили місцевість на ділянки 100 на 100 метрів і позначили ті області, звідки надходять пов'язані з алкоголем твіти. Це дозволило їм створити «теплову карту» вживання спиртного «. Теплова карта» вживання спиртного в Нью-Йорку.

Виявилося, що в Нью-Йорку з'являється більше «алкогольних» твітів, ніж у Монро. Крім того, ньюйоркці частіше п'ють спиртне будинки, а в окрузі більшість людей вживають міцні напої більш ніж за кілометр від свого житла.

Основна перевага нового методу - його дешевизна. Щоб вивчити алкогольні звички населення традиційними способами, потрібно скласти анкети, знайти добровольців, готових їх заповнити, а потім проаналізувати результати. Це дорого і забирає багато часу. У той час як алгоритм дозволяє проводити спостереження в реальному часі.

Звичайно, метод не досконалий: він не враховує активності людей, у яких просто немає акаунта в Твіттер. Але й інші підходи мають свої недоліки, наприклад, представники деяких категорій населення, в тому числі, іммігранти, не погоджуються заповнювати опитувальники. У майбутньому Хоссейн і його наукова група хочуть вивчити, як споживання алкоголю змінюється залежно від віку, статі, етнічної приналежності, та інших демографічних характеристик.

COM_SPPAGEBUILDER_NO_ITEMS_FOUND