Нове слово в пошуку зображень

LEVAN - «» дізнатися все про все «».


Фахівці в області computer science з Вашингтонського університету і The Allen Institute for Artificial Intelligence (Сіеттл, США) створили першу повністю автоматичну програму, яка показує все, що потрібно знати про кожен візуальний концепт.


Програма LEVAN (Learning Everything about Anything) обробляє мільйони текстів і зображень в мережі, для того, щоб вивчити всі можливі варіації концепту і надати результат користувачеві у вигляді всеосяжного, зручного для перегляду списку зображень, що допомагає досліджувати і зрозуміти цікаву тему у всіх подробицях.

"Це все для виявлення зв'язків між текстовою та візуальною інформацією, - пояснює Алі Фархаді, фахівець з Вашингтонського університету. - Програма навчається знаходити зв'язки між фразами тексту і пікселями в зображенні. Це означає, що вона може розпізнати образи, пов'язані з конкретними поняттями ".

Дослідницька група представить свій проект на щорічній конференції з комп'ютерного зору і розпізнавання образів, яка пройде в місті Колумбус (Огайо, США).

Програма визначає, які частини зображення є релевантними пошуковому запиту, провівши аналіз знайдених у мережі зображень і виявивши характерні патерни за допомогою алгоритму розпізнавання образів. Це дозволяє отримати результат, більш якісний, ніж пропонують існуючі інструменти пошуку зображень, які користуються лише інформацією, прописаною в заголовках.

На даний момент користувачі LEVAN можуть переглянути існуючі бібліотеки зображень, пов'язаних з приблизно 175 концептами. Діапазон концептів широкий - від «авіакомпанії» до «вікна», і включає такі концепти, як «краса», «сніданок», «сяйво», «рак», «інновація», «скейтбординг», «робот», «кінь».

Якщо концепт, який цікавить користувача, не представлений у списку, існує можливість зробити пошуковий запит і програма автоматично почне генерувати вичерпний перелік підкатегорій зображень, що належать до поняття. Так, пошук за словом «собака» дає колекцію як очевидних підкатегорій, серед яких «собака породи чихуахуа», «чорний пес», «собака пливе», «борзаючи»; так і такі підкатегорії, як «собачий ніс», «собача миска», «потворна собачка», «хот-дог» і так далі.


Програма працює, аналізуючи мільйони англомовних текстів, доступних на Google Books, з тим, щоб виявити стійкі поняття, пов'язані з певним словом. Далі вмикається фільтр, що відсіює поняття, не пов'язані з зоровими образами. Таким чином, запит «кінь» дасть результати, пов'язані з такими поняттями, як «стрибок коня», «кінь їсть», «гімнастичний кінь», але проігнорує поняття «моя конячка».

Після визначення актуальних фраз, програма починає пошук зображень в інтернеті, знаходячи закономірності, що зв'язують різні фотографії. Коли така закономірність знайдена, програма видає всі образи, пов'язані з конкретною фразою. Наприклад, «конкурний кінь».

"Основні інформаційні ресурси, словники та енциклопедії, рухаються в цьому напрямку, надаючи користувачеві візуальну інформацію, що сприяє швидкому розумінню. Але вони обмежені необхідністю вручну підбирати відповідні зображення. Нова програма здатна в автоматичному режимі створити базу зображень, пов'язаних з будь-яким концептом ", - говорить Сантош Дівалла з The Allen Institute for Artificial Intelligence.

У роботі над проектом задіяний також Карлос Гестрін, професор computer science Вашингтонського університету.

Програма LEVAN була запущена в березні, відтоді вона пов'язала разом 13 мільйонів зображень і 65 тисяч різних фраз. Час обробки кожного нового запиту може досягати 12 годин. Дослідники працюють над збільшенням швидкості обробки і над розширенням можливостей програми.

Майбутнє програми, на думку її розробників - служити open-source освітнім інструментом, інформаційним банком для дослідників у галузі комп'ютерного зору.

COM_SPPAGEBUILDER_NO_ITEMS_FOUND