Алгоритми пошуку актуальних новин удосконалюються

Джерелом «гарячих новин» стала база даних вікіпедії.


«Гарячі» новини є однією з основ існування інтернет-ЗМІ. І дуже важливо мати можливість вчасно автоматично визначити цікаві та важливі події, які відбуваються у світі.


Минулого року Томас Штайнер з відділення Google в Гамбурзі створив алгоритм, який дозволяє виявити важливі події відразу після того, як вони відбуваються. Днями він оновив його, додавши можливість ілюструвати новину картинками і фотографіями.

Процес автоматичного визначення важливості новин відносно простий. Він заснований на ідеї, що якщо щось важливе відбувається зараз, редактори Вікіпедії, які пишуть різними мовами, будуть оновлювати відповідні сторінки одночасно.

Вікіпедія та її сестра Wikidata («Вікідані») публікують усі зміни за допомогою IRC-сервера Wikimedia. Це дозволяє всім зацікавленим відстежувати зміни, коли вони відбуваються. Алгоритм Штайнера відстежує цей канал, одночасна активність є маркером «гарячої новини».

Додаток Wikipedia Live Monitor, заснований на алгоритмі Штайнера, працює з минулого року і успішно виявляє численні гарячі новини, наприклад, теракт на Бостонському марафоні і недавня пропажа малазійського літака.

Далі Штайнер додав у процес візуальний елемент. Команда під його керівництвом розробила додаток, що називається Social Media Illustrator, який шукає в соціальних мережах зображення, пов'язані з конкретним пошуковим запитом. Програма виділяє візуальну інформацію, видаляє дублікати та кадрує зображення так, щоб вони поєднувалися один з одним у сітці видачі.

Social Media Illustrator використовує для пошуку інформацію, отриману від Wikimedia Live Monitor і в результаті виходить організований набір зображень, пов'язаних з «гарячими новинами». Штайнер передбачає, що ці образи розповідають історію події, і публікує їх у твіттері: https://twitter.com/mediagalleries


Днями Штайнер опублікував результати перевірки роботи нової системи, яка проходила під час Зимових Олімпійських Ігор 2014 року. Коли закінчувалися змагання, інформація про переможців майже відразу потрапляла до Вікіпедії, відразу багатьма мовами. Це спрацьовувало як тригер і посилало сигнал програмі на пошук зображень атлетів у соціальних мережах і створення сітки ілюстрацій.

Незалежні глядачі, які спостерігали за роботою алгоритму, відзначили, що, незважаючи на повну відповідність ілюстрацій темі новини, сітка ілюстрацій не завжди точно передає суть новинного сюжету. Крім цього, є ще чимало недоробок. Так, не завжди зрозуміло, яку новину ілюструє сітка ілюстрацій. Програма не генерує гіперпосилання, неможливо подивитися, звідки взята картинка, клікнувши на неї. Крім того, автоматичне кадрування сприяє втраті важливої інформації.

Не можна сказати, що підхід, продемонстрований Томасом Штайнером і його командою, не має перспектив. Інтерес до автоматизованого виробництва новин зростає, і зараз існують алгоритми, які роблять це, з різним ступенем успіху. Цілком можливо, що в майбутньому ми будемо бачити більше новин, помічених і написаних спеціалізованими програмами. Зараз вони ще не настільки досконалі, щоб конкурувати з живими журналістами і в короткостроковій перспективі не очікується появи програм, здатних якісно виконати весь цикл формування новини. Але робота з удосконалення алгоритмів триває.

COM_SPPAGEBUILDER_NO_ITEMS_FOUND