Первый доклад
«Extracting News-Related Queries from Web Query Log»
посвящен эффективному методу выделения из общего объема запросов тех, что относятся к новостным событиям. Выделенные таким образом запросы используются на сервисе «Яндекс.Новости» для кластеризации и ранжирования сообщений.
Идентификация новостного запроса происходит по нескольким признакам. Во-первых, новизна самого запроса по сравнению с аналогичным промежутком времени в прошлом. Во-вторых, наличие в течение трех последних часов сюжетов новостей, релевантных поисковому запросу.
По оценке «Яндекса», количество новостных запросов в общем объеме поисковых запросов составляет от 0,01% до 0,1%. При этом 33% новостных запросов имеют длину в одно слово, а 37% — в два слова. В обычном поиске доля многословных запросов составляет 81%. Кроме меньшей длины, у новостных запросов есть и другие специфические признаки. Все они перечислены в статье.
Второй доклад
«Automatic Geotagging of Russian Web Sites»
описывает метод автоматического определения географии сайта, основанный на анализе IP-адреса, URL и содержания сайта. По мере того, как Рунет все больше «прирастает регионами», локализация веб-ресурсов приобретает все более важное значение. «Яндекс» осуществляет геотаргетинг с помощью нескольких методов: контент-анализ веб-страниц (поиск географических названий, телефонных кодов и адресов на странице), анализ доменного имени, анализ доменной иерархии, сверка с базой IP-адресов.
Конференции серии WWW являются важным событием для исследователей и представителей интернет-индустрии. Традиционно тексты всех докладов публикуются в онлайне, так что специалисты получают возможность познакомиться с самыми актуальными научными исследованиями в этой области. Например, на
конференции WWW2005
работали 26 тематических секций, в каждой из которых было представлено и опубликовано в открытом доступе несколько интересных научных работ.