?

Log in

No account? Create an account
Previous Entry Поделиться Next Entry
РОМИП-2008 глазами участника
alsafr
В этом году я принимал участие в РОМИПе и теперь хочу немного рассказать об этом.
  • Для того, чтобы принять участие в семинаре, было достаточно приехать в НИВЦ МГУ, подписать соглашение и забрать диски с коллекциями. В соглашении определяются правила использования коллекций, а также устанавливается ограничение на использование полученных результатов в маркетинговых целях.
  • Организационная сторона семинара была на высоте. На мой взгляд, организовать сбор результатов и их последующую оценку - дело непростое, особенно если учесть традиционное затягивание участниками сроков сдачи результатов (я сам опоздал где-то на неделю). Но благодаря усилиям Игоря Некрестьянова и других членов оргкомитета оценка по всем дорожкам все же была произведена до очной части семинара.
  • В этом году РОМИП заметно вырос. Увеличилось число участников, появились новые "графические" дорожки. Объем публикаций участников вырос почти в 3 раза по сравнению с прошлым годом.
  • Очная часть семинара состоялась 9 октября в Дубне. Как обычно, она была совмещена с конференцией RCDL. Кстати, Дубна - весьма приятный город, которому к лицу золотая осень.
  • На семинаре присутствовало около 70 человек - насколько я понимаю, для РОМИПа это довольно много. Мы с трудом разместились в небольшой аудитории. Для появившихся немного позже Ильи Сегаловича и Дена Расковалова не сразу нашлось место.
  • Илья Тихомиров рассказал об участии в РОМИПе поисковой системы Exactus. Основная особенность Exactus'а состоит в активном использовании лингвистики для улучшения качества поиска. Exactus принимал участие в дорожках поиска по коллекциям BY, KM и Legal, а также в дорожке контекстно-зависимого аннотирования. На дорожках веб-поиска их система показала весьма высокие результаты. Результаты и перспективы поискового алгоритма Exactus.
  • Борис Викторович Добров рассказал об участии УИС РОССИЯ в дорожках поиска и классификации нормативных документов. Специфика формулы ранжирования, которая применялась при поиске по коллекции Legal, состоит в объединении двух оценок релевантности, полученных с помощью разных индексов: обычного индекса лемм и индекса концептов тезауруса. Особенно хорошо описанная система справляется с длинными информационными запросами. УИС РОССИЯ в РОМИП 2008: поиск и классификация нормативных документов.
  • Особенность системы SSSleuth, разработкой которой занимается Сергей Крылов, заключается в использовании трехбуквенных "Q-термов". Насколько я понял, текст документа разбивается на перекрывающиеся трехбуквенные фрагменты (пробел также считается "буквой"), которые и используются в качестве индексируемых термов. Таким образом, количество Q-термов, выделяемых системой SSSleuth в документе, приблизительно равно количеству символов в тексте. Довольно необычный подход, который, впрочем, дает неплохие результаты, сравнимые с результатами систем с традиционной схемой работы с термами. SSSleuth на РОМИП 2008.
  • Значительное внимание в докладе Сергея Татевосяна из KM.RU было уделено системе автоматического подбора параметров ранжирующего алгоритма. В самой схеме ранжирования мне показалось интересным использование фактора, учитывающего близость слов из запроса к началу предложения. KM.RU участвовал в дорожках поиска по белорусскому вебу, по своей "родной" коллекции KM, а также по коллекции нормативных документов. В поиске по веб-коллекциям было сделано два прогона, чтобы сравнить алгоритм, который в данный момент используется на портале, с новым алгоритмом (который, в частности, включает упомянутый выше фактор близости к началу предложения). Новый алгоритм показал несколько более высокие результаты. Еще было интересно услышать, что для коллекции BY результаты практически не зависят от применения ссылочного ранжирования, а на коллекции Legal оно даже ухудшает результаты. Это согласуется с моими собственными экспериментами. КМ.RU на РОМИП-2008. Оптимизация параметров поискового алгоритма.
  • Один из двух докладов Яндекса представлял собой краткий отчет о попытке использования поисковика для выполнения заданий РОМИП. Если я ничего не путаю, то в этом году в семинаре участвовал тот самый поисковый движок, который используется для веб-поиска. Точнее, некая специальная модификация движка, адаптированная к масштабам коллекций РОМИПа и запущенная на одной машине. По словам Дена Расковалова, масштабирование вниз web-поиска Яндекса представляет собой отдельную достаточно серьезную задачу. Для выполнения заданий РОМИПа в поисковике были снижены требования по кворуму (это связано с большой разницей в размерах между коллекциями семинара и реальным вебом). Также было рассказано про систему автоматической настройки параметров ранжирующего алгоритма. Очевидно, это довольно важная прикладная задача для web-поисковика Яндекса, в котором для ранжирования документов используются сотни различных факторов. Для этой цели в Яндексе использовали метод TreeNet (показывающий лучшие результаты), а также monte-carlo markov chains. Мне было интересно услышать, что в результате экспериментов яндексоиды пришли к выводу, что оптимизировать поисковую систему можно по любой метрике - результаты все равно будут близкими.
  • Я выступал с докладом от HeadHunter. Мы приняли участие в дорожках поиска по коллекциям KM.RU и Legal2007. К особенностям нашего алгоритма следует отнести достаточно активное использование заголовков документов, а также применение трех пассажей разной длины. HeadHunter на РОМИП-2008.
  • Лично для меня участие в РОМИПе было очень полезным. Мне удалось проверить практически некоторые идеи, а заодно пообщаться с интересными людьми. Планирую участвовать в семинаре и в следующем году - надеюсь, что для этого удастся найти время.
Метки: ,

  • 1
Отличный обзор, огромное спасибо. SSLeuth - беззастенчивый маркетинг. Я, конечно, верю, что Крылов разрабатывал эти методы с начала 90-х, но называть свои алгоритмы уникальными и не имеющими аналогов - это нечто. Надо бы его ознакомить вот с этой страничкой:
http://www.cs.umbc.edu/ngram/
И поисковой системой TELLTALE
PS: "Если я ничего не путаю, то в этом году в семинаре участвовал тот самый поисковый движок, который используется для веб-поиска. " По-моему, раньше они тоже использовали вебовский алгоритм, хотя из их старого отчета это, кажется, не совсем очевидно, и тоже подкручивали кворум,


Edited at 2008-10-19 18:58 (UTC)

На страницах с заявками (http://romip.ru/ru/2004/participants.html) сказано, что в 2004, 2005 и 2006 годах использовался Яндекс.Сервер.

Крылов узнал на очной встрече много нового, в том числе что такое TF*IDF. То есть об аналогах он просто ничего не слышал. :)

  • 1