Поиск по блогу

среда, 29 июня 2011 г.

Конференция WIMS'11

Главной целью поездки было участие в International Conference on Web Intelligence, Mining and Semantics (WIMS'11), которая проводилась впервые в этом году и обещает стать традиционной. По крайней мере, место проведения следующей WIMS'12 уже известно: г. Крайова (Румыния). По тематике WIMS укладывается в широкий спектр направлений Semantic Web и, видимо, призвана занять свою нишу после ведущих конференций этой области: ISWC и ESWC.
В этом году конференция была приурочена к 10-летию публикации основополагающей статьи T. Berners-Lee, O. Lassila, J. Hendler "Semantic Web" в журнале Scientific American. Собственно, подведению промежуточных итогов был посвященный пленарный доклад одного из соавторов данной статьи.



Следующие тезисы удалось уловить из его выступления:

  • Семантический Веб стал реальностью. В частности, много внимания было уделено развитию этих идей ведущими компаниями: приводились примеры Facebook Open Graph Protocol (более известный как кнопка Like, заполонившая весь Веб), поддержка Google словаря Good Relations посредством технологии Rich Snippets (про важную инициативу schema.org трех ведущих поисковиков станет известно несколькими днями позднее), модуль для управления семантическими метаданными в СУБД Oracle 11g и др.
  • Можно констатировать зрелость лишь нижней части стека технологий Семантического Веба, т.е. RDF, RDFa, RDFS, SPARQL и отчасти OWL. В этой связи делается вывод, что перспективнее (особенно для целей бизнеса) делать акцент на генерацию и обработку растущих объемов данных (например, в канве того же проекта Linked Data), чем на разработку новых дорогостоящих онтологий.
  • Семантический Веб добавляет семантику к функциональности традиционного Веба, т.е. Веб 3.0 представляет собой не альтернативу, а полезное развитие Веба 1.0 и Веба 2.0. Этот факт демонстрируют приложения семантического поиска и разнообразные мэшапы данных, работающие поверх существующей технологической инфраструктуры.
Следующий пленарный докладчик - Петер Мика (Yahoo Research).



Он представил подробный обзор области семантического поиска. Вот основные моменты:
  • под семантическим поиском понимается парадигма поиска, которая: (i) использует структуру данных или явную схему данных для понимания намерений пользователя и значения содержимого; (ii) использует это понимание в некоторой части поискового процесса (например, при индексации или ранжировании).
  • Семантический поиск призван улучшить современные поисковые техники, ориентированные на методы машинного обучения. Существуют категории плохо разрешаемых информационных нужд: запросы со множеством интерпретаций (paris hilton), редкие «запросы длинного хвоста» (george bush — пивовар из Аризоны, а не экс-президент США), мультимедийный поиск, неточный или сверхточный поиск, поиск описаний (countries in Africa) и т.д.
  • В связи с использованием данных Семантического Веба появляются новые поисковые задачи: агрегирование поисковых результатов (сравнение цен на разных сайтах); анализ и оценка (оценить мировую температуру в 2020); семантическое профилирование (рекомендации, основанные на определенных интересах пользователя); семантический анализ поисковых логов (понимание поведения пользователя в терминах объектов); поддержка более сложных задач (например, заказ билетов для отпуска через комбинацию сервисов).
  • Интепретация запросов в семантическом поиске: использование онтологий для извлечения структуры из запросов; взаимодействие с пользователем при написании запроса (как в Freebase), отображение интепретации запроса (как в TrueKnowledge).
  • Горизонтальная и вертикальная структура семантического индекса, т.е. каким образом расширять стандартный инвертированный индекс, сохраняя масштабируемость механизма индексации.
  • Оценка семантического поиска: было объявлено о создании инициативы Yahoo SemSearch Challenge - это своего рода TREC для семантического поиска, который покрывает: поиск по ключевым словам для RDF данных; поиск сущностей; листовой поиск (когда ищется класс объектов). При этом используются реальные поисковые логи Yahoo и Microsoft Bing, производится оценка в стиле TREC, причем акцент ставится на ранжирование, а не на вопросно-ответный поиск. Кроме того, с помощью Amazon Mechanical Turk для оценивания привлекается ручной труд.
  • Разработка поисковых интерфейсов: генерация поисковых сниппетов, адаптивное и интерактивное представление результатов (по типу запроса), группировка похожих результатов, фильтрация по фасетам, помощь пользователю в запросах.
  • В заключение был обрисован горизонт будущих работ: полуавтоматические способы создания метаданных (как снизить долю ручного труда с 95% до 5%); оценка качества данных; логический вывод; масштабируемость; повторное использование онтологий; отображение данных.
Сорен Ауэр (Leipzig University), один из авторов DBPedia - краеугольного ресурса "облака" Linked Data, рассказал о развитии проекта LOD2, над которым работают не только исследователи из университетов, но и коммерческие компании, например, такие как OpenLink, известная по своему детищу - Virtuoso


Так, в рамках LOD2 разрабатываются инструменты для поддержки всего жизненного цикла "связанных данных": 1) извлечение; 2) хранение/обработка запросов; 3) ручная проверка/создание; 4) связывание/объединение; 5) классификация; 6) анализ качества; 7) восстановление; 8) поиск/просмотр/исследование. Вся цепочка работы с данными замкнута, и каждая подзадача выполняется циклично по принципу стиральной машины (аллегория самого Ауэра). Основными терминологическими ресурсами, помимо DBPedia, являются также LinkedGeoData, который, как утверждается, вместе с данными из OpenStreetMap способен составить конкуренцию известным коммерческим решениям вроде Google Maps, и словарь статистических данных DataCube. В качестве решения второй подзадачи разрабатываются инструменты для ускорения работы RDF хранилищ, которые пока в 5-50 раз медленнее реляционных СУБД согласно DBPedia benchmark. Кроме того, особенно подчеркивалась важность разработки средств вроде семантических вики, например, таких как OntoWiki. В заключение был сделан анонс: уже в сентябре будут свободно доступны Debian дистрибутивы для решения вышеупомянутых подзадач.


Марко Гробельник (Josef Stefan Institute) построил свой пленарный доклад практически целиком на демонстрации любопытных приложений для обработки текста. Особенно запомнился SearchPoint - контекстно-зависимый поисковик.


Несколько выбился из общего контекста доклад Ашвина Рама (Georgia Tech Univesity) об OpenStudy, платформе для вовлечения учеников в образовательный процесс через механизм социальных сетей. Идея проекта в том, что бы через специальный виджет, доступный, например, на таких сайтах, как MIT OpenCourseWare и videolectures.net, предоставить возможность людям обсуждать и задавать вопросы/получать ответы по просматриваемому конспекту лекции, видео или др. учебному материалу. Выглядело любопытно, но, мне кажется, концепция того же Khan Academy выглядит более инновационной и полезной и, в том числе, в смысле социального аспекта в образовании.
Мой доклад "Анализ логической структуры математических научных публикаций" (слайды, ACM, препринт статьи доступен на персональной странице) состоялся в первый же день в рамках секции "Semantics and Ontology Engineering". Прошел он неплохо: не каждый докладчик получает возможность ответить сразу на 4 адекватных вопроса после доклада. Также, накануне доклада удалось перехватить упоминавшегося П. Мику и пригласить его на свою секцию (конференция, как обычно, проходила в несколько секций параллельно). Позже, уже на кофе-брейке, было интересно пообщаться с ним по поводу темы доклада.


Так случилось, что из Бергена я прилетел одним самолетом с другими участниками, в частности, Джонгом Паком (KAIST, Korea & University of Edinburgh, Scotland) и Томашом Влодарчиком (University of Stavanger, Norway).


Профессор Пак со своим студентом представили работу по анимации языков жестов для веб документов. Томаш - аспирант, получил магистерcкую степень в Польше, сейчас работает и готовится к защите Ph.D. тезиса в Норвегии (женат, кстати, на русской девушке). Интересно, что у него был отличный опыт стажировок в ведущих американских университетах - Carnegie Mellon и Стэнфорде (в частности, он рассказывал и про работу с одним из авторов Protege Наташей Ной, а на конференции у них была совместная статья с Мартином О'Коннором по специальному расширению языка правил SWRL).
А это уже на обеде конференции с Цабой Верешом и Николаем Нефедовым.


Профессор Вереш - "человек мира": он венгр, сын выдающегося тяжелоатлета, двухкратного чемпиона мира Дьезе Вереша, вырос в Австралии, учился в США, работает сейчас в Университете Бергена (Норвегия). Николай - сотрудник Nokia Research - родом из Кисловодска, окончил питерский политех, 15 лет проработал в Финляндии, сейчас работает в Швейцарии. Он представил интересную работу по анализу топологии социальных графов, извлеченных из телекоммуникационных логов. По сути, из русскоговорящих участников, кроме нас, был еще Алексей Чепцов из Украины, исследователь из проекта LarKC, работающий в Германии.

----
Пожалуй, все, что хотел рассказать. Многие материалы (слайды, видео) доступны на сайте конференции. Ясно, что невозможно в данном формате покрыть весь объем представленных работ, поэтому лучше обратиться к первоисточникам.
Больше фотографий доступно в альбоме Picasa.