Дерево тем arXiv’а

У знаменитого “лос-аламосского” arXiv’а электронных препринтов arXiv.org есть несколько альтернативных веб-интерфейсов, например специально математический в UC Davis, специально астрофизический в NASA ADS (в котором кроме arXiv’а объединены все ведущие астрофизические журналы), а также сайт Eprintweb.org (представляющий собой не просто интерфейс, а целую самостоятельную веб-службу, в которой пользователь может создать коллекцию закладок на интересующие его статьи). В этих интерфейсах, как и в самом arXiv’е, можно искать статьи по названию, автору, дате, отдельным словам из индексированной части текста (название и аннотация) и т.п.

Но допустим, что меня интересуют не какие-то определённые статьи, а, скажем, обзорные или исследовательские публикации, оказавшие наибольшее влияние на интересующую меня область физики. Или ещё хитрее: мне нужны ключевые слова, названия наиболее “горячих” исследовательских тем. Как их найти?

Недавно в Сети появился проект, извлекающий из arXiv’а и организующий именно такую информацию: сайт arXiv Structure (http://xstructure.inr.ac.ru/), созданный Григорием Пивоваровым и Сергеем Труновым из ИЯИ РАН. Это развивающийся проект, который пока что покрывает только три тематических раздела, hep-th, gr-qc и cond-mat (последний добавлен вчера, что и дало информационный повод для этого поста), но этого уже достаточно, чтобы судить о его плюсах. И этих самых плюсов оказывается немало.

Допустим, меня интересует раздел cond-mat. Иду я на соответствующую страницу и сразу выясняю, что за годы существования этого раздела arXiv’а, т.е. с 1992 года, народ особо интересовался следующим списком ключевых слов:

quantum dots; magnetic field; phase transition; bose-einstein condensate; quantum hall; hubbard model; monte-carlo carlo; phase diagram; spin glass; hall effect; ground state; ising model; carbon nanotube; renormalization group; electron system; bose gas; field theory; quantum phase; thin film; two-dimensional electron; optical lattice; electron gas; metal-insulator transition; josephson junction; electronic structure; single crystal; spin chain; quantum well; d-wave superconductor; quantum wire

Под этим внушительным перечнем стоят несколько гиперссылок: Authority Articles, Review Articles, Authors, Subthemes. Разберёмся с ними в обратном порядке.

Термин Subthemes означает следующее. В терминологии авторов проекта статьи в arXiv’е организуются в “дерево (точнее, лес) тем” (в качестве тем как раз и выступают, грубо говоря, перечисленные выше ключевые слова). Предметные разделы arXiv’а, такие как cond-mat, образуют верхний уровень — корни деревьев этого леса. Вершины следующего уровня — это и есть subthemes. Например, в подтеме “spin glass; ising model; phase transition; monte-carlo carlo” (забавная ошибка в конце связана с тем, что формулировки подтем определяются алгоритмически и, как видим, не всегда безупречно) на момент написания этого поста насчитывается 16439 статей, организованных ещё в 18 “под-подтем”, которые выглядят уже вполне конкретно. Но это не всё: иерархия подтем насчитывает ещё два уровня, на нижнем из которых “живут” уже конкретные статьи.

Кроме тематической структуры, предметные разделы arXiv’а можно просматривать и по отдельным авторам, которые проранжированы с точки зрения популярности, т.е. цитируемости их статей. Список авторов в cond-mat оказался проранжирован довольно забавно: Марк Ньюмен поднялся на одну ступень выше, чем Альберт-Ласло Барабаси, и гораздо более глубокий Джорджио Паризи находится, гм, существенно глубже обоих этих “попсовых” авторов. Что указывает на не то чтобы недостаток, но характерное свойство проекта: предлагаемая в нём ранжировка получена в результате автоматизированного и очень демократического процесса, в ходе которого “аристократов”, как правило, отодвигают в сторону. Но полезности ресурса это совершенно не уменьшает: чтобы тебя не затоптали, надо как минимум знать, куда все бегут…

Но, говоря практически, самое полезное — это не список авторов, а списки так называемых “авторитетных” и обзорных статей по теме (Authority и Reviw Articles). Это автоматически сформированные подборки статей по каждому из тематических разделов, а также по каждой из промежуточных вершин дерева тем, полезность которых трудно переоценить.

Есть и другой тип информации, которую можно извлечь из проекта arXiv Structure. Допустим, что меня интересует конкретный автор, не обязательно очень авторитетный, но я хотел бы знать, какое место он занимает в литературе: над какими проблемами работает, мейнстрим это или нет, кто ещё работает в том же направлении? Для ответа на этот вопрос я возвращаюсь на главную страницу сайта и использую помещённую там форму поискового запроса. Результат поиска также отображается в виде дерева тем (точнее, поскольку большинство авторов всё-таки специализируется на одной теме, результат представляет собой просто путь в дереве тем от корня до соответствующей вершины низкого уровня) с разбивкой по числу статей, которые имеет данный автор в каждом из разделов.

Аналогичный поиск можно вести и по отдельной статье, чтобы выяснить её более широкий контекст.

Тем, кого интересует, как всё это сделано, горячо рекомендую статью (по ссылке загрузится файл в формате pdf) Г. Пивоварова и С. Трунова, в которой описывается предложенный ими алгоритм EqRank, используемый для извлечения информации о структуре arXiv’а (явный намёк на PageRank Ларри Пейджа и Сергея Брина…)

Опубликовано 18/07/2006

Отклики »

URI для отслеживания (trackbacking) откликов на эту запись: http://ansobol.blogsome.com/2006/07/18/xstructure/trackback/

Пока откликов нет.

RSS-поток откликов на эту заметку.

Оставить отклик

Переносы строк и абзацев автоматические, адрес электронной почты скрывается, допустимо использовать следующие виды HTML-разметки: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <code> <em> <i> <strike> <strong>