24 января 2016 г.

Вселенная arxiv.org


На днях открыл для себя совершенно шикарный сервис Paperscape. Это тематическая карта всех статей (а их уже больше миллиона), выложенных в архив епринтов arxiv.org: физика частиц, астрофизика, конденсированные среды, и т.д. Каждая статья — это кружочек, размер которого пропорционален цитируемости статьи, цвет показывает тот раздел архива, где она появилась.

Самая крутизна в том, что кружочки размещены на карте не произвольно, а в согласии с «силовым взаимодействием» между статьями. Считается, что статья отталкивается от всех других обратно пропорционально расстоянию и притягивается к другим статьям по закону Гука через резиночки-цитирования. Если у статьи много ссылок на другие или много цитирований других статей, она притягивается сильнее и находится в гуще литературы. Если связь через цитирования слабая — статья может выталкиваться на периферию (но не обязательно, она может и застрять в гуще).

Это всё, больше ничего руками не подстраивается. Дальше просто проводится моделирование силового взаимодействия между миллионом статей и ищется наиболее энергетически выгодная конфигурация, в духе методов молекулярно-динамического моделирования. Все «галактики», скопления, разреженные зоны на карте получаются отсюда сами собой. Особых подробностей этой процедуры не приводится, но похоже, что алгоритм ищет лишь локальный минимум, а для поиска еще более оптимальных конфигураций приходится перестраивать карту руками и перезапускать моделирование. Тем не менее, пусть результат и не абсолютно оптимальный, он все равно получается очень наглядным и релевантным.

Вот, например, как выглядит эта карта в густой области:


Два больших кружочка — это статьи ATLAS и CMS про открытие бозона Хиггса. А вот как выглядят при увеличении те области, которые на общей карте выглядят пустыми:


На самом деле они тоже населены статьями, но только очень разреженно.

По всем статьям можно вести поиск. К сожалению, поиск по полному имени автора не поддерживается, но можно искать с инициалами (т.е. те статьи, где подписался полным именем, а не инициалами, сюда не попадут). Первым делом, конечно, хочется посмотреть на себя любимого:


Как и ожидалось, мои статьи (они выделены белым) группируются по трем темам, которыми я занимался.

На каждую статью можно кликнуть и визуализировать ссылки с нее и на нее. Можно также переключиться в другой цветовой режим: там чем новее статья, тем ярче она светится. Карта обновляется ежедневно, через несколько часов после обновления архива, так что можно даже смотреть, где на карте размещаются статьи за последние несколько дней. Ну и для пущего комфорта, на сайте можно завести себе аккаунт и стоить карты публикаций по выбранным темам.

5 комментариев:

  1. Конечно, прикольно. Но ГДЕ, наконец, пост про ступеньки?

    ОтветитьУдалить
    Ответы
    1. Слушайте, вы же понимаете, что вы пришли в чужой личный блог, в котором я пишу то, что мне хочется и когда мне хочется. Вы серьезно думаете, что ваши комментарии, как вот этот или как тот удаленный, — уместны?

      Удалить
  2. Что-то я не вкурил смысла paperscape. Типа "просто поиграться" для визуалов? :)

    ОтветитьУдалить
    Ответы
    1. Смотря для кого. Мне лично это дает наглядную картинку тех или иных областей, с подробной инфой по каждой статье. Ну и повод поразмышлять над тщетностью бытия (своей научной работы) в общем потоке научных статей. Для совсем далекого от науки человека это действительно просто визуальная забава, не больше.

      Удалить
  3. Отличная возможность обозреть все сразу.

    ОтветитьУдалить