Eugene Cherny

Research, sound, and music


Референс менеджеры

В ходе обсуждения инструментов для использования в лаборатории, я предложил начать использовать какой-нибудь референс менеджмер. Соответственно, меня попросили расписать, что это и для чего нужно. На этой странице я кратко расскажу, что это, для чего используется, и приведу примеры, как использую его я.

Что это такое и для чего используется

Доподлино известно, что есть люди, хранящие статьи в папках на жестком диске. Такой подход имеет следующие недостатки:

  1. Структура папок со временем превращается в хаос.
  2. Не всегда есть желание переименовывать скачанные .pdf файлы, чтобы потом было легко откопать статью.
  3. Сложно найти нужную статью из-за вышеуказанных недостатков.
  4. Еще более трудно найти группу статей, например, чтобы отправить кому-нибудь базовый материал о предметной области.
  5. Даже если организация по папкам хорошая, то зачастую статьи могут находиться сразу в нескольких категорях, и надо делать дублирование файлов в разные подпапки или запоминать, что к чему относится.
  6. У издательств есть разные стили цитирования, которые надо соблюдать при написании статей. В случае с офисными пакетами приходится делать их вручную (или копировать из Google Scholar), а в LaTeX либо поддерживать свою BibTeX базу, либо составлять .bib файл для каждой статьи.

Системы управления библиографической информацией — так в русской вики называется класс программ, о которых я говорю. Функционал, общий для всех них, примерно такой:

  1. Организация статей по категориям, коллекциям, присваивание тэгов.
  2. Управление метаданными статей (автор, название конференции и т.д.), включая извлечение этих метаданных из только что добавленных .pdf файлов.
  3. Генерация цитат в разных форматах (IEEE, Elsevier, и т.д.) на основе метаданных. Также можно создавать один большой .bib файл со статьями для использования в LaTeX - в данном случае можно копировать BibTeX-ключ в буфер обмена для вставки сразу в документ LaTeX. Zotero, например, еще умеет интегрироваться с Word и LibreOffice для создания цитат.
  4. Синхронизация с облаком, включая создание общих коллекций.

Сейчас наиболее популярные следующие программы: Mendeley, Papers, Zotero. Я пробовал также какие-то другие, но они сходу чем-то не нравились, поэтому даже не пытаюсь вспомнить. Кратко про преимущества и недостатки:

  1. Papers выглядит наиболее красивым и классным из всех. Но это только кажется. Мой научный руководитель, который пользуется им, охарактеризовал его как пример bad software engineering — постоянные проблемы с синхронизацией и еще что-то. Стоит €3/мес. или разово €59 (студентам скидка 50%).
  2. Mendeley — бесплатно дается 2 Гб места. Имеет простой встроенный просмотрщик статей, в нем можно делать заметки и выделять. Но эти аннотации хранятся в проприетарном формате и для того, чтобы вытащить их надо обращаться к их API. Если не ошибаюсь, в самом Mendeley нет кнопочки для вытаскивания выделенных фрагментов текста. Есть ограничения на групповые коллекции: одна приватная коллекция, три коллаборатора и общий размер одной коллекции в 100 Мб — в т.ч. и на премиуме, что очень грустно. Team plans от €49/мес. за 5 колабораторов.
  3. Papers был куплен Эльзевиром, а Mendeley — Шпрингером. Или наоборот, я не помню.
  4. Zotero на первый взгляд кажется сам неклассным из всех. Но это только кажется! Фактически, он имеет какие-то функции ПО для управления знаниями: в нем каждый item представляет собой не просто статью, но статью вместе с сопроводительным материалом к ней, например, заметки, изображения и т.д. В бесплатном аккаунте дается 300 Мб, а общих коллекциях нет ограничений на количество участников и место (оно вычитается из аккаунта, расшарившего коллекцию). Еще Zotero супер-расширяем, и люди накодили много плагинов для него. Плюс, он имеет очень хорошую интеграцию с Firefox. Обо всем этом дальше.

Примеры использования

Т.к. цель статьи — дать общее представление об этом софте, я не буду очень подрбно разбирать юзкейсы использования, а просто приведу примеры.

Внешний вид

На скриншоте видно, что внутри статьи «Pitch and Timbre: Definition, meaning and use» находятся четыре файла:

  1. Extracted annotations — сюда Zotero поместил выделенные в .pdf файле фрагменты текста. На скриншоте эта заметка выделена и ее содержимое видно справа. Ссылки означает ссылку на файл, откуда аннотации, поэтому если в одну заметку скопипащены много цитат, то можно без труда перейти к первоисточнику, кликнув на нее. Да, для извлечения заметок надо установить плагин ZotFile, после чего эта функция будет доступна в контекстном меню правым кликом: Manage Attachments → Extract Annotations.
  2. Auditory stimuli structure.png — это скриншот графика из текста, который я счет полезным для обзора и поместил его сюда, чтобы потом быстро найти.
  3. Houtsma_1997_Pitch and timbre.pdf — сам файл статьи. Файлы также можно переименовать, исходя из имеющихся метаданных: в том же меню пункт Rename File from Parent Metadata.
  4. Snapshot — это сохраненная копия html-странички, из которой я добавлял статью в Zotero с помощью расширения.

Также, если посмотреть выше, то можно увидеть пункт «Definitions of Timbre (by G. Sandel)» — это сохраненная html-страница, на которой автор перечисляет разные источники, где определяется понятие тембра.

Да, из приятных бонусов, Zotero может проиндекировать все имеющиеся статьи и осуществлять полнотекстовый поиск.

Цитирование

Нажав cmd-shift-c можно скопировать цитирование статьи. Сейчас у меня в настройках указан стиль IEEE, который выглядит так:

[1]A. J. M. Houtsma, “Pitch and timbre: Definition, meaning and use,” Journal [of New Music Research, vol. 26, no. 2, pp. 104–115, Jun. 1997.

Можно скопировать цитирование сразу группу статей:

[1]A. J. M. Houtsma, “Pitch and timbre: Definition, meaning and use,” Journal [of New Music Research, vol. 26, no. 2, pp. 104–115, Jun. 1997.
2]S. [Lakatos, “A common perceptual space for harmonic and percussive timbres,” [Perception & Psychophysics, vol. 62, no. 7, pp. 1426–1439, Oct. 2000.
[3]S. E. Trehub, M. W. Endman, and L. A. Thorpe, “Infants’ perception of [timbre: Classification of complex tones by spectral structure,” Journal of [Experimental Child Psychology, vol. 49, no. 2, pp. 300–313, Apr. 1990.

Можно в настройках указать стиль BibLaTeX и получить готовое для вставки в LaTeX цитирование:

@article{houtsma_pitch_1997,
title = {Pitch and timbre: Definition, meaning and use},
volume = {26},
issn = {0929-8215},
url = {http://dx.doi.org/10.1080/09298219708570720},
doi = {10.1080/09298219708570720},
shorttitle = {Pitch and timbre},
abstract = {Pitch and timbre are terms frequently used in studies on sound perception. Despite the existence of formal definitions, these terms are often used ambiguously in the literature. This paper is intended as a review of the {ANSI} definitions and their shortcomings, of modern ways to define the concepts operationally, and of the various dependencies of pitch and timbre on physical attributes of sound. Finally, their independent functioning in speech, their mutually dependent functioning in music, and their mediating role in object recognition will be discussed.},
pages = {104–115},
number = {2},
journaltitle = {Journal of New Music Research},
author = {Houtsma, A. J. M.},
urldate = {2016-01-10},
date = {1997-06-01},
file = {Auditory stimuli structure.png:/Users/oscii/Library/Application Support/Zotero/Profiles/vir7il4m.default/zotero/storage/AJIN9H6A/Auditory stimuli structure.png:image/png;Houtsma_1997_Pitch and timbre.pdf:/Users/oscii/Library/Application Support/Zotero/Profiles/vir7il4m.default/zotero/storage/R2X4T6GV/Houtsma_1997_Pitch and timbre.pdf:application/pdf;Snapshot:/Users/oscii/Library/Application Support/Zotero/Profiles/vir7il4m.default/zotero/storage/9ICJS5RC/09298219708570720.html:text/html}
}

Цитирование по ГОСТу добавляется аддоном: https://github.com/romanraspopov/GOST-styles-for-Zotero.

Еще есть функция для интеграции с Microsoft Office и LibreOffice, но я не проверял, как она работает.

Аддоны для браузеров

Они позволяют импортировать статьи в Zotero прямо из браузера. В Firefox также можно открыть Zotero во вкладке.

Кнопка для импортировани статей

Например, мы хотим импортировать статью Linked Open Piracy: A Story about e-Science, Linked Data, and Statistics. При нажатии на виджет, она загружается со всеми метаданными в папку, которая была выделена в самом Zotero. На скриншоте это «Unfiled Items», то есть откуда надо будет все разобрать в будущем. Если статья не open access, то загружаются только аннотации, сам pdf можно добавить позже вручную.

Кроме самих pdf можно сохранять целые HTML страницы. При этом в метаданные добавляется поле «accessed» (дата обращения), которое используется при цитировании электронных ресурсов. Пример с цитированием по ГОСТу:

Tim Prebble. Metadata support in Sound Library Apps [Электронный ресурс]. URL: http://www.musicofsound.co.nz/blog/metadata-support-in-sound-library-apps (дата обращения: 30.04.2016).

Save to Zotero (Firefox)

Другая удобная фича — при попытке загрузить .pdf Firefox предлагает сохранить его сразу в Zotero, заодно вытащив метаданные из файла. Также этим способом можно сохранить статью в выделенную коллекцию, правда, это не работает, если она групповая.

Use case: делаем обзор с помощью тэгов

У меня была задача сделать обзор статей по темам аннотирования звуков, конкретно интересовало следующее:

  1. Какие слова люди используют для описания тембра (verbal descriptors).
  2. Как словесные описания тебра коррелируют со спектральными характеристиками (verbal descriptor analysis).
  3. Как люди аннотируются звуки (sound annotation).
  4. Какие методы используются для автоматической классификации звуков (sound classification).

В скобках указаны тэги, которые я придумал, чтобы помечать статьи. По ходу также появились и другие тэги (qualitative study, sound ontology и др.).

Сам процесс был такой:

  1. Скачать 50 статей, охватывающих вышеперечисленные вопросы.
  2. Пробежаться быстро по ним, читая только формулировку целей и задач и результаты, на основе чего помечая тэгами.
  3. Более внимательно пробежаться по статьям, помеченным тэгами, чтобы написать текст.

Проблемы

Не всегда корректно работают функции, связанные со скрэппингом .pdf файлов, как извлечение метаданных или аннотаций. Но с относительно новыми статьями Шпрингера или Эльзевира, либо скачанными, например, с ResearchGate проблем нет.