Eugene Cherny

Research, sound, and music


Несколько интересных докладов с конференции Sound and Music Computing

В этом году на этой конференции я представлял наш совместный с Глебом Рогозинским и Михаилом Чесноковым проект: конвертер патчей Nord Modular G2 в код Csound (https://github.com/gleb812/pch2csd). Она проводилась в финском Университете Аалто в городе Эспу, недалеко от Хельсинки. Типично для подобных конференций, ее программа включала сессию с постерами, доклады, а также выставку инсталляций и концерты. Т.к. непосредственно во время самой конференции я активно допиливал конвертер, концертную часть я пропустил. В данной же статье я постараюсь перечислить несколько представленных проектов и докладов, которые мне показались интересными.

Лекция Тошифуми Кунимото, который работает в Yamaha с середины 80-х. Особенно запомнилось, с каким удовольствием г-н Кунимото говорил о том, как они разработали метод обратной связи операторов в FM-синтезе и запатентовали его, уделав конкурентов (наверное, самая важная часть) и получив единоличное право на использование данного вида синтеза вплоть до 2000-го года. Дело в том, что первые эксперименты с FM-синтезом в Yamaha проводились с одним несущим оператором и одним модулятором, что не давало, как выразился лектор, «жирного» звучания. Поэтому они придумали модулировать оператор самим собой, а для избежания элайзинга добавили низкочастотный фильтр в обратную связь. Собственно, комбинация обратной связи с фильтром в FM операторе и есть суть патента. Другой интересный момент — известный всем DX7 на самом деле был побочным продуктом электрооргана, их флагманского синтезатора того времени, для которого, собственно, и разрабатывался FM-синтез. Меня это навело на мысли, как легко мифологизируются довольно прагматичные инженерные решения под влиянием моды и авторитетных примеров.

«The design of a lightweight DSP programming library» (Victor Lazzarini). В данной статье представляется небольшая C++14 библиотека AuLib для программирования DSP алгоритмов. В своей работе автор в основном пользуется языком C, поэтому одна из задач, которую решает библиотека — это инкапсуляция алгоритмов, написанных в C-стиле, как, например, состоящих из нескольких функций и структуры для хранения состояния. Кроме интерфейса для «соединения» алгоритмов библиотека также подразумевает использование внутри уже сформировавшихся программ, предусматривая работу с указателями напрямую. Библиотека довольно минималистична, и может быть использована как для разработки аудио программ с нуля, так и для интеграции с уже существующими проектами.

«Auditory, Visual and Somatosensory Localization of Piano Tones: a Preliminary Study» (Federico Fontana et al.). В данной работе исследуется, как люди локализуют звук фортепиано. Это интересно тем, что человек, сидящий перед инструментом, слышит не только звук отдельной струны, но также и весь резонирующий корпус, соответственно, возникает вопрос, как именно человек локализует звук. Такие исследования важны для разработки электрических фортепиано, в которых воссоздается звучание оригинала и используются такие решения, как, например, размещение массива динамиков для воссоздания волнового поля инструмента, либо использование панорамных или пространственных эффектов при проигрывании через наушники. В данной же работе авторы исследуют совместное влияние соматосенсорной, зрительной и слуховой информации на локализацию звука. Авторы не делают смелых заключений, называя свои результаты предварительными и отмечая, что соматосенсорная и визуальная обратные связи дополняют слуховую информацию в случае, когда они согласованны.

В «Electronic Hearing Protection for Musicians» (Robert Albrecht et al.) авторы представляют свои наработки по уменьшению влияния большой громкости на слух музыкантов при репетиции. Проблема возникает при использовании затычек из-за т.н. эффекта окклюзии. Он заключается в том, что объект, заполняющий верхний ушной канал, вступает в реверберацию с черепом, что усиливает восприятие низких частот, а также таких звуков, как жевание или собственный голос, — т.е. всех тех вибраций, который обычно гасятся в среднем ухе мышцами, к которым крепятся ушные кости. Проблема особенно актуальна, например, для гобоя и фагота, т.к. они передают низкочастотные вибрации через мундштук, а также для скрипок, которые зажимаются у челюсти. Ввиду усиления низких частот, у музыкантов ухудшается восприятие тона и тембра инструмента, поэтому использованием затычек часто пренебрегается. В статье авторы описывают систему, состоящую из наушников и автономной DSP платы, для решения обозначенных проблем. Система реализует ряд техник, в т.ч. фазовое аннулирование, эквализацию и реверберацию.

В данном пункте я объединил две статьи, т.к. для меня они относятся к одной группе цифровых аудио эффектов: «Virtual Analog Simulation and Extensions of Plate Reverberation» (Silvin Willemsen et al.) и «Virtual Analog Simulation and Extensions of Plate Reverberation» (Fabián Esqueda et al.). Первая статья представляет симуляцию пластинчатого ревербератора, с такими функциями, как модуляция позиции виртуального микрофона, размеров пластины, а также расположения уплотняющего материала. Представленное звуковое демо звучало очень хорошо, модуляции параметров создавали отличные стерео-эффекты. На данный момент алгоритм неоптимизирован (отсюда и качество звука). В открытом доступе ревербератора нет, но можно написать автору, и он вышлет программу в частном порядке. Вторая статья представляет эффект волновой складки, также известный как wavefold и популярный на западном побережье США (см. о различиях в подходах к синтезу между западным и восточным побережьями). Пионерами данного метода принято считать Сергея Черепнина и Дона Бухлу. В статье представляется реализация и дается ссылка на исходный код в виде Max патча. В этой статье мне показался интересным подход авторов к уменьшению элайзинга — собственно, из-за него я и оставляю эту статью здесь, чтобы не забыть.

«Musical Approaches for Working with Time-Delayed Feedback Networks» (Daniel Bisig et al.). В данной статье автор рассказывает о своем опыте создания музыкальных работ с использованием задержки и обратной связи. Работы автора представляют собой составные инсталляции / конструкции из динамиков и микрофонов со сложной коммутацией и взаимодействием. Постоянно записывая и воспроизводя звук друг друга, такие системы попадают в бесконечный цикл и живут «своей жизнью». Мне понравились его работы как звуком, так и концепцией. Посмотреть их можно на Vimeo-канале автора: https://vimeo.com/user4687158.

В статье «SECCIMA: Singing and Ear Training for Children with Cochlear Implants via a Mobile Application» (Zhiyan Duan et al.) рассматривается приложение для обучения детей с кохлеарным имплантатом. Может быть, само приложение не так заинтересовало, как сама тема имплантации слуха. Дело в том, что имплантируемое устройство — это спектральный анализатор, который через электрод передает данные анализа напрямую в улитку уха. Я недавно интересовался темой, как люди с подобным устройством слышат мир, ведь метод БПФ имеет определенную спектральную и темпоральную гранулярности. Увы, я не нашел ничего особенного о феноменологии явления, о том, как это ощущается, — в статьях обычно исследуется производительность решения задач на распознавание голоса и т.д. Эта тема также навела на мысли, есть ли аналогия между тем, как мы пытаемся научить компьютер распознавать звук и тем, как люди с имплантатами обучаются распознавать речь? Возможно, мы пытаемся научить компьютер делать то, на неспособен даже человек. Я думаю, у меня когда-нибудь дойдут руки до обзора работ с документированными процессами обучения людей и проведению аналогий с MIR.

Конечно, было много другого интересного на конференции, в этой статье я лишь привел несколько работ, к изучению которых я бы хотел вернуться в будущем. Полный список докладов можно посмотреть на сайте: http://smc2017.aalto.fi/proceedings.html.