avva | разделение источников

Я задал вопрос на реддите - попросил рассказать, умеют ли сейчас из аудио-записи выделять или удалять отдельные голоса или инструменты. Это может показаться странным, если вы не имели дела с компьютерной обработкой сигналов, но это на удивление тяжелая задача. Я знал об этом в очень общих чертах, но не знал, какого прогресса в ней добились.

Мне накидали полезных ссылок. В частности, набор слайдов, рассказывающий об основных алгоритмах, и примеры того, как работают алгоритмы из недавно опубликованной статьи. И еще несколько ссылок хороших там есть.

Вот, подумал, может не мне одному интересно.

Flat | Top-Level Comments Only

From:

asox.livejournal.com

Превращение мажора в минор - это не транспонирование в общепринятом смысле слова.

Я не уверен, что The Doors писали строго в рамках классической гармонии - и что писанные Вами сложности являются порождениями языка описания, а не самой "сущности" задачи.

Что же касаемо "wav в midi" - то я, видимо, где-то это увидел краем глаза.

Вот, скажем:

Между тем, существуют программы для “распознавания“ мелодий и нот (см. проекты на MIDI.Ru вроде akoff, midi-2-wav, widi). Они пытаются подобрать подходящие к звуку ноты (аккорды) - и получиться может очень даже похоже на оригинал (или совсем не похоже – почему так, вам расскажут их авторы в пояснениях к программе). Главная особенность таких программ – в получившейся мелодии инструменты и их звучание не будут соответствовать оригиналу, к тому же могут появиться "лишние" ноты и инструменты (это еще мягко сказано: могут.. 90% всех нот после конвертации такими программами лишние). (http://www.midi.ru/doc/40.htm)

Они там, сначала, правда, плачутся, что "восстановить невозможно", но, тем не менее. Про "вырезание голоса" они ещё жёстче высказываются.

From:

ichthuss

>Я не уверен, что The Doors писали строго в рамках классической гармонии...

Что вы имеете ввиду под "классической гармонией"? Понятия "лад", "тональность", "аккорд", "мажор" и т.д. в полной мере применимы к их творчеству.

>...и что писанные Вами сложности являются порождениями языка
>описания, а не самой "сущности" задачи.

Описаннные сложности порождены самой сущностью задачи, которая состоит в том, что разные ноты должны повышаться на разную высоту. Например, для перевода натурального мажора в натуральный минор нужно опустить на полтона 3,6 и 7 ступени гаммы и при этом не изменять 1, 2,4 и 5 ступени.

From:

asox.livejournal.com

Что вы имеете ввиду под "классической гармонией"?

То самое, в рамках чего можно говорить про минорный / мажорный звукоряд.
Т.е, разметка звуков каммы как "основных" и "бемолей"/"диезов".

Описаннные сложности порождены самой сущностью задачи, которая состоит в том, что разные ноты должны повышаться на разную высоту.

Если есть мелодия, есть ноты - то их можно выделить - либо спектральным, либо спектрально-временным анализом. При этом можно делать вполне разумные допущения о том, что "нота" будет выглядеть "примерно одинаково" при любом возникновении в мелодии - т.е. формально это "около" синусоидальный сигнал с определённой огибающей (атака, поддержка, затухание).
Подобные элементы могут быть выделены из сигнала так-же корреляционным анализом.
Т.е. возможно я слегка ошибся, заявив, что задача совсем плёвая - но технически она выглядит вполне реализуемой.
В отличие от выделения голоса.

From:

ichthuss

>То самое, в рамках чего можно говорить про минорный / мажорный
>звукоряд.
>Т.е, разметка звуков каммы как "основных" и "бемолей"/"диезов".

Вот как раз она к Дорзам на 100% применима.

>При этом можно делать вполне разумные допущения о том, что
>"нота" будет выглядеть "примерно одинаково" при любом возникновении
>в мелодии - т.е. формально это "около" синусоидальный сигнал
>с определённой огибающей (атака, поддержка, затухание).

А гармоники мы игнорируем? Напоминаю, кстати, что в норме гармоники звучащих нот очень часто совпадают, т.к. именно такие совпадения воспринимаются человеком как приятные созвучия.

И почему вы полагаете, что для голоса ситуация иная? Ну то есть она иная, конечно, но как раз описанные вами моменты (основной тон, атака, затухание и т.д.) в равной мере справедливы и для голоса.

From:

asox.livejournal.com

А гармоники мы игнорируем?

Ох.
Гармоника - это представление сигнала в частотной области.
Там чистая синусоида, безо всяких "огибающих".
"Гармоники", "тембр" - это не совсем синусоида ( т.е. тембр - если во временной области), на которую "повешена" огибающая.
Мы можем выполнять не "чисто спектральный анализм" - а некую помесь, "временной спектр", при помощи кореляции, согласованной фильтрации и т.д. разлагая звук на одельные составляющие.
Можно вообще попробовать подобрать некие "образцы звуков" - особенно если это синтезатор, и известна его модель. Тогда можны усзнать сэмплы звуков каким-то образом.
При этом разные звуки складываются линейно - а линайные операции обратимы.

И почему вы полагаете, что для голоса ситуация иная?

Про звук "мелодических" (условно госоря) инструменты, играющие по нотам - можно делать правдоподобные предположения относительно спектра и длительности звучания - такты и т.д.
При этом форма сигнала сигнала будет достаточно стабильна - нота "до", сыгранная на синтезаторе, имитирующем флейту - будет иметь одинаковый набор гармоник и их соотношение, ноты разной длительности будут иметь разную продолжительность поддержки и только.
С человеческим голосом на фоне музыки такое предсказать сложнее.