разделение источников
May. 29th, 2013 09:13 pmЯ задал вопрос на реддите - попросил рассказать, умеют ли сейчас из аудио-записи выделять или удалять отдельные голоса или инструменты. Это может показаться странным, если вы не имели дела с компьютерной обработкой сигналов, но это на удивление тяжелая задача. Я знал об этом в очень общих чертах, но не знал, какого прогресса в ней добились.
Мне накидали полезных ссылок. В частности, набор слайдов, рассказывающий об основных алгоритмах, и примеры того, как работают алгоритмы из недавно опубликованной статьи. И еще несколько ссылок хороших там есть.
Вот, подумал, может не мне одному интересно.
Мне накидали полезных ссылок. В частности, набор слайдов, рассказывающий об основных алгоритмах, и примеры того, как работают алгоритмы из недавно опубликованной статьи. И еще несколько ссылок хороших там есть.
Вот, подумал, может не мне одному интересно.
no subject
Date: 2013-06-11 08:18 am (UTC)Ох.
Гармоника - это представление сигнала в частотной области.
Там чистая синусоида, безо всяких "огибающих".
"Гармоники", "тембр" - это не совсем синусоида ( т.е. тембр - если во временной области), на которую "повешена" огибающая.
Мы можем выполнять не "чисто спектральный анализм" - а некую помесь, "временной спектр", при помощи кореляции, согласованной фильтрации и т.д. разлагая звук на одельные составляющие.
Можно вообще попробовать подобрать некие "образцы звуков" - особенно если это синтезатор, и известна его модель. Тогда можны усзнать сэмплы звуков каким-то образом.
При этом разные звуки складываются линейно - а линайные операции обратимы.
И почему вы полагаете, что для голоса ситуация иная?
Про звук "мелодических" (условно госоря) инструменты, играющие по нотам - можно делать правдоподобные предположения относительно спектра и длительности звучания - такты и т.д.
При этом форма сигнала сигнала будет достаточно стабильна - нота "до", сыгранная на синтезаторе, имитирующем флейту - будет иметь одинаковый набор гармоник и их соотношение, ноты разной длительности будут иметь разную продолжительность поддержки и только.
С человеческим голосом на фоне музыки такое предсказать сложнее.