avva: (moose)
[personal profile] avva
Я задал вопрос на реддите - попросил рассказать, умеют ли сейчас из аудио-записи выделять или удалять отдельные голоса или инструменты. Это может показаться странным, если вы не имели дела с компьютерной обработкой сигналов, но это на удивление тяжелая задача. Я знал об этом в очень общих чертах, но не знал, какого прогресса в ней добились.

Мне накидали полезных ссылок. В частности, набор слайдов, рассказывающий об основных алгоритмах, и примеры того, как работают алгоритмы из недавно опубликованной статьи. И еще несколько ссылок хороших там есть.

Вот, подумал, может не мне одному интересно.

Date: 2013-05-29 06:24 pm (UTC)
From: [identity profile] zumba.livejournal.com
Я тут недавно, воодушевлённый прогрессом, полез искать аппликацию для автоматической транскрипции для телефона (!). Вообрази моё удивление результатами поиска :).

Date: 2013-05-29 06:24 pm (UTC)
From: [identity profile] umishko.livejournal.com
Мой бывший друг делал по этому делу целый докторат в Париже (around 2003)

Date: 2013-05-29 06:26 pm (UTC)
From: [identity profile] plakhov.livejournal.com
so, avva discloses his reddit username and then a top commenter turns out to be [livejournal.com profile] afranius? this must be a joke or something
(не, я, конечно, понимаю, что это другой Афраний, но все же)

Date: 2013-05-29 06:27 pm (UTC)
From: [identity profile] avva.livejournal.com
Я тоже удивился, когда он мне ответил.

Date: 2013-05-29 06:34 pm (UTC)
From: [identity profile] morfizm.livejournal.com
Отделение человеческого голоса от инструментального аккомпанемента (вторая ссылка) мне кажется на порядки более лёгкой задачей, чем, скажем, выделение голосов (мелодий) из Баховской фуги. Просто распознать все ноты в аккорде (с правильными октавами) интуитивно кажется офигенно сложной задачей. Я буду удивлён, если это уже умеют нормально делать.

Date: 2013-05-29 07:15 pm (UTC)
From: [identity profile] ushastyi.livejournal.com
порой, это и человеку нелегко сделать.

Date: 2013-05-29 07:14 pm (UTC)
From: [identity profile] ushastyi.livejournal.com
Я видел на ютьюбе пример немного смежной задачи. Там некоторые классические композиции, Doors, например, транспонировали из минора в мажор. Или наоборот. Причем транспонировались и ведущая партия и аранжировка. Мы долго спорили, программным методом это сделано, или по-другому. Похоже, что все таки программно. На мой взгляд, эта задача даже сложнее, чем выделять голоса. И не менее интересная.

Date: 2013-05-30 06:16 am (UTC)
From: [identity profile] asox.livejournal.com
Сдвиг спектра "целиком" - задача, в общем, достаточно хорошо формализуемая.

Date: 2013-05-30 08:54 am (UTC)
From: [identity profile] ushastyi.livejournal.com
Не спектра. Как бы объяснить... Если Вы не знакомы с технической стороной музыки, то будет непросто, но я попробую. Есть как минимум три серьезные проблемы.

1. У музыкальных инструментов и голоса есть тембр. Тембр определяется "смесью" обертонов. То есть надо сдвигать не только ноту, но и все обертоны. Что гораздо сложнее.

2. Другая сложность в глиссандо и связях между нотами. Особенно это заметно на голосе и скрипке. Ноты переходят друг в друга через плавные переходы. И надо транспонировать переход, а не только начальную или конечную ноту. А если это фортепиано с педалью, то "эхо" от ноты длится в течение нескольких последующих.

3. Третья сложность связана с мелодией. В зависимости от мелодии, одна и та же нота может требовать транспонирования или нет. То есть надо понимать, в какой тональности мелодия находится в данный момент (а тональность может меняться), основная это нота или модифицированная диезом-бемолем-бекаром, и т.п.

Date: 2013-05-30 09:30 am (UTC)
From: [identity profile] asox.livejournal.com
Ещё раз: описанная задача - чисто "техническая".
Берём экземпляр сигнал (пофик, что там было), преобразуем в спектральную форму, дльше умножаем функцию спектрального преобразования на какой-то коэффициент (переход от ноты "до" к ноте "си" - состоит именно в умножении частоты на какую-то величину) - и делаем обратное преобразование.
Без компьютеров подобное реализовать сложнее, хотя, думаю - тоже можно.
Сдвинуть спект "целиком" не сколько-то герц (когда к каждому голосу добавляется постоянное число герц) - тоже можно, но это делается во временной области. Причём, при определённых усилиях - относительно несложной техникой. Разумеется в этом случае вся гармония рассыплется.

Date: 2013-05-30 09:43 am (UTC)
From: [identity profile] ushastyi.livejournal.com
Увы, Вы не поняли, что я написал. Весь смысл в том, что очень даже не "пофиг, что там было".

Date: 2013-06-03 06:51 am (UTC)
From: [identity profile] asox.livejournal.com
Задача "техническая", если средствам, позволяющим её решить "пофик, что там было" - и результат, получающийся при этом полностью удовлетворяет желаниям заказчика.

Date: 2013-06-01 01:58 pm (UTC)
From: [personal profile] ichthuss
Умножение всех частот на постоянную величину эквивалентно ускорению проигрывания сигнала в такое же количество раз. Обычно это не то, что нужно. Не говоря уже о том, что сдвигать весь спектр смысла мало. К примеру, для перевода до-мажорного трезвучия в до-минорное нужно понизить ноту "ми" на полтона и не менять ноты "до" и "соль". При этом, например, 4-я гармоника ноты "ми" практически совпадает с 5-й гармоникой от "до", но ести у нас вместо "ми" - "ми-бемоль", то уже ни о каком совпадении речь не идёт. Как вы предлагаете это делать без деления микса на отдельные ноты?

Date: 2013-06-03 06:48 am (UTC)
From: [identity profile] asox.livejournal.com
Возможно там не всё так просто, как я описал - но, в общем случае, задача транспонирования технически более корректна, нежели чем вырезание голоса.
У спектра можно разделить огибающую и частоты, можно заюзать вейвлет-преобразование, явно включающее в себя временной масштаб и т.д.
Собственно, есть программы, преобразующие звук в миди - а это уже практически чистая нотная запись.
Вот какое-то обсуждение по теме (http://forum.numi.ru/index.php?showtopic=3818).

Date: 2013-06-03 09:04 am (UTC)
From: [personal profile] ichthuss
Собственно, топикстартер некорректно употребил слово "транспонирование". Превращение мажора в минор - это не транспонирование в общепринятом смысле слова. И хотя любой музыкан поймёт, о чём идёт речь, с технической точки зрения задача совсем иная, и она гораздо ближе к разделению источников, чем простой питч-шифт, имеющийся на каждом китайском гитарном процессоре.

Да, кстати, в топике ни о каком распознавании звука в миди ничего не нашёл. Есть только об обратном преобразовании.

Date: 2013-06-03 10:42 am (UTC)
From: [identity profile] asox.livejournal.com
Превращение мажора в минор - это не транспонирование в общепринятом смысле слова.

Я не уверен, что The Doors писали строго в рамках классической гармонии - и что писанные Вами сложности являются порождениями языка описания, а не самой "сущности" задачи.

Что же касаемо "wav в midi" - то я, видимо, где-то это увидел краем глаза.

Вот, скажем:

Между тем, существуют программы для “распознавания“ мелодий и нот (см. проекты на MIDI.Ru вроде akoff, midi-2-wav, widi). Они пытаются подобрать подходящие к звуку ноты (аккорды) - и получиться может очень даже похоже на оригинал (или совсем не похоже – почему так, вам расскажут их авторы в пояснениях к программе). Главная особенность таких программ – в получившейся мелодии инструменты и их звучание не будут соответствовать оригиналу, к тому же могут появиться "лишние" ноты и инструменты (это еще мягко сказано: могут.. 90% всех нот после конвертации такими программами лишние). (http://www.midi.ru/doc/40.htm)

Они там, сначала, правда, плачутся, что "восстановить невозможно", но, тем не менее. Про "вырезание голоса" они ещё жёстче высказываются.

Date: 2013-06-05 11:13 am (UTC)
From: [personal profile] ichthuss
>Я не уверен, что The Doors писали строго в рамках классической гармонии...

Что вы имеете ввиду под "классической гармонией"? Понятия "лад", "тональность", "аккорд", "мажор" и т.д. в полной мере применимы к их творчеству.

>...и что писанные Вами сложности являются порождениями языка
>описания, а не самой "сущности" задачи.

Описаннные сложности порождены самой сущностью задачи, которая состоит в том, что разные ноты должны повышаться на разную высоту. Например, для перевода натурального мажора в натуральный минор нужно опустить на полтона 3,6 и 7 ступени гаммы и при этом не изменять 1, 2,4 и 5 ступени.

Date: 2013-06-10 10:08 am (UTC)
From: [identity profile] asox.livejournal.com
Что вы имеете ввиду под "классической гармонией"?

То самое, в рамках чего можно говорить про минорный / мажорный звукоряд.
Т.е, разметка звуков каммы как "основных" и "бемолей"/"диезов".

Описаннные сложности порождены самой сущностью задачи, которая состоит в том, что разные ноты должны повышаться на разную высоту.

Если есть мелодия, есть ноты - то их можно выделить - либо спектральным, либо спектрально-временным анализом. При этом можно делать вполне разумные допущения о том, что "нота" будет выглядеть "примерно одинаково" при любом возникновении в мелодии - т.е. формально это "около" синусоидальный сигнал с определённой огибающей (атака, поддержка, затухание).
Подобные элементы могут быть выделены из сигнала так-же корреляционным анализом.
Т.е. возможно я слегка ошибся, заявив, что задача совсем плёвая - но технически она выглядит вполне реализуемой.
В отличие от выделения голоса.

Date: 2013-06-10 11:29 am (UTC)
From: [personal profile] ichthuss
>То самое, в рамках чего можно говорить про минорный / мажорный
>звукоряд.
>Т.е, разметка звуков каммы как "основных" и "бемолей"/"диезов".

Вот как раз она к Дорзам на 100% применима.

>При этом можно делать вполне разумные допущения о том, что
>"нота" будет выглядеть "примерно одинаково" при любом возникновении
>в мелодии - т.е. формально это "около" синусоидальный сигнал
>с определённой огибающей (атака, поддержка, затухание).

А гармоники мы игнорируем? Напоминаю, кстати, что в норме гармоники звучащих нот очень часто совпадают, т.к. именно такие совпадения воспринимаются человеком как приятные созвучия.

И почему вы полагаете, что для голоса ситуация иная? Ну то есть она иная, конечно, но как раз описанные вами моменты (основной тон, атака, затухание и т.д.) в равной мере справедливы и для голоса.

Date: 2013-06-11 08:18 am (UTC)
From: [identity profile] asox.livejournal.com
А гармоники мы игнорируем?

Ох.
Гармоника - это представление сигнала в частотной области.
Там чистая синусоида, безо всяких "огибающих".
"Гармоники", "тембр" - это не совсем синусоида ( т.е. тембр - если во временной области), на которую "повешена" огибающая.
Мы можем выполнять не "чисто спектральный анализм" - а некую помесь, "временной спектр", при помощи кореляции, согласованной фильтрации и т.д. разлагая звук на одельные составляющие.
Можно вообще попробовать подобрать некие "образцы звуков" - особенно если это синтезатор, и известна его модель. Тогда можны усзнать сэмплы звуков каким-то образом.
При этом разные звуки складываются линейно - а линайные операции обратимы.

И почему вы полагаете, что для голоса ситуация иная?

Про звук "мелодических" (условно госоря) инструменты, играющие по нотам - можно делать правдоподобные предположения относительно спектра и длительности звучания - такты и т.д.
При этом форма сигнала сигнала будет достаточно стабильна - нота "до", сыгранная на синтезаторе, имитирующем флейту - будет иметь одинаковый набор гармоник и их соотношение, ноты разной длительности будут иметь разную продолжительность поддержки и только.
С человеческим голосом на фоне музыки такое предсказать сложнее.

Date: 2013-05-30 01:20 pm (UTC)
From: [identity profile] tahbka.livejournal.com
А если предположить, что у них были мастер ленты всех инструментов и миксер? По идее тогда все еще сложно, но по крайней мере более ли менее известно с какими частотами работать?

Date: 2013-05-30 02:13 pm (UTC)
From: [identity profile] ushastyi.livejournal.com
Кто ж даст мастер-ленты Doors, даже если они сохранились. У меня было предположение, что они "перепели" и "переиграли", но в в другому ладу. Для этого надо "всего лишь" просэпмлировать голос, остальные инструменты проще. Но меня убедили, что все там честно, в том числе и из-за слышимых дефектов.

Вот, я нашел то обсуждение и примеры: http://fregimus.livejournal.com/208009.html

Date: 2013-05-29 07:14 pm (UTC)
From: [identity profile] dynamo.livejournal.com
В кино про шпионов это делают чуть ли не школьники на Пентиум 3 или на смартфоне.
Принимая во внимание процент преувеличения можно допустить, что тема довольно растоптанная и разношеная.
Хотя возможно такой подход вообще не имеет права на жизнь.

Date: 2013-05-29 07:21 pm (UTC)
From: [identity profile] avva.livejournal.com
Ну, в кино чего только не делают:

Date: 2013-05-29 09:48 pm (UTC)
From: [identity profile] cema.livejournal.com
"Enhance it", yes!

Date: 2013-05-29 07:43 pm (UTC)
From: [identity profile] anhinga-anhinga.livejournal.com
Спасибо! Эта тема как раз недавно возникала, очень полезный update...

Date: 2013-05-29 08:06 pm (UTC)
From: [identity profile] nihao-62.livejournal.com
По тембру (по обертонам) - легко и непринуждённо.

Этим ещё Солженцин в шарашке в "Круге первом" занимался.

Просто гражданским это не нужно - вот и не умеют.

Date: 2013-05-29 08:25 pm (UTC)
From: [identity profile] nihao-62.livejournal.com
Несколько погорячился. Это не нужно в быту. Но у профессионалов гражданских это есть.

Как вы полагаете Битлов винилово-магнитных из моно переводили в стерео с чисткой шумов?

Полагаю, вычленяя каждый инструмент/голос.

Date: 2013-05-30 08:56 am (UTC)
From: [identity profile] ushastyi.livejournal.com
У битлов (да и у почти всей студийной музыки) есть мастер-ленты, где каждый инструмент и голос записан отдельно. В стерео переводили, разводя разные инструменты по разным каналам.

Date: 2013-05-29 10:21 pm (UTC)
From: [identity profile] set-chemist.livejournal.com
страшно интересно как раз!
по ссылкам заметно, что алгоритмы не используют
данные, известные априори:
на большинстве треков не удается полностью
разделить голос и аккомпанемент.
мне кажется, что если учитывать типовое расположение голоса
и инструментов по частотам, то можно достичь
лучших результатов и с этими алгоритмами.

Date: 2013-05-30 06:15 am (UTC)
From: [identity profile] asox.livejournal.com
Просто эта задача не имеет формального решения.

Date: 2013-05-30 02:22 pm (UTC)
From: [identity profile] rruben.livejournal.com
Как когда-то давным-давно занимавшемуся мастерингом и ремастерингом это выглядит если не абсолютно невозможным, но крайне близким к этому.

Но все зависит от требуемого качества, конечно, если, к примеру, удовлетворит вариант "разобрать по нотам партии всех инструментов и собрать их обратно с исходными тембрами, но не все", то это гораздо проще

December 2025

S M T W T F S
  123 4 56
78 9 10 11 1213
1415 1617181920
21 22 23 24 2526 27
28293031   

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Dec. 29th, 2025 09:22 pm
Powered by Dreamwidth Studios