Это уже давно делается. Запись делится на короткие (доли секунды) фрагменты, сдвигается поплотнее и делается кросс-фейд между ними. При этом накладывающиеся части фрагментов по возможности делаются как можно более похожими при помощи небольших сдвигов по времени. Это если вкратце.
no subject
http://en.wikipedia.org/wiki/Audio_time-scale/pitch_modification