音色迁移、音乐流派迁移、音乐风格迁移都有做。
至少有两个可行的思路:增加condition,进行显式控制。THU九歌模型在诗歌生成中对风格进行了控制,利用infoGAN使用过的“mutual infomation”最大化为目标,使得生成的诗歌可以带有风格色彩。音乐生成领域应该也有类似的做法。
2. 在Deep Variational Model里,或者encoder-decoder模型里,将音乐的高维表示进行解耦,将风格解离开来,并替换为另外一个风格表示。这属于表示学习的范畴,在Gus Xia的《Deep Music Analogy》一文里使用了这个方法对两小节的音乐风格进行迁移。
更加广泛地说,音乐计算这个领域是有自己的会议的,那就是大名鼎鼎的ISMIR,当然次一级的还有ICMC这类会议。ISMIR 就有一篇通过VAE来做风格迁移的工作:
《MIDI-VAE: Modeling Dynamics and Instrumentation of Music with Applications to Style Transfer》
这篇论文就属于风格迁移的。
夏光宇老师(Gus. Xia)组曾经写过一篇音乐风格迁移的类综述论文,描述了这个领域的基本情况:
《Music Style Transfer: A Position Paper》
Yi-Hsuan Yang老师组这几年一直探索将音乐与图像结合起来,通过Piano-Roll的形式来做音乐生成,从他的MidiNet开始,就一直在探索这方面的进展,这里符合了题主的需求。不过他的研究更加偏向于添加条件进行的对抗音乐生成。
同样使用对抗的思想,苏黎世联邦理工有几篇论文产出:
《Symbolic Music Genre Transfer with CycleGAN》
以及做音色转移:
《TimbreTron: A WaveNet(CycleGAN(CQT(Audio))) Pipeline for Musical Timbre Transfer》