人工智能让学音乐变简单!那音乐AI会取代音乐家吗?

「自动音乐采谱研究」的重要性

相传莫札特十四岁时听到复杂的教堂乐曲,便能默记全曲并写成乐谱。在这个充满神秘色彩的故事中,除了隐含人们对音乐「天份」这道门槛的敬畏以外,自动采谱也成为AI人工智能研究者所挑战的重要梦想。
中研院资讯科学研究所的苏黎,专攻音乐资讯检索(Music Information Retrieval,MIR) ,以「多重音高侦测技术」为基础,发展出自动采谱的人工智能,以更轻松简单的方式来协助我们学音乐、理解音乐和制作音乐。

自动采谱的功能与发展,让人人都能开外挂拥有莫札特的绝对音感与解谱能力,可以马上就编译乐谱。图/iStock

目前市场上已经有许多人工智能在音乐上的应用,例如人们用Soundhound 音乐识别软体来搜寻当下听到的歌,或试听线上串流平台推荐的歌曲,或透过软体快速找到自己想要听的歌。这方面的发展已接近成熟,但主要都是针对「聆听」的行为。

若想透过人工智能进一步了解音乐的深层意涵,例如作曲家的创作思维,演奏家的诠释技法,乃至于乐评家的观点,那么,一个拥有像莫札特般卓越音乐听力,可以协助自动采谱,并将听见的音乐变成容易亲近演奏的完整乐谱的人工智能,会是关键性的一步。

人类如何认识音乐?音高94 关键!

试着哼唱莫札特的〈小星星〉,想起小学教室里的风琴伴奏,而那架风琴的Do 还老是走音。在这样简单的歌曲里头,事实上已经包含了许多复杂的资讯,如速度、节奏、音高、和弦、器乐及人声的音色等多样要素,别忘了还有走音的Do 这个偏差因子。

因此,人工智能对大编制乐曲如交响乐的自动采谱,必须面对大量且交叠的资讯,难度仍然很高。所以要把听到的乐曲转成可以看到的谱,还是要找出其中特征最稳定,也能决定旋律的关键—「音高」。

「音高」为乐曲所有要素中最基本的特征,乐谱上的资讯,大多与音高有关。

说起音乐讯号的本质,苏黎认为音高是音乐讯号中的最基本的资讯之一,而音高侦测正是音乐讯号处理的基本技术。

举个大家都有的生活经验:当朋友打电话来,有时我们会觉得对方的声音好像不太一样。这是因为线路与装置在讯号传输过程中改变了朋友说话的音色,让我们的听觉受到混淆。但对方声音在电话里的语调,也就是音高,不论是上扬还是下降,并不容易受影响。

因此,我们即使因为杂讯而不认得对方的声音,但往往还能听懂对方讲话的内容。也因为音高拥有这样的基本特性,所以如何辨识音高可以说是分析声音资讯的一项基本技术。

从最常使用记载乐曲的五线谱来看,接起每一个音高才会组成一段旋律,若依照标准乐谱所演奏的乐曲中,音高该上扬,还是下降,是不会被演奏者影响及改变。图/iStock

此外,音高资讯并不仅包含绝对音高,还包含音与音相对的关系,甚至是那转音之时,各种诠释的可能。

就如同有人唱着〈小星星〉的曲调,即使没一个音在音准上,我们仍然听得出这是〈小星星〉的曲调。这是因为我们认得旋律轨迹(melody contour)的样态,也就是「曲调的起伏」。只要曲调起伏的趋势与原曲相似,我们就能如Soundhound 音乐识别软体一样听得出来。

用「多重音高侦测」,记录人耳辨识困难的合音

音高资讯除了表现于旋律以外,更是伴奏、和声与对位结构中的基本资讯,也就是「和弦辨识(chord recognition)」与「多重音高侦测(multi-pitch estimation, MPE)」技术。

近年来多重音高侦测技术的发展重点,大多仍集中于西方古典音乐,因为此类音乐的资料库相对完整,每种乐器的声响型态较容易标准化,在分析乐曲时就相当便利。但因为西方古典音乐大多有完整乐谱,往往是最不需要这项技术辅助研究的。相反的,大量在缺乏谱例记载的传唱民谣,需大量人力从事转谱工作以方便判读分析,多重音高侦测技术在此时便派上用场,并且能给予谱例之外更多的资讯。

以布农族的祈祷小米丰收歌Pasibutbut ,也就是著名的「八部合音」(注一)为例。为什么称之八部,据说是因为「泛音唱法」(注二),即一个人可以同时唱出两个音高的声音,除了唱出基音以外,还增强某一个高阶泛音的能量。

但现今所看到音乐学家所整理的谱例,大多仍是记为四部,这是因为演唱的编制确实只有四个声部:最高音、次高音、中音和低音。至于泛音唱法之下多出的声部,有些人听得出来,有些人则感知不到;且不同的录音版本差很大,很难明确指出是哪八个声部,各自音高为何。

布农族Pasibutbut 八部合音的时频图:横轴代表时间,纵轴代表声音的频率,发亮的能量条则是声音。资料来源/苏黎。声音/台湾音乐资讯交流平台

苏黎透过讯号的时频图(spectrogram)资料佐证,可以清楚看见泛音唱法的特征:每一个声部都在偶数的倍频上产生更多能量。经过多重音高侦测(即CFP transcription result),去掉多倍频的泛音,除了基音外,也很容易看见第一泛音(基音的二倍频)的位置上有能量存在,显示了新的音高成份,演算法呈现的结果证实了泛音唱法的存在。

藉由计算瞬时频率的技术,也就是「多重音高侦测」,便能把每一个声部的音高轨迹精准算出,将能协助民族音乐的采谱工作。

音乐视觉化!将视觉和听觉同步表现

苏黎团队目前所研究的「多重音高侦测技术」,以适用于各种音乐讯号为目的,其能有效刻划出每一种声响结构,并且将声响即时转化成乐谱。

多重音高侦测技术不仅可以应用于民族音乐学等领域的采谱处理问题,它的即时处理以及视觉化能力,也能在教育、娱乐等应用领域中有庞大潜力,将复杂的演奏即时转为视觉表现。

 

在聆听音乐的同时建立视觉与听觉的关联,以增强对音乐元素如音高、和弦的认知,是丰盛音乐表演(enriched music performance)所努力的方向。

为了推广这个概念,苏黎与沛思文教基金会将于2017 年11 月合作推出《日新‧乐译》跨界科技音乐会(注三),将现场演奏即时转译成乐谱动画,用科技的语言,述说音乐的故事,透过多媒体动画影像,让大家听得到也看得到音乐的演出。

除了纪录乐谱,还能做什么应用呢?

「多重音高侦测技术」对于辅助学习的应用,也不仅限于音乐元素的侦测与视觉化。

音乐人工智能的研究范畴,除了理解音乐天才如何听音乐以外,还有音乐演奏家如何「诠释」音乐。图/Clem Onojeghuo

精确的多重音高侦测技术为了满足这个目标,往往需要更精确的频率与能量侦测演算法,精确描述演奏者在演奏时的音量有多大、抖音怎么使用、如何控制音长等等。

苏黎与成大苏文钰老师、中研院杨奕轩老师合作的工作中,专注探讨小提琴演奏者的诠释,就像同样的小星星会有很多不同的诠释版本,可以弹得恬静、弹得庄严、弹得诙谐、弹得有精神,种种不同的表情术语和诠释方式,都可以从精确的音高侦测演算法中看出端倪。

更进一步地说,未来我们或许能建立一个检定的标准:当弹奏者把自己的演奏记录下来,并输入音乐人工智能时,就可以和标准演奏做出比对,看看自己演奏得好不好。或是藉由音乐人工智能的示范演出,让初学者可以不断聆听各种诠释方式,再去揣摩自己喜欢的演奏表情。这一些都是未来可以从「多重音高侦测技术」中,延伸开发的音乐人工智能。

此图为小星星的第一个Do音在不同音乐情绪的表现。每一个弹奏风格的声音变化,都可以被明确记录下来,抓到弹奏要点。资料来源/Analysis of expressive musical terms in violin using score-informed and expression-based audio features 。图/张凯钧、张语辰

果可以辨识演奏的诠释方式,则有机会透过音乐人工智能,从仰慕的音乐高手的精湛演奏中,学习乐器的弹奏技巧。

精确的音高侦测技术不仅可以用来分析古典音乐中的表情术语,另一个有趣的应用是分析摇滚乐中,吉他solo 复杂的演奏技巧。

帅气热血的吉他solo 往往结合各式不同的演奏技巧,如推弦,滑音、闷音、捶勾弦等等,这是吉他新手在学习抓谱时最困扰的地方。「多重音高侦测技术」有助于办识出吉他的演奏技巧,把这一些技巧转变成可阅读的技巧符号,并记载在乐谱上,让我们可以更容易去理解弹奏方式,进而模仿演奏者的演奏变化,达成自己想要的音乐学习目标,也是种未来可能发展出的音乐学习系统。

吉他solo的时频图:可清楚看到推弦、勾弦等不同演奏技巧的音频变化,并进一步将明星吉他手的「个人演奏风格」变成乐谱,供粉丝或学生「临摹」学习。资料来源/Electric guitar playing technique detection in real-world recording based on F0 sequence pattern recognition.

音乐人工智能会取代音乐家吗?

当AlphaGo 问世改写了围棋的新面貌,一一击败了世界顶尖的围棋好手,有人感到恐惧、有人感到兴奋,无非都是因为人工智能科技所带来的改变,但换一个角度想,这不正是把漫画「棋灵王」的故事搬到现实世界吗?

当AlphaGo 变成每个人的藤原佐为,我们就可以像进藤光一样,即使没有从小就接触围棋,也可以学习到好的围棋思维。根据类似的道理,我们可以说, 音乐人工智能科技的进步,其目的并不在于取代音乐家的工作。相反的,我们能看到在不久的将来,这些科技将会被用来增进人类学习音乐的效率,而扩大音乐的学习与消费市场。

正如工业革命让古钢琴现代化并大量制造,而孕育浪漫乐派萧邦、舒曼等作曲家不朽的钢琴独奏作品;当代音乐人工智能的成熟发展将开展另一场革命,不仅让学习音乐变得更轻松有趣,也提供音乐家前所未有的音乐创作思维。

苏黎不仅是个资讯科学家,也是一个音乐爱好者。深度研究「多重音高侦测技术」,逐步发展出可以正确转译乐谱的音乐人工智能,一方面希望让专业的音乐创作人拥有更好的创作环境,不用在记载与解析乐谱上耗费太多心力,创作者可以运用更充足的时间来创作崭新的音乐风格。

另一方面则期望,让每个想学习音乐的人,可以搭载犹如莫札特的音乐耳。每个人都好像拥有一个虚拟音乐老师,以更轻松、简单的方式,认识音乐的组成结构,降低学习成本,加快学习音乐的速度。让想学音乐的心,不会随着年龄增长而有所阻碍,让全年龄层的人们都有兴趣把音乐成为生活的一部分。

延伸阅读

苏黎的个人网页
New Methodology of Building Polyphonic Datasets for AMT
Ping-Keng Jao, Li Su, Yi-Hsuan Yang and Brendt Wohlberg, “Monaural Music Source Separation using Convolutional Sparse Coding," IEEE/ACM Trans. Audio, Signal Language Proc. (TASLP), volume 24, number 11, pages 2158 – 2170, November 2016.
Pei-Ching Li, Li Su, Yi-Hsuan Yang and Alvin WY Su, “Analysis of expressive musical terms in violin using score-informed and expression-based audio features," International Society for Music Information Retrieval Conference (ISMIR), October 2015 .
Yuan-Ping Chen, Li Su and Yi-Hsuan Yang, “Electric guitar playing technique detection in real-world recording based on F0 sequence pattern recognition," International Society for Music Information Retrieval Conference (ISMIR), October 2015.
注一. Pasibutbut 歌曲试听
注二. 泛音唱法的youtube 影音
注三. 《日新‧乐译》跨界科技音乐讲座、演奏会资讯
采访编辑|张凯钧
美术编辑|张语辰

评论已关闭