追忆百万大歌星苏打绿：那些年我们一起追过的演唱会|挚爱音乐网

今天跟大家聊聊我搞的这个“百万大歌星苏打绿”项目，一开始就是头脑发热，觉得好玩，想看看能不能把苏打绿的歌词和旋律给扒下来，然后搞点新花样。

起步：从哪里下手？

追忆百万大歌星苏打绿：那些年我们一起追过的演唱会

我得找到苏打绿的歌词和音频资源。这年头，网上一搜一大把，但是质量参差不齐。我花了老大力气，把各种网站、App翻了个底朝天，总算找到了一些比较靠谱的资源。
有了资源，下一步就是把歌词扒下来。这个简单，复制粘贴就行。但是！歌词的格式乱七八糟，还得手动整理，真是个体力活。
音频就比较麻烦了。我尝试用Python写了个爬虫，想把网上的音频直接扒下来，结果发现各种反爬机制，搞得我头都大了。后来还是老老实实地用录音软件，一首一首地录，累死个人。

核心：怎么把歌词和旋律对应起来？

这才是整个项目的难点。我想了好几个方案：

追忆百万大歌星苏打绿：那些年我们一起追过的演唱会

方案一：人工标注。 听一句歌，标一句歌词，然后手动对齐。这个方案最靠谱，但是太费时间了，估计得搞到猴年马月。
方案二：语音识别。 用语音识别技术把音频转换成文字，然后和歌词进行匹配。这个方案听起来很高端，但是实际操作起来，语音识别的准确率太低了，匹配效果惨不忍睹。
方案三：频谱分析。 分析音频的频谱，找到每个音节的起始位置，然后和歌词进行对齐。这个方案我研究了好久，但是没搞明白频谱到底是个什么玩意儿，直接放弃。

最终方案：半人工半自动

追忆百万大歌星苏打绿：那些年我们一起追过的演唱会