周杰伦yyds！为什么这么多人喜欢他？原因都在这！|挚爱音乐网

今天跟大家聊聊我搞的这个“周杰伦yyds”的小项目，说起来挺简单的，但是过程嘛还是有点意思的，跟大家分享一下。

事情是这样的，前几天不是周杰伦演唱会重映嘛朋友圈被刷屏了，搞得我也想跟着嗨一把。作为一个程序员，总想着能不能用技术搞点啥不一样的东西出来。然后我就琢磨着，能不能把周杰伦的歌词扒下来，做个词云啥的，看看哪个词出现的频率最高，算不算实至名归的“yyds”。

说干就干，第一步就是找歌词。我先是想自己手动去网上找，结果发现太费劲了，一首歌一首歌复制粘贴，得搞到猴年马月。后来一想，现在各种音乐APP都有歌词，应该有接口可以调？于是就开始各种搜索，找API接口。

周杰伦yyds！为什么这么多人喜欢他？原因都在这！

找接口的过程那叫一个痛苦！各种音乐平台的API接口都不太一样，而且很多都加密了，反爬虫做得挺我试了好几个，要么是拿不到数据，要么是返回的数据乱七八糟，根本没法用。终于找到一个还算靠谱的，能拿到歌词，但是限制也挺多，得注册账号，还要搞什么token啥的，反正挺麻烦的。

接口搞定了，接下来就是写代码了。我用的是Python，主要是因为Python处理字符串比较方便，而且有很多现成的库可以用。我先写了个简单的爬虫，把周杰伦所有歌曲的歌名都爬下来，然后根据歌名去调用API接口，把歌词都下载下来。

这里面有个坑，就是有些歌名不一样。比如有些歌名后面会带个“Live版”或者“Remix版”，这样调用API就拿不到歌词。所以我得对歌名进行处理，把这些后缀都去掉。这个过程也挺烦的，得手动维护一个列表，把所有可能的后缀都加进去。

歌词都下载下来之后，就是数据清洗了。歌词里面有很多标点符号、空格、换行符啥的，得把这些都去掉，才能进行词频统计。我用了一个正则表达式，把所有非中文字符都替换成空字符串。

清洗完数据，就可以进行词频统计了。我用的是jieba分词库，把歌词分成一个个词语，然后统计每个词语出现的次数。jieba分词挺好用的，但是也有个问题，就是有些词语分得不太准确。比如“爱在西元前”会被分成“爱”、“在”、“西元”、“前”，这样就没法统计了。所以我得手动维护一个词典，把这些词语都加进去。

词频统计完成之后，就是生成词云了。我用的是wordcloud库，可以根据词频生成漂亮的词云图片。这个库用起来也很简单，只需要设置一些参数，比如字体、颜色、背景等等。我试了好几种不同的参数，选了一个比较好看的。

周杰伦yyds！为什么这么多人喜欢他？原因都在这！