今天跟大家唠唠我折腾《林俊杰曹操》歌词的事儿。我这人平时就喜欢瞎鼓捣,看见点啥都想自己动手试试。
起初,纯粹是听歌的时候,突然想把《曹操》的歌词扒下来,看看能不能做点有意思的东西,比如歌词分析啥的。别笑话我,程序员嘛总想跟代码扯上关系。
第一步,找歌词。这年头找歌词太简单了,随便一搜,歌词就出来了:
- 不是英雄不读三国
- 若是英雄 怎么能不懂寂寞
- 独自走下长坂坡 月光太温柔
- 曹操不啰嗦 一心要拿荆州
- 用阴谋阳谋 明说暗夺的摸
- 东汉末年分三国 烽火连天不休
- 儿女情长被乱世左右 谁来煮酒
- 尔虞我诈是三国 说不清对与错
- 纷纷扰扰千百年以后 一切又从头
第二步,整理歌词。直接复制粘贴肯定不行,得整理一下。我开了个txt文档,把歌词一句一句复制进去,然后把多余的空格和换行都删掉。为啥要这么做?因为后面我要用代码处理这些歌词,格式统一很重要!
第三步,开始写代码。我用的是Python,这玩意儿用起来顺手。主要就是读文件,然后把歌词拆分成一句一句的,存到一个列表里。代码很简单,就不贴了,主要思路就是用`readlines()`把歌词一行行读出来,然后用`strip()`去掉每行首尾的空格。
第四步,玩点花样。光是把歌词提取出来,没啥意思。我就想着,能不能统计一下每个字出现的频率?说干就干。我遍历了歌词列表,把每句歌词都拆分成单个的字,然后用一个字典来记录每个字出现的次数。按照出现次数从高到低排序,打印出来。
跑完代码一看,出现频率最高的字是“不”、“是”、“一”。挺符合这首歌的意境的。虽然结果没啥特别的,但是自己动手折腾了一遍,感觉还挺有意思的。
第五步,导出数据。我把统计结果导出到一个CSV文件里,想着以后没事的时候,可以拿这些数据做点可视化分析啥的。虽然现在还没想好具体怎么做,但数据先存着,总有用得着的时候。
整个过程很简单,主要就是熟悉一下文件操作、字符串处理和数据统计。对于我这种半路出家的程序员来说,多练练手总没坏处。
- 从找歌词开始,到整理歌词,再到用代码分析歌词,导出数据。
- 中间用到了Python的文件操作、字符串处理和字典等基本知识。
- 虽然最终结果没啥惊艳的,但重要的是享受这个过程,学到了一些东西。
下次我再找点更有意思的东西来折腾,到时候再跟大家分享。