生命,应该浪费在美好的事物上,比如温暖的阳光,与爱人的漫步,或者是专业知识的学习等,而我,虽然明白这种道理,却依旧浪费在这些琐事上:睡到中午,看电影,大吃大喝,写小功能等。为什么?应该是迷茫产生了惰性,惰性产生了不去看论文写论文,从而产生了我在知乎上孤独的飘荡。
如题所示,本程序有2个功能:自动抓取网易云音乐的评论
分词生成云图
而具体细节如下:
1.使用 Tkinter 画出界面 ,Label + Text + Button ,等待用户输入音乐ID号和点击生成按钮
图形如下:
输入音乐ID号:
核心代码如下:
2. 获取音乐ID号后,抓取对应评论,写入当前路径临时文件下。这里主要分析两个参数,一个参数用AES加密,另一个是固定值。
临时文件如下:
核心代码如下:
3.抓取完毕后, 简单处理下,放入 pynlpir 分词系统,生成云图
云图如下:
核心代码如下:
这里忠告一些注意点:
1。若使用selenium抓取,因为它的机制是多线程处理,在处理过程很容易产生问题。
2.。编码问题,这个也是python2的一大痛处。
可以改进的地方:
1。界面可以改进,美化一下,或者使用更高级的包。
2。多线程/分布式,这里评论数据不大,没必要,若抓取整个网易的评论数据或者歌曲列表,那就要使用多线程/分布式。
3。整个代码框架,不通用,可以改进改进。
4。还可以用 Pyinstaller 打包成exe 双击使用。