爬虫大作业

本文介绍了一种使用Python爬虫技术从指定网站抓取歌词的方法,并利用jieba分词进行文本处理,最终生成词云图片。通过分析网页结构获取歌曲列表及歌词内容,再对歌词文本进行分词统计,选取出现频率较高的词汇制作成词云。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

 1 f=open("C:/Users/Administrator/PycharmProjects/test/test.txt",'w+',encoding='utf8')
 2 import jieba
 3 import requests
 4 from bs4 import BeautifulSoup
 5  
 6  
 7 def songlist(url):
 8     res = requests.get(url)
 9     res.encoding = 'UTF-8'
10     soup = BeautifulSoup(res.text, 'html.parser')
11     songname=soup.select('.song')
12     for i in songname[1:]:
13         url=i.select('a')[0].attrs['href']
14         songread(url)
15  
16  
17 def songread(url):
18     f=open("C:/Users/Administrator/PycharmProjects/test/test.txt",'w+',encoding='utf8')
19     res = requests.get(url)
20     res.encoding = 'UTF-8'
21     soup = BeautifulSoup(res.text, 'html.parser')
22     song=soup.select('.lrcItem')
23     for i in song:
24  
25         f.write(i.text)
26  
27  
28  
29 songlist('http://www.kuwo.cn/geci/a_266986/')
30 f=open("C:/Users/Administrator/PycharmProjects/test/test.txt",'r',encoding='utf8')
31 str=f.read()
32 f.close()
33  
34 wordList=jieba.cut(str)
35 wordList=list(jieba.cut(str))
36  
37 wordDic = {}
38 for i in set(wordList):
39     wordDic[i] = wordList.count(i)
40  
41 sort_word = sorted(wordDic.items(), key=lambda d: d[1], reverse=True)
42 for i in range(60):
43     print(sort_word[i])
44  
45  
46 fo=open("C:/Users/Administrator/PycharmProjects/test/test1.txt",'w',encoding='utf8')
47 for i in range(60):
48     fo.write(sort_word[i][0] +'\n')
49  
50 fo.close()

将高频词汇放入test.txt以后打开 http://www.picdata.cn/ 用网上词云生成图片

 

转载于:https://www.cnblogs.com/Molemole/p/8973497.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值