最近在学习文本分析,包括爬虫、文本清洗、词向量、机器学习建模等,一边学一边做个案例,希望各位大虾多给点意见~
整体思路
爬取大众点评十大热门糖水店的评论,爬取网页后从html页面中把需要的字段信息(顾客id、评论时间、评分、评论内容、口味、环境、服务、店铺ID)提取出来并存储到MYSQL数据库中。
网页爬取和解析
链接格式为"http://www.dianping.com/shop/" + shopID + “/review_all/” + pi,如:http://www.dianping.com/shop/518986/review_all/p1 ,一页评论有20条。我们使用for循环构造链接URL,使用requests库发起请求并把html页面爬取下来,通过BeautifulSoup和re库解析页面提取信息。
我们发现完整的评论都存储在’div’,'main-review’中,且部分页面口味、环境、服务并不是每一页都有,因此需要使用try…except…防止程序中断,BeautifulSoup部分代码如下:
for item in soup('div','main-review'):
cus_id = item.find('a','name').text.strip()
comment_time = item.find('span','time').text.strip()
comment_star = item.find('span',re.compile('sml-rank-stars'

本文介绍了作者在学习文本分析过程中,如何爬取和分析大众点评糖水店评论。首先,概述了整体思路,包括爬取评论信息并存储到数据库。接着,详细阐述了使用Python的requests和BeautifulSoup库进行网页爬取和解析的过程。在数据存储部分,讲解了如何利用MYSQL数据库存储数据。最后,讨论了反爬虫策略,如修改请求头、设置Referer、使用Cookies以及降低爬取频率等。代码已上传至GitHub。
最低0.47元/天 解锁文章
3833





