文本挖掘入门(一)：大众点评评论爬虫

最新推荐文章于 2025-11-06 13:16:32 发布

原创

最新推荐文章于 2025-11-06 13:16:32 发布 · 置顶 · 3.4k 阅读

16 ·

CC 4.0 BY-SA版权

文章标签：

#爬虫 #python #文本挖掘 #数据分析 #NLP

本文介绍了作者在学习文本分析过程中，如何爬取和分析大众点评糖水店评论。首先，概述了整体思路，包括爬取评论信息并存储到数据库。接着，详细阐述了使用Python的requests和BeautifulSoup库进行网页爬取和解析的过程。在数据存储部分，讲解了如何利用MYSQL数据库存储数据。最后，讨论了反爬虫策略，如修改请求头、设置Referer、使用Cookies以及降低爬取频率等。代码已上传至GitHub。

最近在学习文本分析，包括爬虫、文本清洗、词向量、机器学习建模等，一边学一边做个案例，希望各位大虾多给点意见~

整体思路

爬取大众点评十大热门糖水店的评论，爬取网页后从html页面中把需要的字段信息（顾客id、评论时间、评分、评论内容、口味、环境、服务、店铺ID）提取出来并存储到MYSQL数据库中。

网页爬取和解析

链接格式为"http://www.dianping.com/shop/" + shopID + “/review_all/” + pi，如：http://www.dianping.com/shop/518986/review_all/p1 ，一页评论有20条。我们使用for循环构造链接URL，使用requests库发起请求并把html页面爬取下来，通过BeautifulSoup和re库解析页面提取信息。

我们发现完整的评论都存储在’div’,'main-review’中，且部分页面口味、环境、服务并不是每一页都有，因此需要使用try…except…防止程序中断，BeautifulSoup部分代码如下：

for item in soup('div','main-review'):
    cus_id = item.find('a','name').text.strip()
    comment_time = item.find('span','time').text.strip()
    comment_star = item.find('span',re.compile('sml-rank-stars'

最低0.47元/天解锁文章

8 条评论

我是菜鸟啊- 2019.03.04
我看数据分析方面工作的要求，都需要熟练excel,sql,高级的需要python,小弟是计算机专业，已经多少会点儿python了。

我是菜鸟啊- 2019.03.04
请问博主数据分析是需要自己从数据里发现潜在价值，注重思维。还是说工作后boss会让你提交指定数据？小弟不太了解，还望博主指点。

我是菜鸟啊- 2019.03.04
请问博主，我本科生，接触过python，会一点儿深度学习算法，以后想做数据分析，是该从excel开始学吗？然后数据库，然后python,最后数据挖掘机器学习？学习的顺序应该怎么样啊？很茫然。。。
- zheng_weibin回复我是菜鸟啊- 2019.03.04
  [reply]deeplearning0[/reply] 如果做数据挖掘，可以跳开excel，如果是经营分析方向，主攻excel

AlexSupertramper 2018.12.07
您好，请问评论的具体内容您是如何抓取的，现在大众点评的评论文字中间插入了svg图片，不知您是否遇到这个问题
- zheng_weibin回复IMRunzy 2018.12.23
  [reply]IMRunzy[/reply] 看来大众点评的工程师们发现太多人爬了，又做了处理
- IMRunzy回复zheng_weibin 2018.12.18
  [reply]zheng_weibin[/reply] 现在又变成了大众点评在评论的文字之间加了各种标签，截取了部分评论文字放在标签里。。。
- zheng_weibin回复AlexSupertramper 2018.12.07
  [reply]TKchengzi[/reply] 有遇到，你点开“登录查看更多点评”，登录后就可以看到评论的文本了