
数据爬取
枕上诗书--
这个作者很懒,什么都没留下…
展开
-
如何让爬虫工具不自动过滤重复数据
很多情况下,我们爬取某个网站的数据都需要用到爬虫工具,比如爬山虎,当爬取数据的所有字段都重复时,采集器会自动帮我们过滤掉重复数据,但是如果不想过滤掉重复数据怎么办呢?解决方法:时间戳。以爬山虎为例,如下:时间戳在爬取过程中一定是一个唯一值,加入时间戳的字段后,每一条数据就不会再存在完全相同,这时候就可以保留重复的数据了。...原创 2021-04-21 10:48:59 · 480 阅读 · 0 评论 -
微博话题下的数据爬取
1、前言 新浪微博中,一个话题下各个媒体或用户发表在平台发表的信息是舆情研究的一个很重要的数据来源,这里记录一下一个话题下数据的爬取方式,以“#美国疫情#”话题为例。2、话题下数据爬取 首先参考这篇文章,分析话题下数据爬取的结构,然后仿照示例得到如下代码:import requestsfrom urllib.parse import urlencodefrom pyquery import PyQuery as pqimport timeimport xlwt#设...原创 2021-02-15 16:00:08 · 7479 阅读 · 55 评论