
爬虫
文章平均质量分 64
Cpsu
个人笔记
展开
-
【爬虫】Python爬取电商平台评论完整代码
利用Ajax爬取淘宝评论,这里完整的补充一下,包括数据存储。对于Ajax参数的分析,上一篇文章已经写过,这里不再重复了。主要是完善一下代码。import timeimport requestsimport jsonimport osimport randomclass taobaoSpider_content(): """通过分析网址的Ajax获取淘宝商品评论 其中get_p...原创 2020-04-08 21:09:01 · 6228 阅读 · 23 评论 -
【爬虫】Python爬取电商平台评论
目前网站上很多爬取评论的博文都已经失效了,所以自己尝试写一篇目前可行的爬取代码。我们以爬取淘宝的APPLE官方旗舰店的Iphone11为例。打开淘宝页面,按下F12快捷键,进入开发者模式。点击累计评价。然后在开发者窗口左上角输入list,找到相应的进程。这里发现了评论。寻找请求头headers信息。找到请求的url,发现其中只有三个参数是会改变的。发现其中的规律。首先是"currentP...原创 2020-04-02 20:14:03 · 16764 阅读 · 24 评论 -
利用xpath解析器爬取豆瓣电影top250
首先声明需要用的库,当然我还用到了os库,将工作路径修改到了我指定的路径。os.chdir(r"C:\Users…")from lxml import etreeimport requests import timeimport json豆瓣top250总共有10页,每页25部电影,每页的url都是有规律的,第一页的url是“https://movie.douban.com/top25...原创 2020-03-08 12:07:24 · 12372 阅读 · 0 评论 -
Python爬取op.gg数据——英雄联盟版本强势英雄推荐
通过爬取韩服op.gg网站的数据,推荐当前版本各路强势英雄(韩服比国服先更新)。目录通过爬取韩服op.gg网站的数据,推荐当前版本各路强势英雄(韩服比国服先更新)。一、op.gg源码及请求头分析二、源码分析三、数据提取四、整理数据并写入excel五、完整代码一、op.gg源码及请求头分析进入op.gg后点击左上角的英雄数据,然后我们可以查看该页面的源码,发现我们需要的数据都在源码中,这就可...原创 2020-05-02 12:51:12 · 5228 阅读 · 1 评论 -
利用python爬取京东商品评论
京东评论的爬取和淘宝的差不多,可以参考上两篇文章文章:利用python分析Ajax爬取淘宝评论最新Python爬取淘宝评论(2020年4月)import timeimport reimport requestsimport jsonimport randomimport csvclass JdSpider_content(): def __init__(self, productId, page, name): self.name = name #要保存为的文原创 2020-07-20 17:47:27 · 2715 阅读 · 3 评论 -
python网课
在家是不是看网课看的比较烦躁?我就是,在家看学习通课程看的烦躁,想着用代码刷课程,写了一天终于写出来了(狗头开心)。这里对于selenium库就不详细解释,包括chrome浏览器的配置等问题应该能百度到。不多说直接上代码。等下再粗略解释一下每部分。每一部分要详细解释,篇幅太长了,现在是深夜,熬不住了。from selenium import webdriverimport timefrom...原创 2020-04-17 22:59:52 · 5407 阅读 · 2 评论