
Python-Python爬虫的学习
文章平均质量分 66
由于进了实习单位,python爬虫做的越来的越多,所以另开一个专栏专门记载python爬虫的学习经历。
TIM33470348
著有《Python数据分析:从小白到专家》一书。于2021年5月,由电子工业出版社和工信出版集团出版,是一本正式发行的图书,ISBN-13:9787121409233。
这本书能够面市,得感谢这么多年来,在我前进道路上一直陪伴我的亲人和好友,以及赏识我的各位长辈,老师和大佬们。尤其是在我低落的时候,仍然陪伴我,鼓励我,没有放弃我的挚友。
展开
-
面试踩坑:XHR是什么
前天周一面试的时候,面试官问我爬虫如何寻找json文件的请求地址时,我很自然的回答按F12后,再按network,再选xhr。于是,面试官就问我xhr是什么?我一下愣住了,以前确实学过相关内容,但已经还给老师了,于是这个问题我并没有很好的答出来。这里MARK一下。转载 2023-05-10 08:28:22 · 340 阅读 · 1 评论 -
爬虫被锁IP,报“很抱歉,由于您访问的URL有可能对网站造成安全威胁,您的访问被阻断。 您的请求ID是······“
昨天,同事让我爬取中国证券监督管理委员会的公墓金的公告,结果没多久就被锁ip了,如下图所示:结果到了今天早上也还是被锁,那怎么办呢?锁定ip一般都有这几种应对办法:1、技术处理,调节网页爬虫的请求频率。2、更换ip,自动更改IP地址反爬虫封锁,支持多线程3、网络处理,代理访问事实上,方法一是在出问题前就该考虑的,可以用time.sleep()来解决。但是,现在现在已经被锁了怎么办?我想了半天可以修改ip,最直接的办法就是连接手机热点,这样就不是用公司的ip了。这时候再用方法一,.原创 2021-05-12 09:59:38 · 32443 阅读 · 5 评论 -
数学建模用/Python爬虫实战——爬取Kelley Blue Book(KBB二手车交易网站)的交易信息
首先这是本次建模的题目: 于是我们先用chrome查看网页源码,还好比较简单是静态页面:在cars for sale 这边选择Used,右键“网页查视网页源码”:如图黄色荧光笔显示的分别是二手出售价格,品牌,里程,型号。是我们需要且可以找到的。可以看到这些东西包含在script标签下,属性是application/ld+json(这里...原创 2019-08-14 21:36:10 · 1589 阅读 · 0 评论 -
爬虫实战——中国天气网数据
这次的爬虫主要目的就是爬取当日中国天气网的即时气候数据。我位于苏州所以爬取的是苏州7月19号的天气。首先,使用的是beautifulsoup和xpath解析库,因为是纯练习性质,所以分别解析了两趟,最后把数据写入txt文档中。打开浏览器,键入http://www.weather.com.cn/weather/101190401.shtml进入中国天气网,鼠标右键保存网页。命名为1.html...原创 2019-07-19 20:43:54 · 6593 阅读 · 0 评论 -
用scrapy爬取Kelly Blue Book二手车网数据
这是我以前的一篇博文:数学建模用/Python爬虫实战——爬取Kelley Blue Book(KBB二手车交易网站)的交易信息这是我在去年数学建模校赛时候写的一个爬虫,用来获得数据分析需要的数据信息。这一次不同与上一次,上一次使用的beautifulsoup和正则匹配来获取数据,这一次使用的是css和xpath选择器,且是基于scrapy框架的。这是爬取的要求: 这一次实现了翻页功能,代码如下所示:items.py:...原创 2020-07-17 08:58:57 · 805 阅读 · 0 评论