Python-Python爬虫的学习_TIM33470348的博客-优快云博客

Python-Python爬虫的学习

关注

文章平均质量分 66

由于进了实习单位，python爬虫做的越来的越多，所以另开一个专栏专门记载python爬虫的学习经历。

关注数：文章数：5 文章阅读量：41770 文章收藏量：59

作者: TIM33470348

著有《Python数据分析：从小白到专家》一书。于2021年5月，由电子工业出版社和工信出版集团出版，是一本正式发行的图书，ISBN-13:9787121409233。这本书能够面市，得感谢这么多年来，在我前进道路上一直陪伴我的亲人和好友，以及赏识我的各位长辈，老师和大佬们。尤其是在我低落的时候，仍然陪伴我，鼓励我，没有放弃我的挚友。

展开

面试踩坑：XHR是什么

前天周一面试的时候，面试官问我爬虫如何寻找json文件的请求地址时，我很自然的回答按F12后，再按network，再选xhr。于是，面试官就问我xhr是什么？我一下愣住了，以前确实学过相关内容，但已经还给老师了，于是这个问题我并没有很好的答出来。这里MARK一下。

转载 2023-05-10 08:28:22 · 340 阅读 · 1 评论
爬虫被锁IP，报“很抱歉,由于您访问的URL有可能对网站造成安全威胁,您的访问被阻断。您的请求ID是······“

昨天，同事让我爬取中国证券监督管理委员会的公墓金的公告，结果没多久就被锁ip了，如下图所示：结果到了今天早上也还是被锁，那怎么办呢？锁定ip一般都有这几种应对办法：1、技术处理，调节网页爬虫的请求频率。2、更换ip，自动更改IP地址反爬虫封锁，支持多线程3、网络处理，代理访问事实上，方法一是在出问题前就该考虑的，可以用time.sleep()来解决。但是，现在现在已经被锁了怎么办？我想了半天可以修改ip，最直接的办法就是连接手机热点，这样就不是用公司的ip了。这时候再用方法一，.

原创 2021-05-12 09:59:38 · 32443 阅读 · 5 评论
数学建模用/Python爬虫实战——爬取Kelley Blue Book（KBB二手车交易网站）的交易信息

首先这是本次建模的题目：于是我们先用chrome查看网页源码，还好比较简单是静态页面：在cars for sale 这边选择Used，右键“网页查视网页源码”：如图黄色荧光笔显示的分别是二手出售价格，品牌，里程，型号。是我们需要且可以找到的。可以看到这些东西包含在script标签下，属性是application/ld+json（这里...

原创 2019-08-14 21:36:10 · 1589 阅读 · 0 评论
爬虫实战——中国天气网数据

这次的爬虫主要目的就是爬取当日中国天气网的即时气候数据。我位于苏州所以爬取的是苏州7月19号的天气。首先，使用的是beautifulsoup和xpath解析库，因为是纯练习性质，所以分别解析了两趟，最后把数据写入txt文档中。打开浏览器，键入http://www.weather.com.cn/weather/101190401.shtml进入中国天气网，鼠标右键保存网页。命名为1.html...

原创 2019-07-19 20:43:54 · 6593 阅读 · 0 评论
用scrapy爬取Kelly Blue Book二手车网数据

这是我以前的一篇博文：数学建模用/Python爬虫实战——爬取Kelley Blue Book（KBB二手车交易网站）的交易信息这是我在去年数学建模校赛时候写的一个爬虫，用来获得数据分析需要的数据信息。这一次不同与上一次，上一次使用的beautifulsoup和正则匹配来获取数据，这一次使用的是css和xpath选择器，且是基于scrapy框架的。这是爬取的要求：这一次实现了翻页功能，代码如下所示：items.py:...

原创 2020-07-17 08:58:57 · 805 阅读 · 0 评论

Python-Python爬虫的学习

作者: TIM33470348

面试踩坑：XHR是什么

爬虫被锁IP，报“很抱歉,由于您访问的URL有可能对网站造成安全威胁,您的访问被阻断。 您的请求ID是······“

数学建模用/Python爬虫实战——爬取Kelley Blue Book（KBB二手车交易网站）的交易信息

爬虫实战——中国天气网数据

用scrapy爬取Kelly Blue Book二手车网数据

爬虫被锁IP，报“很抱歉,由于您访问的URL有可能对网站造成安全威胁,您的访问被阻断。您的请求ID是······“