python爬虫
文章平均质量分 62
高山寨顶
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Python爬虫反爬策略(一)
好久没有更新博客了,心里空落落的,这次分享我的Python爬虫反爬策略三部曲,拥有这三步曲就可以在爬虫界立足了,哈哈哈~~~~~~ 浏览器伪装 IP代理池和用户代理池构建 动态页面加载解决方法 网站反爬机制常用的方法: 1、通过识别访问的headers来判断是爬虫还是浏览器访问,其中最常用和最重要的就是User-Agent用户代理,服务器可以从这个字段识别出客户端浏览器类型和版本号、客户端...原创 2018-09-25 21:39:38 · 2602 阅读 · 1 评论 -
爬虫进行之前需要了解的基本知识
1、HTTP原理 url 一般的网页链接都可以成为url 超文本-hypertext,在浏览器里看到的内容就是超文本解析而成的,网页源代码就是HTML HTTP协议-超文本传输协议,HTTP协议是用于网络传输超文本数据到本地浏览器的传送协议,它既能保证高效而准确地传送超文本文档,但不能保证安全 HTTPS-是以安全为目的的HTTP传输通道,简单的讲就是HTTP的...原创 2018-12-09 17:32:38 · 2160 阅读 · 0 评论
分享