
爬虫
L·Lawliete
Baby I don't love you very much
展开
-
初识网络爬虫
1.什么是爬虫?爬虫能干什么? 爬虫又称为网络爬虫。可以按照指定的规则爬取网络上的信息。 2.网络爬虫的分类: 通用网络爬虫 聚焦网络爬虫 增量式网络爬虫 深层网络爬虫等类型 3.深层网络爬虫 深层网络爬虫主要通过6个基本功能的模块和2个爬虫内部数据结构 6个基本功能的模块: 爬行控制器 解析器 表单分析器 表单处理器 响应分析器 LVS控制器 2个爬虫内部数据结构: URL列表 LVS表 (表示...原创 2019-07-19 23:50:45 · 505 阅读 · 0 评论 -
请求方式
实现HTTP请求常见的三种方式 urllib urllib3 requests urrlib模块 是python自带的模块. 在这个模块中提供了urlopen()方法,通过该方法发送网络请求来获取数据。 urllib模块提供了很多子模块: 通过urllib.request模块实现发送请求并读取网页内容(通过get请求方式获取百度的网页内容): # 通过u...原创 2019-07-20 12:28:56 · 309 阅读 · 0 评论 -
代理分类
1.根据协议区分: 2.根据匿名程度区分 ①高强度匿名代理: 会将数据包原封不动的转发,在服务端看来就好像真的是一个普通客户端在访问,而记录的IP是代理服务器的IP ②普通匿名代理: 会在数据包上做一些改动,服务端上有可能发现这是个代理服务器,也有一定几率追查到客户端的真实IP,代理服务器通常会加入的HTTP头有HTTP_VIA和HTTP_X_FORWARDED_FOR ③透明代理: 不但改动了...原创 2019-07-26 10:16:38 · 595 阅读 · 0 评论