网络爬虫基础

原创于 2017-07-16 08:55:21 发布 · 373 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

网络爬虫：抓取网页数据的程序。。爬虫属于工具性程序，对速度和要求非常高。

网页的三大特征：

1、网页都有自己一个唯一的url(统一资源定位符）

2、网页都用HTML（超文本标记语言）来描述页面信息

3、页面都用HTTP/HTTPS(超文本传输协议)协议来传输HTml数据

爬虫的设计思路：

1、设定需要爬去的网页的URL地址

2、通过HTTP协议获取对应的HTML页面

3、提取HTML页面信息

1）如果有用数据，保存

2）如果需要继续爬取的连接，重新制定第二部

Python做爬虫的优势：

1、php 写web页面，而且对多线程，异步支持比较差，并发能力较弱。

2、java的爬虫生态圈非常完善，但是代码量非常大。相比较而言，做功能的修改后代码改动量比较的。开发成本和重构成本比较高。

3、C/C++运行效率和性能几乎最强（汇编），学习成本太高。项目代码成型慢。

4、Python语法精炼，编写快速灵活，开发效率高，相关的HTTP请求库和HTML解析库非常丰富，有强大的爬虫框架Scrapy,及高效成熟的scrapy-redis分布式策略。

相比Java/c/c++,性能速度较差。Python属于变异性语言，可以通过硬件弥补。

知识储备：

1、Python基础语法、基本web知识

2、HTML页面的抓取：urlib,urlib2,requests三个HTTP请求处理库。通过处理，可以模拟浏览器发送HTTP请求，并获取服务器返回的HTML相应页面

3、HTML页面的解析：正则，xpath,BeautifulSoup4,jsonpath(处理json数据)。使用某种描述性语言来提取需要的页面数据。制定匹配规格，复合规则的数据。

4、动态页面的处理，验证码的处理

Selenium +PhantomJS模拟正式浏览器加载数据，js/ajax

Tesseract OCR:光学字符识别系统，识别图像的内容，返回文本内容

5、Scrapy框架：高定制性高性能的Python爬虫框架

函数-类-模块/包/库-框架：框架包括了很多不同功能的模块，提供了数据下载，数据提取，数据存储，请求去重等。

并且使用了twisted异步网络框架，下载速度非常快。

6、scrapy-redis分布式策略

scrapy本省不支持分布式，scrapy-redis就是一套以redis数据库为核心的组件，让scrapy具有了支持分布式的功能，所有的请求、

请求去重指纹、数据都存储在同一个redis数据库里，可以统一调度和分配。（多态机器一起爬的同时，有一台机器来统筹）

7、爬虫-反爬虫-反反爬虫

User-Agent()

代理IP、

验证码、

动态数据加载。。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。