1.python基础
基础包括python语法基础,变量,循环嵌套等等,可以在菜鸟python菜鸟教程
2. 基本库
入门一般用到urllib和urllib2即可
3.正则表达式
正在表达式用于匹配网页中所需要的元素,可到我之前写的30分钟入门正则表达式学习。
4. 网页抓取框架
最常用框架scrapy
本文介绍了Python爬虫的基础知识,包括Python语法基础、常用库如urllib和urllib2、正则表达式基础、网页抓取框架Scrapy及高级爬虫技术等内容。
基础包括python语法基础,变量,循环嵌套等等,可以在菜鸟python菜鸟教程
入门一般用到urllib和urllib2即可
正在表达式用于匹配网页中所需要的元素,可到我之前写的30分钟入门正则表达式学习。
最常用框架scrapy
1634
1331
207