
爬虫新宠
文章平均质量分 80
Python 爬虫架构主要由五个部分组成,分别是调度器、URL管理器、网页下载器、网页解析器、应用程序(爬取的有价值数据)。Python 爬虫架构主要由五个部分组成,分别是调度器、URL管理器、网页下载器、网页解析器、应用程序(爬取的有价值数据)。Python 爬虫架构主要由五个部分组成,分别是调度
云疏不知数
一个人知道自己为了什么而活,他就能够忍受任何一种生活----尼采
展开
-
6.Sqlite数据库(数据持久化)
Python3之后默认支持sqlite3数据库,为了提高整个爬虫项目的效率使用轻量级的数据库SqliteSQLite 存储类基本数据类型存储类描述NULL值是一个 NULL 值。INTEGER值是一个带符号的整数,根据值的大小存储在 1、2、3、4、6 或 8 字节中。REAL值是一个浮点值,存储为 8 字节的 IEEE 浮点数字。TEXT值是一个文本字符串,使用数据库编码(UTF-8、UTF-16BE 或 UTF-16LE)存储。BLOB值是一个.原创 2021-02-03 12:26:14 · 1172 阅读 · 2 评论 -
5.xlwt包学习(对excel表格进行读写)
学习会xlwt对excel做读写操作是为了对爬取到有用的数据做持久化保存以便随时使用,以及为了爬虫后期可视化提供数据举个栗子,新建一个表格并写入给定数据固定步骤1.引包import xlwt2.创建workbook对象workbook = xlwt.Workbook(encoding="utf-8")3.创建工作表sheet1 = workbook.add_sheet("sheet1")工作表就是excel中一张张sheet,可以手动添加也可以改名,用代码操作是一样的道理4.写.原创 2021-02-03 12:13:13 · 1673 阅读 · 0 评论 -
4.re包学习(正则表达式)
正则表达式:字符串模式(判断字符串是否符合一定的标准)使用规则可以创建一个模式对象以达到重复使用模式的目的,也可以直接调用search方法搜索匹配创建模式对象1.创建模式对象 # 创建一个模式对象,匹配所有连续的大写字母 pat = re.compile("[A-Z]*") # 匹配所有小写字符'a' pat2 = re.compile("a")2.执行查找或替换 m = pat.search("ABC12s4Da433D5FGA53a") .原创 2021-02-03 11:17:39 · 638 阅读 · 0 评论 -
3.bs4包学习(html源码解析)
上一篇博客2.urllib库学习、反爬虫网页源码爬取介绍了如何爬取网页源码,这一篇博客介绍如何对爬取到的html文件进行解析使用 Beautiful Soup 解析 html 文件1.先爬取到百度首页网页源码保存到本地import pickle # 保存html文件import urllib.requesturl = "http://www.baidu.com"response = urllib.request.urlopen(url)pickle.dump(response.read.原创 2021-02-03 10:54:27 · 946 阅读 · 3 评论 -
2.urllib包学习(反爬虫网页源码爬取)
python3集成了python2中urllib和urllib2的所有功能,在python3环境下只需要引入urllib库就可以使用urllib和urllib2的所有功能本篇博客内容所使用的所有包:urllib(urllib.request.urlopen、urllib.parse)、pickleGet方式简单爬取百度首页源码1.先引入urllib下的requestimport urllib.request2.使用get方式请求获取请求response = urllib.reques.原创 2021-02-02 12:17:11 · 1137 阅读 · 1 评论 -
1.爬虫简介
先看如下代码:def main(var): print("hiya", var)main(1)if __name__ == "__main__": main(2)执行结果是:hiya 1hiya 2再看一个代码示例print ("test1")def Fun(): print ("Fun")def main(): print ("main") Fun()if __name__ == '__main__': main()执行结.原创 2021-02-02 12:16:40 · 160 阅读 · 0 评论 -
HTTP状态码
1.消息状态码状态100Continue101Switching Protocols102Processing成功200OK201Created202Accepted203Non-Authoritative Information204No Content205Reset Content206Partial Content207Multi-Status2.重定向状态码状态.原创 2021-02-03 17:16:58 · 430 阅读 · 0 评论