
Python
Cccccrj
这个作者很懒,什么都没留下…
展开
-
Python 爬虫 Scrapy爬虫框架
Scrapy爬虫框架结构 需要自己编写: Spdier:1⃣️发送请求2⃣️接收DOWNLOADER下载的内容 Item Pipelines:接收爬取的数据 不需要编写: Engine:控制模块之间数据流 Downloader:根据请求下载数据 Scheduler:对爬取请求进行调度管理 两个中间件: 修改用户请求,响应和items Scrapy使用步骤 创建工程spider模版 编...原创 2020-03-03 21:37:31 · 213 阅读 · 0 评论 -
Python 爬虫 Re正则表达式
正则表达式 正则表达式 菜鸟教程 导入库 import re re库采用raw string类型表示正则表达式r'text',不包含转义符 主要功能函数 re.search re.split re用法原创 2020-03-01 15:54:05 · 131 阅读 · 1 评论 -
Python 爬虫 HTML信息
信息的三种形式 HTML (hyper text markup language)超文本标记语言:声音、图像、视频 XML: JSON: YMAL: 比较三种格式原创 2020-02-28 18:54:03 · 113 阅读 · 0 评论 -
Python 爬虫 BeautifulSoup库
Beautiful Soup库的理解 HTML基础 标签 # 引用库的方法 from bs4 import BeautifulSoup import bs4 Beautiful Soup 基本元素 BS HTML内容遍历 下行遍历: 上行遍历: 平行遍历:同一个父亲节点才构成平行遍历关系 HTML格式化输出 prettify() # 给html增加换行符 print(soup.pr...原创 2020-02-28 17:41:57 · 151 阅读 · 0 评论 -
Python 爬虫 Robots协议
不同类型的爬虫 Robots协议 告知哪些页面可以爬取哪些不可以 查看网站下的robots.txt 协议放在网站的根目录下 自动或人工识别robots协议原创 2020-02-27 23:45:42 · 254 阅读 · 0 评论 -
Python 爬虫入门Requests库
Requests库安装 终端安装 pip install requests #python2 pip3 install requests #python3 anaconda自带requests库 Requests 方法 response = requests.get(url) requests.get(url,params=None,**kwargs) url:页面链接 param...原创 2020-02-27 22:17:59 · 173 阅读 · 0 评论