
Python爬虫
David Wolfowitz
愿在最好的青春做成最想做的事
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Python网络爬虫【2】--正则表达式、Scrapy库的使用
单元四、信息组织与提取方法 1)信息标记的三种方式 XML, JSON, YAML 2)信息提取的一般方法 方法一:完整解析信息的标记形式,再提取关键信息 XML JSON YAML 需要标记解析器 例如:bs4库的标记树遍历 优先:信息解析准确 缺点:提取过程繁琐,速度慢 方法二:无标记形式,直接搜索关键信息 搜索 对信息的文本查找函数即可。 优点:提取过程简单,速度较快 缺点:提取结果准确性与信息内容有关 方法三:融合方法:结合形式解析与搜索方法,提取关键信息 XML JSON YAML 搜原创 2020-07-01 10:51:41 · 594 阅读 · 0 评论 -
Python网络爬虫【1】-- Request库、 Robos协议 、BeautifulSoup库 、简单爬虫项目
单元一:Requests库入门-HTTP协议及Requests库方法(SHD) 1、Requests库的7个主要方法 方法 说明 requests.request() 构造一个请求,支撑一下各个方法的基础方法 requests.get() 获取HTML网页的主要方法,对应于HTTP的GET requests.head() 获取HTML网页头信息的方法,对应于HTTP的HEAD requests.post() 向HTML网页提交POST请求的方法,对应于HTTP的POST re原创 2020-06-29 23:36:40 · 448 阅读 · 0 评论