《python网络爬虫与信息提取》课程笔记(嵩天)
我曾仗剑走天涯
以梦为马,莫负韶华
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
python网络爬虫3——正则表达式
正则表达式:用来简洁表达一组字符串的表达式 一、正则表达式的语法——操作符 二、Re库 1.Re库简介 Re库是python的标准库,主要用于 字符串匹配 Re库采用 raw string类型(原生字符串类型)表达正则表达式:r'text' 原生字符串与字符串的区别:原生字符串不包含 转义符 2.Re库的主要函数 (1) re.search( patt...原创 2019-10-24 20:52:38 · 421 阅读 · 0 评论 -
python网络爬虫1——Requests库 获取页面
目录 第一章 Requests库 1.Requests库的安装 2.Requests库最常用的方法:requests.get() 3.Response对象的属性 4.爬取网页的通用代码框架 (1)Requests库的异常 (2)爬取网页的通用代码框架 5.Requests库的常用方法 (1)HTTP协议 (2)Requests库的7个主要方法 (3)核心方法:requ...原创 2019-09-28 15:29:44 · 1570 阅读 · 0 评论 -
python网络爬虫2——BeautifulSoup库信息提取
一、安装 cmd :pip install beautifulsoup4 from bs4 import BeautifulSoup #BeautifulSoup是一个类 soup = BeautifulSoup('<p>data</p>', 'html.parser') #'<p>data</p>'是需要解析的html格式的信息,'html...原创 2019-10-24 21:08:44 · 317 阅读 · 0 评论
分享