
课程笔记《Python网络爬虫与信息提取(嵩天老师)》
针对中国慕课所提供的课程《Python网络爬虫与信息提取(嵩天老师)》进行学习整理
穆藩6211
这个作者很懒,什么都没留下…
展开
-
学习笔记_04(爬取实例:单元3&单元6&单元8&单元9)
一、单元三1、京东商品页面的爬取#实例一:京东商品页面的爬取import requestsurl = 'https://www.jd.com/2967929.html'try: res = requests.get(url) res.raise_for_status() res.encoding = res.apparent_encoding print(...原创 2020-04-26 22:03:08 · 374 阅读 · 0 评论 -
学习笔记_03(单元七:Re(正则表达式)库入门)
一、简介正则表示式是用来简洁表达一组字符串的表达式。作用:1)表达文本类型的特征;2)查找或替代一组字符串;3)匹配字符串的全部或部分二、正则表达式的语法编译:将符合正则表达式语法的字符串转换成正则表达式的特征p=re.compile(regex)正则表达式的语法由字符和操作符构成1)常用操作符:略2)语法实例:PY{:3}N——'PN','PYN','PYYN'…;^Y[A-Z...原创 2020-04-25 20:50:40 · 195 阅读 · 0 评论 -
学习笔记_02(单元四:Beautiful Soup入门&单元五:信息标记与提取方法)
一、Beautiful Soup入门1、对Beautiful Soup的理解1)Beautiful Soup库是解析、遍历、维护‘标签树’的功能库2)BeautifulSoup对应一个HTML/XML文档的全部内容3)代码示例(功能库的导入、解析和获取标签)from bs4 import BeautifulSoup #注意这里BeautifulSoup连在一起的,表示导入一个类soup...原创 2020-04-25 16:41:17 · 344 阅读 · 0 评论 -
学习笔记_01(单元一:requests库入门&单元二:robots协议)
一、requests库入门1、Requests库的7个主要方法(对应HTTP的方法)requests.request(method, url,**kwargs )构造一种请求,支撑一下各方法的基础方法(**kwargs:控制访问的参数,均为可选项,包括params:字典或字节序列;data:字典、字节序列或文件对象;json:jion格式的数据;headers:字典,HTTP定制头;cook...原创 2020-04-25 14:51:51 · 204 阅读 · 0 评论