
python爬虫笔记
文章平均质量分 50
洗手不上厕所
这个作者很懒,什么都没留下…
展开
-
Re库(正则表达式)简介
Re(正则表达式简介)正则表达式(regular expression)描述了一种字符串匹配的模式(pattern),可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。正则表达式常用操作符图片来源于网络图片来源于网络Re库常用函数图片来源于网络常用操作1、获取查找内容的部分1)通过定义模式对象匹配字符串import re# 获取查找内容的部分# 通过定义模式对象匹配字符串pat = re.compile("AA") # 给原创 2021-07-29 15:42:18 · 3548 阅读 · 2 评论 -
Bs4简介
Bs4简介作用: 将复杂的HTML文档转换成一个树形结构,每个节点都是Python对象,所有对象可以归纳为5种:1、Tag——利用标签,获取标签及其内容(多个重复标签,默认拿取第一个)file = open("baidu.html", "rb") # 打开一个html文件html = file.read()bs = BeautifulSoup(html, "html.parser") # 实例化BeautifulSoup对象来解析网页,第一个参数是指定解析文件的类型,第原创 2021-07-29 12:21:46 · 1076 阅读 · 0 评论 -
Urllib库获取网页信息:
Urllib库获取网页信息:1、直接获取一个网页的get请求(网页无防爬虫)# 获取一个get请求(不需要传参数)response = urllib.request.urlopen("http://www.baidu.com") # 获取网页,返回一个对象保存网页中所有的信息print(response.read()) # 返回对象调用read方法读取网页内容, 编码为二进制(type为bytes)print(response.read().decode('utf-8'))原创 2021-07-28 15:59:48 · 495 阅读 · 0 评论