
Python爬虫-自己学习
自己学习记录
kankan_202104
这个作者很懒,什么都没留下…
展开
-
Python爬虫4.26:信息标记的方法,信息提取的方法-搜索+全解析,find_all函数
HTML通过预定义的<>…</>标签行驶组织不同类型的信息信息标记的三种形式:1.XML:(eXtensible Markup Language)扩展标记语言2. JSON(JavaScript Object Notation)有类型键值对3.YAML无类型键值对3种信息标记形式的比较BeautifulSoup的find_all()方法find_all(name, attrs, recursive, string, )可以省略find_all1 fin原创 2021-04-26 22:59:42 · 354 阅读 · 0 评论 -
2021-04-24:树形结构,下/上/平行遍历,prettify()方法
树形结构采用标签的形式来组织,但是标签之间的NavigableString也构成了标签之间的节点。所以任何一个节点的平行/父/子标签可能存在NavigableString类型1.下行遍历import requestsfrom bs4 import BeautifulSoupr = requests.get('https://python123.io/ws/demo.html')demo = r.text# 提供demo和解析器soup = BeautifulSoup(demo, 'htm原创 2021-04-26 21:42:46 · 330 阅读 · 0 评论 -
Python爬虫4.22:bs4库:BeautifulSoup类,标签树,html文档,BS类(标签树)的五个基本元素及使用方法
import requestsfrom bs4 import BeautifulSoupr = requests.get('https://python123.io/ws/demo.html')demo = r.text# 提供demo和解析器soup = BeautifulSoup(demo, 'html.parser')print(soup.prettify())print(soup.a)print(soup.a.name)print(soup.a.attrs)print(sou原创 2021-04-22 23:51:49 · 604 阅读 · 1 评论 -
Python爬虫4/21:改变header,os,找规律连续爬取
1.将r.requests.headers中的’User-Agent’: ‘python-requests/2.25.1’,变为’user-agent’: ‘Mozilla/5.0’# kv = key&value 键值对kv = {'user-agent': 'Mozilla/5.0'}url = ''# 通过headers字段让代码模拟浏览器r = requests.get(url, headers=kv)wb:二进制写入模式,图片os.path.exists(路径、文件等)原创 2021-04-21 23:20:48 · 201 阅读 · 0 评论 -
Python爬虫4/20:requests库异常,判断异常方法raise_for_status,requests库方法,控制访问参数,name == main,robots协议
1.requests库异常2. Response类的方法raise_for_status()判断是否异常try: r = requests.get(url) r.raise_for_status() r.encoding = r.apparent_encoding return r.textexcept: return '产生异常'3.HTTP协议4.Requests库的7个方法put:全部patch:局部 - 节省网络带宽post:提交部分内容重点get和head原创 2021-04-21 19:51:42 · 2184 阅读 · 0 评论 -
python爬虫 4/19:爬虫代码,r的属性,encoding编码 utf-8是中文编码
import requestsr = requests.get("http://www.baidu.com")print(r.status_code)>>>200 #200表示顺利读取print(type(r))>>> <class 'requests.models.Response'> #r是名为Response的类print(r.encoding)>>>ISO-8859-1 #该编码不能读取中文>r.encodi原创 2021-04-20 00:03:00 · 1107 阅读 · 0 评论 -
python《从入门到实践》第18章
python入门原创 2021-04-18 23:42:04 · 383 阅读 · 0 评论