一、BeautifulSoap
1.首先必须要导入bs4库,创建BeautifulSoap对象
#coding=utf-8
from bs4 import BeautifulSoup
soup = BeautifulSoup(html,'lxml') #html 为下载的网页,lxml为解析器
2.BeautifulSoap主要掌握三种方法
- find_all('tag') 搜索当前所有的tag标签的集合
- find("tag") 返回一个标签(这个方法用的少)
- select("") 可以按标签查找,用的多是按标签逐层查找筛选元素
二、使用BeautifulSoup提取网页内容的一些技巧
1.find_all() 方法中单独的标签名,如a ,会提取网页中所有的 a 标签,这里要确保是我们所需要的链接a , 一般都不是,需要加上条件(就是标签的属性,加上限制筛选),如果这一及标签没有属性,最好往上一级找。
https://www.qiushibaike.com/text/,链接:段子戳我,抓取原创笑话段子。
(话说小白在这上面找半天才看到段子藏在span里面,我一直觉得自己有点智障=_=)