Python爬虫----bs4库中的BeautifulSoup基础运用+爬取招商银行商品信息实例运用

 import requests
 r = requests.get("http://python123.io/ws/demo.html")
 #r.status_code
 #r.encoding = r,apparent_encoding
 r.text
 
 #使用demo变量存储一下相关内容
 demo = r.text   #在后续讲解过程中会经常使用这个变量

导入bs4：

 from bs4 import BeautifulSoup

将demo页面进行优化（也称“熬汤”）

soup = BeautifulSoup(demo, "html.parser")  #"html.parser"指的是解析页面的方式，由于demo使得内容是html的形式，故使用html的方式解析
 #而书中soup = BeautifulSoup(html, "lxml")采用的是lxml解析器
 #关于解释器相关应用后期在做详细解释
 print(soup.prettify()) #prettify()方法是将demo内容优化为标准格式，可以使得内容更清晰

总结：如何使用BeautifulSoup库,简单来说就两步

（1）调用bs4引入（2）soup = BeautifulSoup('<p>data</p>', 'html.parser')

BeatifulSoup的基础

一、BeautifulSoup的“李姐”

我们知道任何一个html文件我们打开它的源代码可以知道他是一组尖括号构成的标签组织起来的，每一对尖括号组成一个标签，而各种标签之间又存在上下级关系，最终相互组合形成了一个标签树

<html>
     <head>
         <title>我真帅</title>
     </head>
     <body>
         <p>
             <a>...</a>
         </p>
     </body>
 </html>

可以说BeautifulSoup库是一个能够解析、遍历、维护“标签树”的功能库，只要你提供的文件是标签类型，那么BeautifulSoup库都能对其进行一个很好的解析

虽然不同的标签功能不同，但它们中所包含的属性大体类似，下面以<p>标签为例：

 <p class="title"> ...</p>
 Name     Attribute  
 成对出现   0个或多个，一般是以键值对构成

问题1：如何理解BeautifulSoup库这个类呢？😉

BeautifulSoup库本身解析的是html和xml的文档，而这个文档是与前面所提到的标签树是一一对应的，那么经过了BeautifulSoup类的处理后，可以使得每一个标签树转换成BeautifulSoup类，而在实际处理过程中我们时常将html文档、标签树以及BeautifulSoup看成是等价的，在此基础上我们就可以通过BeautifulSoup类使得这个标签树成为一个变量如soup = BeautifulSoup(demo, "html.parser")，对该变量的处理，也即是对标签树处理

简单来说：BeautifulSoup对应一个HTML和XML文档的全部内容