2020-11-20 python 信息标记 提取

本文介绍如何使用Python的requests和BeautifulSoup库从网站上抓取链接及特定标签内容,并展示了如何精确查找带有指定属性的标签,包括使用正则表达式进行高级检索。

XML --通过标签形式构建信息  <title></title> <!-- -->

JSON -- 通过键值对的形式构建,key:value 表示,有数据类型的键值对,键值对之间可以嵌套使用

YAML --无类型的键值对表示

 

获取所有的链接内容

from bs4 import BeautifulSoup
import requests
demo =requests.get("https://www.opticres.com")
soup = BeautifulSoup(demo.text,"html.parser")
for link in soup.find_all('a'):
    print(link.get('href'))

 

<>.find_all(name,sttrs,recursive,string,**kwargs)

返回一个列表类型,存储查找的结果

name:对标签名称检索字符串

attrs:对标签属性值检索字符串,可标注属性检索

recusive:是否对所有子孙全部查找,默认是true

string:<></>中字符串区域的检索字符串

 

from bs4 import BeautifulSoup
import requests
demo =requests.get("https://www.baidu.com")
soup = BeautifulSoup(demo.text,"html.parser")
# for link in soup.find_all('a'):
    # print(link.get('href'))

for link in soup.find_all(['a','b']):
    print(link.get('href'))

结果 

 

打印出所有标签

from bs4 import BeautifulSoup
import requests
demo =requests.get("https://www.baidu.com")
soup = BeautifulSoup(demo.text,"html.parser")
# for link in soup.find_all('a'):
    # print(link.get('href'))

for tag in soup.find_all(True):
    print(tag.name)

结果:

 

筛选以b开头的标签

要先引入正则表库 import re

from bs4 import BeautifulSoup
import requests
import re
demo =requests.get("https://www.baidu.com")
soup = BeautifulSoup(demo.text,"html.parser")

for tag in soup.find_all(re.compile('b')):
    print(tag.name)

结果

 

筛选p标签中含有 jiashu 属性

from bs4 import BeautifulSoup
import requests
import re
demo =requests.get("https://www.opticres.com")
soup = BeautifulSoup(demo.text,"html.parser")

for tag in soup.find_all('p','jianshu'):
    print(tag)

 

准确查找id属性是hiddenCom

from bs4 import BeautifulSoup
import requests
import re
demo =requests.get("https://www.opticres.com")
soup = BeautifulSoup(demo.text,"html.parser")

for tag in soup.find_all(id='hiddenCom'):
    print(tag)

 

查找包含link,利用正则

from bs4 import BeautifulSoup
import requests
import re
demo =requests.get("https://www.opticres.com")
soup = BeautifulSoup(demo.text,"html.parser")

for tag in soup.find_all(re.compile('link')):
    print(tag)

结果

 

利用string 检索字符串 Flyin Optronics Co.,Ltd,要精确

from bs4 import BeautifulSoup
import requests
import re
demo =requests.get("https://www.opticres.com")
soup = BeautifulSoup(demo.text,"html.parser")

for tag in soup.find_all(string = 'Flyin Optronics Co.,Ltd'):
    print(tag)

结果

 

利用正则检索包含All Rights

from bs4 import BeautifulSoup
import requests
import re
demo =requests.get("https://www.opticres.com")
soup = BeautifulSoup(demo.text,"html.parser")

for tag in soup.find_all(string = re.compile("All Rights")):
    print(tag)

 

拓展

方法说明
<>.find()搜索且只返回一个结果,字符串类型,同.find_all()参数
<>.find_parents()在先辈节点中搜索,返回列表类型,同.find_all()参数
<>.find_parent()在先辈节点中返回一个结果,字符串类型,同.find()参数
<>.find_next_siblings()在后续平行节点中搜索,返回列表类型,同.find_all()参数
<>.find_next_sibling()在后续平行节点中返回一个结果,字符串类,同.find_all()参数
<>.find previous_siblings()在前序平行节点中搜索,返回列表类型,同.find_all()参数
<>.find previous_sibling()在前序平行节点中返回一个结果,字符串类型,同.find(参数
  
先展示下效果 https://pan.quark.cn/s/e81b877737c1 Node.js 是一种基于 Chrome V8 引擎的 JavaScript 执行环境,它使开发者能够在服务器端执行 JavaScript 编程,显著促进了全栈开发的应用普及。 在 Node.js 的开发流程中,`node_modules` 文件夹用于存储所有依赖的模块,随着项目的进展,该文件夹可能会变得异常庞大,其中包含了众多可能已不再需要的文件和文件夹,这不仅会消耗大量的硬盘空间,还可能减慢项目的加载时间。 `ModClean 2.0` 正是为了应对这一挑战而设计的工具。 `ModClean` 是一款用于清理 `node_modules` 的软件,其核心功能是移除那些不再被使用的文件和文件夹,从而确保项目的整洁性和运行效率。 `ModClean 2.0` 是此工具的改进版本,在原有功能上增加了更多特性,从而提高了清理工作的效率和精确度。 在 `ModClean 2.0` 中,用户可以设置清理规则,例如排除特定的模块或文件类型,以防止误删重要文件。 该工具通常会保留项目所依赖的核心模块,但会移除测试、文档、示例代码等非运行时必需的部分。 通过这种方式,`ModClean` 能够协助开发者优化项目结构,减少不必要的依赖,加快项目的构建速度。 使用 `ModClean` 的步骤大致如下:1. 需要先安装 `ModClean`,在项目的根目录中执行以下命令: ``` npm install modclean -g ```2. 创建配置文件 `.modcleanrc.json` 或 `.modcleanrc.js`,设定希望清理的规则。 比如,可能需要忽略 `LICENSE` 文件或整个 `docs`...
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值