Beautiful soup常用的抽取规则

最新推荐文章于 2021-06-03 06:31:23 发布

大鹏爱蔬菜

最新推荐文章于 2021-06-03 06:31:23 发布

阅读量651

点赞数

CC 4.0 BY-SA版权

分类专栏： python 文章标签： BeautifulSoup

本文链接：https://blog.youkuaiyun.com/iamzp2008/article/details/31755535

python 专栏收录该内容

4 篇文章

订阅专栏

本文详细介绍了如何使用BeautifulSoup库对网页文本进行有效抽取，包括如何针对特定标签提取所需内容，以及面对多个相同标签时的处理方法。

最近用到了Beautiful soup对一些网页文本进行处理，发现在抽取一些目标文本的时候用到了一些规则，现在记录如下：

1、常用规则，对标签进行内容提取：

<td><b>Consultant Registration Number  :</b>16043646</td>

如果我们要提取Consultant Registration Number : 那么我们只要使用bs.find("b").get_text()

如果我们要提取16043646 那么我们要改成bs.find("b").next.next 即可

如果我们有多个标签，比如：

<td><b>Consultant Registration Number  :</b>16043646</td>

<td><b>Consultant Registration Number  :</b>16043646</td>

<td><b>Consultant Registration Number  :</b>16043646</td>

那么我们要获取第二个“Consultant Registration Number :”，怎么办呢，很简单，使用bs.findAll("b").get_text()

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

大鹏爱蔬菜

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Python之Html解析方法(beautiful soup)

xbean1028的博客

02-09

3716

Python之Html解析方法(beautiful soup) BeautifulSoup的安装及介绍官方给出的几点介绍： Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。 Beautiful Soup自动将输入文档转换为Unico...

使用Beautiful Soup进行网页数据提取：Python网络爬虫入门指南

最新发布

qq_29929123的博客

09-05

1423

Beautiful Soup是一个强大的Python库，专门用于从HTML和XML文件中提取数据。它的名字来源于"tag soup"（标签汤），暗示了它能够处理格式不规范的标记语言。易于使用的API强大的解析能力，可以处理不规范的HTML支持多种解析器提供了丰富的导航、搜索和修改解析树的方法Beautiful Soup是一个强大而灵活的工具，适用于各种网页数据提取任务。通过本文的介绍和示例，你应该已经掌握了Beautiful Soup的基本用法。

参与评论您还未登录，请先登录后发表或查看评论

爬虫提取规则之Beautiful Soup的使用

weixin_43800002的博客

10-27

330

安装 pip install beautifulsoup4 easy_install beautifulsoup4 apt-get install Python-bs4 //Debian或者ubuntu系统安装方法 Beautiful Soup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,其中一个是 lxml .根据操作系统不同,可以选择下列方法来安装lxml: $ apt...

Python网络爬虫与信息提取——网络爬虫规则（BeautifulSoup篇）

qq_41915019的博客

04-19

568

第二章网络爬虫之规则（BeautifulSoup篇） ●BeautifulSoup库入门 BeautifulSoup库的安装 1.安装方法：CMD窗口->pip install beautifulsoup4 2.使用方法：from bs4 import BeautifulSoup soup = BeautifulSoup('<p>data<>...

html文档解析算法,HTML解析大法-Beautiful soup

weixin_31926245的博客

06-03

747

Beautiful soup是一个可以从HTML或XML文件中提取数据的python库。在python爬虫开发中，我们主要用到的是Beautiful soup的查找提取功能，修改文档的方式很少用到。python用户可以通过anaconda安装beautifulsoup4(推荐)，安装简单，这里不在介绍安装完成后，接下来讲解BeautifulSoup的使用。1.快速开始首先导入bs4库：from b...

解析库之Beautiful Soup（一）

Blessy_Zhu的博客

02-22

3934

原创不易，转载前请注明博主的链接地址：Blessy_Zhu https://blog.youkuaiyun.com/weixin_42555080 本次代码的环境：运行平台： Windows Python版本： Python3.x IDE： PyCharm 一概述通过正则表达式的学习，可以是吸纳提取页面信息的功能，（相关内容为：Python小知识-正则表达式和Re库（一）和Python小知识-正则表达式...

BeautifulSoup的简单介绍及简单用法

qq_44732013的博客

03-12

1733

BeautifulSoup的介绍及简单用法 1. 介绍 beautiful是一种用来解析html或xml文件并根据需要提取相关内容的python库，一般用来做数据挖掘（爬取数据，并解析数据） from bs4 import BeautifulSoup soup = BeautifulSoup(html_doc, 'html.parser')#，输入str,返回BeautifulSoup对象 type(soup) #bs4.BeautifulSoup print(soup.prettify())#使用pre

Python爬虫数据抽取(二)：解析库Beautiful Soup 4

12-21

【Python爬虫数据抽取(二)：解析库Beautiful Soup 4】在Python的网络爬虫领域，BeautifulSoup是一个不可或缺的工具，它是一个用于解析HTML和XML文档的库，特别适合于数据抽取。BeautifulSoup 4（简称bs4）提供了...

Python 爬虫之Beautiful Soup模块使用指南

09-20

在Python的网络爬虫开发中，BeautifulSoup是一个非常重要...通过熟练掌握其用法，我们可以高效地处理和抽取网页数据，从而实现各种爬虫任务。在实际工作中，可以根据需求选择合适的解析器，如lxml，以获得更好的性能。

beautiful soup 4.2 官方文档

06-23

进一步，soup.title.name返回的是标签的名称（如'title'），soup.title.string则是标签内的文本（如'The Dormouse's story'），而soup.title.parent.name则会给出父标签的名称（如'head'）。 BeautifulSoup提供的...

Python 使用BeautifulSoup模块抽取数据

weixin_30858241的博客

07-24

101

转载于:https://www.cnblogs.com/fanweisheng/p/11237405.html

python is beautiful_【Python初级爬虫系列--01】python beautifulsoup4 HTML解析器详细用法...

weixin_39724793的博客

11-23

215

1 importre23 from bs4 importBeautifulSoup, Comment45 html_doc = """The Dormouse's story6 7 The Dormouse's story89 Once upon a time there were three little sisters; and their names were10 Elsie,11 Laci...

Python爬虫(4):Beautiful Soup的常用方法

hzp666的博客

03-21

2691

Python爬虫(4):Beautiful Soup的常用方法Requests库的用法大家肯定已经熟练掌握了，但是当我们使用Requests获取到网页的 HTML 代码信息后，我们要怎样才能抓取到我们想要的信息呢？我相信大家肯定尝试过很多办法，比如字符串的 find 方法，还有高级点的正则表达式。虽然正则可以匹配到我们需要的信息，但是我相信大家在匹配某个字符串一次一次尝试着正则匹配的规则时，一定很...

知识图谱-基于规则的关系抽取

Huoyo

10-06

1万+

文章目录一、简介二、原理三、实战1、规则集定义2、数据获取3、去除无关词组4、关系抽取5、抽取结果验证6、知识存储7、查询验证三、总结一、简介基于规则的知识抽取主要还是通过人工定义一些抽取规则，从文章中抽取出三元组信息。重点即是定义规则。虽然定义规则这种抽取方式看起来有点low，但却简单实用，很多时候，效果比很多高深的算法还要好一些（非绝对，具体领域具体分析）。本文的数据来源和https:...

基于规则的常用实体信息抽取

Science Evan Blog

05-20

5859

文本中经常涉及到一些信息的抽取，有的是通过CRF算法来实现的，如：人名、地名、机构名等，有的则可以通过规则来实现，本文就常用的实体，如电话号码、身份证号码等信息的抽取做一个总结。 1. 文本中url地址抽取 regex = "(http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*,]|(?:%[0-9a-fA-F][0-9a-fA-F]))+)|([a-zA...

知识图谱入门 (三) 知识抽取

pelhans的博客

04-20

5万+

欢迎大家关注我的博客 http://pelhans.com/ ，所有文章都会第一时间发布在那里哦~ 本节介绍了针对结构化数据、非结构化数据、半结构化数据的知识抽取方法。知识抽取的概念知识抽取，即从不同来源、不同结构的数据中进行知识提取，形成知识(结构化数据)存入到知识图谱。大体的任务分类与对应技术如下图所示：知识抽取的子任务命名实体识别检测: 北京是忙碌...

数据挖掘之分类——基于规则的分类器

weixin_30293135的博客

05-04

1027

算法简介　　基于规则的分类器是使用一组"if...then..."规则来对记录进行分类的技术。　　模型的规则用析取范式 R =(r1 ∨ r2 ∨ ••• ∨ rk)表示，其中R称作规则集，ri 是分类规则或析取项。　　每一个分类规则可以表示为如下形式： ri:(条件i)→yi 规则左边成为规则前件或前提。它是属性测试的合取：条件i=(A1 op v1)∧(A1 op...

ETL 抽取方案

天将降大任于是人

09-20

8796

二、ETL 抽取方案 ETL 过程中的主要环节就是数据抽取、数据转换和加工、数据装载。为了实现这些功能，ETL 工具会进行一些功能上的扩充，例如工作流、调度引擎、规则引擎、脚本支持、统计信息等。数据抽取数据抽取是从数据源中抽取数据的过程。实际应用中，数据源较多采用的是关系数据库。从数据库中抽取数据一般有以下几种方式： 2.1.1 全量抽取全量抽取类似于数据迁移或数据复制，它将数据源中的表或视图的数据原封不动的从数

Beautiful Soup 基本使用方法