为什么HTML标签起始和结束标志不同

最新推荐文章于 2025-10-22 12:01:05 发布

原创最新推荐文章于 2025-10-22 12:01:05 发布 · 2.8k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#python #正则表达式

博主在爬取搜索页面时，遇到网站将搜索关键词字体突出显示，包含HTML标签的情况。介绍了使用Python的正则表达式re module删除HTML标签的方法，先删结束符号，再删起始符号，也可将操作合并，最终得到无标签的内容。

以前对这个问题有一些朦胧的理解，今天在爬取一个搜索页面时，网站将页面中显示的搜索关键词进行了字体的突出显示。

如：

>>> title = "【<em class='keyword'>羽生结弦</em>】190429 平成的红白"

# 在获取数据时，这样的HTML标签标志符号需要通过正则表达式re module删掉。

>>> import re

# 但是如果直接匹配<.*>

>>> title_new = re.sub(r'<.*>', "", title)

# 会发现标签中的内容也被删掉。

>>> title_new

'【】190429 平成的红白'

# 聪明的你肯定发现了，需要先把更特殊的HTML标签结束符号删掉。

>>> title_new = re.sub(r'</.*>', "", title)

>>> title_new

"【<em class='keyword'>羽生结弦】190429 平成的红白"

# 再删除标签起始符号

>>> title_new = re.sub(r'<.*>', "", title_new)

>>> title_new

'【羽生结弦】190429 平成的红白'

# 这个操作可以合并到一起，也就是：

>>> title_new = re.sub(r'<.*>', "", re.sub(r'</.*>', "", title))

>>> title_new

'【羽生结弦】190429 平成的红白'

也许大家早就知道了，但这是愚蠢的我今天的新发现，开心。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

lying_byr

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

实现HTML 标志的嵌套匹配检查C++

编程小鹏的博客

01-16

473

Internet 超文本 HTML 文档，是由成对出现的标志（tag）划分为不同的部分与层次。类似于括号，与起始标志< myTag >相对应的，是结束标志< /myTag >。使用数据结构知识实现 HTML 标志的嵌套匹配检查。2、利用顺序栈实现标志的嵌套匹配检查。

html标志着html文档的开始,html标记标志着HTML文档的开始，/html标记标志着HTML文档的结束。...

weixin_42099151的博客

06-03

603

摘要：机械式除尘器包括重力沉降室和旋风除尘器，标记标志l标虽然不能满足当今排放标准的要求，但它们的作用主要体现在文文档重氮盐的反应属于？沿断层带运移油气被氧化、档的的结沥青化，会增强断层的封闭性。...机械式除尘器包括重力沉降室和旋风除尘器，标记标志l标虽然不能满足当今排放标准的要求，但它们的作用主要体现在着H志通过测定遗传标记的排列序列与位置绘制而成的以DNA的实际长度为图距的基因图谱是：文文档...

参与评论您还未登录，请先登录后发表或查看评论

【HTML】标签的开始和闭合问题

方寸想法，编码宇宙

01-17

823

文章目录标签的作用元素分类不同元素的标签规则参考标签的作用标签在标记中起到标记元素的开始和结束的作用。元素分类共有5种元素：空元素、原始文本元素、RCDATA元素、外来元素以及常规元素。空元素 area、base、br、col、command、embed、hr、img、input、keygen、link、meta、param、source、track、wbr 原始文本元素 script、style RCDATA元素 textarea、title 外来元素来自MathML命名空间和

HTML 实体起始符号详解

最新发布

HWL5679的博客

10-22

339

在 HTML/XML 中，某些字符有特殊含义。例如，符号 < 和 > 用于定义标签。

关于javascript起始标签和结束标签

z_ssi的博客

05-29

4196

一直觉得HTML很强大，标签写错，或者不写开头结尾，只要无伤大雅就没问题，今天被标签坑了。，今天写了一段js代码，写完调试，没效果，各种修改，一遍又一遍，又是一上午，后来写个测试文件，粘贴复制，测试文件，我写成一个模板，meta头标签什么的都写好的那种，结果测试代码没问题，然后各种检查排错终于搞定，,标签写错这种没问题，这种错误，<script type="javascript/te

HTML标记也可以乘坐标签,XHTML标签都有一个结束标记

weixin_39969611的博客

05-30

195

XHTML标签都有一个结束标记互联网发布时间：2008-10-17 18:55:41 作者：佚名我要评论原文连接：http://www.dudo.org/article.asp?id=253XHTML规范中有一条标准就是“每个XHTML标签都有一个结束标记”。那么对于HTML中原来不带结束标记的元素，则在该结束前加上“/”来关闭这个标签，如，标签原来在HTML中的写法：<原...

HTML5不允许写结束标记的元素

牛栏山矿泉水

12-27

1518

HTML5不允许写结束标记的元素 1、area 2、base 3、br 4、col 5、command 6、embed 7、img 8、hr 9、keygen 10、link 11、meta 12、param 13、source 14、track 15、input 16、wbr ...

PHP 删除html标签和标签内的内容的方法

04-26

在这个例子中，`/<[^>]*>/`是匹配HTML标签的正则表达式，`[^>]*`表示任何不是`>`的字符出现零次或多次，`<>`则是HTML标签的起始和结束标志。`preg_replace`函数会替换所有匹配到的部分，将其置为空字符串。另外，...

HTML基础语法与常用标签详解

文档明确指出，HTML通过“标签对”来组织内容，几乎所有标签都以成对形式出现，即一个开始标签<标签名>与对应的结束标签标签名>共同构成一个完整的语义单元，这种结构化设计使得网页内容具有良好的层次性和可读性。...

HTML基础与演进：从标签到HTML5的语义化结构

每一个HTML标签都以尖括号"<>"包围，分为起始标签和结束标签（如`<p>`和`</p>`），中间包裹具体内容，形成一个完整的元素（Element）。元素是HTML文档的基本构成单位，由标签、属性（Attribute）和内容三部分组成。...

Html最后一个标记,XHTML标签都有一个结束标记

weixin_33443597的博客

06-15

569

原文连接：http://www.dudo.org/article.asp?id=253XHTML规范中有一条标准就是“每个XHTML标签都有一个结束标记”。那么对于HTML中原来不带结束标记的元素，则在该结束前加上“/”来关闭这个标签，如，标签原来在HTML中的写法：到了XHTML中，就应该在“>”前增加一个“/”来关闭这个标签，为了防止某些老式浏览器不认识这种写法，因此要在“/”前加上一...

html自结束标签

m0_51985790的博客

11-25

1266

HTML中自关闭的标签：水平线为媒介元素（比如和）定义媒介资源

HTML中的自结束标签及注释

Fantasc的博客

08-28

1144

标签一般会成对出现，但是也存在自结束标签，例如：自结束标签以下两种写法都是对的，要不要斜杠都能正常运行。 < img > < img/ > < input > < input/ > html注释：语法：注释可以对代码进行解释说明，其内容在网页中不会显示，可以在源代码中查看注释。多写注释可以帮助同事或者自己在一段时间后更容易理解代码。  <h1> 一级标题 </h1&gt

html文档结束的标签,HTML文档及标签介绍

weixin_42499919的博客

06-04

1612

HTML标签HTML 标记标签通常被称为 HTML 标签 (HTML tag)。HTML标签是由尖括号包含的关键词，比如HTML标签通常是成对出现的，比如和标签对中的第一个标签是开始标签，第二个标签是结束标签HTML文档=网页HTML文档描述网页HTML文档包含标签和纯文本HTML文档也被称为网页HTML文档的组成一个完整的HTML文档通常由类型声明和HTML标签及其内部标签组成，比如：hello...

scrapy xpath获得a标签内的br em标签文字内容

qq_43928549的博客

04-15

3017

scrapy xpath获得a标签内的br em标签文字内容需要爬取的标签实例需要爬取的标签 <a title="【完整版】大哥别杀我" href="//www.bilibili.com/video/av2090710?from=search&seid=14248136813242604491" target="_blank" class="title">【完整版】&...

JavaScript高级-正则表达式-建议收藏

解启超

02-20

793

JavaScript高级 1.正则表达式概述 1.1什么是正则表达式 正则表达式（ Regular Expression ）是用于匹配字符串中字符组合的模式。在JavaScript中，正则表达式也是对象。正则表通常被用来检索、替换那些符合某个模式（规则）的文本，例如验证表单：用户名表单只能输入英文字母、数字或者下划线，昵称输入框中可以输入中文(匹配)。此外，正则表达式还常用于过滤掉页面内容中的...

HTML 基础知识

SevenOne

09-25

1128

一、基础知识定义：超文本标记语言。当前使用版本：5.*（H5） HTML 文件有文件头（头部标签）head 和文件体 body 标签两部分组成，并且在两部分外面由 html 标签包裹起来，这样浏览器才能识别该文件是 HTML 文件。 HTML 文件由多组标签组成，通常情况下头部标签 head 中包裹着一些页面配置信息，不会渲染到页面中。文件体 body 标签中由多个或多组标签组成，body 中的内容会渲染到页面中，也被称为页面框架。标签分类：单标签：只有开始标签，没有结束标签（例如：link、i

Web前端——HTML中的标签

巧克力布丁的博客

07-02

1338

1. meta标签实现meta标签功能的例子 <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <!-- meta主要用于设置网页中的一些元数据，元数据不是给用户看的常用属性： charset 指定网页字符集 name 指定数据的名称 con

HTML —— 标签

Cx330_der的博客

04-16

506

html是由各种标签组成标签的结构图开始标签包裹的内容结束标签 <strong> 字体加粗 <strong> 1、标签由< 、> 、/ 、英文单词或字母组成。并且大标签中<>包括起来的英文单词或字母成为标签名 2.常见的标签有两部分组成，我们称之为双标签。前部分叫开始标签，后部分叫结束标签，两部分之间包裹内容 3.少数标签由一部分组成，我们称之为单标签自成一体无法包裹内容 eg: 换行 <br...