python 删除html属性,使用Python和lxml从HTML中删除类属性

最新推荐文章于 2024-07-23 17:46:47 发布

weixin_39640687

最新推荐文章于 2024-07-23 17:46:47 发布

阅读量468

点赞数

文章标签： python 删除html属性

题

如何使用python和lxml从html中删除类属性？

例

我有：

Lorem ipsum dolor sit amet, consectetur adipisicing elit

我想要：

Lorem ipsum dolor sit amet, consectetur adipisicing elit

到目前为止我已经尝试过

但是,我已经签出了lxml.html.clean.Cleaner,它没有一种剥离类属性的方法.您可以设置safe_attrs_only = True,但是不会删除该类属性.

重要的搜索已经变得没有任何可行性.我认为类在html和python中都使用了进一步的泥泞搜索结果.许多结果也似乎严格地处理xml.

我对其他提供人性化界面的python模块也是开放的.

非常感谢.

解

感谢@Dan Roberts的回答,我想出了以下解决方案.提供给将来试图解决同样问题的人们到达这里的人.

import lxml.html

# Our html string we want to remove the class attribute from

html_string = '

Lorem ipsum dolor sit amet, consectetur adipisicing elit

# Parse the html

html = lxml.html.fromstring(html_string)

# Print out our "Before"

print lxml.html.tostring(html)

# .xpath below gives us a list of all elements that have a class attribute

# xpath syntax explained:

# // = select all tags that match our expression regardless of location in doc

# * = match any tag

# [@class] = match all class attributes

for tag in html.xpath('//*[@class]'):

# For each element with a class attribute, remove that class attribute

tag.attrib.pop('class')

# Print out our "After"

print lxml.html.tostring(html)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39640687

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

LXML库XPATH解析HTML

Residual Mark 的博客

09-04

1459

一：简述基于Python做爬虫，在html页面爬取，解析方面，Xpath有极大的优势，也是由于LXML库的丰富功能，使爬虫越来越简单。二：LXML库安装 pip install lxml 1：AttributeError: module ‘lxml’ has no attribute ‘etree’；原因：anaconda中base环境中如果有lxml包的话，虚拟环境就会报错。解决方案：在...

【Python】如何使用python和lxml从html中删除属性？

azezeze的博客

07-29

592

【Python】如何使用python和lxml从html中删除属性？

参与评论您还未登录，请先登录后发表或查看评论

python添加lxml库_Python Lxml：添加和删除标签

weixin_39941859的博客

01-17

277

I am attempting to add and remove tags in an xml tree (snip below). I have a dict of boolean values that I use to determine whether to add or remove a tag. If the value is true, and the element does n...

Python 实战 | 使用 Python 清洗文本字段中的 HTML 代码

最新发布

weixin_55633225的博客

07-23

1165

本期文章和大家分享使用 Python 清洗文本字段中 html 代码以及 html 实体字符的方法~

使用lxml.html.clean.Cleaner清洗html

彭世瑜的博客

03-26

2790

文档: https://lxml.de/lxmlhtml.html#cleaning-up-html 代码示例 # -*- coding: utf-8 -*- from lxml.html.clean import Cleaner html = """ 　　 铁打的腾讯 ...

python正则表达式去除html标签的属性？

reg183的专栏

09-25

477

【代码】python正则表达式去除html标签的属性？

Python使用lxml模块和Requests模块抓取HTML页面的教程

09-21

本文将详细介绍如何使用Python语言中的`lxml`模块和`Requests`模块来抓取HTML页面。 #### Web抓取的重要性 Web站点通常使用HTML来描述其内容。虽然这些站点可能提供了丰富的信息，但并不总是以易于处理的格式...

Python大数据之使用lxml库解析html网页文件示例

09-18

lxml是Python中一个用于解析HTML和XML文件的强大库，它提供了一套...综上所述，lxml是一个强大的库，尤其适合在处理包含复杂嵌套和属性选择的HTML/XML文档解析中使用，能够帮助开发者有效地从大数据中提取所需信息。

python lxml使用文档

04-14

python lxml使用文档涵盖了使用Python编程语言操作XML文件的一整套功能强大的库。此文档为美国新墨西哥理工大学官方教程，其内容既详细又易于理解，特别推荐于那些希望深入学习Python下使用lxml模块进行XML处理的...

python去除html标签的几种方法

dian19881021的博客

01-17

945

import re from bs4 import BeautifulSoup from lxml import etree html = '你好 哈哈大家好' # 法一 pattern = re.compile(r'&l...

lxml.html.clean.Cleaner之page_structure参数的作用

码农1479的博客

02-28

541

在使用lxml.html.clean.Cleaner时，通常看到的代码片段都会将cleaner.page_structure设置为False，为什么呢？

python爬虫-lxml的使用

qq_35488769的博客

06-03

666

之前在使用java编写爬虫解析html的时候习惯用jsoup,用python写爬虫的时候习惯用beautifulsoup 两个都属于用起来比较简单但是效率相对于其他的库来说比较低下的库,现在学习python下的lxml的使用这里将lxml的语法和beautifulsoup做一个对比 1.加载html内容 beautifulsoup实现 >>> data = open("f:\\test

解决Module 'lxml.etree' has no 'HTML' member

qq_38411885的博客

11-12

6674

vscode使用lxml模块老是误报错，查了很多方法，尝试了很多种方法，网上说的创建.pylintrc的方法没有成功。最后，终于搞定了。在setting.json里面做设置。 "python.linting.pylintArgs": [ "--disable=C", "--extension-pkg-whitelist=lxml" ] ...

「Python」列表删除数据的4个操作方法是哪些

m0_64829783的博客

06-17

2万+

Python列表当中删除数据的操作方法主要包含四个，分别是del、pop()、remove()、clear()。下面分别对这4个方法进行介绍和代码体验。

Python+lxml解析html

marho

07-14

1万+

代码中有注释： import lxml.etree import sys html = ''' 　　　　　　　　　　友情链接查询 - 站长工具　　　　　　　　　　　　　　　　　　　　Top News 　　　　World News only on this page 　　　　Ah, and here's some more text, by the way. 　　　　...

Python中去除html中的标签，css(style样式)

liuzh的博客

07-23

6627

需求：获取公司官网数据 question1：部分网站是通过js动态加载的，如果直接只用requests.get(url)，就会出现获取信息不全的问题，举个例子: import requests def main(): r = requests.get('https://www.tee.com/index') print(r.text) if __name__ == '__ma...

lxml基本用法总结