python去除html空格

如下面的

1 <td>&nbsp;柳暗花溟</td>

 

html里面的空格&nbsp,想直接用strip()函数去除是不可能的,必须显式的去掉\xa0

例如以上的就可以这样的方式去除空格

1 author = author.strip("\n\r    \xa0")

记录一下。

转载于:https://www.cnblogs.com/qggg/p/6719495.html

### 使用 Python Selenium 处理元素或字符串中存在空格 当使用 Python 和 Selenium 进行 Web 自动化测试时,遇到带有空格的元素或者需要处理字符串中的空格情况是很常见的需求。 对于通过 XPath 定位含有空格属性值的 HTML 元素,可以利用 `contains` 函数来匹配部分文本而不是精确匹配整个属性值。例如: ```python element = web.find_element_by_xpath("//input[contains(@id,' kw ')]") # 注意这里的空格[^1] ``` 如果目标是在获取到的内容里去掉不需要的空白字符(比如前后多余的空格),则可借助于 Python 的内置方法 `strip()` 来实现这一点。此函数能够移除字符串两端特定字符,默认情况下会清除所有的空白字符,包括空格、制表符 `\t` 及换行符 `\n` 等[^2]。 另外,在某些场景下可能还需要考虑更复杂的清理工作,像统一内部多个连续空格为单个空格这样的任务,则可以通过正则表达式配合 `sub()` 方法完成: ```python import re text_with_spaces = "This is a string with multiple spaces." cleaned_text = re.sub(' +', ' ', text_with_spaces).strip() print(cleaned_text) # 输出:"This is a string with multiple spaces." ``` 针对网页源码中存在的特殊格式控制字符(如换行符和制表符),可以在抓取数据之后对其进行预处理以简化后续分析过程。这同样适用于准备用于输入字段的数据,确保其符合预期格式[^3]。 #### 示例代码片段展示如何去掉爬虫所得HTML内容里的所有换行符与多余空格 ```python def clean_html(html_content): cleaned = html_content.replace('\n', '').replace('\t', '') return re.sub(' +', ' ', cleaned) url = 'https://example.com' html = getHTML(url) formatted_html = clean_html(html) print(formatted_html) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值