HTMLParser.HTMLParseError: junk characters in start tag处理

最新推荐文章于 2012-08-19 11:30:30 发布

原创最新推荐文章于 2012-08-19 11:30:30 发布 · 2.3k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

Python 学习笔记同时被 2 个专栏收录

28 篇文章

订阅专栏

11 篇文章

订阅专栏

本文讨论了使用HTMLParser处理包含中文属性的HTML标签时遇到的问题及解决办法。通过具体实例展示了如何利用正则表达式修正不规范的标签写法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

利用HTMLParser解析带有中文属性的标签，例如："<DIV id=topinfomsg><FONT style="FONT-WEIGHT: normal; LINE-HEIGHT: normal; FONT-STYLE: normal; FONT-VARIANT: normal" face=新宋体 color=#ff0000>提醒您：</FONT>要求您先汇款的行为可能涉嫌欺诈，建议您尽量选择当面交易。</DIV>"

会出现如下错误：

raise HTMLParseError(message, self.getpos())

HTMLParser.HTMLParseError: junk characters in start tag: u'/u5468/u6da6/u53d1 src="/html"/>', at line 1, column 1

是因为face=新宋体没有按规则来，应该是face="新宋体"才对.

所以要考试中文的问题，所以我一般把数据取出来，然后就用正则把它过滤了，现在就行了

detail_data=re.sub('face=[^/x00-/xff]{2,5}', '', detail_data)

博客等级

码龄19年

93
原创

12
点赞

17
收藏

507
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: python 抓取数据之HTMLParser

下一篇：: python 之PIL批量处理图片

最新评论

Mac 如何将默认执行的Python2改为Pyhton3.7
CURD工程师: 这么做确实起作用了，但是关闭终端，再次打开查看，就还是显示2.7 只是临时有效，请问这是什么原因，或者您遇到过这样的情况吗？
Mac为Python3.7 安装 pip3
一只喋喋不休的菜鸡: 这么简单的吗？虽然我用的不是这个方法，但是这个方法比我查的其他的简单好多
什么情况下用多线程编程
suizouwuya 回复 haibo_rich: 在这个环境中，如果以人为参考主要对象，是说的人的单线程还是多线程，也就是一个人还是两个人；而你说的煮饭和炒菜是另外一个模型环境，那个环境针对于电器，是对于电的利用来说的，CPU和电在这里概念不同，因为CPU的最大功率是固定的，而电的最大输出功率完全满足电饭煲和电磁炉的功用，也就是单一运行电饭煲或者电磁炉不能够最高效利用电能，电饭煲线程或者电磁炉线程都不能充分利用CPU资源。如果能够把电饭煲改造为家用电最大功率，那就是单线程了，不过这样太不安全，而且也没有这种电饭煲发明出来。重新回到正题，在题目里面，一直是以人为中心的，也就是人是这里面的CPU。他在用电饭煲煮饭的时候，不需要一直盯着，所以造成资源闲置，那么这个线程还可以去做点别的事，比如炒菜，只要偶尔查看一下饭有没有煮熟就好了，此时煮饭工作和炒菜工作充分利用了人的资源，但是炒菜工作的发起者是人，煮饭工作的发起人也是人，所以这里只有人这一个单线程。
python 编写获取阿里巴巴行业分类数据代码
chinabowens: 我需要一份4975042@qq.com,如果是目前最新的,我可以少许有偿使用.
VS2010 切换到设计界面无响应
hjq5456 回复微wx笑: 后来有解决了吗？我也一直这样

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。