Python正则去除中英文标点的操作手法

我们在用Python制作一些SEO小工具的时候总是会和文章打交道,大家知道通过Python直接采集,或者通过火车头采集文章的时候,为了保全文章的主题内容可以完全的采集到,文章的内容里面都是有很多的标点符号和HTML的代码片段,那么这个时候就需要Python的正则模块(re)进行二次加工处理。

其实我们可以在搜索引擎上面搜索关键词:Python正则去除中英文标点。也是可以搜索到很多的相关解决问题的方法,不过有些解决的过于复杂,在这里Steven推荐这种方式去解决大部分的文章里面包含中英文标点,通过正则去除的方法。

1、首先导入 re 正则模块

Python

# coding:utf-8
import re

2、然后导入需要处理的文本,你可以通过本地通过open导入,在这里我直接复制到代码里面

Python

# coding:utf-8
import re

content = '<p>  新朝,是一个非常特殊的政权,它夹在西汉与东汉之间,默默无闻,在人们的印象中,似乎从来没有存在过。这种&ldquo;视而不见&rdquo;的错觉,大概出于两个原 因:一,新朝仅仅维持了14年,寿命太短;二,新朝皇帝王莽,臭名昭著,这位西汉外戚,也是中国历史上第一个&ldquo;窃国大盗&rdquo;,他篡位自代,为儒家正统所不 容。于是,天下群起而攻,历代文人都往他身上泼脏水。但是,这个窃国大盗,却是个十足的&ldquo;大孝子&rdquo;。为什么说,&ldquo;大奸&rdquo;王莽居然是&ldquo;大孝&rdquo;呢?且看他如何 对待自家那些长辈。</p><p style="text-align: center">  <img alt="" src="/uploads/allimg/130227/1343463513-0.jpg" /></p><p style="text-align: center">新莽皇帝王莽</p><p><br />  隋唐科举制度诞生以前,朝廷依靠什么手段选拔人才呢?一,看名门望族的出身;二,凭各地&ldquo;举孝廉&rdquo;。 元朝人郭居敬,曾辑录古代24位孝子故事,编成著名的《二十四孝》。其中,那些夸张、乖戾,甚至有些疯狂的做法,简直是病态,听着,叫人浑身起鸡皮疙瘩。 比如,老莱子&ldquo;戏彩娱亲&rdquo;、王祥&ldquo;卧冰求鲤&rdquo;、郭巨&ldquo;埋儿奉母&rdquo;等等。两汉时代,博得大孝之名,就像现在荣获了&ldquo;全国五一劳动奖章&rdquo;,完全可以靠这一点儿 名誉,登堂入室,步入官场。</p><p>  王莽出身于大家族,姑母王政君,嫁给了汉元帝刘奭,伯伯、叔叔,乃至同辈的叔伯兄弟,都&ldquo;叨光&rdquo;做了大官。唯独王莽这一枝倒霉,还没沾上姑母的 便宜,父亲便早早地死了。王莽年轻,不得不站出来,顶立门户。他既没钱做资本,也不会其它手艺,有个最大爱好,就是博览群书,钻研儒术。但是,这怎么能养 家糊口呢?实在没辙,全家老少只能咬紧牙关,一块儿过苦日子。</p><p style="text-align: center">  <img alt="" src="/uploads/allimg/130227/13434A550-1.jpg" /></p><p style="text-align: center">民间对王莽篡权的褒贬态度</p><p style="text-align: center">  &l
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值