我们在用Python制作一些SEO小工具的时候总是会和文章打交道,大家知道通过Python直接采集,或者通过火车头采集文章的时候,为了保全文章的主题内容可以完全的采集到,文章的内容里面都是有很多的标点符号和HTML的代码片段,那么这个时候就需要Python的正则模块(re)进行二次加工处理。
其实我们可以在搜索引擎上面搜索关键词:Python正则去除中英文标点。也是可以搜索到很多的相关解决问题的方法,不过有些解决的过于复杂,在这里Steven推荐这种方式去解决大部分的文章里面包含中英文标点,通过正则去除的方法。
1、首先导入 re 正则模块
Python
# coding:utf-8
import re
2、然后导入需要处理的文本,你可以通过本地通过open导入,在这里我直接复制到代码里面
Python
# coding:utf-8
import re
content = '<p> 新朝,是一个非常特殊的政权,它夹在西汉与东汉之间,默默无闻,在人们的印象中,似乎从来没有存在过。这种“视而不见”的错觉,大概出于两个原 因:一,新朝仅仅维持了14年,寿命太短;二,新朝皇帝王莽,臭名昭著,这位西汉外戚,也是中国历史上第一个“窃国大盗”,他篡位自代,为儒家正统所不 容。于是,天下群起而攻,历代文人都往他身上泼脏水。但是,这个窃国大盗,却是个十足的“大孝子”。为什么说,“大奸”王莽居然是“大孝”呢?且看他如何 对待自家那些长辈。</p><p style="text-align: center"> <img alt="" src="/uploads/allimg/130227/1343463513-0.jpg" /></p><p style="text-align: center">新莽皇帝王莽</p><p><br /> 隋唐科举制度诞生以前,朝廷依靠什么手段选拔人才呢?一,看名门望族的出身;二,凭各地“举孝廉”。 元朝人郭居敬,曾辑录古代24位孝子故事,编成著名的《二十四孝》。其中,那些夸张、乖戾,甚至有些疯狂的做法,简直是病态,听着,叫人浑身起鸡皮疙瘩。 比如,老莱子“戏彩娱亲”、王祥“卧冰求鲤”、郭巨“埋儿奉母”等等。两汉时代,博得大孝之名,就像现在荣获了“全国五一劳动奖章”,完全可以靠这一点儿 名誉,登堂入室,步入官场。</p><p> 王莽出身于大家族,姑母王政君,嫁给了汉元帝刘奭,伯伯、叔叔,乃至同辈的叔伯兄弟,都“叨光”做了大官。唯独王莽这一枝倒霉,还没沾上姑母的 便宜,父亲便早早地死了。王莽年轻,不得不站出来,顶立门户。他既没钱做资本,也不会其它手艺,有个最大爱好,就是博览群书,钻研儒术。但是,这怎么能养 家糊口呢?实在没辙,全家老少只能咬紧牙关,一块儿过苦日子。</p><p style="text-align: center"> <img alt="" src="/uploads/allimg/130227/13434A550-1.jpg" /></p><p style="text-align: center">民间对王莽篡权的褒贬态度</p><p style="text-align: center"> &l