re正则匹配中文字符

re正则匹配中文字符

re 匹配中文字符规则

re.compile(u"[\u4e00-\u9fa5]+")

下图是我爬取jd手表的一条数据 在该字典中的title键所对应的值value是我获取的整个em标签 因为我要获取整个em标签的中文内容
在这里插入图片描述
得到的title包括了标签本身 所以不满足我的需求
所以需要从title中只提取中文内容

watch_dic = {'category': '国内品牌',
 'category_url': 'http://search.jd.com/Search?keyword=%E5%9B%BD%E8%A1%A8&enc=utf-8&suggest=1.def.0.T06&wq=guobiao&pvid=9m9nobvi.jilzz5#keyword=%E5%9B%BD%E8%A1%A8&enc=utf-8&qrst=1&rt=1&stop=1&vt=2&suggest=1.def.0.T06&wq=guobiao&wtype=1&click=1',
 'detail_url': '//item.jd.com/100001920357.html',
 'price': '1230.00',
 'seller': '罗西尼腕表京东自营旗舰店',
 'sub_category': '罗西尼',
 'sub_category_url': 'https://search.jd.com/Search?keyword=%E7%BD%97%E8%A5%BF%E5%B0%BC&enc=utf-8',
 'title': ['<em><font class="skcolor_ljg">罗西尼</font>(ROSSINI)手表 '
           '雅尊商务系列黑盘钢带进口机芯机械表夜光男士腕表带日历男表618865W04C</em>']}

所以使用正则来完成

import re
title = watch_dic['title'][0]
res = re.find(u"[\u4e00-\u9fa5]+", title)
print('res=',res)

# 结果
res = ['罗西尼','手表','雅尊商务系列黑盘钢带进口机芯机械表夜光男士腕表带日历男表']
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值