python-爬取贴吧的时候表情的处理。

本文介绍了解决使用Scrapy爬取百度贴吧时遇到的表情符号问题的方法。对于Python2,提供了过滤表情符号的代码;而对于Python3,则建议在创建数据库表时将字段设置为utf8mb4字符集。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

今天笔者分享一下使用scrapy爬取百度贴吧的时候遇到的表情问题,一直未解决因为表情入库的问题再网上查了好久,从网上看到修改数据库字段的编码格式,但是一直修改的有问题,最终修改了好久才得解决,今天分享下来方便其他人如果遇到这类的问题。

python2的解决方法直接上代码如下:
def filter_emoji(desstr, restr=''):
    '''
    过滤表情
    '''
    try:
        co = re.compile(u'[\U00010000-\U0010ffff]')
    except re.error:
        co = re.compile(u'[\uD800-\uDBFF][\uDC00-\uDFFF]')
    return co.sub(restr, desstr)

# safe_name = self.filter_emoji(item['lzhu_name'])  //字段的过滤
# safe_title = self.filter_emoji(item['title'])  //字段的过滤
python3的解决方法

这里写图片描述
建表的时候是每一个字段都设置成utf8mb4字符集,保存即可,当然存到数据库中的数据并不能去除表情而是表情变成了如下图:
这里写图片描述
网页链接可以分享给你自己看: http://tieba.baidu.com/p/4936875375
这里写图片描述

好分享结束,希望能帮到你。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值