python-爬取贴吧的时候表情的处理。

最新推荐文章于 2023-01-03 00:49:13 发布

原创最新推荐文章于 2023-01-03 00:49:13 发布 · 1.4k 阅读

3 ·

CC 4.0 BY-SA版权

python 专栏收录该内容

37 篇文章

订阅专栏

本文介绍了解决使用Scrapy爬取百度贴吧时遇到的表情符号问题的方法。对于Python2，提供了过滤表情符号的代码；而对于Python3，则建议在创建数据库表时将字段设置为utf8mb4字符集。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

今天笔者分享一下使用scrapy爬取百度贴吧的时候遇到的表情问题，一直未解决因为表情入库的问题再网上查了好久，从网上看到修改数据库字段的编码格式,但是一直修改的有问题，最终修改了好久才得解决，今天分享下来方便其他人如果遇到这类的问题。

python2的解决方法直接上代码如下：

def filter_emoji(desstr, restr=''):
    '''
    过滤表情
    '''
    try:
        co = re.compile(u'[\U00010000-\U0010ffff]')
    except re.error:
        co = re.compile(u'[\uD800-\uDBFF][\uDC00-\uDFFF]')
    return co.sub(restr, desstr)

# safe_name = self.filter_emoji(item['lzhu_name'])  //字段的过滤
# safe_title = self.filter_emoji(item['title'])  //字段的过滤