在爬取数据时候遇到昵称中有 emoji 符号的在存储数据库的时候会遇到报错,这是因为 emoji 占用四个字符的大小,如果昵称很重要,必须保存完整昵称的,需要修改数据库的设置即可
如果保存完整的昵称不是很重要可以考虑删除昵称中存在的 emoji 符号,方法如下
我看了网上的其他资料,是用 emoji 的编码区间过滤的,很明显有缺陷,因为很难找到很全的 emoji 编码区间表
所以我就在想自己的思路
方法很简单,就是因为 emoji 占的空间会更大,所以我们干脆通过字符占空间大小过滤
方法如下:
import sys
nickname = 'a比糖甜
temp_nickname = ''
for _ in nickname:
if sys.getsizeof(_) != 80:
temp_nickname += _
nickname = temp_nickname

爬取数据时,昵称含emoji存数据库会报错,因emoji占四个字符。若需保存完整昵称,可修改数据库设置;若无需完整保存,可删除emoji符号。网上用编码区间过滤有缺陷,可通过字符占空间大小过滤。
5822

被折叠的 条评论
为什么被折叠?



