- 博客(1)
- 收藏
- 关注
原创 Python: 检查某自然语言字符串是否以中文(Unicode)开头
在预处理大模型数据集时,有时需要区分prompt是中文还是英文。考虑到目前我们运用的大多数双语言数据集都是中英双语,所以判定非中文即英文。startwith(r'u')则无效,因为'\u9492'已经转义为汉字“钒”,不包含字符串r'\u'。方法不好,只能做中英双语判定,但也许对需要者有帮助。中文prompt往往用unicode表示,\u转义+4位数字,即类似"\u9492"。直接用startwith('\u')报错,因为\u后必须跟着4个数字。
2024-08-15 12:30:45
404
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人