自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(1)
  • 收藏
  • 关注

原创 Python: 检查某自然语言字符串是否以中文(Unicode)开头

在预处理大模型数据集时,有时需要区分prompt是中文还是英文。考虑到目前我们运用的大多数双语言数据集都是中英双语,所以判定非中文即英文。startwith(r'u')则无效,因为'\u9492'已经转义为汉字“钒”,不包含字符串r'\u'。方法不好,只能做中英双语判定,但也许对需要者有帮助。中文prompt往往用unicode表示,\u转义+4位数字,即类似"\u9492"。直接用startwith('\u')报错,因为\u后必须跟着4个数字。

2024-08-15 12:30:45 404 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除