比较准确完整的中文字符正则校验

最新推荐文章于 2024-07-05 08:57:06 发布

原创最新推荐文章于 2024-07-05 08:57:06 发布 · 3.3k 阅读

4 ·

CC 4.0 BY-SA版权

Java 专栏收录该内容

1 篇文章

订阅专栏

本文介绍了一种更全面的中文及其标点符号校验正则表达式，通过对Unicode规范的研究，提出了一套包含一般标点、CJK符号、统一表意文字和半宽全宽形状的校验规则。

网上大多数校验中文的正则都是\u4e00-\u9fa5，经过实际测试，这个正则无法匹配中文标点，如（），。等

仔细研究了unicode的规范，本着尽量宽泛、遵循unicode分类的原则，总结了一套比较准确完整的校验规则：

// http://www.unicode.org/charts/PDF/U2000.pdf 一般标点
// http://www.unicode.org/charts/PDF/U3000.pdf CJK符号和标点
// http://www.unicode.org/charts/PDF/U4E00.pdf CJK统一表意文字
// http://www.unicode.org/charts/PDF/UFF00.pdf 半宽全宽形状
String COMMON_STRING_REGEX = "[\u2000-\u206f\u3000-\u303f\u4e00-\u9fef\uff00-\uffef]*";