汉字的正则表达式

转自:http://wanghaifei518020.blog.163.com/blog/static/23824582012113105257319/
1. 只有字母、数字和下划线且不能以下划线开头和结尾的正则表达式:^(?!_)(?!.*?_$)[a-zA-Z0-9_]+$   
    只有字母和数字的: ^[a-zA-Z0-9_]+$   
2. 至少一个汉字、数字、字母、下划线: "[a-zA-Z0-9_\u4e00-\u9fa5]+"         
3.  至少一个汉字的正则表达式:"^[\u4e00-\u9fa5]"  
4.  最多10个汉字: ValidationExpression="^[\u4e00-\u9fa5]{0,10}"  
5. 只含有汉字、数字、字母、下划线不能以下划线开头和结尾:^(?!_)(?!.*?_$)[a-zA-Z0-9_\u4e00-\u9fa5]+$    
   解释:   
         ^  与字符串开始的地方匹配   
        (?!_)  不能以_开头   
        (?!.*?_$)  不能以_结尾   
        [a-zA-Z0-9_\u4e00-\u9fa5]+  至少一个汉字、数字、字母、下划线   
         $  与字符串结束的地方匹配   
  
6. email正则表达式:两种方式都可以   
   (1) \w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*   
   (2) ^[_A-Za-z0-9-]+(\\.[_A-Za-z0-9-]+)*@[A-Za-z0-9-]+(\\.[A-Za-z0-9-]+)*((\\.[A-Za-z]{2,}){1}$)   

 


完美E-Mail正则表达式:   
国际域名格式如下:        
          域名由各国文字的特定字符集、英文字母、数字及“-”(即连字符或减号)任意组合而成,   但开头及结尾均不能含有“-”,“-”不能连续出现   。   域名中字母不分大小写。域名最长可达60个字节(包括后缀.com、.net、.org等)。        
       
       
  /^[a-z]([a-z0-9]*[-_]?[a-z0-9]+)*@([a-z0-9]*[-_]?[a-z0-9]+)+[\.][a-z]{2,3}([\.][a-z]{2})?$/i;      
       
  /内容/i   构成一个不区分大小写的正则表达式;      
  ^   匹配开始      
  $   匹配结束      
  [a-z]   E-Mail前缀必需是一个英文字母开头      
       
  ([a-z0-9]*[-_]?[a-z0-9]+)*   和_a_2、aaa11、_1_a_2匹配,和a1_、aaff_33a_、a__aa不匹配,如果是空字符,也是匹配的,*表示0个或者多个。      
  *表示0个或多个前面的字符.      
  [a-z0-9]*   匹配0个或多个英文字母或者数字      
  [-_]?   匹配0个或1“-”,因为“-”不能连续出现      
  [a-z0-9]+   匹配1个或多个英文字母或者数字,因为“-”不能做为结尾      
       
  @   必需有个有@      
  ([a-z0-9]*[-_]?[a-z0-9]+)+   见上面([a-z0-9]*[-_]?[a-z0-9]+)*解释,但是不能为空,+表示一个或者为多个。      
  [\.]   将特殊字符(.)当成普通字符      
  [a-z]{2,3}   匹配2个至3个英文字母,一般为com或者net等.      
  ([\.][a-z]{2})?   匹配0个或者1个[\.][a-z]{2}(比如.cn等)   我不知道一般.com.cn最后部份是不是都是两位的,如果不是请修改{2}为{起始字数,结束字数}   
完美E-Mail正则表达式:  国际域名格式如下:                 域名由各国文字的特定字符集、英文字母、数字及“-”(即连字符或减号)任意组合而成,   但开头及结尾均不能含有“-”,“-”不能连续出现   。   域名中字母不分大小写。域名最长可达60个字节(包括后缀.com、.net、.org等)。                     /^[a-z]([a-z0-9]*[-_]?[a-z0-9]+)*@([a-z0-9]*[-_]?[a-z0-9]+)+[\.][a-z]{2,3}([\.][a-z]{2})?$/i;             /内容/i   构成一个不区分大小写的正则表达式;       ^   匹配开始       $   匹配结束       [a-z]   E-Mail前缀必需是一个英文字母开头             ([a-z0-9]*[-_]?[a-z0-9]+)*   和_a_2、aaa11、_1_a_2匹配,和a1_、aaff_33a_、a__aa不匹配,如果是空字符,也是匹配的,*表示0个或者多个。       *表示0个或多个前面的字符.       [a-z0-9]*   匹配0个或多个英文字母或者数字       [-_]?   匹配0个或1“-”,因为“-”不能连续出现       [a-z0-9]+   匹配1个或多个英文字母或者数字,因为“-”不能做为结尾             @   必需有个有@       ([a-z0-9]*[-_]?[a-z0-9]+)+   见上面([a-z0-9]*[-_]?[a-z0-9]+)*解释,但是不能为空,+表示一个或者为多个。       [\.]   将特殊字符(.)当成普通字符       [a-z]{2,3}   匹配2个至3个英文字母,一般为com或者net等.       ([\.][a-z]{2})?   匹配0个或者1个[\.][a-z]{2}(比如.cn等)   我不知道一般.com.cn最后部份是不是都是两位的,如果不是请修改{2}为{起始字数,结束字数} 

 下面也是转载的:


Java代码 
1、一个正则表达式,只含有汉字、数字、字母、下划线不能以下划线开头和结尾:   
^(?!_)(?!.*?_$)[a-zA-Z0-9_\u4e00-\u9fa5]+$  其中:   
^  与字符串开始的地方匹配   
(?!_)  不能以_开头   
(?!.*?_$)  不能以_结尾   
[a-zA-Z0-9_\u4e00-\u9fa5]+  至少一个汉字、数字、字母、下划线   
$  与字符串结束的地方匹配   
  
放在程序里前面加@,否则需要\\进行转义 @"^(?!_)(?!.*?_$)[a-zA-Z0-9_\u4e00-\u9fa5]+$"  
 (或者:@"^(?!_)\w*(?<!_)$"    或者  @" ^[\u4E00-\u9FA50-9a-zA-Z_]+$ "  )   
  
2、只含有汉字、数字、字母、下划线,下划线位置不限:   
  ^[a-zA-Z0-9_\u4e00-\u9fa5]+$   
  
3、由数字、26个英文字母或者下划线组成的字符串   
^\w+$   
  
4、2~4个汉字   
  @"^[\u4E00-\u9FA5]{2,4}$";    
  
5、   
^[\w-]+(\.[\w-]+)*@[\w-]+(\.[\w-]+)+$   
  
用:(Abc)+    来分析:  XYZAbcAbcAbcXYZAbcAb   
  
  
  
XYZAbcAbcAbcXYZAbcAb6、   
[^\u4E00-\u9FA50-9a-zA-Z_]   
34555#5' -->34555#5'  
  
[\u4E00-\u9FA50-9a-zA-Z_]    eiieng_89_   --->   eiieng_89_   
_';'eiieng_88&*9_    -->  _';'eiieng_88&*9_   
_';'eiieng_88_&*9_  -->  _';'eiieng_88_&*9_   
  
public  bool RegexName(string str)   
  {   
   bool flag=Regex.IsMatch(str,@"^[a-zA-Z0-9_\u4e00-\u9fa5]+$");   
   return  flag;   
  }   
  
 Regex   reg=new   Regex("^[a-zA-Z_0-9]+$");      
  if(reg.IsMatch(s))      
  {      
  \\符合规则      
  }      
  else      
  {      
  \\存在非法字符      
  }   
### 中文正则表达式的使用方法及示例 正则表达式是一种强大的工具,用于在文本中进行模式匹配和搜索。它可以用于各种编程语言和文本编辑器中,帮助快速有效地处理字符串。对于中文的处理,可以通过定义特定的Unicode范围来实现匹配[^1]。 以下是一个基于Python的示例代码,展示如何使用正则表达式查找中文字符: ```python import re # 定义正则表达式模式:匹配中文字符(包括简体和繁体) pattern = r'[\u4e00-\u9fff]+' # 示例文本 text = "这是一个测试文本,包含一些中文字符和英文字符 like abc." # 使用re.findall函数查找所有匹配的中文字符 result = re.findall(pattern, text) print(result) # 输出:['这是', '一个', '测试', '文本', '包含', '一些', '中文', '字符'] ``` 上述代码中,`[\u4e00-\u9fff]` 是一个常见的Unicode范围,涵盖了大部分中文字符,包括简体和繁体[^3]。 在C语言中,可以使用POSIX正则表达式库来匹配正则表达式。需要注意的是,POSIX正则表达式库不适用于Windows环境[^2]。以下是一个简单的C语言示例,展示如何编译和执行正则表达式: ```c #include <stdio.h> #include <regex.h> int main() { // 定义正则表达式模式 const char* pattern = "[\\x{4e00}-\\x{9fff}]+"; regex_t regex; // 编译正则表达式 int reti = regcomp(&regex, pattern, REG_EXTENDED | REG_NOSUB); if (reti) { fprintf(stderr, "Could not compile regex\n"); return 1; } // 测试字符串 const char* test_str = "这是一个测试文本"; // 执行正则表达式匹配 reti = regexec(&regex, test_str, 0, NULL, 0); if (!reti) { printf("Match found\n"); } else if (reti == REG_NOMATCH) { printf("No match\n"); } else { char msgbuf[100]; regerror(reti, &regex, msgbuf, sizeof(msgbuf)); fprintf(stderr, "Regex match failed: %s\n", msgbuf); return 1; } // 释放正则表达式资源 regfree(&regex); return 0; } ``` 在前端开发中,JavaScript也可以通过正则表达式高效地匹配中文文本。以下是一个简单的示例: ```javascript // 定义正则表达式模式:匹配中文字符 const pattern = /[\u4e00-\u9fff]+/g; // 示例文本 const text = "这是一个测试文本,包含一些中文字符和英文字符 like abc."; // 使用String.match方法查找所有匹配的中文字符 const result = text.match(pattern); console.log(result); // 输出:["这是", "一个", "测试", "文本", "包含", "一些", "中文", "字符"] ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值