C语言正则表达式

最新推荐文章于 2025-09-27 17:56:26 发布

转载最新推荐文章于 2025-09-27 17:56:26 发布 · 1.1k 阅读

文章标签：

#语言 #c #正则表达式 #regex #newline #string

技术C 专栏收录该内容

14 篇文章

订阅专栏

最近要改一个代码，原来使用C写的，想想看看是不是要使用正则表达式，发现在C中还是可以使用库函数来进行正则表达式匹配的。

找了几篇文章，剪切一下：发现最常见的一篇文章，代码不能用，最后附上自己的测试代码：

1.int regcomp (regex_t *compiled, const char *pattern, int cflags)

这个函数把指定的规则表达式pattern编译成一种特定的数据格式compiled，这样可以使匹配更有效。函数regexec 会使用这个数据在目标文本串中进行模式匹配。执行成功返回０。

regex_t 是一个结构体数据类型，用来存放编译后的规则表达式，它的成员re_nsub 用来存储规则表达式中的子规则表达式的个数，子规则表达式就是用圆括号包起来的部分表达式。

pattern 是指向我们写好的规则表达式的指针。
cflags 有如下4个值或者是它们或运算(|)后的值:
REG_EXTENDED 以功能更加强大的扩展规则表达式的方式进行匹配。
REG_ICASE 匹配字母时忽略大小写。
REG_NOSUB 不用存储匹配后的结果。
REG_NEWLINE 识别换行符，这样'$'就可以从行尾开始匹配，'^'就可以从行的开头开始匹配。

2. int regexec (regex_t *compiled, char *string, size_t nmatch, regmatch_t matchptr [], int eflags)

当我们编译好规则表达式后，就可以用regexec 匹配我们的目标文本串了，如果在编译规则表达式的时候没有指定cflags的参数为REG_NEWLINE，则默认情况下是忽略换行符的，也就是把整个文本串当作一个字符串处理。执行成功返回０。

regmatch_t 是一个结构体数据类型，成员rm_so 存放匹配文本串在目标串中的开始位置，rm_eo 存放结束位置。通常我们以数组的形式定义一组这样的结构。因为往往我们的规则表达式中还包含子规则表达式。数组0单元存放主规则表达式位置，后边的单元依次存放子规则表达式位置。

compiled 是已经用regcomp函数编译好的规则表达式。
string 是目标文本串。
nmatch 是regmatch_t结构体数组的长度。
matchptr regmatch_t类型的结构体数组，存放匹配文本串的位置信息。
eflags 有两个值
REG_NOTBOL 按我的理解是如果指定了这个值，那么'^'就不会从我们的目标串开始匹配。总之我到现在还不是很明白这个参数的意义，原文如下：
If this bit is set, then the beginning-of-line operator doesn't match the beginning of the string (presumably because it's not the beginning of a line).If not set, then the beginning-of-line operator does match the beginning of the string.
REG_NOTEOL 和上边那个作用差不多，不过这个指定结束end of line。

3. void regfree (regex_t *compiled)

当我们使用完编译好的规则表达式后，或者要重新编译其他规则表达式的时候，我们可以用这个函数清空compiled指向的regex_t结构体的内容，请记住，如果是重新编译的话，一定要先清空regex_t结构体。

4. size_t regerror (int errcode, regex_t *compiled, char *buffer, size_t length)

当执行regcomp 或者regexec 产生错误的时候，就可以调用这个函数而返回一个包含错误信息的字符串。

errcode 是由regcomp 和 regexec 函数返回的错误代号。
compiled 是已经用regcomp函数编译好的规则表达式，这个值可以为NULL。
buffer 指向用来存放错误信息的字符串的内存空间。
length 指明buffer的长度，如果这个错误信息的长度大于这个值，则regerror 函数会自动截断超出的字符串，但他仍然会返回完整的字符串的长度。所以我们可以用如下的方法先得到错误字符串的长度。
size_t length = regerror (errcode, compiled, NULL, 0);

—————————————————————我是寂寞的分割线—————————————————————————

在字符串匹配之前，我们必须先编译匹配模式，这是通过regcomp实现的。这个函数的原型如下：
int regcomp (regex_t *compiled, const char *pattern, int cflags)

参数compiled只有一个成员是我们需要关注的，那就是re_nsub，代表编译后的子表达式数目，由于我们还需要保存整个匹配到的模式，所以最终匹配的条目数是re_nsub加1。cflags用来修饰匹配模式，可取值如下：
REG_EXTENDED 启用POSIX正则库扩展，关于该扩展的详细信息可参考POSIX规范
REG_ICASE 忽略大小写
REG_NOSUB 不要存储子表达式
REG_NEWLINE 把换行符作为多行的分隔符，这样'$'可匹配每一行的行尾，'^'匹配每一行的行首，'.'不匹配换行符，[^...]不匹配新行

编译完模式后我们从内存中分配子表达式存储空间，然后调用regexec对串进行匹配，该函数原型如下：
int regexec (regex_t *compiled, char *string, size_t nmatch, regmatch_t matchptr [], int eflags)

nmatch指明matchptr数组的数目，该数目是compiled->re_nsub+1，也可以让nmatch为0,matchptr为NULL，表示不要保存子表达式。eflags通常为0。
匹配结束后，匹配到的子表达式在串中的偏移保存在regmatch_t结构中，该结构有两个成员：
rm_so 子表达式的起始偏移
rm_eo 子表达式的结束偏移
这是一个开区间，实际的子表达式在[rm_so,rm_eo)里。
如果没有匹配的子表达式，比如"f(o*)"匹配"fum"，实际匹配到的只有"f"，这时rm_so和rm_eo相等，都为1。如果整个模式在没有子表示式的情况下也能匹配，这时rm_so和rm_eo为-1，比如"ba(na)*"匹配"ba"。

—————————————————————我是寂寞的分割线—————————————————————————



我的代码



 #include <stdio.h> 
#include <sys/types.h> 
#include <regex.h> 


/* 主程序 */ 
int main(int argc, char** argv) 
{ 
	char * pattern; 
	int x, z, lno = 0, cflags = 0; 
	char ebuf[128], strtomatch[256]; 
	char result[256];
	regex_t *reg; 
	regmatch_t pm[10]; 
	size_t nmatch = 10; 
	/* 编译正则表达式*/ 
	pattern = "[a-z]*"; 
	z = regcomp(reg, pattern, cflags); 			//内部进行reg的内存的分配
	if (z != 0)
	{ 
		regerror(z, reg, ebuf, sizeof(ebuf)); 
		fprintf(stderr, "%s: pattern '%s' /n",ebuf, pattern); 
		return 1; 
	} 
	/* 逐行处理输入的数据 */ 
	

	/* 对每一行应用正则表达式进行匹配 */ 
	strcpy(strtomatch,"asdFghGGjkl;");
	z = regexec(reg, strtomatch, nmatch, pm, 0); 
	if (z == REG_NOMATCH)
		; 
	else if (z != 0)
	{ 
		regerror(z, reg, ebuf, sizeof(ebuf)); 
		fprintf(stderr, "%s: regcom('%s')/n",ebuf, strtomatch); 
		return 2; 
	} 
	/* 输出处理结果 */ 
	for (x = 0; x < nmatch && pm[x].rm_so != -1; ++ x)
	{ 
		strncpy(result,strtomatch+pm[x].rm_so,(pm[x].rm_eo-pm[x].rm_so));
		
		result[(pm[x].rm_eo-pm[x].rm_so)]='/0';
		printf(" $%d='%s'/n", x, result); 
	} 

	/* 释放正则表达式 */ 
	regfree(reg); 
	return 0; 
}

—————————————————————我是寂寞的分割线—————————————————————————



还有很多东西不懂的，比如这个只能匹配第一个，怎么匹配所有的呢？，不懂，慢慢探讨。



附上几个比较不错的资料：

http://www.pcre.org/     ————————另一个库

PCRE
库的功能虽然强大，可是并不难使用。详细信息可参考http://www.pcre.org/
里的文档





http://www.gnu.org/software/libc/manual/html_node/POSIX-Regexp-Compilation.html#POSIX-Regexp-Compilation