Linux Regex正则表达式库

标准的C/C++库不支持正则表达式。在Posix函数库中包含了正则表达式库。

## 正则表达式匹配框架

标准的正则表达式匹配框架:

  • 编译正则表达式.
  • 匹配正则表达式.
  • 释放正则表达式.

编译正则表达式

1
2
#include <regex.h>
int Regcomp(regex_t* preg, const char* regex, int cflags);

参数说明

  • preg : 用来保存编译之后的结果
  • regex : 正则表达式字符串,表示被编译的正则表达式。
  • cflags : 编译控制参数
    • REG_EXTENDED : 使用扩展正则表达式模式
    • REG_ICASE : 对规则中字符串不区分大小写
    • REG_NOSUB : 只检查是否有符合规则的子串。

返回值

编译成功返回0,否则返回非0

匹配正则表达式

1
2
3
4
5
6
7
8
9
10
typedef struct {
regoff_t rm_so;
regoff_t rm_eo;
} regmatch_t;
int regexec(const regex_t* preg,
const char* string,
size_t nmatch,
regmatch_t pmatch[],
int eflags);

参数说明

  • preg : 上述编译之后的正则表达式regex_t指针。
  • string : 被匹配的字符串。
  • match : 被匹配的个数。告诉函数regexec最多可以把多少个匹配结果写入pmatch,一般为pmatch数组的长度。
  • pmatch : 匹配结果数组。
    • rm_so : 满足子串在string中的起始偏移量
    • rm_eo : 满足子串在string中的结束偏移量
  • eflags : 匹配的特性
    • REG_NOTBOL : 是否为第一行
    • REG_NOTEOL : 是否是最后一行

返回值

0表示匹配成功,1表示REG_NOMATCH。

报错信息

1
size_t regerror(int errcode, const regex_t* preg, char* buf, size_t buffer_size);

参数说明

  • errcode : 来自regcomp和regexec的错误码。
  • preg : 编译后的正则表达式
  • buf : 缓冲区错误信息字符串
  • buffer_size : 缓冲区最大长度。

释放正则表达式

1
2
//释放reget_t指针,无返回值。
void regfree(reget_t* preg);

实例

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
#include <stdio.h>
#include <regex.h>
#include <stdlib.h>
int main() {
regex_t preg;
int iErr = 0;
regmatch_t subs[256];
char acReg[] = "[0-9a-zA-Z]+$";
iErr = regcomp(&preg, acReg, REG_EXTENDED);
if (iErr) {
printf("compile reg error\n");
exit(1);
}
iErr = regexec(&preg, "12345", 256, subs, 0);
if (REG_NOMATCH == iErr) {
printf("no match\n");
} else {
printf("match\n");
}
}

参考资料:

Comment and share

  • page 1 of 1

魏传柳(2824759538@qq.com)

author.bio


Tencent


ShenZhen,China