正则文法与有限状态图:自然语言处理的利器
1. 正则表达式基础
正则表达式是自然语言处理中常用的工具,它可以包含Kleene运算。通过一个表示语言L的文法G,我们可以构建文法G ,它表示语言L ,L*包含所有可以通过随意连接L中的单词而构成的单词,包括空字符串。
例如,使用英文字母,我们定义两个文法:
- (G = \text{re})
- (G_{VERB} = \text{acquire}|\text{build}|\text{calibrate}|\text{do})
那么文法G 表示所有可以通过任意次数(包括0次)连接单词“re”而构成的单词集合,即语言(L^ = { “”, “re”, “rere”, “rerere”, “rererere”, …})。
文法(G2 = G^ G_{VERB} = (\text{re})^ (\text{acquire}|\text{build}|\text{calibrate}|\text{do}))表示语言(L2 = L^* L_{VERB}),包含以下单词集合:
{"acquire", "build", "calibrate", "do",
"reacquire", "rebuild", "recalibrate", "redo",
"rereacquire", "rerebuild", "rerecalibrate", "reredo",
"rerereacquire", "rererebuild", "rererecalibrate",
超级会员免费看
订阅专栏 解锁全文
3710

被折叠的 条评论
为什么被折叠?



