11、正则文法与有限状态图:自然语言处理的利器

正则文法与有限状态图:自然语言处理的利器

1. 正则表达式基础

正则表达式是自然语言处理中常用的工具,它可以包含Kleene运算。通过一个表示语言L的文法G,我们可以构建文法G ,它表示语言L ,L*包含所有可以通过随意连接L中的单词而构成的单词,包括空字符串。

例如,使用英文字母,我们定义两个文法:
- (G = \text{re})
- (G_{VERB} = \text{acquire}|\text{build}|\text{calibrate}|\text{do})

那么文法G 表示所有可以通过任意次数(包括0次)连接单词“re”而构成的单词集合,即语言(L^ = { “”, “re”, “rere”, “rerere”, “rererere”, …})。

文法(G2 = G^ G_{VERB} = (\text{re})^ (\text{acquire}|\text{build}|\text{calibrate}|\text{do}))表示语言(L2 = L^* L_{VERB}),包含以下单词集合:

{"acquire", "build", "calibrate", "do",
"reacquire", "rebuild", "recalibrate", "redo",
"rereacquire", "rerebuild", "rerecalibrate", "reredo",
"rerereacquire", "rererebuild", "rererecalibrate",
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值