search花絮之关系运算命令

最新推荐文章于 2021-01-18 21:15:31 发布

原创最新推荐文章于 2021-01-18 21:15:31 发布 · 1.1k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#search #正则表达式 #算法

HNC工作历程专栏收录该内容

27 篇文章

订阅专栏

本文探讨了一种用于检索式中的关系运算命令，并通过正则表达式和有限状态自动机进行了详细解析。此外还提出了一项挑战：如何在支持词汇模糊查询的同时高效地处理词序列中的关系运算。

最近忙于一个搜索项目，忙里偷闲，记下其中的一个花絮。

在检索式中，有一种关系运算的命令需要解析，以备检索之用。如：

WordA 5W WordB

这表示WordA和WordB之间可以出现0到5个任意词汇，且WordA和WordB的顺序不能改变。而“5W”，就是一个关系运算的命令。

所有的关系运算命令用正则表达式来表达，就是：

︹(=|ε)[0-9]?[0-9]?(D|W) ︹

其中︹为空格，强制如此是为消除词法歧义。这个正则表达式用NFA表达很自然的就是：

F( 1, ︹) = 2

F( 2, =) = 3

F(2, ε) = 3

F(3, [0-9]) = 4

F(3, ε) = 5

F(4, [0-9]) = 5

F(4, ε) = 5

F(5, D) = 6

F(5, W) = 6

F(6, ︹) = 7

把NFA转化为等价的DFA，可以首先计算状态集合{1，2，3，4，5，6，7}的每个元素的closure集及新的边集（状态转换函数）。

Closure(1) = {1}

Closure(2) = {2,3,5}

Closure(3) = {3,5}

Closure(4) = {4,5}

Closure(5) = {5}

Closure(6) = {6}

Closure(7) = {7}

则等价的DFA可表示为：

F_d( {1},︹) = {2,3,5}

F_d( {2,3,5}, =) = {3,5}

F_d( {2,3,5}, [0-9]) = {4,5}

F_d( {2,3,5}, D|W ) = {6}

F_d( {3,5}, [0-9]) = {4,5}

F_d( {3,5}, D|W ) = {6}

F_d( {4,5}, [0-9]) = {5}

F_d( {4,5}, D|W ) = {6}

F_d( {5}, D|W ) = {6}

F_d( {6}, ︹) = {7}

在命令中，W表示前后词汇的顺序不变，D表示前后词汇的顺序可以交换。‘=’表示两词汇之间（必须）跨越n个词汇，n的值由数字来表达（若不存在则为0）。没有‘=’则表示可以跨越任意0到n个词汇。

这是正则表达式的一个简单应用。命令的识别算法由其DFA形式较容易实现。问题的难度在于，对于一个含有关系运算命令的词汇序列，如何进行有效的检索？这个算法才是很有意思的。

不过作为花絮，我所要提出的问题并不是这一个，事实上问题是：

词汇序列中的词汇支持模糊查询，例如lieve 可以匹配 +li??e+#，而不能匹配+li?? #e+#，这其中有三种模糊查询命令字符，‘+’表示任意0到n个字符，‘？’表示0或1个字符，‘#’表示1个字符。此时词汇的模糊查询与词序列的关系运算同时存在，如何设计高效率的检索算法？

有时间不妨思考之^_^.

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。