11、正则文法与有限状态图：自然语言处理的利器

最新推荐文章于 2025-12-06 22:34:29 发布

omega

最新推荐文章于 2025-12-06 22:34:29 发布

阅读量25

点赞数

CC 4.0 BY-SA版权

分类专栏：形式化自然语言探秘文章标签：正则表达式有限状态图自然语言处理

本文链接：https://blog.youkuaiyun.com/omega/article/details/155008305

形式化自然语言探秘专栏收录该内容

22 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

正则文法与有限状态图：自然语言处理的利器

1. 正则表达式基础

正则表达式是自然语言处理中常用的工具，它可以包含Kleene运算。通过一个表示语言L的文法G，我们可以构建文法G ，它表示语言L ，L*包含所有可以通过随意连接L中的单词而构成的单词，包括空字符串。

例如，使用英文字母，我们定义两个文法：
- (G = \text{re})
- (G_{VERB} = \text{acquire}|\text{build}|\text{calibrate}|\text{do})

那么文法G 表示所有可以通过任意次数（包括0次）连接单词“re”而构成的单词集合，即语言(L^ = { “”, “re”, “rere”, “rerere”, “rererere”, …})。

文法(G2 = G^ G_{VERB} = (\text{re})^ (\text{acquire}|\text{build}|\text{calibrate}|\text{do}))表示语言(L2 = L^* L_{VERB})，包含以下单词集合：

{"acquire", "build", "calibrate", "do",
"reacquire", "rebuild", "recalibrate", "redo",
"rereacquire", "rerebuild", "rerecalibrate", "reredo",
"rerereacquire", "rererebuild", "rererecalibrate",

订阅专栏解锁全文

会员秒杀 ¥9.9 重磅福利

超级会员免费看

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

omega

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

订阅专栏

编译原理初学者入门指南

腾讯技术工程

01-20

3710

作者：pixelcao，腾讯 IEG 后台开发工程师一、引子最近的工作需要用表达式做一些参数的配置，然后发现大脑一片空白，在 Google 里试了几个关键词（起初搜了下“符号引擎”，发现...

12、正则文法与有限状态图：自然语言处理的利器

rust6ferris的博客

11-08

本文深入探讨了正则文法与有限状态图在自然语言处理中的核心作用。从正则表达式的基础构建到有限状态图的确定性与最小化优化，结合Kleene定理阐述了二者之间的等价性。文章还介绍了带输出的有限状态转换器在拼写规范化、术语索引和形态分析中的应用，并展示了其在信息提取、文本分类和机器翻译等场景中的实践流程。同时指出了正则文法在表达能力、歧义处理和可维护性方面的局限性及应对策略，最后展望了其在未来NLP技术中的发展方向。

参与评论您还未登录，请先登录后发表或查看评论

6、递归方案与可折叠下推自动机：高阶计算的验证利器

ansible6ops的博客

08-17

本文深入探讨了递归方案与可折叠下推自动机在高阶计算模型验证中的核心作用，涵盖其理论基础、表达能力及相互转换机制。同时综述了计数问题中的复杂度二分法（图同态、#CSP、Holant）、递归概率模型的分析算法、离散线性动态系统的决策问题，以及XML模式管理带来的自动机理论新挑战。这些领域共同构成了现代理论计算机科学的重要前沿，推动高阶程序验证、形式化方法和复杂系统分析的发展。

ANTLR: 文法分析利器

NewMap的专栏

08-08

6330

转自(http://sishen.lifegoo.com/?p=5)大学时, 写过不少需要文法分析的Project, 如MiniSQL的SQL语法, 简易计算器等. 从计算理论的角度来说, 相对于正则的孱弱. DFA对于文法的表达能力是简单强大的. 因此, 也就有了DFA的文法分析工具. 几乎每一本编译原理的书上, 都会提到Lex/Yacc这一对词法语法分析工具(如果没有, 就扔掉它, -

C开发：从入门到精通（上卷）

YunWisdom

07-30

963

在代码的洪流中，C语言如同一块古朴的基石，沉静而坚实。它不追逐浮华，却承载着操作系统的脉搏，驱动着嵌入式世界的心跳，是无数现代语言的灵感之源。本书并非一本寻常的编程手册，而是一次回归本源的修行。我们不只传授“术”，更探寻其后的“道”。你将学会的，不仅是如何编写高效、健壮的C代码，更是一种严谨的思维方式，一种洞察计算机灵魂的能力。放下对“精通”的执念，随我一同踏上这段旅程。从第一个“Hello, World!”的初心，到掌控系统全局的从容，愿你最终在代码的字里行间，遇见真正的自己。

考研复试必备：编译原理核心知识与实战解析

weixin_35266799的博客

12-04

247

说了这么多，回到最初的问题：考研复试为啥考这个？因为它考的不是知识点，而是系统性思维。你能从字符流一路走到机器码，说明你具备：- 抽象建模能力（如何把现实问题变成数学模型）- 分治思想（前端/中间/后端分阶段处理）- 工程权衡意识（速度 vs 空间、可读性 vs 性能）这些素质，比背一百道 LeetCode 都重要。所以别再说“这东西工作中用不到”了。

设计模式

逍遥剑客

01-23

1876

设计模式（Design pattern）是一套被反复使用、多数人知晓的、经过分类编目的、代码设计经验的总结。使用设计模式是为了可重用代码、让代码更容易被他人理解、保证代码可靠性。毫无疑问，设计模式于己于他人于系统都是多赢的，设计模式使代码编制真正工程化，设计模式是软件工程的基石，如同大厦的一块块砖石一样。 GoF的“设计模式”是第一次将设计模式提升到理论高

编程新手导论

热门推荐

wangluozhangleilei的专栏

06-07

3万+

第二部分导论，这一部分主要是关于编程的导论， (要懂得一点思想具备一点常识)《设计，编码，，与软工》（编程与思想）这一章解释了三种思想，原语，抽象，组合，，和软件开发的二个重要过程，，软件工程的相关概念，是编程入门的关键 (要懂得一点领域内的数学)《数学与算法》（编程与数学）计算机整个就是架构在数学上的，跟计算机平台实现，算法设计，，架构密切相关，，真正要深入编程，，，对数学的学习是必须的，

【正则表达式揭秘】：有限自动机背后的逻辑与实战解析

正则表达式是一种强大的文本处理工具，广泛应用于编程语言和文本处理中，实现复杂的搜索和匹配操作。本文首先介绍了正则表达式的基本概念和原理，然后详细探讨了有限自动机理论，包括其定义、类型及工作原理，并阐述...

【LL(k)文法预测分析表】：一步一图教你构建

![【LL(k)文法预测分析表】：...本文首先介绍了LL(k)文法预测分析表的基础知识和理论基础，包括文法的分类、LL(k)文法与LR(k)文法的区别以及预测分析表的构成。其次，本文详细阐述了构建LL(k)文法预测分析表的实践步

正则表达式（捕获组）

tiankongzhicheng441x的博客

12-04

119

捕获组（Capture Group）是正则表达式中的一个功能，用于提取匹配的子字符串。其核心作用是将正则表达式中的特定部分标记为可提取的单元，便于后续处理（如赋值、替换等）捕获组的基本语法捕获组的作用。

在正则表达式中匹配汉字

福宝的各种玩意~

12-02

162

本文介绍了正则表达式中匹配汉字的常用方法，提供了JavaScript、Python等语言的实际应用示例，展示了如何匹配单个汉字、连续汉字及验证中文姓名等场景。同时指出了不同语言中的注意事项，如JavaScript需要添加u标志，Java需使用双反斜杠等。最后给出了验证中文姓名和提取文本中中文等实用场景的代码示例。

正则表达式

1615549892

12-02

232

子表达式的目的是为了把那些子表达式当作一个独立元素来使用。为重复匹配次数设定一个区间 “[0-9]{5,10}”匹配任意单个非指定范围的字符 “[^a-zA-Z]”为重复匹配次数设定一个精确的值“[0-9]{10}”匹配任意单个指定范围的字符 “[a-zA-Z]”匹配“至少重复多少次” “[0-9]{5,}”匹配1个或多个字符 “[0-9]+”匹配0个或1个字符 “[0-9]?匹配任意单个不含\n的字符 “.”匹配0个或多个字符 “[0-9]单词边界位置 “\b单词\b”字符串开头的^，字符串结尾的$

9.6使用正则表达式

最新发布

张丰麟的博客

12-06

855

正则表达式是一种用于字符串格式匹配的工具，通过特殊元字符实现模式识别。文中介绍了常见元字符如\d（数字）、\w（标识符字符）等，以及方括号组合的用法。此外还讲解了限定修饰符（如*、+、{n,m}）控制字符出现次数。通过Java示例演示了如何用正则表达式验证Email格式，解析了表达式"\w+@\w+(\.\w{2,3})*\.\w{2,3}"的匹配逻辑，说明其如何识别合法Email地址的结构特征。该文系统性地介绍了正则表达式的基本语法和实际应用方法。

【静态功能网站】正则表达式助手工具

weixin_42636075的博客

12-03

1095

摘要：本文介绍了一款纯前端的正则表达式助手工具，旨在解决正则表达式编写困难的问题。该工具具有智能生成正则、实时可视化测试、常用正则一键试用及结果导出等功能。用户只需输入文本和提取内容，系统即可自动分析并生成合适的正则表达式。工具采用原生JavaScript和Bootstrap 5.3实现，无需后端支持，轻量且易部署。核心功能包括数值识别、CSV导出（解决中文乱码）等，覆盖正则使用的完整流程，帮助开发者高效处理文本匹配需求。源码可下载本地运行，适合办公自动化和数据处理场景。

使用通义灵码解决复杂正则表达式替换字符串的问题.

fengbin2005的专栏

12-02

639

这个表达式会匹配到包含${softTable.title4}的<td标签. 请修改成只匹配到包含有$(tableDetail.goodsPrice}的最里层td标签。然后把<td colspan="3" width="262" 改为 <td colspan="2" width="262"人工智能着实提升了生产力.一起自己查资料,琢磨的话估计要大半天.正则表达式比较复杂.而且容易出错.所以用AI来写.但是这个正则表达式 实际上有问题,会多匹配很多td。这里有正则表达式编写的工具。

【JS】Web APIs BOM与正则表达式详解

weixin_75257080的博客

12-02

977

本文档系统梳理了Web APIs BOM和正则表达式的核心知识点，涵盖： 1. BOM操作：窗口控制、导航、历史记录 2. 存储机制：localStorage、sessionStorage及JSON处理 3. 数组方法：map、join等高级函数 4. 正则表达式：语法、元字符、应用场景 5. 表单交互：验证、事件处理、用户体验优化

SQL中的REGEXP正则表达式使用指南

2509_94215383的博客

12-01

269

提示：在编写复杂的正则表达式时，建议先在正则表达式测试工具中验证，然后再在SQL中使用。这样可以更容易地调试和修改表达式。