自然语言处理中的预处理与特征工程
1. 高级正则表达式
正则表达式有一些高级概念非常有用,其中前瞻和后瞻用于从数据中找出子字符串模式。
1.1 正向前瞻
正向前瞻用于匹配字符串中满足特定模式后跟指定子字符串的情况。其语法为 (?=pattern) 。
例如,对于句子 “I play on the playground.”,若想提取仅在 “ground” 之前出现的 “play”,可以使用正则表达式 rplay(?=ground) 。在这个句子中,只有第二个 “play” 会被匹配,因为它后面跟着 “ground”,而第一个 “play” 后面不是 “ground”,所以不会被匹配。
1.2 正向后瞻
正向后瞻用于匹配字符串中满足特定模式前跟指定子字符串的情况。其语法为 (?<=pattern) 。
以句子 “I play on the playground. It is the best ground.” 为例,若想提取仅在 “play” 之后出现的 “ground”,可以使用正则表达式 r(?<=play)ground 。这样就只会匹配 “playground” 中的 “ground”。
1.3 负向前瞻
负向前瞻用于匹配字符串中不跟指定模式的情况。其语法为 (?!pattern) 。
对于句子 “I play on the playground. It is the best ground.”,若
超级会员免费看
订阅专栏 解锁全文
932

被折叠的 条评论
为什么被折叠?



