用.net的正则表达式对文章进行拆句处理

首先要根据语种,来判断断句的符号和规则,这里要提一下,对正则表达式一些限定符运用:

1、使用正则表达式要引用 using System.Text.RegularExpressions; 这个命名空间

2、Regex.Escape 可以对你的 pattern串进行处理,把正则表达式的的限定符前加上“/”符号,但是如果pattern中有“|”,那么会变成“/|”这样会使你的pattern不正确,所以Escape这个函数,最好自己重写。

pattern处理好接下来要进行拆句了

用 Regex.Split还是用Matches?

split进行操作时往往会把分割符给吃掉,如果你想保存完整的句子,那么我建议使用Matches

这里往往使用的pattern还是split那么,你得到的只是分割符的位置,可以利用Match的Index属性和Length进行断句,千万不要忘记最后一个匹配结果后面,还有一句是文件最后的句子。

注:这里拆句,我建议先拆段落再拆句,这样比较精确。

如果有正则表达式的讨论可以email或留言给我。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值