python中文分句_中文文本分句

本文介绍了一种Python方法来处理中文文本的分句问题,考虑到句末标点和对话完整性,通过正则表达式和特殊符号合并来提高分句准确性。示例代码展示如何处理《背影》中的一段文本,确保人物对话不被错误分割。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

关于文本分句这点,说简单也简单,说复杂也复杂。一般的自然语言处理任务中对这点要求并不严格,一般按照句末标点切分即可。也有一些专门从事文本相关项目的行业,可能就会有较高的要求,想100%分句正确是要考虑许多语言本身语法的,这里算是写个中等水平的。以《背影》中的一段话为例:

我心里暗笑他的迂;他们只认得钱,托他们只是白托!而且我这样大年纪的人,难道还不能料理自己么?唉,我现在想想,那时真是太聪明了!

我说道:“爸爸,你走吧。”他往车外看了看说:“我买几个橘子去。你就在此地,不要走动。”我看那边月台的栅栏外有几个卖东西的等着顾客。走到那边月台,须穿过铁道,须跳下去又爬上去。

python实现:

import re

def __merge_symmetry(sentences, symmetry=('“','”')):

'''合并对称符号,如双引号'''

effective_ = []

merged = True

for index in range(len(sentences)):

if symmetry[0] in sentences[index] and symmetry[1] not in sentences[index]:

merged = False

effective_.append(sentences[index])

elif symmetry[1] in sentences[index] and not merged:

merged =

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值