2、涉恐内容中文分词方法研究

涉恐内容中文分词方法研究

1. 引言

极端分子和恐怖分子利用互联网传播其意识形态并招募新成员,政府和反恐组织分析此类在线信息对加强国家安全和国际安全至关重要。此前已有关于英文相关网络文档收集和分析的研究,且已证明能从中提取极端或恐怖信息及其关系,但对中文涉恐网络文档的分析工作较少。本文提出一种结合互信息和后缀树的方法,用于解决中文文档分析中的分词问题,并将该方法应用于涉恐语料的分词。

2. 相关工作

中文分词研究多年,但未知词识别和歧义解析问题仍未完全解决。相关研究大致可分为启发式词典法和统计机器学习法两类。
- 词典法 :主要使用预定义词典和手工生成规则对输入序列进行分词。规则可按扫描方向和匹配长度分类,如正向匹配法(FMM)从前往后扫描,反向匹配法(RMM)从后往前扫描,双向匹配法从两个方向扫描,匹配长度可基于最大或最小匹配。多数流行的词典分词器采用混合匹配法。但词典法的性能依赖词典覆盖度,由于新词不断出现,词典难以完备,导致无法处理未知词识别问题,可能出现错误分词。
- 统计和机器学习法 :统计方法依靠不同度量来确定中文分词边界。众多研究者关注不同方面,如:
- Sun 等人用互信息(MI)和 t 检验差值的线性函数进行文本分词。
- Dai 等人利用上下文和位置信息,发现上下文信息对提取双字词最重要,位置频率对确定词帮助不大。
- Yu 等人提出级联隐马尔可夫模型(HMM)用于位置和组织识别。
- Jia、Xue、Low 等人关注最大熵(ME)模型。
- Li 等人用期望最大化和最大似然预测处理中文分词。
- Zh

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值