
中文信息处理
文章平均质量分 65
Zoohua
改变现实,成就梦想!激情澎湃,斗志昂扬!
展开
-
简单的中文信息处理C#实现代码片段
首先定义我们的词典类,最长词和词出现的频率有此类处理:namespace CNWordSegment{ [Serializable] public class Dictionary { private int maxWordLength = 0; private int maxWordFreq = 0; private Dictionary dict原创 2009-08-10 11:58:00 · 834 阅读 · 0 评论 -
中文自动分词C++实现
中文信息处理中一个基础问题就是分词以及分词歧义消除问题。本文介绍一中最大概率分词法的C++实现问题。在这一部分中先给出我的词典处理算法,最大概率分词法将在以后的博客中给出。首先是构造一个分词词典类,我们的分词匹配算法都要利用分词词典提供的数据来进行:class CWordSegDictionary{ CDaoDatabase* pDatabase; CDaoRecor原创 2009-08-10 12:03:00 · 5040 阅读 · 0 评论 -
中文自动分词歧义类型
汉语自动分词是中文信息处理领域的一项基础性课题,也是智能化中文信息处理的关键所在,因为在中文信息处理中,凡是涉及句法、语义等的研究(如机器翻译、自然语言处理等)都要以词为单位。汉语不同于西文,在一个汉语句子中,词与词之间没有明显的分隔符(如空格)。汉语的词法约束很不规范,而且千变万化,就给汉语分词带来了很大的麻烦。正是由于汉语分词的困难及其中文信息处理中的重要地位,自20世纪70年代末原创 2009-09-18 20:13:00 · 9900 阅读 · 0 评论 -
最大概率分词法
extern CString Separator;extern int MaxWordLength;extern long CorpusSize; CMyDictionary pDict; // 定义一个词典类对象,全局变量 // 以下是最大概率法分词程序struct Candidate { short offset, length; // 候选词在输入串中的起点,长度原创 2009-10-17 10:01:00 · 2070 阅读 · 0 评论 -
规则法消解交集型歧义
通过前人的不断研究和实验结果数据,我们可以得出下面的一些规则: 1.语料库中词频越高的越易于成词; 2.尽量不切分长词; 3.无论对真歧义还是假歧义,最准确的和最有意义的切分是依赖语境、上下文的切分; 4.逆向最大匹配优先; 5.链长大于2的交集型歧义字段的切分取决于第一个交集型歧义字段的切分; 基于这些规则,吉林大学几位老师提出了原创 2009-10-17 23:44:00 · 1493 阅读 · 0 评论