随着互联网的迅速发展,Internet上的资源日趋丰富,基于Internet的各类信息检索服务得到了发展,像百度、Google等综合性的搜索技术已经能够很好的满足一般用户的需求。对于搜索引擎来说,最重要的并不是找到所有结果,而是把最相关的结果排在前面,这也称为相关度排序。中文分词的准确与否,常常直接影响到对搜索结果相关度排序,在英文的行文中,单词之间是空格,作为自然分界符的,而中文只是字、句和段都可以通过明显的分界符来简单划界,唯独词没有一个形式上分界符,所以当面对短语的划分问题时,在词这一层面上,中文比英文要复杂得多而且困难得多。中文分词技术属于自然语言处理技术范畴,是语义理解过程中最初的一个环节。它将组成语句的核心词提炼出来供语义分析模块使用。在分词的过程中,如何能够恰当的提供足够的词来供分析程序处理,并且过滤掉冗余的信息,这是后期语义分析的质量和速度的重要前提。
为满足特定专业科学研究的需要,开发针对特定专业的信息检索系统被提到了工作日程。对于化工专业来说,化工专家们需要能够通过网络来查找资料,化工企业需要通过网络来查找所需产品的信息,所有这些都涉及到化工信息资源,因此建立面向化工领域的专业搜索引擎就为必要。
信息检索是根据用户的查询要求从存有多达数百万份文档的文本数据库中搜索出相关的文档来。由于文本中的实词是信息的有效载体,一次以词或短语作为文档标引项或者检索项更合理。为了在保证查全率的同时提高查准率和检测速度,中文分词技术非常重要。
自80年代初中文信息处理领域提出了中文分词以来,一些实用性的分词系统逐步得以开发,其中几个比较有代表性的自动分词系统在当时产生了较大的影响。
CDWS分词系统是我国第一个实用的中文自动分词系统,由北京航空航天大学计算机系于1983年设计实现,它采用的自动分词方法