汉语计算机分析论文
兰州商学院 本科生毕业论文 论文题目:汉语分词技术初探 学院、系:信息工程学院 计算机科学与技术系 专业(方向):计算机科学与技术 年级、班: 学生姓名: 指导教师: XX年5月18 日 声明 本人郑重声明:所呈交的毕业论文是本人在导师的指导下取得的成果。对本论文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。因本毕业论文引起的法律结果完全由本人承担。 本毕业论文成果归兰州商学院所有。 特此声明 毕业论文作者签名: 年月日 汉语分词技术初探 摘要 所谓汉语分词,就是将中文语句中的词汇切分出来的过程。由于汉语的书写习惯,汉语语句中词与词之间的标志是隐含的,英文的单词与单词之间有空格,所以不存在分词问题。而中文的每一句中,词与词之问是没有空格的,因而必须采用某种技术将其分开。 分词技术作为自然语言处理的基础环节,同时也是关键环节之一,它的质量好坏直接影响到后续处理步骤的效果。汉语分词工作看似细微,但作为计算机自然语言处理的第一步,它的关键作用是不容忽视的。如今汉语分词己成为自然语言处理的研究热点与难点。 本文讨论了中文分词的概念、目标及其所面临的一些基本问题,详细介绍了三种基本中文分词算法,并对中文分词词典的索引及常用词典结构进行了介绍,最后说了正向最大算法的实现及测试结果。 [关键词]中文分词最大匹配分词词典自然语言处理 ABSTRACT Chinesewordsegmentation,istocutthesentenceintheVocabularysub—outprocess.SincethewritinghabitsofChinese,Chinesesentencesymbolbetweenwordsisimplied.theEnglishwordshavethespacesbetweenthewords,Sothereiseasytoseparate.TheChinesewordforeachsentence,thereisnospacebetweenwords,andthereforemustbesomekindoftechnologytoseparatesentence.Chinesesentencesegmentationalgorithmfromthe20thcentury,sincethe80’Shasbeenaresearchfocus,duetothecomplexityoftheChineselanguagehasbeeninastageofdevelopment. Segmentationofnaturallanguageprocessingtechnologyasthebasiclink,butalsooneofthekeylinks,anditsdirectimpactonthequalityofthesubsequentprocessingstepsresults.Chinesewordsegmentationthefirststepinnaturallanguageprocessing,anditsimportancecannotbeignored. [KeyWords]ChineseWordSegmentation,Maximummatch,SegmentationDictionary,ChineseInformationProcessing 目录 一、引言............................................................................................................................1 二、中文分词简介............................................................................................................3 中文分词的概念...................................................................................................3 1、什么是中文分词...................................................................................................3 2、中文分词的应用.........................