
自然语言处理
一厘米1992
这个作者很懒,什么都没留下…
展开
-
《NLP汉语自然语言处理原理与实践》学习三
词汇与分词技术中文分词信息处理的目标是使用机器(主要指计算机)能够理解和产生自然语言。而自然语言理解和产生的前提是对语言能够做出全面的解析。汉语词汇是语言中能够独立运用的最小语言单位,是语言中的原子结构。因此,对中文进行分词就显得至关重要。中文分词中最常用的《北大(中科院)词性标注》的基本原则,它将汉语的词类分为40种。北大标准除考虑到词汇的语法特征之外,还兼顾了词的语义特征。语素...原创 2018-09-11 16:42:29 · 698 阅读 · 0 评论 -
《NLP汉语自然语言处理原理与实践》学习一
中文语言的机器处理直观上,一个自然语言处理系统最少三个模块:语言的解析、语义的理解及语言的生成。计算机处理自然语言最早应用在机器翻译上,此后在信息检索、信息抽取、数据挖掘、舆情分析、文本摘要、自动问答系统等方面都获得了很广泛的应用。虽然已经产生了许多专业技术作用域语言理解的不同层面和不同任务,例如,这些技术包括完全句法分析、浅层句法分析、信息抽取、词义消歧、潜在语义分析、文本蕴含和指代...原创 2018-09-09 16:12:27 · 1976 阅读 · 0 评论 -
《NLP汉语自然语言处理原理与实践》学习二
汉语语言学研究回顾汉语属于汉藏语系,与世界各国广泛使用的拼音文字相比,它更像一种古老的孤立语言。无论从字符的结构和形式上都显得特立独行。这是中华民族独特的地理位置和长期统一的发展历程所决定的。虽然,汉语在历史上先后吸收和同化了匈奴、鲜卑、突厥、契丹、满、蒙古、梵语等语言中的许多成分,但是两千多年来,汉语特有的符号化表现形式却一直没有改变过。从记事谈起大量的考古事实证明,文字的产生从氏族...原创 2018-09-10 19:02:22 · 1087 阅读 · 0 评论 -
《NLP汉语自然语言处理原理与实践》学习四
语法组块标注法国的著名语言学家Steven Abney最早提出了一个完整的组块(Chunk)描述体系,并给出了组块的定义。他把组块定义为句内的一个非递归的核心成分。这种成分包含核心成分的前置修饰成分,而不包含后置附属结构。同时,Abney还提出了组块解析的策略,通过引进句法块(Chunk)概念,他将句法分析问题分为如下三个阶段: 块识别:利用块识别器快速识别出句子中所有的块。 ...原创 2018-09-14 13:33:51 · 1423 阅读 · 0 评论