
NLP
文章平均质量分 60
dqjyong
这个作者很懒,什么都没留下…
展开
-
统计自然语言处理基础学习笔记(1)
理性主义者使用一种理性主义方法,它由一种信仰决定的,人们相信人类大脑中重要的知识不是由感官得到的,而是提前固定在头脑中,由遗传基因决定。该思想的遵循了Chomsky(乔姆斯基)提出的关于语言本能的观点。对人工智能研究的影响:研究人员试图建立一个能够通过手工编码大量的先验知识和推理机制的智能系统,复制出人类大脑中的语言能力。 经验主义者使用经验主义方法,同样假设大脑中存在某些认知原创 2012-12-07 15:15:27 · 2275 阅读 · 0 评论 -
统计自然语言处理基础学习笔记(6)——马尔可夫模型
前面已经学习完词法,现在就可以学习语法了。语法学习中比较常用的是马尔可夫模型,然后进行词性标注,接着采用概率上下文无关文法学习人们说话的方式存在的一些结构和规则,最后采用概率句法分析来识别出高层次的结构但愿来简化句子的描述,实现语块分析。下面先来介绍马尔可夫模型。 markov模型,具体来说是隐形马尔可夫模型已经成为现代语音识别系统中构建统计模型的重要手段,即使存在不足,但仍然原创 2012-12-26 15:43:30 · 3499 阅读 · 0 评论 -
统计自然语言处理基础学习笔记(2)——语料库
统计自然语言处理的主要需求包括计算机、语料库和软件。 基础知识: 1、计算机: 文本语料库通常都比较大,处理大量的文本需要相当多的计算资源。在早期的处理中,这是限制语料库运用的主要原因。统计自然语言处理方法不仅需要大量的空间来存储语料,而且经常需要从语料中收集大量的统计信息,所以要求计算机有比较快的存取速度。因此需要一台硬盘足够大,内存足够多的计算机。原创 2012-12-13 13:59:59 · 2632 阅读 · 0 评论 -
统计自然语言处理基础学习笔记(3)——统计推理
统计自然语言处理的目的就是针对自然语言领域进行统计推理。统计推理就是在统计概率的基础上进行预测,包括:1、数据处理,从而获得未知的概率分布;2、根据这些数据概率分布得到一些推论,并用于将来的预测。为了进一步分析统计推理,我们将该问题分析三个步骤进行阐述:1、将训练数据划分为等价类;2、为每一个等价类寻找一个好的统计估计;3、合并多个估计。一、为了能够将训练数据划分为等价类,我们首先需要构造等价原创 2012-12-13 18:18:33 · 3243 阅读 · 0 评论 -
统计自然语言处理基础学习笔记(4)——语义消除歧义
我们知道很多词语都有很多意思或语义,而在具体的语境中,词语有某种特定的意思。而独立于上下文来考虑词语意思,语义一般都会出现语义歧义。统计自然语言处理不得不考虑如何消除歧义问题。消除歧义的任务就是确定一个多义词在一个特定的语境中使用哪一种语义。通过考虑词汇使用的上下文完全可以确定其具体的语义。那么如何确定一个词汇具有的语义,以及从这些语义确定某一种具体的语义呢? 比较原创 2012-12-14 19:25:44 · 8864 阅读 · 0 评论 -
统计自然语言处理基础学习笔记(5)——词汇获取
由于语言中的新词和旧词的用法不断在变化,以及自然语言的多产性,因此我们经常感兴趣的大部分词的特性并没有被收录到电子词典中。即使今天可以编辑一个覆盖整个语言的词汇,大约一个月之后仍然会发现该词典的不完善,从而不能很好的描述当前的语言特性。因此,统计自然语言处理需要进行词汇获取这一步骤。词汇获取的目的是通过考察大型文本的语料库中词汇的出现模型,设计一种算法和统计技术来填补现有电子词典的不足。简而言之,原创 2012-12-19 15:55:37 · 2496 阅读 · 0 评论 -
统计自然语言处理基础学习笔记(7)——句法分析
在中文的自然语言处理种,句法分析是一个比较重要的部分。 句法分析,英文为Parsing,指对句子种的词语语法功能进行分析。一个完整的汉语句子,一般有主语、谓语、宾语,复杂一些的句子就会出现各种各样的依存关系,包括补语、定语、状语、并列、同位语、数量、介宾、连动、疑问连动、兼语、关联、重复、标点、的字结构、地字结构、语气、时态等。如果在中文语言处理过程中,我们可以准确无误的对句子分析出这些原创 2014-03-02 21:33:11 · 8245 阅读 · 0 评论 -
统计自然语言处理基础学习笔记(8)——文本分析
自然语言处理的目的是为了更好的分析人类语言,让机器能够理解人类的语言。随着互联网的兴起,人们越来越多的参与网络社区活动,人们在网络社区发言的机会越来越多,文本分析的需求也越来越迫切。而依靠人工去分析这样的海量文本,这是不现实,所以只有依靠机器来分析他们。这个领域即为文本分析,或者也称为文本挖掘。 现有的文本分析方法有两种: 1. 知识工程方法:借助于专业人员的知识来对某原创 2014-03-02 22:05:32 · 5134 阅读 · 0 评论