统计自然语言处理学习笔记(1)

本文探讨了中文分词技术及自然语言处理(NLP)领域的重要概念,包括语料库、词性标注、词干提取等,并解释了诸如先验概率、后验概率等统计学概念在NLP中的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

 自然语言处理专业英语

     学习和研究中文分词问题,引起了我对中文分词的极大兴趣,甚至到了无法自拔的地步.我非常希望,能够通过自己的学习和研究,自己开发一套高性能的中文处理系统.但越学习越深入,越发现自己的知识的缺乏.熟练掌握一门编程语言是最基本的,另外涉及到概率论、统计和语言学、汉字编码等诸多复杂问题。因为这些问题同时也是国际上的热点问题,在学习这些内容时不可避免的要遇到一些英语问题。本文将最近所遇到的该领域的专业英语及其含义做一个简单的小结,列举如下。

    corpus  语料库。其本义是尸体、文集的意思。记住哦,在统计自然语言处理领域它是语料库的意思。它是文本的集合,这里的“文本”通常是指文本文件,如记事本及其内容。为了便于理解和统计的方便,人们通常会把词汇信息存储在这样的文本中。多个文本便构成一个语料库了。

   corpora 语料库集合。它是语料库corpus的复数形式,顾名思义,是指多个文本集合的集合,即多个语料库的集合。

   lingusitic competence 语言能力。反映了母语说话者脑海中假设存在的语言结构知识。

  linguistic performance 语言性能。它受一系列事物的影响,例如记忆的局限性和环境的传递噪音。

  parse 语法分析。给定一个合理的语法,对一个标准的自然语句进行句法分析,句法分析的结果就是parse。

  Wordnet 词网。是一个英语电子词典。词汇被组织到一个网络层次中。每个节点由相近意思的词集组成。

  word token 词次。指文本的长度,例如在某个语料库中,其文本包含有71370个词次(token)。

  word type 词形。指文本中出现多少个不同单词的个数(在英文中是这样,在中文中有所区别)。

 根据token和type,我们可以计算其比值,他表示每个type出现的平均次数。

  hapax legomena 罕用语。它是希腊语,表示预料库中只出现一次的单词。

  bigram 二元组。

 KWIC  Keyword In Context。上下文关键词。人们通常用上下文关键词索引程序来产生数据表示,在这样的表示中,所有出现的词汇都被列出,并且词的上下文环境也分别列在它的左右两边。

 prior probability 先验概率。

 posterior probability 后验概率。

 binomial distribution 二项分布。

 Bayes optimal decision 贝叶斯最优决策。

 mutual information 互信息。

 capacity 信道容量。

 Perplexity 混乱度。在语音识别领域中,人们通常用混乱度而不是交叉熵来描述一个模型的好坏。

 parts of speech ,POS 词性。通常说来词性有三类:名词、动词、形容词。

  n-gram n元语法模型。即马尔可夫模型。

  stemming 词干化,取词根。

  dictionary-based disambiguation 基于词典的消歧。

  function fitting 函数拟合,就是说基于一些数据点推断出函数的形态。

  Hidden Markov Model, HMM。 隐马尔可夫模型。

  rule based 基于规则

  corpus based 基于语料库。

  conditional probability 条件概率

  transitive probability 转移概率

  neighboring pairs of words 词语接续对。

  maximum likehood estimation 最大似然估计

  data sparse 数据稀疏

 在后面的学习中,对于碰到的比较重要的词将继续补充。。。。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值