自然语言处理专业英语
学习和研究中文分词问题,引起了我对中文分词的极大兴趣,甚至到了无法自拔的地步.我非常希望,能够通过自己的学习和研究,自己开发一套高性能的中文处理系统.但越学习越深入,越发现自己的知识的缺乏.熟练掌握一门编程语言是最基本的,另外涉及到概率论、统计和语言学、汉字编码等诸多复杂问题。因为这些问题同时也是国际上的热点问题,在学习这些内容时不可避免的要遇到一些英语问题。本文将最近所遇到的该领域的专业英语及其含义做一个简单的小结,列举如下。
corpus 语料库。其本义是尸体、文集的意思。记住哦,在统计自然语言处理领域它是语料库的意思。它是文本的集合,这里的“文本”通常是指文本文件,如记事本及其内容。为了便于理解和统计的方便,人们通常会把词汇信息存储在这样的文本中。多个文本便构成一个语料库了。
corpora 语料库集合。它是语料库corpus的复数形式,顾名思义,是指多个文本集合的集合,即多个语料库的集合。
lingusitic competence 语言能力。反映了母语说话者脑海中假设存在的语言结构知识。
linguistic performance 语言性能。它受一系列事物的影响,例如记忆的局限性和环境的传递噪音。
parse 语法分析。给定一个合理的语法,对一个标准的自然语句进行句法分析,句法分析的结果就是parse。
Wordnet 词网。是一个英语电子词典。词汇被组织到一个网络层次中。每个节点由相近意思的词集组成。
word token 词次。指文本的长度,例如在某个语料库中,其文本包含有71370个词次(token)。
word type 词形。指文本中出现多少个不同单词的个数(在英文中是这样,在中文中有所区别)。
根据token和type,我们可以计算其比值,他表示每个type出现的平均次数。
hapax legomena 罕用语。它是希腊语,表示预料库中只出现一次的单词。
bigram 二元组。
KWIC Keyword In Context。上下文关键词。人们通常用上下文关键词索引程序来产生数据表示,在这样的表示中,所有出现的词汇都被列出,并且词的上下文环境也分别列在它的左右两边。
prior probability 先验概率。
posterior probability 后验概率。
binomial distribution 二项分布。
Bayes optimal decision 贝叶斯最优决策。
mutual information 互信息。
capacity 信道容量。
Perplexity 混乱度。在语音识别领域中,人们通常用混乱度而不是交叉熵来描述一个模型的好坏。
parts of speech ,POS 词性。通常说来词性有三类:名词、动词、形容词。
n-gram n元语法模型。即马尔可夫模型。
stemming 词干化,取词根。
dictionary-based disambiguation 基于词典的消歧。
function fitting 函数拟合,就是说基于一些数据点推断出函数的形态。
Hidden Markov Model, HMM。 隐马尔可夫模型。
rule based 基于规则
corpus based 基于语料库。
conditional probability 条件概率
transitive probability 转移概率
neighboring pairs of words 词语接续对。
maximum likehood estimation 最大似然估计
data sparse 数据稀疏
在后面的学习中,对于碰到的比较重要的词将继续补充。。。。