
nlp
咆哮蜗牛
这个作者很懒,什么都没留下…
展开
-
语言模型 Language Modeling
1、语言模型的定义 : 符号含义: V-->语言中所有单词的集合,且为有限集; -->语言中的句子,且n>=1,,为特殊符号STOP(假设STOP不在V中); -->有限集V上的所有句子的集合,为无限集,包含只有一个特殊符号STOP的句子。 正式定义: 语言模型由有限集V和概率函数组成,且满足,原创 2013-05-09 15:33:33 · 3583 阅读 · 0 评论 -
自然语言处理术语 NLP术语
AI (artificial intelligence) 人工智能anaphora 照应语:如 it,these people,the target genesantecedent 先行词:照应语所指代的词apposition 同位语:Lily,a seven-year-old girl,obtains the first place in the competition。Lily原创 2013-05-10 11:04:30 · 2309 阅读 · 0 评论 -
The PennTreebank POS tagset
1.CC Coordinating conjunction(并列连词) 25.TO to 2.CD Cardinal number(基数) 26.UH Interjection(感叹词)3.DT Determiner(限定词) 27.VB Verb, base form(动词原形)4.EX E原创 2013-05-11 19:06:38 · 2215 阅读 · 0 评论 -
词汇化概率上下文无关文法 Lexicalized PCFGs
PCFGs:Probabilistic Context-Free GrammarsLexicalized PCFGs:Lexicalized Probabilistic Context-Free Grammars1、PCFGs的缺点: 1)对词汇信息不敏感:句法树只和POS有关,和句子中的单词无关;无法在使用相同规则的句法树中择优; 2)对结构偏好不敏感:有些结构更原创 2013-05-09 18:24:40 · 4742 阅读 · 0 评论 -
自然语言和机器学习笔记
信息熵(Information Entropy) 信息熵是衡量分布的混乱程度或分散程度的一种度量。分布越分散(或者分布越平均),信息熵就越大。分布越有序(或者说分布越集中),信息熵就越小。 计算给定的样本集X的信息熵的公式:Entropy(X) = ∑-pi log2pi 信息熵越大表示样本集S分类越分散,信息熵越小则表明样本集X分类越集中。当S中n个分类出现的概原创 2013-06-19 10:30:31 · 1377 阅读 · 0 评论 -
初学者如何查阅自然语言处理(NLP)领域学术资料
昨天实验室一位刚进组的同学发邮件来问我如何查找学术论文,这让我想起自己刚读研究生时茫然四顾的情形:看着学长们高谈阔论领域动态,却不知如何入门。经过研究生几年的耳濡目染,现在终于能自信地知道去哪儿了解最新科研动态了。我想这可能是初学者们共通的困惑,与其只告诉一个人知道,不如将这些Folk Knowledge写下来,来减少更多人的麻烦吧。当然,这个总结不过是一家之谈,只盼有人能从中获得一点点益处,受个转载 2013-08-03 11:39:40 · 1528 阅读 · 0 评论 -
自然语言处理缩写词_NLP缩写词_术语解释
NLP:Natural Language Processing,自然语言处理Anaphora Resolution:the problem of resolving what a pronoun, or a noun phrase refers toAnaphora 回指,亦称指示性指代:所谓回指是当前的指示语与上下文中出现的词、短语、句子(句群)存在密切的语义关联;Coreferen原创 2013-05-10 13:40:59 · 4515 阅读 · 1 评论 -
层次聚类的具体实现 Hierarchical clustering implementation
Single linkage(nearest neighbor):两个簇中最近的对象的距离为簇之间的距离;Complete linkage (furthest neighbor):两个簇中最远的对象的距离为簇之间的距离;Group average linkage:两个簇中对象的平均距离为簇之间的距离;原创 2013-10-21 10:25:15 · 1905 阅读 · 0 评论