
自然语言处理算法
文章平均质量分 57
jmschentt
这个作者很懒,什么都没留下…
展开
-
IKAnalyzer解读
一、IKanalyzer简介IK analyzer是lucence的中文分词部件。主要才用了正向最大匹配算法(词典 + 文法分析),即从左到右进行最大匹配,支持中、日、韩、英文处理。其处理流程如下图所示。预处理主要是对输入文本进行必要的处理,比如大小写转换,全、半角转换。它主要有三个分词器:CJK分词器(处理中、韩文)、量词分词器(处理数字与量词单位的组合,如“一丈”)、英文分词器(处理英文及原创 2016-07-01 10:24:16 · 3484 阅读 · 0 评论 -
摘自命名实体识别类论文
一、简介1995年命名实体识别由第六届消息理解会议第一次引入,主要任务是自动识别出文本中出现的命名性指称和有意义的数量短语并加以归类,包括三大类(实体类、时间类、数字类)、七小类(人名、地名、机构名、时间、日期、货币、和百分比),其中时间、日期、货币和百分比的构成有明显的规律,相对容易识别和分类,因此主要针对人名、地名、机构名这三类命名实体开展研究工作。1、命名实体识别在信息抽取中的作用原创 2016-07-04 15:31:46 · 4396 阅读 · 0 评论 -
NLP学习笔记01
简介NLP就是计算机使用自然语言作为输入和输出,让电脑与人进行沟通的中间步骤,大致可分为:机器翻译,信息提取,文本归纳,对话系统...语言模型我们有有限个数的词汇无限个数的句子,有词汇自由组成,而语言模型就是判断这个句子是否像人说的话,对于计算机来讲很难,所以用概率分布来体现一个句子的正确性:其中是所有句子的集合比较典型的有马尔科夫模型、隐马尔可夫模型、条件随机场等原创 2016-07-06 14:32:11 · 326 阅读 · 0 评论 -
汉语命名实体识别训练语料自动构建
一、基于双语平行语料的命名实体训练数据生成1.1 利用现有的高质量的英语命名实体识别系统在篇章级对齐的双语语料的英语端识别出英文命名实体,然后通过词对齐信息将英文命名实体边界和标签映射到汉语端,生成汉语的命名实体标注候选,最后过滤生成汉语命名实体训练语料。(1) 双语对齐:包括句对齐和词对齐a、使用Champollion对篇章级对齐的英汉双语语料进行句子级对齐b、使用G转载 2016-07-05 10:27:45 · 6821 阅读 · 2 评论 -
命名实体识别调研01
简介命名实体识别是信息提取、问答系统、句法分析、机器翻译、面向Semantic Web的元数据标注等应用领域的重要基础工具,在自然语言处理中走向实用化过程中占有重要地位。一般来说,命名实体识别的任务就是识别出待处理文本中三大类(实体、时间、数字)、七小类(人名、地名、机构名、时间、日期、货币和百分比),其中人名、地名、组织机构是最常用到的三种。命名实体的过程通常包括两部分:1)实体原创 2016-07-07 09:20:32 · 3030 阅读 · 0 评论 -
基于统计的命名实体识别特征选择
参考论文:中文命名实体识别力度和特征选择研究---哈工大201006原创 2016-07-07 15:52:43 · 1260 阅读 · 0 评论 -
细粒度命名实体识别
简介对于一个已识别出的命名实体,可能属于多个不同粒度的类别,比如“高加索牧羊犬”可能属于的类别包括“狗”、“犬科动物”、“动物”等。命名实体的上位词(Hypernym)指示了其类别,上述的“狗”、“犬科动物”、“动物”都是“高加索牧羊犬”的上位词。目前被广泛使用人工构建的语义词典中就有这样的上下位关系,比如英文的WordNet、汉语的知网、同义词词林(扩展版)。但是这些词典资源有限,很多研原创 2016-07-07 18:58:40 · 4810 阅读 · 0 评论