
NLP
文章平均质量分 91
Class_guy
目前对自然语言处理,问答系统和对话系统比较感兴趣。欢迎志同道合的朋友一起交流。
github:https://github.com/zhihao-chen
展开
-
文本分类特征选择方法
转载自:https://www.cnblogs.com/june0507/p/7601001.html-1. TF-IDF的误区TF-IDF可以有效评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。因为它综合表征了该词在文档中的重要程度和文档区分度。但在文本分类中单纯使用TF-IDF来判断一个特征是否有区分度是不够的。1)它没有考虑特征词在类间的分布。也就是说该选择的特征...转载 2018-07-23 22:03:40 · 3033 阅读 · 0 评论 -
可视化词向量-TSNE
可视化词向量的好处是可以验证训练的词向量的效果,常采用TSNE方法可视化。t-分布领域嵌入算法,它只用于已标注数据时才真正有意义,可以明确显示出输入的聚类状况。主要想法是将高维分布点的距离用条件概率来表示相似性,同时低维分布的点也是这样表示。只要二者的条件概率非常接近(用相对熵来训练,所以需要label),那就说明高维分布的点已经映射到低维分布上了。难点:1.高维距离较近的点...原创 2019-04-04 10:40:04 · 6518 阅读 · 1 评论 -
知识图谱随笔
知识图谱构建方式:自顶向下,自底向上自顶向下:先为知识图谱定义好本体与数据模式,再将实体加入到实体库。注意:此种方式需要利用一些现有的结构化知识库作为基础知识库。自底向上:从一些开放链接数据中提取出实体,选择其中置信度较高的加入到知识库,再构建顶层的本体模式。 行业知识库也称为垂直型知识库。 Extract KBs 涉及两个关键技术: 1.实体链接:...原创 2019-01-16 10:32:47 · 591 阅读 · 0 评论 -
简单的检索式问答系统
这是我之前做的一个小项目,趁现在有时间就把它拿出来记录一下。通过此项目,能够掌握以下几个知识点:字符串操作 2. 文本预处理技术(词过滤,标准化) 3. 文本的表示(tf-idf, word2vec) 4. 文本相似度计算 5. 文本高效检索简单的检索式的问答系统问答系统所需要的数据已经提供,对于每一个问题都可以找得到相应的答案,所以可以理解为每一个样本数据是 <问题、答案&g...原创 2019-01-15 20:50:31 · 7500 阅读 · 6 评论 -
对话系统笔记
单轮对话一、单轮对话指简单的一问一答,问题可以用一句话来描述,不依赖于上下文。如下图所示:对话交互中大大量的问题都是这样的单轮问答。一般这样的问答依赖于一个知识库/问答对集合。机器人从知识库里检索相似的问题,给出答案。二、单轮对话指标1、召回率召回率 = 机器人能回答的问题数 / 问题总数 召回率:机器人能答上来的问题越多,则召回率越高。会话没有召回可能...原创 2018-12-25 09:02:53 · 6434 阅读 · 1 评论 -
论文学习笔记:Building Task-Oriented Dialogue Systems for Online Shopping
首先,该篇论文是北航与微软小冰团队合作的,该对话系统旨在帮助网购用户完成各种与购物相关的任务,为用户推荐更多相关产品和产品信息,同时还支持闲聊。对话系统一般能分为两类:1、聊天型系统旨在与用户进行交谈,并提供有趣的,与上下文相关的合理回复。2、任务型系统旨在帮助用户完成特定任务目标(例如找餐厅)。 本文设计的是任务型对话系统,该系统由4部分组成:DS={QU,ST,DM,PKB...原创 2018-12-10 15:22:17 · 1162 阅读 · 2 评论 -
论文笔记:Emotional Chatting Machine: Emotional Conversation Generation with Internal and External Memory
总所周知,许多对话系统的回复都比较单调或中性,降低了对话体验。而且,情感智能是人工智能至关重要的一部分,它能够感知,识别,理解用户的情感,并依此调节自身情感,给出符合情绪的表达。该篇论文设计了一个情绪化的对话生成模型。该模型应用于开放领域对话系统,可以将情绪信息引入到对话生成模型中,根据情绪类别生成相应回复语句。模型接受单轮的对话上文,即可生成基于不同情绪类别的对话下文(也可以增加输入指定的情...原创 2018-12-15 17:16:30 · 4008 阅读 · 5 评论 -
个性化对话系统Personalization in Goal-oriented Dialog
地址:https://www.jianshu.com/p/c8149e3db9a2原创 2018-12-03 18:03:22 · 709 阅读 · 3 评论 -
知识图谱资料
知识图谱基础:https://www.jianshu.com/p/4f09043e22ea如何构建知识图谱:https://zhuanlan.zhihu.com/p/29332977?group_id=891668221558661120原创 2018-08-10 14:39:04 · 667 阅读 · 0 评论 -
知识库问答
Extracted KBs指直接从网页中抽取出实体关系三元组的知识库。Extracted KBs 知识库涉及到的两大关键技术是实体链指(Entity linking) ,即将文档中的实体名字链接到知识库中特定的实体上。它主要涉及自然语言处理领域的两个经典问题实体识别 (Entity Recognition) 与实体消歧 (Entity Disambiguation),简单地来说,就是要从文...原创 2018-08-10 14:28:40 · 4743 阅读 · 0 评论 -
问答系统综述
转载自:https://zhuanlan.zhihu.com/p/32214787研究的基本问题:对应流程中的三个过程有三个研究的基本问题:1.问题分析:如何去分析问题;2.信息检索:如何根据问题的分析结果去缩小答案 可能存在的范围;3. 答案抽取:如何从可能存在答案的信息块中抽取答案。在问答系统的不同发展阶段, 对于这三个基本问题的解决方法随着数据类型的变化在不断变化, ...转载 2018-08-09 13:47:28 · 25874 阅读 · 1 评论 -
笔记:关键词提取算法
关键词提取算法一般也能分为有监督和无监督。1、有监督的关键词提取算法主要是通过分类的方式进行的,通过构建一个较为丰富和完善的词表,然后通过判断每个文档与词表中每个词的匹配程度,以类似打标签的方式,达到关键词提取的效果。有监督的方法能够获取到较高的精度,但缺点是需要大批量的标注数据,人工成本过高。另外,会有大量的信息出现,一个固定的词表有时很难将信息的内容表达出来。2、而无监督的方法对数据要...原创 2018-07-26 22:36:47 · 2989 阅读 · 0 评论 -
笔记-分词
1、分词可分为三个流派:规则分词,统计分词, 混合分词。规则分词是通过人工设立词库,按照一定方式进行匹配切分,其实现简单高效,但对新词很难进行处理。随后统计机器学习技术的兴起,应用于分词任务上后,就有了统计分词,能够较好应对新词发现等特殊场景。然而实践中,单纯的统计分词也有缺陷,那就是太过于依赖语料的质量,因此实践中多是采用这两种方法的结合, 即混合分词。1.1 规则分词基于规则的分词...原创 2018-07-24 23:12:15 · 669 阅读 · 0 评论 -
特征选择
转载自:https://blog.youkuaiyun.com/adore1993/article/details/53980327什么是特征选择 特征选择也称特征子集选择,或者属性选择,是指从全部特诊中选取一个特征子集,使构造出来的模型更好。 为什么要做特征选择 在机器学习的实际应用中,特征数量往往较多,其中可能存在不相关的特征,特征之间也可能存在相互依赖,容易导致: ...转载 2018-07-23 22:05:53 · 561 阅读 · 0 评论 -
国内外知识库
英文:1.WordNet:依赖专家知识,由人工标注,将英文单词按照单词的语义组成一个大的概念网络。由同义词集和描述同义词集之间的关系构成。词语被聚类为同义词集,每个同义词集表示一个基本的词汇语义概念,词集之间的语义关系包括同义关系、反义关系、上位关系、下位关系、整体关系、部分关系、蕴含关系、因果关系、近似关系等。http://wordnet.princeton.com/2.Cyc/Open...原创 2019-08-18 21:51:39 · 1777 阅读 · 0 评论