
问答系统
勤劳的凌菲
Try my best! Do myself~~
展开
-
CUDA ERROR: device-side assert triggered问题解决思路
这个问题很可能是代码有问题,先排查错误step1在environment variable中添加:CUDA_LAUNCH_BLOCKING=1这样更容易定位到出现问题的地方step2再排查报错附近的原因,就在报错附近。我今天处理NLP,出现该问题的原因是:词的索引> embedding层词量...原创 2020-01-10 16:06:57 · 11952 阅读 · 3 评论 -
词向量相关总结
最近准备把词向量相关知识串一下,会持续更主要参考:https://zhuanlan.zhihu.com/p/95304317unigram模型:所有的词都是相互独立的P(w1,w2,...,wn)=∏i=1nP(wi)P(w_1,w_2,...,w_n)= \prod_{i=1}^n P(w_i)P(w1,w2,...,wn)=i=1∏nP(wi)bigram模型:每一个词...原创 2019-12-18 14:52:55 · 544 阅读 · 0 评论 -
ABCNN: Attention-Based Convolutional Neural Network for Modeling Sentence Pairs论文解读
发表时间:2015论文链接:https://arxiv.org/pdf/1512.05193.pdf开源代码:https://github.com/galsang/ABCNN (tensorflow) https://github.com/lsrock1/abcnn_pytorch (pytorch)代码语言:python适用: Answer Slection(AS) paraphra...原创 2019-11-26 15:15:44 · 811 阅读 · 0 评论 -
填槽(Slot Filling)
转自:https://blog.youkuaiyun.com/u010159842/article/details/80759428写到这吐槽下,本来只是想写下填槽的过程,后来发现这东西不理解chatbot的对话系统的话,没法讲,看的人很容易一头雾水。还是先简单讲下对话系统,然后再细讲填槽。所以不知道填槽是啥往下没事,先往下看。一、Chatbot对话系统的过程对话系统还有很多要讲,但是今天的主角是填...转载 2018-11-15 09:16:36 · 5607 阅读 · 0 评论 -
拼写纠错杂记
因最近在做语音问答系统,语音识别系统暂时调用大佬公司的API接口,试着针对我们垂直领域的问题测试了一批语音识别的效果,正确错误的各一半一半,错误有三种情况:1)只识别到小部分录入内容;2)识别内容完整,但是包含错词;3)识别的文字跟录入的内容毫无关系。第三种情况占比较少,前两种情况大概各一半一半。不是大佬公司的语音识别模块做得不好,可能是因为我们专业领域中有些词不是常用词吧。针对前两种情况,我...原创 2018-11-23 10:21:57 · 1061 阅读 · 3 评论 -
Enhanced Network Embeddings via Exploiting Edge Labels笔记
因为要做KBQA,最近会看一些知识图谱相关的论文,这篇论文是network embeddings类看的第一篇,理解难免有误,望大佬指正。原文链接:https://arxiv.org/abs/1809.05124?context=physics.soc-ph摘要Network Embedding 的工作就是学习得到低维度的向量来表示网络中的结点,低维度的向量包含了结点之间边的复杂信息。...原创 2018-12-21 11:27:31 · 563 阅读 · 0 评论 -
AnyQ编译问题
系统:ubuntu 16.04问题一:CMakeFiles/extern_paddle.dir/build.make:111: recipe for target ‘third_party/paddle/src/extern_paddle-stamp/extern_paddle-build’ failed解决方案:所有重新编译,用 make -i 代替 make问题二:Linking ...原创 2018-12-28 14:53:46 · 2154 阅读 · 7 评论 -
kenlm c++
系统ubuntu编译问题按照官网给的编译方案,会在build/lib 下生成四个.a静态文件,将这四个文件通过target_link_libraries 添加在工程后,虽然include没有问题,但是加载模型时会报一堆的model.cc原创 2019-03-13 16:36:00 · 1487 阅读 · 0 评论 -
隐马尔可夫(HMM)、前/后向算法、Viterbi算法
转自:https://www.cnblogs.com/sddai/p/8475424.htmlHMM一直想彻底弄明白,这篇文章较为通俗易懂,留下来多看几遍HMM的模型 图1如上图所示,白色那一行描述由一个隐藏的马尔科夫链生成不可观测的状态随机序列,蓝紫色那一行是各个状态生成可观测的随机序列话说,上面也是个贝叶斯网络,而贝叶斯网络中有这么一种,如下图:代表:c确定时a和b独立。(c为...转载 2019-04-17 09:24:24 · 1218 阅读 · 3 评论 -
few-shot learning几篇论文
Prototypical Networks for Few-shot Learning论文链接:https://arxiv.org/abs/1703.05175开源代码:https://github.com/jakesnell/prototypical-networks发表时间:2017年6月该论文属于metric_based论文中心思想:经过神经网络学会一个映射,将所有样本映射到同一...原创 2019-05-23 10:46:04 · 2370 阅读 · 0 评论 -
问答系统论文小记
此部分慢慢添加Improving Response Selection in Multi-turn Dialogue Systems by Incorporating Domain Knowledge发表时间:2018解决问题:基于检索的多轮对话答案选择基本思想:将上下文和答案分别采用GRU进行编码,为了选出对上下文有贡献的答案中的词以及选出对答案有贡献的上下文语句,因此加入了注意力...原创 2019-06-18 16:29:30 · 876 阅读 · 4 评论 -
Convolutional Neural Network Architectures for Matching Natural Language Sentences论文笔记
发表时间:2015年论文链接:https://arxiv.org/abs/1503.03244v1代码链接:http://nlp.stanford.edu/˜socherr/classifyParaphrases.zip代码语言:matlab摘要较好的匹配算法能够同时为句子内部结构和句子间的交互信息建模。本文提出的模型通过逐层构图和合并充分表达句子的层次信息,而且能够在不同的层次捕捉...原创 2019-09-04 14:10:10 · 1300 阅读 · 0 评论 -
Task-oriented Dialogue System for Automatic Diagnosis论文笔记
发表时间:2018论文链接:https://www.aclweb.org/anthology/P18-2033代码:https://github.com/LiuQL2/MedicalChatbot代码语言:python摘要本文构建了一个用于自动诊断的对话系统。首先,从线上医学论坛上病人的自述以及病人医生间的交谈中提取症状,从而构建数据集;然后,本文提出了用于自动诊断的任务型对话系统框...原创 2019-09-05 11:31:01 · 1330 阅读 · 0 评论 -
Rasa_NLU及Rasa_NLU_Chi本地代码调试
前言自然语言理解(NLU)是任务型对话系统等更高级应用的基石,基本的NLU工具,包括实体识别和意图识别两个任务。已有的NLU工具,大多是以服务的方式,通过调用远程http的restful API来对目标语句进行解析完成上述两个任务。对于对数据比较敏感的用户来讲,开源项目Rasa_NLU可以本地部署,也可以针对实际需求训练和调整模型。Rasa_NLU只支持英语和德语两种语言,中文因为其特殊性需...原创 2018-11-16 17:42:48 · 3008 阅读 · 6 评论 -
理解GloVe模型(+总结)
概述模型目标:进行词的向量化表示,使得向量之间尽可能多地蕴含语义和语法的信息输入:语料库输出:词向量方法概述:首先基于语料库构建词的共现矩阵,然后基于共现矩阵和GloVe模型学习词向量。*开始 -> 统计共现矩阵 -> 训练词向量 -> 结束统计共现矩阵设共现矩阵为X,其元素为Xi,j。Xi,j的意义为:在整个语料库中,单词i和单词j共同出现在一个窗口中的次数。...转载 2018-11-01 10:24:20 · 990 阅读 · 2 评论 -
Tencent_AILab_ChineseEmbedding.txt使用
正在做问答系统,看到腾讯正式开源一个大规模、高质量的中文词向量数据集Tencent_AILab_ChineseEmbedding.txt,简直喜极而泣。下载地址:https://ai.tencent.com/ailab/nlp/embedding.html ,里边有对数据集的介绍还有论文的下载地址。迅速写了一个代码,用在我自己的问答系统中,效果嘛还在训练,初始几步的loss确实比之前随机初始化下...原创 2018-10-19 16:21:20 · 7956 阅读 · 10 评论 -
自然语言处理之Bag-of-words,TF-IDF模型
转自:https://blog.youkuaiyun.com/m0_37744293/article/details/78881231Bag-of-words,TF-IDF模型Bag-of-words model (BoW model)忽略文本的语法和语序,用一组无序的单词(words)来表达一段文字或一个文档,近年来BoW 模型被广泛应用于计算机视觉中,与应用于文本的BoW 类比,图像的特征(fea...转载 2018-09-13 15:02:31 · 675 阅读 · 0 评论 -
语音问答系统调研
因工作需要,准备开始做语音问答系统,之前对语音和自然语言处理(NLP)没接触过,所以开头还是很难的,历时两周做了一个大概的了解,适合像我这样的新手入门,里边借鉴了n多大神的内容,并给出了讲得比较好的网页、课程等等,如侵权请联系删除。。。一 对话系统框架二 调研内容语音识别-- Speech Recogniton, SR 闲聊型问答系统--Chitchat-bot 知识库...原创 2018-09-14 13:36:41 · 2386 阅读 · 1 评论 -
Discriminative Information Retrieval for Question Answering Sentence Selection论文笔记
原文下载地址摘要该算法提出场景:text-based QA,即给定一段文字说明,提出问题,从文字说明中找出相应答案作答。text-based QA算法的主要步骤包含三个:1)获取可能包含答案的段落;2)候选段落的重排;3)提取信息选择答案本文的算法主要是解决第一个步骤算法算法主要框架: 预处理:将文字说明切成一...原创 2018-10-11 09:42:34 · 370 阅读 · 0 评论 -
自然语言处理中的自注意力机制(Self-attention Mechanism)
转自:https://www.cnblogs.com/robert-dlut/p/8638283.html近年来,注意力(Attention)机制被广泛应用到基于深度学习的自然语言处理(NLP)各个任务中,之前我对早期注意力机制进行过一些学习总结(可见http://www.cnblogs.com/robert-dlut/p/5952032.html)。随着注意力机制的深入研究,各式各样的att...转载 2018-09-21 09:50:02 · 2147 阅读 · 0 评论 -
Gated Self-Matching Networks for Reading Comprehension and Question Answering论文笔记
原文下载链接摘要检索式问答系统试图从文档中获取问题的答案。一般步骤是先从一众文档中检索相关文档,然后再进一步检索文档回答问题。本文解决的是后一步,即阅读理解式的问答系统。文章基于端到端的多层神经网络模型从篇章中获取答案。模型分为四部分:一是使用多层双向神经网络编码问题和篇章的语义向量表示;二是使用门注意力机制得到问题感知的篇章的语义向量表示;三是通过 Self-Matching 注意力...原创 2018-10-12 15:07:18 · 969 阅读 · 0 评论 -
记忆网络Memory Network
今天看的文章主要涉及记忆网络,其他并无新意,所以就懒得自己写了,直接转载容易理解的博文。作者:北邮张博 来源:优快云 原文:https://blog.youkuaiyun.com/irving_zhang/article/details/79094416?utm_source=copy 在本专栏的第一篇文章对话系统综述中提到,seq2seq中的记忆依靠rnnCell或者lstmCell实现,但是...转载 2018-10-15 11:41:29 · 1100 阅读 · 0 评论 -
自然语言处理-BM25相关度打分
转自:https://blog.youkuaiyun.com/weixin_41090915/article/details/79053584自然语言处理-BM25相关度打分(注:文中大写Query、Document等代表集合,小写query、document等代表集合中的个体)一、优缺点适用于:在文档包含查询词的情况下,或者说查询词精确命中文档的前提下,如何计算相似度,如何对内容进行排序。...转载 2018-09-30 10:16:42 · 2039 阅读 · 0 评论 -
对话语料库
用于训练中英文对话系统的语料库 Datasets for Training Chatbot System用于对话系统的中英文语料 本项目收集了一些从网络中找到的用于训练中文(英文)聊天机器人的对话语料 公开语料搜集到的一些数据集如下,点击链接可以进入原始地址dgk_shooter_min.conv.zip 中文电影对白语料,噪音比较大,许多对白问答关系没有对应好The NUS S...转载 2018-10-09 09:39:55 · 1506 阅读 · 0 评论 -
AliMe Chat: A Sequence to Sequence and Rerank based Chatbot Engine论文笔记
摘要阿里小蜜是开放域的问答系统,是检索式问答系统和生成式问答系统的结合体。框架直接上流程图,比较清晰用户输入一个问题q,先采用IR(Information Retrieval)模型检索出一些数据库中的QA对作为候选,然后采用attentive Seq2Seq模型对上述检索出的候选答案进行重新排序,如果排名第一的候选答案的得分高于某个阈值,将此答案作为标准答案输出,否则输出基于a...原创 2018-09-30 10:40:53 · 863 阅读 · 0 评论 -
A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings论文笔记
回看前几篇笔记发现我剪贴的公式显示很乱,虽然编辑时调整过了,但是不知道为什么显示的和编辑时的不一样,为方便大家的阅读,我开始尝试着采用markdown的形式写笔记,前几篇有时间的话再修改。这篇论文阅读完,我依然有很多不懂的地方,对其操作不是很清晰,因为我没做过这方面的内容,且近期估计没时间学习其项目,所以记录理解的可能有误,希望大家带着思考阅读。PS:感觉这篇文章的作者是这个方向的大神呢,引...原创 2018-10-16 11:39:29 · 1314 阅读 · 1 评论 -
Lingke: A Fine-grained Multi-turn Chatbot for Customer Service
最近做问答系统领域,要求自己每天读一篇论文,为帮助自己理解和记忆,将要点记录在博客上 摘要机器人类型:信息检索型机器人(给一段资料回答问题) 特色功能:1)基于给定的产品说明书回答问题;2)能够应对多轮对话方案流程 ...原创 2018-10-10 08:51:42 · 454 阅读 · 0 评论 -
Question Retrieval with Distributed Representations and Participant Reputation in Community QA论文笔记
原文下载地址摘要社区问题的难点在于:重复性问题 解决上述问题要采用Query retrieval(QR),QR的难点在于:同义词汇 本文算法:1)采用continuous bag-of-words(CBoW)模型对词(word)进行 Distributed Representations(分布式表达,词嵌入);2)对given query和存档的query计算tile域和descrip...原创 2018-10-10 10:17:35 · 370 阅读 · 0 评论 -
[NLP] 秒懂词向量Word2vec的本质
转载请『保留此声明』,并注明来自公众号『数据挖掘机养成记』及作者『穆文』】[NLP] 秒懂词向量Word2vec的本质 1. 引子 2. Word2vec参考资料总结 3. 正文 3.2.1 Skip-gram 和 CBOW 的简单情形 3.1. 什么是 Word2vec? 3.2. Skip-gram 和 CBOW 模型 ...转载 2018-09-06 09:37:58 · 692 阅读 · 0 评论