
机器学习
文章平均质量分 90
Ted_Li
啦啦啦
展开
-
深度学习中的正则化(Regularization)
一、Bias(偏差) & Variance(方差)在机器学习中,这两个名词经常让我们傻傻分不清。我们不妨用案例来看看怎么区分。假设我们正在做一个分类器,分别在训练集和验证集上测试,以下为四种可能的情况:可见①、④两种情况的训练集误差都很小,接近optimal error,这种就称为low bias。说明训练的很到位了。相反,②、③两者的训练集误差很大,这就称为high b...转载 2020-01-16 10:27:11 · 748 阅读 · 1 评论 -
智能客服FAQ知识点挖掘一般方法
一般来说,智能客服有3个功能实现:QABot,TaskBot,ChatBot。其中QAbot中包括FAQ,KBQA。这里我来谈一下FAQ中知识点的一般方法吧。一般来说,最开始产品经理会结合业务知识和经验,人工的总结出一些常见的标准问题和答案对,同时会做一些问句改写的工作。一般来说,一个标准问会写个3-5个相似问法,Q-Q paire是业内的通用做法,至于为什么这么做,请参考https://...原创 2019-08-06 23:02:56 · 2048 阅读 · 0 评论 -
NLP中一些简单的数据增强技术
ICLR 2019 workshop 论文《EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks》介绍了几种NLP数据增强技术,并推出了[EDA github代码](http://github.com/jasonwei20/eda_nlp)。EDA github re...转载 2019-04-25 19:53:19 · 5473 阅读 · 0 评论 -
信息检索(IR)常用评价指标计算方式(AUC,MAP,NDCG,MRR,Precision、Recall、F-score)
1.AUC(Area Under Curve)ROC曲线下方的面积大小,由于ROC曲线一般都处于y=x这条直线的上方,所以AUC的取值范围在0.5和1之间。使用AUC值作为评价标准是因为很多时候ROC曲线并不能清晰的说明哪个分类器的效果更好,而作为一个数值,对应AUC更大的分类器效果更好。首先AUC值是一个概率值,当你随机挑选一个正样本以及一个负样本,当前的分类算法根据计算得到的Score...转载 2019-02-24 23:46:37 · 4731 阅读 · 0 评论 -
nlp年度论文总结
这个缩写,代表“通用语言模型的微调”,出自ACL 2018论文:Universal Language Model Fine-tuning for Text Classification。详细的说明可以读他们的论文:https://arxiv.org/abs/1801.06146Fast.ai网站上放出了训练脚本、模型等:http://nlp.fast.ai/category/classif...转载 2018-12-28 23:05:13 · 1311 阅读 · 0 评论 -
NLP学习笔记
计算相似度的方法 度量文本相似度包括如下三种方法:一是基于关键词匹配的传统方法,如N-gram相似度;二是将文本映射到向量空间,再利用余弦相似度等方法;三是深度学习的方法,如基于用户点击数据的深度学习语义匹配模型DSSM,基于卷积神经网络的ConvNet,以及目前state-of-art的Siamese LSTM等方法。1) 字面距离莱文斯坦距离(编辑距离)、Jaro...转载 2018-12-27 10:15:56 · 387 阅读 · 0 评论 -
rasa安装和测试
rasa core:对话管理rasa nlu :语义理解,意图识别和实体识别 git源地址参考:https://github.com/tedljw/rasa_test_ch 1. 安装相关组件包pip install rasa_nlu==0.13.4pip install rasa_core==0.11.4pip install rasa_core_sdk==0....原创 2018-12-20 15:13:02 · 4811 阅读 · 2 评论 -
智能客服FAQ问答任务的技术选型探讨
引子在智能客服的业务场景中,对于用户频繁会问到的业务知识类问题的自动解答(以下简称为FAQ)是一个非常关键的需求,可以说是智能客服最为核心的用户场景,可以最为显著地降低人工客服的数量与成本。比如10086的在线智能客服,用户提问“如何查询话费”,那系统可以自动给出一个对应的知识“请您向10086号码发送‘HF’短信,即可查询当前话费”,而不再需要耗费高成本的人力来做解答。本文要讨论的就...转载 2018-11-26 11:33:18 · 4428 阅读 · 2 评论 -
智能问答中Answer seletcion的一些总结
传统做法:1.直接根据关键词检索或 BM25 等算法计算相关性排序缺点:需要维护大量的同义词典库和匹配规则 机器学习做法:1.潜在语义分析技术(Latent Semantic Analysis,LSA):将词句映射到低维连续空间,可在潜在的语义空间上计算相似度。2.PLSA(Probabilistic Latent Semantic Analysis)或者LDA(Lat...原创 2018-11-17 17:27:42 · 2374 阅读 · 0 评论 -
CRF与LSTM在序列标注问题上的不同
标注跟分类最大的区别就是:标注采的特征里面有上下文分类结果,这个结果你是不知道的,他在“分类”的时候是跟上下文一起"分类的"。因为你要确定这个词的分类得先知道上一个词的分类,所以这个得整句话的所有词一起解,没法一个词一个词解。而分类是根据当前特征确定当前类别,分类的时候不需要考虑上下文的分类结果,但可以引入上下文的特征。LSTM:像RNN、LSTM、BILSTM这些模型,它们在序列建模上很...转载 2018-10-20 16:51:17 · 2008 阅读 · 0 评论 -
centos7安装NVIDIA driver,cuda,cudnn,anaconda
系统版本系统版本可能需要:yum install kernel-develyum install kernel-headersyum install gccyum install gcc-c++ 一、安装英伟达显卡驱动:ELRepo 源中包含了一系列驱动程序。添加 ELRepo 源:sudo rpm --import https://www.el...原创 2018-10-19 14:20:50 · 3811 阅读 · 0 评论