- 博客(54)
- 资源 (16)
- 收藏
- 关注
原创 对比学习论文汇总
这里写自定义目录标题1、SimCSE: Simple Contrastive Learning of Sentence Embeddings1、SimCSE: Simple Contrastive Learning of Sentence Embeddings论文:https://arxiv.org/pdf/2104.08821.pdfcode: https://github.com/princeton-nlp/SimCSE思想:...
2021-08-19 11:40:59
320
原创 经典推荐算法
一、DIN论文:Deep Interest Network for Click-Through Rate Prediction作者:阿里妈妈1、贡献任务可以抽象为分类问题,输入是用户历史行为数据(点击,加入购物车等行为)和待预测商品,输出是用户点击该商品的概率。利用了用户兴趣多样性以及当前候选商品仅与用户一部分兴趣有关这一特点,引入了attention机制。工程优化上,引入了GAUC度量指标、Dice激活函数、自适应正则技术2、模型如下,右边就是DIN网络(深度兴趣网络),base 方案
2021-07-01 11:04:51
472
原创 激活函数
一、gelu论文:Gaussian Error Linear Units (GELUs)公式:f(x) = xΦ(x)其中Φ(x)表示高斯分布函数(是面积,不是概率密度),这样写是因为一般模型的参数是符合正太分布的,这样越小的参数越可能被dropout掉实际使用时的近似公式(bert):tf代码: 0.5x * (1.0 + tf.tanh((np.sqrt(2 / np.pi) * (x + 0.044715 * tf.pow(x, 3)))))原理解释:引入非线性,该激活函数是根据输入值
2021-04-09 12:45:33
217
原创 预训练模型
一、bert论文:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding代码:https://github.com/google-research/bert作者:google1、贡献提出一种双向语言模型,基于该预训练模型finetune后在各下游任务取得sota效果。模型结构图如下,包括两个任务,一个是MLM(mask language model),另一个是NSP任务(next sente
2021-04-09 11:44:47
5596
1
原创 MSE Loss,MAE Loss, 交叉熵 Loss的统计意义
MSE loss和MAE Loss经常用在回归问题。对于MSE Loss,如果相同的样本存在不同的label值(比如同一句话在不同场景下满意度可能是不同的),当预测值取这些样本label的平均值时,loss最小。这可以通过对loss对导数得到。对于MAE Loss,这是统计学中的『最小一乘线性回归』问题,如果相同的样本存在不同的label值,那么预测值取这些样本的label的中位数时候,loss最小。可以假定loss最小时,预测值 不是中位数,证明这个时候loss比中位数的loss大就行。对于交叉熵
2020-12-25 20:25:12
8545
1
原创 文本分类:[google]PRADO: Projection Attention Networks for Document Classification On-Device
可以参考对textcnn的改进点:每个kernel使用两只cnn,其中一只作为softmax计算另一支的attention,取代textcnn的max-pool
2020-10-24 18:20:55
343
原创 深度特征工程:[google]DCN-M: Improved Deep & Cross Network for Feature Cross Learning in Web-scale Learning
参考:https://mp.weixin.qq.com/s/0qidwbxyfTkODTw2DIiRWw代码1、贡献DNN在特征交叉学习上比较低效,DCN[1]可以高效的学习高阶的特征交叉,本文在DCN的基础上,提出一种改良版的DCN-M模型。2、回顾DCN的结构图中输入包括连续特征和向量, 模型分两支,一是DNN模型,一是Cross Net,最终两者的输出concat一起经过FFN输出。CrossNet的公式如下:公式的矩阵显示是:式中w和b都是d维向量,因此每增加一层增加2d个参数
2020-10-21 11:51:17
803
原创 多任务学习:Progressive Layered Extraction (PLE): A Novel Multi-Task Learning (MTL) Model for Personalized
出处:[腾讯]RecSys2020最佳长论文参考:https://mp.weixin.qq.com/s/IEtlu2AhvwI-W6lZY1j4NQ论文贡献论文对多任务学习方向,多个任务在NN模型中的架构形式做了探索。具体分为单层和多层两种结构,单层的几种结构如下:...
2020-10-14 11:01:27
6118
原创 《Baseline Needs More Love: On Simple Word-Embedding-Based Models and Associated Pooling Mechanisms》
出处: ACL20181. 贡献本文提出在词向量上进行简单的池化操作在文本分类/匹配任务上就可以得到跟CNN/RNN相当的效果。2. 方案1) SWEM-aver:整个句子的信息)2)SWEM-max:突出特征)3)拼接SWEM-aver和SWEM-max4 SWEM-hier(层次化)最大和平均池化没有考虑词序,这里引入层次化pooling。先作固定窗口的平均pooling,得到k个向量,然后对这k个向量做max-pooling。3. 解释SWEM-max和glove的各个纬度
2020-06-02 10:58:12
203
原创 《Dynamic routing between capsules》
paper:《Dynamic routing between capsules》出处: NIPS 2017作者:Hinton一、摘要
2020-02-22 21:08:50
652
原创 《Joint Slot Filling and Intent Detection via Capsule Neural Networks》
出处:ACL 2019一、摘要之前对于槽位填充和意图检测的工作都是将两者分开进行的,即使有同时进行的,也没有明显考虑word、slot和intent的层级关系。因此作者基于胶囊网络,提出一种带有重路由功能动态路由机制来联合进行槽位填充和意图检测工作。二、方法...
2020-02-16 21:14:52
971
原创 《Semantically Conditioned Dialog Response Generation via Hierarchical Disentangled Self-Attention》
来源:ACL 2019代码:https://github.com/wenhuchen/HDSA-Dialog摘要基于pipeline的任务型对话系统可以拆解成以下四个部分,其中NLU为意图槽位理解,DST为对话历史并能根据当前用户query更新状态,Policy learning为根据用户需求判断下一步action(也就是论文中提到的dialog act),NLG为对话生成。本论文目标是提高...
2020-02-16 11:32:09
850
原创 语料列表
MultiWOZ - A Large-Scale Multi-Domain Wizard-of-Oz Dataset for Task-Oriented Dialogue Modelling出处:EMNLP 2018描述:来自"绿野仙踪"的对话语料下载地址:http://dialogue.mi.eng.cam.ac.uk/ index.php/corpus/...
2020-02-15 20:52:09
255
原创 Efficient Large-Scale Neural Domain Classification with Personalized Attention
出处:ACL 2018摘要论文探索了在智能个人数字助理领域(IPDA)将用户口语输入映射到domain这个任务。主流的IPDA有很多第三方开发的domain,这在第一方domain的基础上大大提高了domain的丰富度。论文提出一种可以共享编码器且融合注意力机制的神经网络模型来解决这个问题,模型融合了个性化信息,并且可以高效适应不断增长的第三方domain,比完全重训取得量级上的加速。论文参照...
2020-01-20 13:14:20
270
原创 c++盲点
基于C++ 111.将vector转换为set std::set<std::string> my_set(my_vector.start(), my_vector.end())2. 将一个vector添加到另一个vector末尾 std::vector<int> src; std::vector<int> dst; dst.insert(dst.e...
2019-11-30 18:03:22
230
原创 《Proactive Human-Machine Conversation with Explicit Conversation Goals》
论文出处:ACL 20191. 摘要论文提出了一种基于知识图谱能主导对话的对话系统,并开源了对应的数据集DuConv。该数据集涉及电影、导演和演员相关题材,包含3w个多轮对话,约27w个句子。每个对话包含一个目标三元组[START, TOPIC_A, TOPIC_B],表示系统的目标是将对话主题从A引导到B;另外包括一系列跟TOPIC_A或者TOPIC_B有关的知识三元组,形式为(主体,谓词,...
2019-11-22 23:11:08
1663
原创 excel使用命令
excel使用命令随机打乱数据计算两列的和放在第三列随机打乱数据 1.在左上角范围列,输入一个空列的范围,长度为数据行数,比如I2:I3000,然后fx(函数)列输出公式=rand(),按住ctrl+回车键,可以生成随机数 2. 这些随机数会变化,复制,然后在另一个空列右键选择性粘贴,粘贴值 3. 选中所有列,筛选->然后对随机数列排序即可计算两列的和放在第三列 1. 选中空列...
2019-11-18 19:18:47
1774
原创 《Multi-Domain Joint Semantic Frame Parsing using Bi-directional RNN-LSTM》
出处: InterSpeech 2016摘要对于NLU的三个任务:domain分类、intent检测、slot-filling,这种分成三个任务而不是端到端学习的优势是:灵活,对某个特定domain的修改不会影响其他domain可以在特定domain使用该特定domain的特征在domain内有更好的理解,因为比如在某一domain的意图检测,只需要在该domain的一个较小的子集内进...
2019-09-20 10:17:00
562
1
原创 《End-to-end memory networks》
这里介绍了一种可以端到端训练的内存网络MemN2N,可以利用额外的知识库。代码地址:https://github.com/facebook/MemNN.贡献可以端到端训练multiply hop attention许多实现细节可以参考任务任务描述如下,文章使用问答数据集,给定一组句子作为知识库,然后根据问题进行回答,答案为1个word。模型模型的架构如下所示:左边(a)...
2019-09-08 15:42:32
332
原创 《Mem2Seq: Effectively Incorporating Knowledge Bases into End-to-End Task-Oriented Dialog Systems》
1. 摘要端到端的任务型对话系统在知识库的融合方面受到挑战,这篇文章提出一种端到端的网络member-to-sequence(Mem2Seq)来解决这个痛点。Mem2Seq是第一篇融合指针网络的多跳attention的生成式模型。我们的模型具有普适性,训练的更快,且取得了SOTA的效果。2. 背景介绍传统的任务型对话系统将任务拆分成几个子模块:NLU(包括意图识别、槽位填充)、DM(包括DS...
2019-09-04 10:54:41
356
原创 常用命令汇总
删除删除单行命令模式下,连续按两次d即可删除多行首先在命令模式下,输入“:set nu”显示行号; -通过行号确定你要删除的行;命令输入“:32,65d”,回车键,32-65行就被删除了如果无意中删除错了,可以使用‘u’键恢复(命令模式下)我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客:.........
2019-02-23 16:23:58
1123
1
转载 中缀表达式转换为后缀表达式(逆波兰表达式)
中缀表达式转换为后缀表达式(逆波兰表达式)一、后缀表达式求值后缀表达式也叫逆波兰表达式,其求值过程可以用到栈来辅助存储。假定待求值的后缀表达式为:6 5 2 3 + 8 * + 3 + *,则其求值过程如下:1)遍历表达式,遇到的数字首先放入栈中,此时栈如下所示:2)接着读到“+”,则弹出3和2,执行3+2,计算结果等于5,并将5压入到栈中。3)读到8,将其直接放入栈中。4...
2018-09-30 11:42:17
3501
原创 降维方法
1. PCA (主成分分析)在信号处理中认为信号具有较大的方差,噪声有较小的方差 将数据映射后在每个维度方差都最大。2. LDA(线性判别分析)LDA的思想可以用一句话概括,就是“投影后类内方差最小,类间方差最大”。什么意思呢? 我们要将数据在低维度上进行投影,投影后希望每一种类别数据的投影点尽可能的接近,而不同类别的数据的类别中心之间的距离尽可能的大。...
2018-04-02 23:06:45
309
原创 ROC和AUC
指标物理意义假设分类器的输出是样本属于正类的socre(置信度),则AUC的物理意义为,任取一对(正、负)样本,正样本的score大于负样本的score的概率。计算方式第一种方法取每一个分数作为阈值,划分0和1,然后求得真阳率(TP/(TP+FN))和假阳率(FP/(FP+TN)),然后绘制ROC曲线(真阳率为纵轴,假阳率为横轴),求得ROC曲线的面积就是AUC值。第二种方法:...
2018-04-01 11:52:04
485
原创 正则
1.为什么L2不稀疏:理解一:稀疏则表示在0点处于最小值,而L2的导数在-0那里基本不为0。因为L2项在0点处导数是0, 所以如果原来的损失函数在0点处倒数不为0,那么正则后的损失函数在0点处的导数就不为0。而施加 L1 regularization 时,只要 regularization 项的系数 C 大于原先费用函数在 0 点处的导数的绝对值,x = 0 就会变成一个极小值点。理解二:2.L1...
2018-03-30 19:45:00
234
原创 svm问答
1.为什么高斯核能够拟合无穷维度:因为他可以无穷泰勒展开。2.参数C和σ :前者表示对误差的惩罚,越大说明对误分类的惩罚越大,模型非线性拟合越好,越容易过拟合,越小则容易欠拟合。后者表示高斯分的形状,越大说明在均值那里越抖,支持向量越少,值越小支持向量越多,影响计算复制度。...
2018-03-30 19:39:48
254
原创 Adaboost和GBDT
1. Adaboostboost算法通过学习一系列的弱分类器,通过加权得到一个强分类器Adaboost首选假设每个样本权值相通为1/N。然后学习第一个分类器,然后计算样本在该分类器下的误差率(误分类样本的加权和):根据误差率得到一个系数,这个系数也是当前这个分类器的权重:然后更新样本的权重:然后根据新的样本分布去训练一个新的分类器。最后的分类器可表示为这些分类器的加权和:2. GBDT讲GBDT之...
2018-03-22 14:26:51
3155
原创 GRU和LSTM
1.GRU分为更新门和重置门:更新门决定上一个时间片的隐藏层信息有多少可以直接传递到当前时间片。重置门决定上一个时间片的隐藏层信息对于生成当前的存储有多大的贡献2. LSTM分为输入门、遗忘门和输出门:输入门决定当前输入的单词是不是重要的遗忘门决定上一个时间片的存储信息是不是重要的输出门决定哪部分最终的存储需要传递给当前隐藏...
2018-03-22 12:38:35
618
原创 决策树和随机森林
1.决策树构建:从当前节点的属性集合中选择一个属性就行划分,使得划分后节点的纯度增高,一直到终止条件:a.借点所有样本属于同一类。b.没有可划分的属性。c.当前节点已经没有可划分的样本2.属性选择可以通过信息增益最大(ID3)或者信息增益比最大(解决信息增益比较偏好有更多属性值的属性的问题)(C4.5)或者划分后基尼指数最小(CART)来做。3.剪枝a.预剪枝:在决策树生成过程中,对每个节点进行划...
2018-03-22 10:07:51
351
原创 ubuntu16.04 opencv3.2 sun jdk1.8配置教程
1、下载sun jdk1.8,放到目录/usr/lib/jvm/jdk1.8目录2、在官网下载opencv3.2版本,解压到/home/zgy/cv/opencv3.23、执行一些安装sudo apt-get install build-essentialsudo apt-get install cmake git libgtk2.0-dev pkg-config libavc
2017-01-05 23:55:52
1609
Java 8函数式编程
2016-08-11
Android底层开发技术实战详解 内核、移植和驱动
2016-01-07
编译器java实现
2015-12-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人