
算法
loveqiong2746
这个作者很懒,什么都没留下…
展开
-
PyAlink踩坑
用easy_install-3.6。。你这个应该有多版本...原创 2019-12-09 17:32:43 · 711 阅读 · 0 评论 -
Transformer中的跨层参数共享
跨层参数共享:Attention is all U need原创 2019-10-18 15:47:01 · 1999 阅读 · 0 评论 -
联合训练
联合训练原创 2019-10-17 16:34:14 · 2025 阅读 · 2 评论 -
ALBERT是如何做到又快又好的
ALBERT: A LITE BERT FOR SELF-SUPERVISEDLEARNING OF LANGUAGE REPRESENTATIONSMIXED PRECISION TRAININGhttps://github.com/NVIDIA/DeepLearningExamples/tree/master/TensorFlow/LanguageModeling/BERT)原创 2019-10-17 16:32:19 · 348 阅读 · 0 评论 -
再谈encoder-decoder框架下的alignment based 与attention based
Attention-Based Recurrent Neural Network Models for Joint Intent Detection and Slot Filling原创 2019-10-17 16:16:31 · 604 阅读 · 0 评论 -
zero-shot learning用于拒识数据的处理
A Model of Zero-Shot Learning of Spoken Language Understanding原创 2019-10-16 14:48:09 · 199 阅读 · 0 评论 -
encoder-decoder框架和普通框架的区别在哪里?
A Bi-model based RNN Semantic Frame Parsing Model for Intent Detection and Slot Filling原创 2019-10-16 10:32:38 · 2223 阅读 · 0 评论 -
Ran 2 tests in 0.007s OK (skipped=1) An exception has occurred, use %tb to see the full traceback.
tensorflow单元测试,报以上错误。解决方案:tensorflow版本问题。在1.11.0下就不报;在1.13.0下就报错。猜测是tf实现ut的时候可能有啥trick,之前会多报一个ut,后来把这个多报的ut弄成了skipped。成功运行:...原创 2019-09-12 09:57:03 · 621 阅读 · 0 评论 -
基于中文问答系统谈Bert的不足及改进
bert仅仅基于attention,没有考虑词性、对上下文信息也仅仅用了embedding,仅仅用语义信息,会出现错判。在训练中,融入词性、句法信息、停用词,以改善这个现象...原创 2019-05-11 10:28:14 · 3920 阅读 · 2 评论 -
如何选取Bert输出层的维度
维度过小,维度过大原创 2019-05-09 08:59:20 · 8433 阅读 · 7 评论 -
Bert BERT classifier左右两列得分的含义,如何预处理行业数据
运用Bert的classifier中,遇到两个问题:1、predict左右两列的float值代表什么含义2、为什么模型把自己的所有测试数据全部判为负样本1、左列代表模型判断当前语料为正样本的概率,右列代表模型判断当前语料为负样本的概率,左右两列之和为12、Bert在训练的时候对数据并没有做shuffle操作,如果把训练数据所有正样本在前,负样本在后,训练出的模型会把所有测试样本判为负样本;...原创 2019-05-08 15:41:30 · 954 阅读 · 3 评论 -
基于bert BERT 谈问答系统的加速
Google官网给出的基于Bert的run_classify.py,将text_a和text_b的高维深度特征抽取出来(如果取-2 layers,为128*768维),然后串起来,后接一个分类层。在线测试,128G的服务器上,1000条数据比对,大概需要40s.用bert的feature_exact.py抽取高维特征,然后训练一个孪生的biRNN网络,将库中所有Q的feature事先计算好,不用...原创 2019-05-08 15:29:33 · 1781 阅读 · 0 评论 -
基于bert BERT 的中文问答系统谈fine-tune
fine-tun有两种形式,google官网给出的run_classifier.py示例,是利用行业数据对bert的所有参数做微调。将text_a和text_b串接,最后层做一个二分类。而另一种形式,是exact_featrue.py,保存bert特征作为输入,训练自己的较浅的神经网络模型。...原创 2019-05-08 15:24:20 · 6599 阅读 · 2 评论 -
如何对深度学习模型进行在线更新,迁移学习
目标:学到新数据特征的同时,保持旧网络固有的性能,避免“灾难性遗忘”,增量学习,迁移学习的一种原创 2019-04-01 14:40:16 · 5227 阅读 · 1 评论 -
从keras中取出中间层
背景:项目中需要计算同一句子和库中所有句子的相似性,需要事先将库中所有句子的特征抽取出来,而这个特征对应到深度学习模型的中间层方法:...原创 2019-03-27 09:17:01 · 1505 阅读 · 0 评论 -
Simense LSTM 算法,做中文文本相似性判断
性能:train acc: 84.00 val acc :81.47% ; predict性能依赖于训练语料原创 2019-03-15 11:20:51 · 1152 阅读 · 1 评论 -
GPU训练loss不下降,CPU正常
数据并行机制相关原创 2019-03-20 08:35:38 · 1887 阅读 · 9 评论 -
样本数量不足时,使用迁移学习
神经网络的词语来表述,就是一层层网络中每个节点的权重从一个训练好的网络迁移到一个全新的网络里,而不是从头开始,为每特定的个任务训练一个神经网络。这样做的好处,可以从下面的例子中体现,假设你已经有了一个可以高精确度分辨猫和狗的深度神经网络,你之后想训练一个能够分别不同品种的狗的图片模型,你需要做的不是从头训练那些用来分辨直线,锐角的神经网络的前几层,而是利用训练好的网络,提取初级特征,之后只训练最后...原创 2019-03-20 09:29:58 · 4443 阅读 · 0 评论 -
深度学习中的激活函数和损失函数
1、激活函数演变史1)阶梯激活函数非0即1的阈值涉及使得输入的微小变化会引起输出的大幅度跳变,进而引进了较平缓的sigmoid、tanh。2)sigmoid函数输出在0~1,比较符合概率分布的特点;中央区对信号增益大,两侧对信号增益小,分别对应神经元的兴奋态和抑制态。但是sigmoid 存在梯度消失的情况,网络深的时候就训练慢,甚至不可训练,需要通过无监督的逐层训练初始化权重来解决。3)Re...原创 2019-03-17 12:28:28 · 1212 阅读 · 0 评论 -
深度学习如果数据量过少会带来什么问题
首先,回顾几个概念:过拟合:数据量过大,模型为了尽可能的拟合数据,不断委屈自己适应训练数据。此时,模型在训练数据上效果很好,在测试数据上效果很差欠拟合:模型没有完全拟合数据,比如一个随机初始化的模型。此时,模型在训练数据和测试数据上效果都很差数据量过少,不属于以上两种情况,此时模型稍加训练便可以拟合训练数据。此时模型在训练数据上表现很好,在测试数据上表现很差...原创 2019-03-21 15:14:05 · 16882 阅读 · 4 评论 -
加载 GoogleNews-vectors-negative300.bin 报错
gensim加载 GoogleNews-vectors-negative300.bin ,报错UnpicklingError: invalid load key, ‘3’.import gensimWord2vecmodel = KeyedVectors.load_word2vec_format(‘GoogleNews-vectors-negative300.bin’,binary=True)...原创 2019-03-18 09:37:39 · 3791 阅读 · 1 评论 -
CNN网络过拟合示例
问题描述:checkpoint = ModelCheckpoint(filepath= “weights_stack.hdf5”, save_best_only=True, verbose=1, period=50) 中save_best_only 设为true后,出现Epoch 00200: val_loss did not improve from 0.00739排查过程:、将mo...原创 2019-03-18 10:09:19 · 2084 阅读 · 0 评论 -
mae和acc
model.compile(loss=‘MSE’,optimizer=adam,metrics=[‘mae’]) metrics = acc和 mae的区别原创 2019-03-18 13:12:00 · 1470 阅读 · 0 评论 -
深度学习中多余负样本的使用
数据背景:大量负样本,少量正样本操作:深度模型正负样本需要均衡,实验发现,正负样本在1:3的时候,acc和f1达到了最高。但是在全样本测试的时候,出现把负样本判为正样本的情况。对负样本做boost,提升了acc和f1...原创 2019-03-25 14:57:53 · 2857 阅读 · 0 评论 -
为什么近年来在NLP中用CNN的越来越多
CNN 和RNN都可以保留文本的空间信息,但是CNN的并行性更好。而深度学习往往依赖于大规模的样本,此时CNN对计算力上更有优势。CNN中的pooling层,有助于capture更long的global文本信息...原创 2019-03-23 11:04:19 · 681 阅读 · 0 评论 -
STC2聚类算法用于中文文本推荐
斜体样式@TOC欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客:全新的界面设计 ,将...原创 2019-03-15 08:25:58 · 582 阅读 · 0 评论