
深度学习
junjie20082008
这个作者很懒,什么都没留下…
展开
-
tensorflow读取数据部分
以往在传统模型训练,在处理比较小的数据的时候,我们的都是一次性加载进内存,然后再分batch灌给模型,但是数据量特别大的时候,这种方法就不太现实了,tensorflow针对大数据量输入模型部分,提供了几种方法:1、To process lines from files, usetf.data.TextLineDataset:dataset = tf.data.TextLineDataset(["file1.txt", "file2.txt"])2、To process records ..原创 2020-05-19 15:18:43 · 391 阅读 · 0 评论 -
tensorflow 评估指标中F1,AUC的计算
AUC计算的函数:tf.metrics.auc( labels, predictions, weights=None, num_thresholds=200, metrics_collections=None, updates_collections=None, curve='ROC', name=None, summation_method='trapezoidal')函数返回值: auc: A scalarTen.原创 2020-05-10 23:25:05 · 6111 阅读 · 0 评论 -
【转】NLP的巨人肩膀(上)
我们都知道,牛顿说过一句名言If I have seen further, it is by standing on the shoulders of giants.无可否认,牛顿取得了无与匹敌的成就,人类历史上最伟大的科学家之一,但同样无可否认的是,牛顿确实吸收了大量前人的研究成果,诸如哥白尼、伽利略和开普勒等人,正因如此,联合国为了纪念伽利略首次将望远镜用作天文观测四百周年,200...转载 2020-04-08 10:47:10 · 416 阅读 · 0 评论 -
【转】NLP 的巨人肩膀(下)
摘要: 分类器足够简单,足够浅层,相比那些在这些分类任务上设计的足够复杂的模型来说简直不值一提。然而令人大跌眼镜的是,这些简单的分类器都能够比肩甚至超越他们各自时代的最好结果,这不能不说是个惊喜。而创造这些惊 ... tm网络模型框架自然语言处理 我们都知道,牛顿说过一句名言"If I have seen further, it is by standing on the...转载 2020-04-08 10:21:23 · 435 阅读 · 0 评论 -
NLP相关论文记录
1、ALBERT:https://openreview.net/pdf?id=H1eA7AEtvS 第一个技术是对嵌入参数化进行因式分解(factorized embedding parameterization)。通过将大的词汇表嵌入矩阵分解为两个小的矩阵,将隐藏层的大小与词汇表嵌入的大小分离开来。这种分离使得在不显著增加词汇表嵌入的参数大小的情况下,更容易增加隐藏大小。 ...原创 2020-03-21 19:21:49 · 232 阅读 · 0 评论 -
NLP基准测试总结
先把GLUE榜单地址挂上 :https://gluebenchmark.com/leaderboard/1、SQuAD(Stanford Question Answering Dataset)SQuAD是什么?SQuAD 是斯坦福大学于2016年推出的数据集,一个阅读理解数据集,给定一篇文章,准备相应问题,需要算法给出问题的答案。此数据集所有文章选自维基百科,数据集的量为当今其他数据集...原创 2020-03-21 19:05:00 · 989 阅读 · 0 评论 -
基于bert的文本表征向量embedding模型由ckpt转成pb
# -*- coding: utf-8 -*-"""Created on Sun Apr 28 10:20:04 2019@author: wumingshi"""#import contextlibimport jsonimport osfrom enum import Enumfrom termcolor import coloredimport sysimport...原创 2020-02-29 23:10:11 · 945 阅读 · 0 评论 -
TensorFlow saved_model 模块
https://blog.youkuaiyun.com/thriving_fcl/article/details/75213361原创 2020-02-18 15:21:06 · 166 阅读 · 0 评论 -
bert推理速度太慢的解决方案[用于生成表征向量]
思路借鉴:https://blog.youkuaiyun.com/hezhefly/article/details/98877796,再次表示感谢本文的用途是基于bert的表征向量的生成基于上面的文章的分类预测思路,修改成了基于bert 的表征向量生成,其中表征向量以最后一层CLS的向量表示,也可以取最后一层的所有token的平均,或者取倒数第二层的所有tokens的平均(倒数第二层不那么接近任务,但...原创 2020-02-12 19:58:08 · 3069 阅读 · 1 评论 -
关于fastText工具python版本在windows环境下准确率及召回率都是NaN的问题
如果使用python版本训练,则需要linux运行环境。python版本的库在windows下执行,计算的准确率及召回率都是NaN。原创 2019-03-22 10:48:59 · 1414 阅读 · 0 评论 -
闲话深度神经网络中的正则化方法之一:Dropout
网上关于正则化的一些方法、以及Dorpout原理解释有很多,大家有感兴趣的可以百度。本文主要聊下inverted dropout。想看英文解释的可以查看《Regularization of Neural Networks using DropConnect》所谓inverted dropout,当模型使用了dropout layer,训练的时候只有占比为 p的隐藏层单元参与训练,那么在...原创 2019-03-01 11:00:04 · 377 阅读 · 0 评论 -
闲话机器学习中偏差---方差权衡问题
机器学习中,寻找偏差与方差平衡是机器学习中的根本。 一般的,针对机器学习而言,数据集在模型训练中会被分为训练集(training data)、验证集(validation data)、测试集(test data)。其中,测试集是在模型训练好后,对该模型的客观评价,测试集数据一定不要参与训练。这里探讨的主要是偏差与方差的关系,测试集就不过多的探讨。模型的偏差=偏差+方差+不可消除的偏...原创 2019-02-21 16:08:36 · 408 阅读 · 0 评论 -
关于bidirectional_dynamic_rnn出现 Dimensions of inputs should match问题
在搭建双向BIRNN模型的时候,调用tensorflow自动展开函数bidirectional_dynamic_rnn(cell_fw, cell_bw, data, dtype=tf.float32)时候出现异常:InvalidArgumentError (see above for traceback): ConcatOp : Dimensions of inputs should match...原创 2019-01-04 11:03:43 · 4479 阅读 · 5 评论