
深度学习
蓝鲸123
做更好的自己
展开
-
重新训练大模型的Tokenizer
【代码】重新训练大模型的Tokenizer。原创 2023-07-07 09:05:01 · 1546 阅读 · 0 评论 -
解析tensorboard events文件
下面代码展示了如何解析ensorboard events。原创 2023-07-07 09:04:10 · 477 阅读 · 0 评论 -
编译安装googletest
编译安装googletest原创 2022-08-26 23:34:56 · 139 阅读 · 0 评论 -
编译安装tvm
编译安装 tvm原创 2022-08-26 23:31:07 · 342 阅读 · 0 评论 -
tensorflow2 生产DLRM tfrecord数据
sok dlrm数据下载terebate数据:https://ailab.criteo.com/ressources/处理binary 为tfrecord原创 2022-06-27 17:09:15 · 461 阅读 · 0 评论 -
gsutil安装工具安装以及使用http代理下载
谷歌开源的模型下载:https://github.com/google-research/text-to-text-transfer-transformer/blob/main/released_checkpoints.md#lm-adapted-t511lm100kgsutil安装工具https://cloud.google.com/storage/docs/gsutil_install#linux配置 gcloud CLI 以在代理后面使用如何http 代理,需要设置gclound 代理....原创 2022-06-13 08:31:19 · 1146 阅读 · 0 评论 -
Tensorflow从模型文件中统计可以训练的参数的数目
#coding=utf-8from tensorflow.python import pywrap_tensorflowimport osimport tensorflow as tfflags = tf.app.flagsflags.DEFINE_string('model_path', "20200807195150/", "the export model path")FLAGS = flags.FLAGSckpt = tf.train.get_checkpoint_st原创 2020-08-07 22:04:00 · 911 阅读 · 1 评论 -
Loss function
Triplet Loss:xiax_i^axia是anchor, xipx_i^pxip是positive , xinx_i^nxin是negtive∑iN[∣∣f(xia)−f(xip)∣∣2−∣∣f(xia)−f(xin)∣∣2+α]+\sum_i^N[||f(x_i^a)-f(x_i^p)||^2 - || f(x_i^a)-f(x_i^n)||^2 + \alpha]_{+}∑iN[∣∣f(xia)−f(xip)∣∣2−∣∣f(xia)−f(xin)∣∣2+α]+Center原创 2020-05-19 08:30:42 · 199 阅读 · 0 评论 -
python实现朴素的卷积操作
import numpy as npimport os# 朴素的卷积def conv_naive(x, w): N,H,W,C = x.shape Kh, Kw, _C, Kc = w.shape assert(C==_C), (x.shape, w.shape) # stride is 1 y= np.zeros([N, H-Kh +1, W-Kw+1, Kc]) for i0 in range(N): for i1 in原创 2020-05-18 16:09:20 · 509 阅读 · 0 评论 -
BERT模型(学习笔记)
BERT: Bidirectional Encoder Representations from Transformers主要工作:(1)预训练: 使用预训练的模型去提取词或者句子的特征(2)问题: 语言模型使用左边或者右边的上下文,但是语言理解是双向的。循环网络中双向使用很多,但是在transformer中双向这里是第一次出现。(3)原因: Words 可以“See themselves” 在双向的编码器中。GPT和BERT的区别是双向网络,Self-Attention的假设是句子没有顺序,原创 2020-05-17 20:03:09 · 492 阅读 · 0 评论 -
GPT模型(学习笔记)
GPT模型 Gererate Pre-Training Model本质上是无监督的学习,在transformer的基础之上层数增加到12层。在模型方面没有很大的贡献,证明了大模型、大数据集有效。数据集: Books Corpus (7000本书, 800百万词, 5GB文本)8个GPU训练一个月。论文:Radford et al. “Improving Language Undersatnding by Generative Pre-Training”h0=UWe+Wph_0 = UW_e原创 2020-05-17 19:49:28 · 2344 阅读 · 0 评论 -
Attention (学习笔记)
Seq-Seq 模型的困难:p(y1,...yT)∣x1,...xT=∏t=1T′p(yt∣c,y1,...,yt−1)=∏t=1T′g(c,st−2,yt−1)p(y_1,...y_T)|x_1,...x_T=\prod _{t=1}^{T^{'}}p(y_t|c,y_1,...,y_{t-1})=\prod _{t=1}^{T^{'}}g(c, s_{t-2}, y_{t-1})p(y1,...yT)∣x1,...xT=∏t=1T′p(yt∣c,y1,...,yt−1)=∏t=1T′.原创 2020-05-11 15:54:53 · 1158 阅读 · 0 评论 -
RNN神经网络的梯度消失和梯度爆炸
时间序列的反向传播算法得到:∂ht∂hs=∂ht∂ht−1∂ht−1∂ht−2...∂hs+1∂hs\frac{\partial h_t}{\partial h_s} = \frac{\partial h_t}{\partial h_{t-1}} \frac{\partial h_{t-1}}{\partial h_{t-2}} ... \frac{\partial h_{s+1}}{\partial h_{s}}∂hs∂ht=∂ht−1∂ht∂ht−2∂ht−1...∂hs∂hs+原创 2020-05-10 11:25:31 · 510 阅读 · 0 评论 -
时间序列的反向传播算法(BPTT)
时间序列的反向传播算法BPTT : Back-Propagation Through Time∂L∂U=∑t∂Lt∂U\frac{\partial L}{\partial U} = \sum_t\frac{\partial L_t}{\partial U}∂U∂L=∑t∂U∂Lt例如t=4 时,∂L4∂U=∂L4∂y4∂y4∂h4∂h4∂U\frac{\partial L_4}{\partial U} =\frac{\partial L_4}{\partial y_4} \frac{\pa原创 2020-05-10 11:16:50 · 2597 阅读 · 0 评论 -
循环神经网络常见的结构(学习笔记)
多对1例如情感分类,根据句子预测情感。文档分类,输出情感,但是下面的结构存在上下文、长时间的序列损失的缺点。一对多看图描述文字任务。找到CNN特征图的图片之间的对应关系。多对多机器翻译Sequence to Sequence编码器和解码器,等价与 many-to-One + One-to-many ,缺点1是ht存在信息瓶颈, 缺点2是在推断的时候,需要递归的进行推断,会形成误差累积(解决方法:Random Sampling、Greedy Search、树搜索 Beam ..原创 2020-05-10 10:57:40 · 1221 阅读 · 0 评论 -
循环神经网络(学习笔记)
简单的是语言的概率模型,根据前面的单词推断下一个单词。p(wordi∣word1,...,wordi−1)p(word_i|word_1,...,word_{i-1})p(wordi∣word1,...,wordi−1)2-gram LM Model两个词作为输入向量,wi∣wi−1,wi−2 pi(wi∣wi−1,wi−2)w_i|w_{i-1}, w_{i-2}~ p_i(w_i|w_{i-1},w_{i-2})wi∣wi−1,wi−2 pi(wi∣wi−1,原创 2020-05-10 10:30:54 · 289 阅读 · 0 评论 -
深度学习basic
PDF(probality density function) 概率密度函数∫p(x)dx=1\int p(x)dx=1 ∫p(x)dx=1这里面的p(x) 可以大于1Conditional probailityp(x(1),...,x(n))=p(x(1))∏i=2nP(x(i)∣x(1),...,x(i−1))p(x^{(1)},...,x^{(n)})=p(x^{(1)})\...原创 2020-03-12 07:55:39 · 293 阅读 · 0 评论