Deep Learning
文章平均质量分 78
增加一些简单的深度神经网络
只鸥周
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
langchain
一个开发工具。原创 2023-09-17 21:45:14 · 121 阅读 · 1 评论 -
tokenizer简介
https://blog.youkuaiyun.com/SunJW_2017/article/details/121783956原创 2023-09-17 15:53:33 · 119 阅读 · 0 评论 -
faiss
faiss是向量数据库,可用于文本相似度匹配。原创 2023-09-17 21:07:58 · 142 阅读 · 0 评论 -
transform
另一个完成这个任务的方法是留住概率最靠高的两个单词(例如I和a),那么在下一步里,跑模型两次:其中一次假设第一个位置输出是单词“I”,而另一次假设第一个位置输出是单词“me”,并且无论哪个版本产生更少的误差,都保留概率最高的两个翻译结果。第六步是对加权值向量求和(译注:自注意力的另一种解释就是在编码某个单词时,就是将所有单词的表示(值向量)进行加权求和,而权重是通过该词的表示(键向量)与被编码词表示(查询向量)的点积并通过softmax得到。而自注意力机制会将所有相关单词的理解融入到我们正在处理的单词中。原创 2023-09-06 20:58:30 · 239 阅读 · 0 评论 -
transform代码讲解
转载并翻译:http://nlp.seas.harvard.edu/2018/04/03/attention.html去年,中的变形金刚一直萦绕在很多人的脑海中。除了显着提高翻译质量之外,它还为许多其他 NLP 任务提供了新的架构。论文本身写得很清楚,但传统观点认为正确实施是相当困难的。在这篇文章中,我以逐行实现的形式展示了论文的“带注释”版本。我重新排序并删除了原始论文中的一些部分,并在全文中添加了评论。本文档本身是一个工作笔记本,并且应该是一个完全可用的实现。原创 2023-09-06 20:59:07 · 362 阅读 · 0 评论 -
Bert-part3
Transformer是一种基于注意力的自然语言处理 (NLP) 架构,一年前在《AttentionIs All You Need》一文中介绍了这一架构。在这篇博文中,我们将深入研究解码器;BERT中未使用的Transformer 架构部分。我们将参考Encoder来解释完整的架构。注意:如果您只想了解 BERT 的工作原理,则本博文中描述的部分不相关。旨在解决的问题。信息流。解码器。原创 2023-09-06 20:56:09 · 133 阅读 · 0 评论 -
预训练技术发展史
Bert最近很火,应该是最近最火爆的AI进展,网上的评价很高,那么Bert值得这么高的评价吗?我个人判断是值得。那为什么会有这么高的评价呢?是因为它有重大的理论或者模型创新吗?其实并没有,从模型创新角度看一般,创新不算大。但是架不住效果太好了,基本刷新了很多NLP的任务的最好性能,有些任务还被刷爆了,这个才是关键。另外一点是Bert具备广泛的通用性,就是说绝大部分NLP任务都可以采用类似的两阶段模式直接去提升效果,这个第二关键。客观的说,把Bert当做最近两年NLP重大进展的集大成者更符合事实。原创 2023-09-01 16:30:46 · 286 阅读 · 0 评论 -
大型语言模型(LLM)技术精要
为什么是OpenAI作出了ChatGPT,而不是其它机构呢?我们在这里可以做个简单分析。在本文开头,我们提到了OpenAI看待LLM的理念。OpenAI是怎么看待LLM的呢?回顾它不断推出的技术,可以看出,它其实从GPT 1.0开始,基本就坚定地把LLM看做是通往AGI的一条必由之路。具体而言,在OpenAI眼中,未来的AGI应该长这个样子:有一个任务无关的超大型LLM,用来从海量数据中学习各种知识,这个LLM以生成一切的方式,来解决各种各样的实际问题,而且它应该能听懂人类的命令,以便于人类使用。原创 2023-09-01 20:53:57 · 907 阅读 · 0 评论 -
nlp领域三大特征提取对比
放弃幻想,全面拥抱Transformer:自然语言处理三大特征抽取器(CNN/RNN/TF)比较本文作者写于2019,看得出来,很有前瞻力转载自:https://zhuanlan.zhihu.com/p/54743941在辞旧迎新的时刻,大家都在忙着回顾过去一年的成绩(或者在灶台前含泪数锅),并对2019做着规划,当然也有不少朋友执行力和工作效率比较高,直接把2018年初制定的计划拷贝一下,就能在3秒钟内完成2019年计划的制定,在此表示祝贺。2018年从经济角度讲,对于所有人可能都是比较难过的一年,原创 2023-09-01 20:54:41 · 550 阅读 · 0 评论 -
Bert-part2
什么是 BERT?BERT代表Transformers的双向编码器表示。_ 它基本上是一堆堆叠在一起的 Transformer 编码器(不是整个架构,而只是编码器)。双向性概念是BERT与其前身OpenAI GPT**之间的关键区别。**BERT是双向的,因为它的自注意力层在两个方向上执行自注意力。让我们看一个例子。假设我们的输入句子是“我喜欢从事 NLP 工作”。在OpenAI GPT中,“love”标记仅与“I”标记及其自身具有自注意力关系(仅向后)。在BERT中,同一个 token 会对。原创 2023-09-06 16:27:41 · 99 阅读 · 0 评论 -
Bert-part1
BERT中使用的编码器是一种基于注意力的自然语言处理(NLP)架构,一年前在**《Attention Is All You Need》论文中介绍了这一架构。论文介绍了一种称为Transformer 的架构,它由****Encoder和Decoder两部分组成。由于BERT仅使用编码器,因此我们仅在本博文中对此进行解释(如果您想了解解码器以及它如何与编码器**集成,我们就此撰写了单独的博文)。自今年早些时候发布ULMFiT以来,迁移学习已迅速成为 NLP 领域最先进成果的标准。此后,通过将。原创 2023-09-06 16:27:10 · 182 阅读 · 0 评论 -
快速上手pytorch
上面保存加载的。原创 2023-09-04 20:23:37 · 273 阅读 · 0 评论 -
attention原理
目前采用编码器-解码器 (Encode-Decode) 结构的模型非常热门,是因为它在许多领域较其他的传统模型方法都取得了更好的结果。这种结构的模型通常将输入序列编码成一个固定长度的向量表示,对于长度较短的输入序列而言,该模型能够学习出对应合理的向量表示。然而,这种模型存在的问题在于:当输入序列非常长时,模型难以学到合理的向量表示。这个问题限制了模型的性能,尤其当输入序列比较长时,模型的性能会变得很差。原创 2023-09-03 11:02:35 · 304 阅读 · 0 评论 -
常见的激活函数
因此,激活函数是确定神经网络输出的数学方程式,本文概述了深度学习中常见的十种激活函数及其优缺点。对于长度为 K 的任意实向量,Softmax 可以将其压缩为长度为 K,值在(0,1)范围内,并且向量中元素的总和为 1 的实向量。Softmax 与正常的 max 函数不同:max 函数仅输出最大值,但 Softmax 确保较小的值具有较小的概率,并且不会直接丢弃。注意:在一般的二元分类问题中,tanh 函数用于隐藏层,而 sigmoid 函数用于输出层,但这并不是固定的,需要根据特定问题进行调整。原创 2023-09-03 11:03:50 · 525 阅读 · 0 评论 -
normalization
假设我们有 10行 3列 的数据,即我们的batchsize = 10,每一行数据有三个特征,假设这三个特征是【身高、体重、年龄】。Batch Normalization 是对这批样本的同一维度特征做归一化, Layer Normalization 是对这单个样本的所有维度特征做归一化。,如[batchsize, seq_len, dims]中的dims,一般为词向量的维度,或者是RNN的输出维度等等,这一维度各个特征的量纲应该相同。如果我们将一批文本组成一个batch,那么BN的操作方向是,对每句话的。原创 2023-09-03 11:03:11 · 83 阅读 · 0 评论 -
cnn结构
直接贴出这张CNN最经典的图。从图中也可以出,其实CNN和传统的深度神经网络相差不多,唯一的区别就在于神经网络中相邻两层的连接方式。那么,问题来了,为什么CNN要选择不一样的连接方式呢(神经网络中使用的为全连接方式,即相邻两层之间所有神经元都有连接)???首先是数据数量级问题,我们知道在处理图像是输入为所选图像的像素矩阵,这个数据量是非常大的。而若使用全连接网络不难想象我们需要学习的参数会有多爆炸,直接导致计算速度的减慢。另外,参数增多还很容易导致overfitting问题。原创 2023-08-31 20:22:05 · 650 阅读 · 0 评论 -
RNN结构
在前面讲到的DNN和CNN中,训练样本的输入和输出是比较的确定的。传统的神经网络模型中,是从输入层到隐含层再到输出层,层与层之间是全连接的,每层之间的节点是无连接的。但是有一类问题DNN和CNN不好解决,就是训练样本输入是连续的序列,且序列的长短不一,比如基于时间的序列:一段段连续的语音,一段段连续的手写文字。这些序列比较长,且长度不一,比较难直接的拆分成一个个独立的样本来通过DNN/CNN进行训练。而对于这类问题,RNN则比较的擅长。那么RNN是怎么做到的呢?RNN假设我们的样本是基于序列的。原创 2023-08-31 20:22:33 · 527 阅读 · 0 评论 -
LSTM结构
在前面讲的【Deep learning】循环神经网络RNN中,我们对RNN模型做了总结。由于RNN也有梯度消失的问题,因此很难处理长序列的数据,大牛们对RNN做了改进,得到了RNN的特例LSTM(Long Short-Term Memory),它可以避免常规RNN的梯度消失,因此在工业界得到了广泛的应用。下面我们就对LSTM模型做一个总结。原创 2023-08-31 20:23:30 · 2178 阅读 · 1 评论
分享