- 博客(15)
- 收藏
- 关注
转载 Pytorch 自动求梯度(autograd)
深度学习其实就是一个最优化问题,找到最小的loss值,因为自变量过多,想要找到最小值非常困难。所以就出现了很多最优化方法,梯度下降就是一个非常典型的例子。本文针对python的pytorch库中的自动求梯度进行了详细的解释Tensorpytorch里面的tensor可以用来存储向量或者标量。torch.tensor(1) # 标量torch.tensor([1]) # 1*1 的向量tensor还可以指定数据类型,以及数据存储的位置(可以存在显存里,硬件加速)torch.te...
2021-03-29 13:12:42
956
转载 (转载)一文教你 “量子编程”入门式
作者:Quentin Truong翻译:Nuor审校:YQH这是一段从量子比特到真实量子程序的量子编程演练。量子计算机量子计算机被发现之后,量子编程也在不断发展。本文将带你入门量子编程,介绍量子计算机与传统电脑的区别,解释量子编程的基本概念,最后教你如何在一个当今免费的量子计算机上运行程序。在开始之前,请注意,本文是为希望了解量子编程的完整技术细节的人们准备的。本文建立在量子比特(qubit),量子门(quantum gates)和量子电路图(quantum circuit diag
2021-01-12 19:22:45
1211
转载 BART原理简介与代码实战
写在前面最近huggingface的transformer库,增加了BART模型,Bart是该库中最早的Seq2Seq模型之一,在文本生成任务,例如摘要抽取方面达到了SOTA的结果。本次放出了三组不同的预训练权重:bart-large:基础预训练模型; bart-large-cnn:基础模型在 CNN/Daily Mail Abstractive Summarization Task微调后的模型; bart-large-mnli:基础模型在MNLI classification task微调后
2020-10-13 18:10:16
9602
转载 Seq2Seq原理及实现
https://zhuanlan.zhihu.com/p/57155059一、Seq2Seq模型简介目前Seq2Seq模型在机器翻译,语音识别,文本摘要,问答系统等领域取得了巨大的成功。如图1所示,Seq2Seq其实就是Encoder-Decoder结构的网络,它的输入是一个序列,输出也是一个序列。在Encoder中,将序列转换成一个固定长度的向量,然后通过Decoder将该向量转换成我们想要的序列输出出来。图1 Encoder-Decoder结构如图2所示,Encoder和Decode
2020-10-13 18:08:54
1439
1
转载 torch.Tensor的乘法汇总
torch.Tensor的4种乘法torch.Tensor有4种常见的乘法:*, torch.mul, torch.mm, torch.matmul. 本文抛砖引玉,简单叙述一下这4种乘法的区别,具体使用还是要参照官方文档。点乘a与b做*乘法,原则是如果a与b的size不同,则以某种方式将a或b进行复制,使得复制后的a和b的size相同,然后再将a和b做element-wise的乘法。下面以*标量和*一维向量为例展示上述过程。* 标量Tensor与标量k做*乘法的结果是Tensor的
2020-10-06 17:07:17
1776
原创 Linux常用命令(持续更新)
Basic查看cuda版本1:$ nvcc --version查看cuda版本2:$ cat /usr/local/cuda/version.txt查看cuda版本3:$ python -c "import torch; print(torch.version.cuda)"查看cudnn版本:$ cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 2Conda升级conda: $ conda update conda创建环境
2020-09-28 16:32:08
207
原创 vscode远程开发ssh-remote(免密登录)
生成SSH密钥和公钥$ ssh-keygen -t rsa -b 4096(连敲三下Enter就完成了,密钥id_rsa和公钥id_rsa.pub文件都默认保存在(C:\User\用户/.ssh)文件夹下)将公钥文件id_rsa.pub传到远程服务器的authorized_keys文件中$ vim ~/tmp.pub写入id_rsa.pub,或者通过scp$ mkdir -p ~/.ssh && chmod 700 ~/.ssh $ cat ~/tmp.pub >>.
2020-09-23 20:25:43
1178
转载 详解Transformer (Attention Is All You Need)
前言注意力(Attention)机制[2]由Bengio团队与2014年提出并在近年广泛的应用在深度学习中的各个领域,例如在计算机视觉方向用于捕捉图像上的感受野,或者NLP中用于定位关键token或者特征。谷歌团队近期提出的用于生成词向量的BERT[3]算法在NLP的11项任务中取得了效果的大幅提升,堪称2018年深度学习领域最振奋人心的消息。而BERT算法的最重要的部分便是本文中提出的Transformer的概念。正如论文的题目所说的,Transformer中抛弃了传统的CNN和RNN,整个网络结
2020-09-18 16:08:57
421
转载 完全图解RNN、RNN变体、Seq2Seq、Attention机制
本文主要是利用图片的形式,详细地介绍了经典的RNN、RNN几个重要变体,以及Seq2Seq模型、Attention机制。希望这篇文章能够提供一个全新的视角,帮助初学者更好地入门。一、从单层网络谈起在学习RNN之前,首先要了解一下最基本的单层网络,它的结构如图:输入是x,经过变换Wx+b和激活函数f得到输出y。相信大家对这个已经非常熟悉了。二、经典的RNN结构(N vs N)在实际应用中,我们还会遇到很多序列形的数据:如:自然语言处理问题。x1可以看做是第一个单..
2020-09-18 16:04:35
174
转载 真正的完全图解Seq2Seq Attention模型
转自:https://mp.weixin.qq.com/s/0k71fKKv2SRLv9M6BjDo4w五分钟看懂seq2seq attention模型。本文通过图片,详细地画出了seq2seq+attention模型的全部流程,帮助小伙伴们无痛理解机器翻译等任务的重要模型。seq2seq 是一个Encoder–Decoder 结构的网络,它的输入是一个序列,输出也是一个序列, Encoder 中将一个可变长度的信号序列变为固定长度的向量表达,Decoder 将这个固定长度的向量变成可变长度的.
2020-09-18 15:58:34
381
原创 Java并发编程看这一篇就够了
知识点总结并发编程的优缺点优点并发编程的形式可以将多核CPU的计算能力发挥到极致,性能得到提升;面对复杂业务模型,并行程序会比串行程序更适应业务需求,而并发编程更能吻合这种业务拆分。缺点频繁的上下文切换(特别的,cpu由于核心有限,往往是通过时分复用的方式实现并行多线程,会涉及大量的内存拷贝和上下文切换开销)不必要的锁竞争也会引起上下文切换解决思路无锁并发编程:可以参照concurrentHashMap锁分段的思想,不同的线程处理不同段的数据,这样在多线程竞争的条件下,可以减少上
2020-09-01 17:47:16
894
1
原创 Redis看这一篇就够了
Redisredis运维日志安装$ wget http://download.redis.io/releases/redis-3.2.11.tar.gz$ tar -zxvf redis-3.2.11.tar.gz$ ln -s redis-3.2.11 redis$ cd redis$ make & make install启动方式直接启动:redis-server动态参数启动:redis-server -p 6380指定配置文件启动:redis-server /path
2020-09-01 17:36:59
1310
原创 剑指offer题解
牛客网题解二维数组的查找二维数组在一个二维数组中(每个一维数组的长度相同),每一行都按照从左到右递增的顺序排序,每一列都按照从上到下递增的顺序排序。请完成一个函数,输入这样的一个二维数组和一个整数,判断数组中是否含有该整数。Consider the following matrix:[ [1, 4, 7, 11, 15], [2, 5, 8, 12, 19], [3, 6, 9, 16, 22], [10, 13, 14, 17, 24], [18, 21
2020-09-01 17:29:39
204
原创 经典算法
经典算法排序算法直接插入排序void InsertSort(int a[], int n){ for (int i = 1; i < n; ++i){ if(a[i] < a[i-1]){ int j = i - 1; int key = a[i];// for (; j>=0 ; --j) {//// if( a[j] <= key) break;//
2020-09-01 17:28:11
177
转载 算法分析
【转自cs-note】数学模型1. 近似2. 增长数量级3. 内循环4. 成本模型注意事项1. 大常数2. 缓存3. 对最坏情况下的性能的保证4. 随机化算法5. 均摊分析ThreeSum1. ThreeSumSlow2. ThreeSumBinarySearch3. ThreeSumTwoPointer倍率实验数学模型1. 近似N3/6-N2/2+N/3 ~ N3/6。使用 ~f(N) 来表示所有随着 N 的增大除以 f(N) 的结果趋近于
2020-09-01 17:26:41
219
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人