AXiao96-优快云博客

转载 Pytorch 自动求梯度（autograd）

深度学习其实就是一个最优化问题，找到最小的loss值，因为自变量过多，想要找到最小值非常困难。所以就出现了很多最优化方法，梯度下降就是一个非常典型的例子。本文针对python的pytorch库中的自动求梯度进行了详细的解释Tensorpytorch里面的tensor可以用来存储向量或者标量。torch.tensor(1) # 标量torch.tensor([1]) # 1*1 的向量tensor还可以指定数据类型，以及数据存储的位置（可以存在显存里，硬件加速）torch.te...

2021-03-29 13:12:42 1016

转载（转载）一文教你 “量子编程”入门式

作者：Quentin Truong翻译：Nuor审校：YQH这是一段从量子比特到真实量子程序的量子编程演练。量子计算机量子计算机被发现之后，量子编程也在不断发展。本文将带你入门量子编程，介绍量子计算机与传统电脑的区别，解释量子编程的基本概念，最后教你如何在一个当今免费的量子计算机上运行程序。在开始之前，请注意，本文是为希望了解量子编程的完整技术细节的人们准备的。本文建立在量子比特（qubit），量子门（quantum gates）和量子电路图（quantum circuit diag

2021-01-12 19:22:45 1330

转载 BART原理简介与代码实战

写在前面最近huggingface的transformer库，增加了BART模型，Bart是该库中最早的Seq2Seq模型之一，在文本生成任务，例如摘要抽取方面达到了SOTA的结果。本次放出了三组不同的预训练权重：bart-large：基础预训练模型； bart-large-cnn：基础模型在 CNN/Daily Mail Abstractive Summarization Task微调后的模型； bart-large-mnli：基础模型在MNLI classification task微调后

2020-10-13 18:10:16 9738

转载 Seq2Seq原理及实现

https://zhuanlan.zhihu.com/p/57155059一、Seq2Seq模型简介目前Seq2Seq模型在机器翻译，语音识别，文本摘要，问答系统等领域取得了巨大的成功。如图1所示，Seq2Seq其实就是Encoder-Decoder结构的网络，它的输入是一个序列，输出也是一个序列。在Encoder中，将序列转换成一个固定长度的向量，然后通过Decoder将该向量转换成我们想要的序列输出出来。图1 Encoder-Decoder结构如图2所示，Encoder和Decode

2020-10-13 18:08:54 1512 1

转载 torch.Tensor的乘法汇总

torch.Tensor的4种乘法torch.Tensor有4种常见的乘法：*, torch.mul, torch.mm, torch.matmul. 本文抛砖引玉，简单叙述一下这4种乘法的区别，具体使用还是要参照官方文档。点乘a与b做*乘法，原则是如果a与b的size不同，则以某种方式将a或b进行复制，使得复制后的a和b的size相同，然后再将a和b做element-wise的乘法。下面以*标量和*一维向量为例展示上述过程。* 标量Tensor与标量k做*乘法的结果是Tensor的

2020-10-06 17:07:17 1850

原创 Linux常用命令(持续更新)

Basic查看cuda版本1：$ nvcc --version查看cuda版本2：$ cat /usr/local/cuda/version.txt查看cuda版本3：$ python -c "import torch; print(torch.version.cuda)"查看cudnn版本：$ cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 2Conda升级conda: $ conda update conda创建环境

2020-09-28 16:32:08 266

原创 vscode远程开发ssh-remote(免密登录)

生成SSH密钥和公钥$ ssh-keygen -t rsa -b 4096(连敲三下Enter就完成了，密钥id_rsa和公钥id_rsa.pub文件都默认保存在(C:\User\用户/.ssh)文件夹下)将公钥文件id_rsa.pub传到远程服务器的authorized_keys文件中$ vim ~/tmp.pub写入id_rsa.pub,或者通过scp$ mkdir -p ~/.ssh && chmod 700 ~/.ssh $ cat ~/tmp.pub >>.

2020-09-23 20:25:43 1231

转载详解Transformer （Attention Is All You Need）

前言注意力（Attention）机制[2]由Bengio团队与2014年提出并在近年广泛的应用在深度学习中的各个领域，例如在计算机视觉方向用于捕捉图像上的感受野，或者NLP中用于定位关键token或者特征。谷歌团队近期提出的用于生成词向量的BERT[3]算法在NLP的11项任务中取得了效果的大幅提升，堪称2018年深度学习领域最振奋人心的消息。而BERT算法的最重要的部分便是本文中提出的Transformer的概念。正如论文的题目所说的，Transformer中抛弃了传统的CNN和RNN，整个网络结

2020-09-18 16:08:57 492

转载完全图解RNN、RNN变体、Seq2Seq、Attention机制

本文主要是利用图片的形式，详细地介绍了经典的RNN、RNN几个重要变体，以及Seq2Seq模型、Attention机制。希望这篇文章能够提供一个全新的视角，帮助初学者更好地入门。一、从单层网络谈起在学习RNN之前，首先要了解一下最基本的单层网络，它的结构如图：输入是x，经过变换Wx+b和激活函数f得到输出y。相信大家对这个已经非常熟悉了。二、经典的RNN结构（N vs N）在实际应用中，我们还会遇到很多序列形的数据：如：自然语言处理问题。x1可以看做是第一个单..

2020-09-18 16:04:35 210

转载真正的完全图解Seq2Seq Attention模型

转自:https://mp.weixin.qq.com/s/0k71fKKv2SRLv9M6BjDo4w五分钟看懂seq2seq attention模型。本文通过图片，详细地画出了seq2seq+attention模型的全部流程，帮助小伙伴们无痛理解机器翻译等任务的重要模型。seq2seq 是一个Encoder–Decoder 结构的网络，它的输入是一个序列，输出也是一个序列， Encoder 中将一个可变长度的信号序列变为固定长度的向量表达，Decoder 将这个固定长度的向量变成可变长度的.

2020-09-18 15:58:34 437

原创 Java并发编程看这一篇就够了

知识点总结并发编程的优缺点优点并发编程的形式可以将多核CPU的计算能力发挥到极致，性能得到提升；面对复杂业务模型，并行程序会比串行程序更适应业务需求，而并发编程更能吻合这种业务拆分。缺点频繁的上下文切换(特别的，cpu由于核心有限，往往是通过时分复用的方式实现并行多线程，会涉及大量的内存拷贝和上下文切换开销)不必要的锁竞争也会引起上下文切换解决思路无锁并发编程：可以参照concurrentHashMap锁分段的思想，不同的线程处理不同段的数据，这样在多线程竞争的条件下，可以减少上

2020-09-01 17:47:16 946 1

原创 Redis看这一篇就够了

Redisredis运维日志安装$ wget http://download.redis.io/releases/redis-3.2.11.tar.gz$ tar -zxvf redis-3.2.11.tar.gz$ ln -s redis-3.2.11 redis$ cd redis$ make & make install启动方式直接启动：redis-server动态参数启动：redis-server -p 6380指定配置文件启动：redis-server /path

2020-09-01 17:36:59 1358

原创剑指offer题解

牛客网题解二维数组的查找二维数组在一个二维数组中（每个一维数组的长度相同），每一行都按照从左到右递增的顺序排序，每一列都按照从上到下递增的顺序排序。请完成一个函数，输入这样的一个二维数组和一个整数，判断数组中是否含有该整数。Consider the following matrix:[ [1, 4, 7, 11, 15], [2, 5, 8, 12, 19], [3, 6, 9, 16, 22], [10, 13, 14, 17, 24], [18, 21

2020-09-01 17:29:39 232

原创经典算法

经典算法排序算法直接插入排序void InsertSort(int a[], int n){ for (int i = 1; i < n; ++i){ if(a[i] < a[i-1]){ int j = i - 1; int key = a[i];// for (; j>=0 ; --j) {//// if( a[j] <= key) break;//

2020-09-01 17:28:11 200

转载算法分析

【转自cs-note】数学模型1. 近似2. 增长数量级3. 内循环4. 成本模型注意事项1. 大常数2. 缓存3. 对最坏情况下的性能的保证4. 随机化算法5. 均摊分析ThreeSum1. ThreeSumSlow2. ThreeSumBinarySearch3. ThreeSumTwoPointer倍率实验数学模型1. 近似N3/6-N2/2+N/3 ~ N3/6。使用 ~f(N) 来表示所有随着 N 的增大除以 f(N) 的结果趋近于

2020-09-01 17:26:41 254

qq_26815437的博客