- 博客(6)
- 收藏
- 关注
原创 Transformer架构:位置编码
2017年,Google的Vaswani 等人提出了一种新颖的纯注意力序列到序列架构,闻名学术界与工业界的 Transformer 架构横空出世。它的可并行化训练能力和优越的性能使其成为 NLP(以及最近的 CV)研究人员的热门选择。本文将重点讨论Transformer架构一个不可或缺的部分——位置编码(Positional Encoding)。Transformer架构位置编码是什么?它为什么这么重要?在自然语言中,单词的位置与顺序定义了语法,也影响着语义。无法捕获的单词顺序会导致我们很难理解一句
2022-03-19 13:12:06
17312
6
原创 一个能让我们睡觉时也能执行程序的小脚本
在我们跑深度模型程序的时候,常常会碰到半夜两三点刚刚跑的情况。然后会浪费服务器几个小时的空闲时间(除非自己定闹钟起床跑脚本,熬夜就很伤身体,还掉头发T_T#)最近学到一个小脚本,每10微秒监听一次服务器,当服务器为空时,执行脚本。话不多说,代码如下:#! /usr/bin/bashlim=100while :do #监听间隔时间 sleep 10 a=`nvidia-smi --query-gpu=memory.used --format=csv|cut -f 1 -d ' '
2020-06-15 00:10:59
387
1
原创 Explicit Cross-lingual Pre-training for Unsupervised Machine Translation(CMLM阅读笔记)
《Explicit Cross-lingual Pre-training for Unsupervised Machine Translation》是北航的SKLSDE Lab发表于EMNLP 2019一篇论文,主要介绍一种无监督机器翻译的显式跨语言预训练方法。摘要在无监督机器翻译中,预训练被证明能够在跨语言场景中建模深层的上下文信息。然而,从共享词表的BPE空间获得的跨语言信息是意义不明确的以及十分有限的。在本文中,作者提出了一种新的跨语言预训练方法,该方法通过加入明确的跨语言训练信号来实现无监督机器
2020-05-23 15:32:05
945
2
原创 东北大学计算机考研复试时软件工程的一些总结(三)
第六章 软件设计方法6.1 设计活动的总体原则包括哪些?设计过程不应陷入片面性;设计应能够追踪分析模型;设计应该选择合适的技术;设计应该选择合适的技术;设计应该选择合适的技术;设计应该是可集成的;设计应该尽可能地提高抽象层次;设计应该是可复用的;设计应该是可维护和可拓展的;设计的系统应该有韧性;设计应该具有一致性;设计的交互界面应该是友好的;设计评审。6.2 什么是软件构架?在UML中,构...
2019-03-16 15:10:22
2205
原创 东北大学计算机考研复试时软件工程的一些总结(二)
第三章 软件过程模型3.1 传统“软件生命周期”理论是什么?它有什么缺点?传统的软件工程理论常把这些过程中的活动视为“阶段”,它们被划分到软件开发的三个时期里,即软件定义时期(问题定义、可行性研究、需求分析)、软件开发时期(总体设计、详细设计、编码、单元测试、集成测试)和运行维护时期(每次维护的本质上都是一次简化的定义和开发过程)。缺点是并未明确地包括保护性活动以及不能并发进行过程中的各项活...
2019-03-15 16:51:38
2370
原创 东北大学计算机考研复试时软件工程的一些总结(一)
东北大学计算机考研复试时软件工程的一些总结(一)第一章 软件工程概述第二章 软件开发过程和活动第一章 软件工程概述1.1 软件开发有哪些特点?难以描述性、缺乏可见性、复杂性、变化性、风险性、强合作性。1.2 什么是软件危机?有哪些表现?怎么解决?软件危机:指在软件开发和维护过程中存在周期长、成本高、质量低等问题。表现在:①缺乏计划性②软件需求获取不充分、不准确③缺乏团队开发的合作...
2019-03-13 20:15:16
4933
3
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人