自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

原创 Transformer

TransformerbaseCNNRNN拓展结构:双向RNN拓展结构:多层RNNLSTMGRUAttentionTransformerbase传统的word2vec虽然利用了上下文关系,但是在使用过程中,是直接采用词矩阵进行映射,没有考虑上下文关系,所以会导致同文歧义的情况。所以这里需要考虑在词向量基础上构建上下文的关系。CNNCNN是普通神经网络基础上考虑稀疏权重和共享参数。RNNRNN就是普通神经网络基础上引入记忆考虑到上下文之间的关系RNN的基本结构如果链接起来看拓展结构

2021-01-09 21:09:53 937 4

原创 TomBert:一种基于Bert改进的多模态的情感识别方法

TomBert摘要引言模型数据描述mBERTTomBERT摘要论文地址为Adapting BERT for Target-Oriented Multimodal Sentiment Classification基于目标的情感分类是细粒度情感分类的重要任务。即我们关注输入句子中部分,视作目标,对这一部分进行情感分析。传统方法只注重基于文本的情感分类,这边考虑图文多模态融合的方法,提出了新的TMSC(target-oriented multimodal sentiment classification)

2021-01-04 15:17:09 3072

原创 神经网络最优化算法浅析

最优化算法梯度下降法定义基于泰勒展开的有效性负梯度拓展牛顿法共轭梯度启发式方法模拟退火遗传算法之前学习的时候关于最优化算法没有一个系统性的认识,对于梯度下降法与牛顿法的区别和关联认识不清晰,这次进行一个系统性的总结。梯度下降法定义梯度下降算法是求解无约束最优化问题的迭代算法。算法的前提条件是,损失函数f(x)f(x)f(x)是具有一阶连续偏导数的函数。梯度下降算法具体过程是:选定初始值x0x_0x0​不断沿着负梯度方向迭代更新x xk+1=xk+λkpkx^{k+1} = x^k + \l

2020-12-29 14:41:40 1205

原创 Transformer的改进

Transformer的改进Transformer简介Efficient Transformer简介Fixed PatternsCombination of PatternsLearnable PatternsMemoryLow-RankKernelsRecurrence性能比较Transformer简介Transformer的核心是self-attention,通过计算输入序列中元素与其他所有元素的相关性来获取加权得分。但是这一步骤需要 O(n2)O(n^2)O(n2)的时间和空间复杂度,因为需要两个

2020-12-21 11:53:57 3315

原创 多模态学习入门和实践

多模态学习概念主要任务Representation对齐翻译融合(Multimodal Fusion)协同学习(co-learning)概念模态(Modality) 事物发生的方式主要任务Representation学习将多模态数据整合到一个特征表示中。其中,通过利用多模态之间的互补性,剔除模态间的冗余性,从而学习到更好的特征表示。(如下例子)展现方式主要如下:joint联合在一个展现空间中coordinated,不同模态展现在不同空间中,但空间之间相互约束对齐将多模态的元素对齐翻

2020-12-16 16:42:43 2649

原创 从DSSM到双塔模型

从DSSM到双塔DSSM背景结构Word Hashingnegative sampling拓展Google Two Tower ModelDSSM文献链接DSSM背景将自然语言转化为向量,计算向量的相似度作为两句(query&doc)的相似度历史方法:单词向量空间模型:向量维度是词表,值是词频。计算简单,但是无法解决一词多义(polysemy)和多词一义(synonymy)话题向量空间模型(潜语义分析,LSA) : X = TY,X是单词向量空间,T是话题空间,Y是文本在话题空间的表

2020-12-15 20:56:26 811

原创 ALBERT: 轻量级的BERT

ALBERT前言当前的趋势是预训练模型越大,效果越好,但是受限算力,需要对模型进行瘦身。这里的ALBERT字如其名(A lite BERT),就是为了给BERT瘦身,减少模型参数,降低内存占用和训练时间(待思考)。论文来源:Lan, Z. , Chen, M. , Goodman, S. , Gimpel, K. , Sharma, P. , & Soricut, R. . (2019). Albert: a lite bert for self-supervised learning of

2020-12-12 22:16:16 653

原创 BERT压缩

BERT压缩之前的压缩方法三层BERT:哈工大WWM_RBT3之前的压缩方法三层BERT:哈工大WWM_RBT3Whole Word Masking (wwm)是BERT的一个掩码改进版本。原先的掩码是随机将token掩盖(80%替换为[MASK],10%替换别的词,10%不处理),但是一个词根据wordpiece可能拆分成多个token,掩码可能不会将这个词全部隐藏。因此,推出了全掩码,即将命中token的整个单词掩藏,作者认为这样会易于预测。哈工大WWM正式在此基础上提出对中文的掩码。中文不存在

2020-12-11 14:59:27 422

原创 RoBERTa:BERT的优化方案

RoBERTa前言说明BERT简介结构输入训练目标MLMNSP优化AdamGELU数据相融实验动态OR静态掩码模型输入格式和NSP lossBatch size文本编码RoBERTaRoBERTa论文地址前言说明BERT模型是欠训练的,作者提供了一个超参优化的BERT训练模型RoBERTa, 即稳健优化的BERT方法(Robustly Optimized BERT Pretraining Approach)优化的点包括:训练时间更长,更大的batch,更多的数据去掉了NSP训练(BERT的两个

2020-12-03 19:47:57 2510

原创 优化方法浅析

优化算法SGD动量法AdaGradRMSPropAdamNadam思路参考一个框架看懂优化算法之异同 SGD/AdaGrad/AdamSGD随机梯度下降方法gt=∇f(wt)g_t = \nabla f(w_t)gt​=∇f(wt​)wt+1=wt−αgtw_{t+1} = w_t - \alpha g_twt+1​=wt​−αgt​动量法为了解决梯度下降收敛过慢的问题,因为存在病态曲率。梯度下降沿着山沟的山脊反弹,向极小的方向移动较慢。这是因为脊的表面在W1方向上弯曲得更陡峭。具体介

2020-12-03 16:36:45 543

原创 BERT文本分类代码_来源huggingface

模型需要提前设定随机种子和框架样式,这里的框架样式主要是指在进行卷积计算时候选择的算法。在加速器cuDnn中,针对卷积有多种优化算法,不同的优化算法会对结果产生差异。torch.backends.cudnn.deterministic = TrueTrue每次返回的卷积算法将是确定的,默认的,结合确定的随机种子,可以确保结果可复现,缺点是速度性能会慢。torch.backends.cudnn.benchmark = Falsecudnn为了提升性能使用了基准测试,每次调用cuDNN卷积算法,利

2020-12-02 21:31:17 764

原创 高效文本分类工具:fastText

fasttext定义结构与CBOW结构的不同点输入层改进: subword定义fasttext是一个单隐层的线性分类器,结构上是CBOW的一个简单改进,将输出由中心词改为了分类标签,输入改为整个句子的n-gram(分词)。关于CBOW结构可以参见之前的文章词嵌入模型word2vec结构与CBOW结构的不同点不同点包括:输入层不再是滑动窗口的上下文单词,而是整个句字的分词(包括分字和字符层级的分词)输出层不再是中心词,而是分类标签,意味着输出矩阵不再是V∗DV* DV∗D,而是N∗DN *

2020-11-23 18:36:15 1501 1

原创 词嵌入模型word2vec

Word2Vec引言解释计算方法CBOWskip-gram引言解释词嵌入即利用向量来表示单词,表示原则是一个单词的意思是由经常出现在它附近的单词给出的,即我们需要刻画单词的上下文关系。转化成数学就是,我们需要构建一个词空间,用词空间里的向量来表示单词,相似词对应的词向量在空间上距离近如何去构建一个词向量空间呢,我们延续上文神经语言模型_逐段解读的方法,利用神经网络的方法。计算方法CBOWCBOW是Continuous Bag-of-Words Model,skip-gram...

2020-11-18 15:38:30 1910

原创 神经语言模型_逐段解读

神经网络语言模型摘要引言神经模型并行执行实验结果拓展工作OOV待解决的工作结论原文:Kandola, E. J. , Hofmann, T. , Poggio, T. , & Shawe-Taylor, J. . (2006). A neural probabilistic language model. Studies in Fuzziness & Soft Computing, 194, 137-186.原文地址A Neural Probabilistic Language Mode

2020-11-13 16:33:03 573

原创 语言模型:n-grams

语言模型定义n-grams模型评价指标:困惑度参考资料定义语言模型是定义在单词序列上的概率模型,通常构建为字符串sss的概率分布p(s)p(s)p(s),这里的p(s)p(s)p(s)反映是字符串sss作为一个句子出现的概率。需要注意的是,与语言学不同,语言模型和句子是否合乎语言没有关系。n-grams模型语言中存在上下文相关,理论上下文应当与上文所有信息相关,但是这样必然会导致:模型参数空间巨大计算的概率数据矩阵严重稀疏为了解决上述问题,我们提出了马尔可夫假设:P(xt+1∣xt,...

2020-11-12 22:23:00 1064

原创 python中eval的替代办法:ast.literal_eval

eval优点:字符串与list、tuple、dict的转化缺点:可以将字符串转成表达式并执行,就可以利用执行系统命令,删除文件等操作json.loads()将json转化为list,tuple,dict但是需要字符串转化为json格式ast.literal_eval()ast.literal_eval,优先识别是否为合法的python类型,对于不合法的数据类型(如命令执行),不解析不执行且相比json.loads,不需要将字符串转化为json格式ast.literal_eval('[1

2020-11-11 13:06:12 1888

原创 《构建之法》读书笔记(5):复盘模板

复盘模板设想和目标计划资源变更管理设计/实现测试/发布总结设想和目标目标是什么?需求定义,目标用户,用户场景是否明确?时间规划是否充足团队在计划阶段是否解决同事们对计划不同的意见目标是否达成,如果重来,怎么改进计划原计划工作是否完成,为什么有没有发现你做了一些事后看来没必要或没多大价值的事?是否每一项工作都有清楚定义和衡量的交付件是否项目整个过程都按照计划进行在计划中是...

2020-01-29 13:36:47 210

原创 《构建之法》读书笔记(4):用户设计与测试

用户设计与测试用户设计标准测试功能测试非功能测试测试方法用户设计标准Fool Proof原则:不需要花费额外的注意力,也不需要经验与专业知识即可凭直觉完成正确的操作评价标准尽快提供可感触的反馈系统界面符合用户的现实惯例(减少认知阻力)用户有控制权(退出按钮)一致化和标准化适合各种类型的用户帮助用户识别,诊断并修复错误有必要的提示和帮助文档测试功能测试单元测试功能测...

2020-01-28 17:46:23 149

原创 《构建之法》读书笔记(3):需求分析

需求分析竞争需求分析竞争需求分析框架(NABCD)电梯演讲功能定位与优先级功能划分方法竞争需求分析竞争需求分析框架(NABCD)N(需求,need):需求改进;找到不消费的 用户开创需求A(做法,approach):独特的招数B(好处,benefit):结合成本来看C(竞争,Competitors)D(推广;数据,Delivery;Data)电梯演讲用户并不需要“产品”,用户...

2020-01-26 12:06:40 284

原创 CS224N学习笔记(2):skip-gram和negative sampling

CS224N学习笔记(2)Word2Vec简介Skip-gramWord2Vec简介相比Onehotting编码方式:不能展示语义关系(不同词之间的点积为0)修正方法:分布相似性,通过理解上下文理解单词的含义(predict between every word and its context words)构建dense vector来预测上下文算法:skip-gram...

2020-01-25 18:13:50 783

原创 《构建之法》读书笔记(2):开发流程

开发流程TSP原则RUP与MVP流程RUPMVPTSP原则使用妥善定义的流程,要求每一步可重复,可衡量团队各成员对团队目标,角色, 产品都有统一的理解尽量使用成熟的技术和做法尽量多地收集数据,做出理性决策制定切合实际的计划和承诺,团队计划要由负责具体执行的角色来制定增加团队的自我管理能力专注于提高质量,争取在软件生命周期的早期发现问题,关键是做全面而细致的设计工作RUP与MV...

2020-01-23 14:46:05 144

原创 《构建之法》读书笔记(1):代码复审与团队沟通

代码复审与团队沟通代码复审复审的形式复审的目的复审的步骤复审前复审中复审后复审的核心内容代码规范设计规范数据与效能情况测试情况团队沟通正确的反馈反馈的层次易于接受的反馈:三明治法则代码复审代码复审的正确定义:看代码是否在代码规范的框架内正确地解决了问题。复审的形式名称形式目的自我复审自己 v.s. 自己用同伴复审标准要求自己,高成长同伴复审复审者 v.s....

2020-01-22 22:31:50 203

原创 CS224N学习笔记(1)

CS224N学习笔记(1)欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使...

2020-01-20 08:12:49 85

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除