
nlp
文章平均质量分 74
yealxxy
一直学习计算机,了解互联网发展趋势。
展开
-
【深度学习-数据加载优化-训练速度提升一倍】
1,介绍数据加载深度学习的训练,简单的说就是将数据切分成batch,丢入模型中,并计算loss训练。其中比较重要的一环是数据打batch部分(数据加载部分)。训练时间优化:深度学习训练往往需要大量的数据,训练过程也比较慢,常见的提升训练速度的方法包括:数据加载优化、模型计算优化、fp16半精度训练、加大batch、多卡训练等方法。这篇文章主要介绍从数据加载的思路提升训练速度。结论:数据加载优化后,可以提升1倍以上的训练速度。2,数据加载流程数据加载一般分为四步:从文本中原创 2022-03-20 20:57:09 · 2557 阅读 · 0 评论 -
过年刷【千言数据集:文本相似度】比赛
千言数据集:文本相似度数据集,时间有限,取得了15的成绩。原创 2022-02-05 16:36:55 · 1199 阅读 · 1 评论 -
文本分类概述(nlp)
文本分类问题:给定文档p(可能含有标题t),将文档分类为n个类别中的一个或多个 文本分类应用:常见的有垃圾邮件识别,情感分析 文本分类方向:主要有二分类,多分类,多标签分类 文本分类方法:传统机器学习方法(贝叶斯,svm等),深度学习方法(fastText,TextCNN等) 本文的思路:本文主要介绍文本分类的处理过程,主要哪些方法。致力让读者明白在处理文本分类问题时应该从什么方向入手,重...原创 2018-06-22 23:28:27 · 101092 阅读 · 7 评论 -
nlp中文本相似度计算问题
文章的目的:文本相似度计算一直是nlp中常见的问题,本文的目标是总结并对比文本相似度计算方法。当然文本的相似度计算会有进一步的应用,比如文本的分类、聚类等。 文章结构:本文先介绍最直接的字面距离相似度度量,而后介绍语义主题层面的度量,最后介绍目前一些新的相似度计算方法。一、字面距离相似度度量:这一种相似性度量的方法比较简单,文本是由字词组成,重点是各种距离的度量方法。其中SimHash方法目...原创 2018-06-19 22:24:55 · 15141 阅读 · 2 评论 -
论文解读:From Pixels to Objects: Cubic Visual Attention for Visual Question Answering
这是关于VQA问题的第十篇系列文章。本篇文章将介绍论文:主要思想;模型方法;主要贡献。有兴趣可以查看原文:From Pixels to Objects: Cubic Visual Attention for Visual Question Answering1,主要思想作者提出一般的Spatial visual attention只是选出了最关注的视觉对象,在通道上采用的相同的权重,这不符合a...原创 2018-12-27 21:24:24 · 960 阅读 · 0 评论 -
nlp中文本预处理技术
自然语言处理NLP(Natural Language Processing),就是使用计算机对语言文字进行处理的相关技术。本文主要是总结一下中、英文的常用的文本预处技术。文本分析的流程如下:一、中文文本分析流程1,中文文本处理的特点中文没有单词的分割符号,因此需要复杂的分词模型进行分析。中文的编码不是utf8,而是unicode。这样会导致在分词的时候,和英文相比,我们要处理编码的问题...原创 2019-01-20 15:40:07 · 3716 阅读 · 0 评论 -
提取内容摘要
本篇文章主要介绍文章摘要提取的方法,将从抽取式摘要提取和生成式摘要提取两种思路介绍。一,背景介绍利用计算机将大量的文本进行处理,产生简洁、精炼内容的过程就是文本摘要,人们可通过阅读摘要来把握文本主要内容,这不仅大大节省时间,更提高阅读效率。自动摘要(Automatic Summarization)的方法主要有两种:Extraction 是抽取式自动文摘方法,通过提取文档中已存在的关键词,...原创 2019-01-09 21:05:54 · 9371 阅读 · 3 评论 -
tensorflow学习率控制及调试
在深度学习中,学习率变化对模型收敛的结果影响很大,因此很多时候都需要控制学习率的变化。本文以tensorflow实现learning rate test为例,讲述学习率变化控制的方法,以及怎么调试。一、learning rate test学习率测试(learning rate test)是一个找到学习率变化的范围的测试,详情可以查看自 Adam 出现以来,深度学习优化器发生了什么变化二、te...原创 2019-05-04 16:37:22 · 3277 阅读 · 2 评论