- 博客(157)
- 资源 (15)
- 收藏
- 关注
转载 欧氏距离和余弦相似度的区别是什么?
原文:https://www.cnblogs.com/Jack-Lee/p/3654209.html概述 两者都是评定个体间差异的大小的。欧几里得距离度量会受指标不同单位刻度的影响,所以一般需要先进行标准化,同时距离越大,个体间差异越大; 空间向量余弦夹角的相似度度量不会受指标刻度的影响,余弦值落于区间[-1,1],值越大,差异越小。2)计算公式 欧氏距离(也叫欧几...
2019-07-21 17:09:55
3752
转载 为什么会出现Batch Normalization层
原文地址:https://blog.youkuaiyun.com/NNNNNNNNNNNNY/article/details/70331796训练模型时的收敛速度问题众所周知,模型训练需要使用高性能的GPU,还要花费大量的训练时间。除了数据量大及模型复杂等硬性因素外,数据分布的不断变化使得我们必须使用较小的学习率、较好的权重初值和不容易饱和的激活函数(如sigmoid,正负两边都会饱和)来训练模...
2019-07-12 15:31:24
452
转载 latex biography 中作者间间距过大,如何进行设置
转自:https://blog.youkuaiyun.com/u014077947/article/details/82216292在用IEEE 的latex的模板进行排版的时候,经常发现作者之间的间距过大,这个时候应该如何进行调整呢?通过查阅资料发现有好几种方法。1、重定义thebibliography环境修改IEEEtran.cls,打开IEEEtran.cls,找到\def\@I...
2019-04-23 21:34:38
10753
转载 ubuntu16.04+anaconda+tensorflow-gpu1.8.0+keras+pytorch(caffe2)
原文:https://blog.youkuaiyun.com/zouxinyao/article/details/83026783经过两天时间,终于在新安装的ubuntu16.04系统下配置好深度学习环境,今天和大家分享一下经验:丑话说在前面:安装tf之前我已经安装好cuda,但是用conda安装tf时,又下载了cuda和cudnn,最后测试tf和pytorch都可以使用,但是不清楚不手动安装c...
2019-03-16 15:54:37
492
转载 使用sklearn进行增量学习
问题实际处理和解决机器学习问题过程中,我们会遇到一些“大数据”问题,比如有上百万条数据,上千上万维特征,此时数据存储已经达到10G这种级别。这种情况下,如果还是直接使用传统的方式肯定行不通,比如当你想把数据load到内存中转成numpy数组,你会发现要么创建不了那么大的numpy矩阵,要么直接加载时报MemeryError。在这种情况下我了解了几种选择办法,1. 对数据进行降维,2. 使用...
2019-03-02 13:41:14
2595
原创 Sklearn.metrics 模型效果验证——accuracy, precision, recall, F1
accuracy, precision, recall, F1四个函数是分类问题中常见的四个模型评价函数。原来都是自己写代码来实现。现在没办法,懒了。所以打算直接调用 Sklearn.metrics 中的函数。第一次用,所有出现了几个问题,这里记录一下,省得自己以后又要再找。accuracy_score(准确率得分)是模型分类正确的数据除以样本总数 【模型的score方法算的也是准确率】f...
2019-03-01 19:28:14
10430
原创 sklearn.feature_extraction.text 中的 TfidfVectorizer 实现过程
对于NLP,已经学习一年了,可是一直有一个问题困扰着我,终于忍无可忍,决定将问题解决掉。首先,介绍一下我的问题:对于TFIDF算法,当利用训练集训练完成分类器,利用分类器进行训练时,如果测试集中只有一个文档,TFIDF数据是如何生成的?这个问题可能对于很多人来说,很简单。但是对于我来说着实很纠结。1. TFIDF算法基础知识TF-IDF(Term Frequency-Inver...
2019-02-24 21:07:57
9366
2
转载 VNC实现Windows远程访问Ubuntu 16.04(无需安装第三方桌面)
原文:https://www.cnblogs.com/xuliangxing/p/7642650.html本文主要是讲解如果理由VNC实现Windows远程访问Ubuntu 16.04,其实网上有很多类似教程,但是很多需要安装第三方桌面(xfce桌面等等),而且很多人不太喜欢安装第三方桌面,很多人像笔者一样喜欢原生自带的桌面(O(∩_∩)O哈哈~有点强迫症)。今天笔者给大家介绍一下,不需要安装...
2018-11-06 17:05:00
2596
转载 什么是Word2Vec?如何有效的表征文本的?
本文主要围绕两个问题进行介绍 “什么是Word2Vec?如何有效的表征文本的?” 2013年,Google开源了一个用于生成词向量的工具,因其简单实用高效而引起广泛关注。若有兴趣的读者,可阅读作者的原论文[8]。 Word2Vector本质上有两个学习任务,还有两套模型分别是: CBOW(Continuous Bag-Of-Words,即连续的词袋模型):对于...
2018-11-04 12:30:54
1193
原创 Pycharm 中使用anaconda配置tensorflow 和 caffe
利用anaconda安装tensorflow和caffe, 在pycharm中进行使用时,需要先进行配置,否则会提示没有这一模块。1、配置tensorflow 2、配置caffe
2018-10-22 11:32:56
978
转载 深度学习中Attention Mechanism详细介绍:原理、分类及应用
Attention是一种用于提升基于RNN(LSTM或GRU)的Encoder + Decoder模型的效果的的机制(Mechanism),一般称为Attention Mechanism。Attention Mechanism目前非常流行,广泛应用于机器翻译、语音识别、图像标注(Image Caption)等很多领域,之所以它这么受欢迎,是因为Attention给模型赋予了区分辨别的能力,例如,在...
2018-10-16 17:07:52
22629
转载 卷积神经网络中不同类型的卷积方式介绍
卷积基本概念 首先,我们首先回顾一下卷积相关的基本概念,定义一个卷积层需要的几个参数。 2维卷积使用卷积核大小为3,步长为1和Padding 卷积核大小(Kernel Size):卷积核大小定义了卷积的视野。2维中的常见选择是3 - 即3x3像素矩阵。 步...
2018-10-16 16:24:11
6649
转载 基于CNN的Seq2Seq模型-Convolutional Sequence to Sequence
Seq2seq是现在使用广泛的一种序列到序列的深度学习算法,在图像、语音和NLP,比如:机器翻译、机器阅读、语音识别、智能对话和文档摘要生成等,都有广泛的应用。Seq2Seq模由encoder和decoder两个部分来构成,假设模型的训练样本为(X,Y),encoder负责把输入X映射到隐向量Z,再由decoder把Z映射到输出Y。现在大多数场景下使用的Seq2Seq模型基于RNN构成的,虽然取...
2018-10-16 16:03:55
5953
转载 深度学习中的表示学习_Representation Learning
一、深度学习网络的表达方式汇总及模型分类方法人的大脑会对眼睛捕捉到的外界事物进行逐级抽象,逐渐提取出抽象的语义信息,以便为人脑所理解。深度学习从这一科学发现得到启发,通过网络的权值来捕捉外界输入模式的特征,并且通过网络连接方式来组合这些特征从而提取出更加高层特征,采用这种方法逐级从大量的输入数据中学习到对于输入模式有效的特征表示,然后再把学习到的特征用于分类、回归和信息检索。深度学习能够提取输...
2018-10-16 15:56:43
18934
1
转载 多任务学习-Multitask Learning概述
1、单任务学习VS多任务学习 单任务学习:一次只学习一个任务(task),大部分的机器学习任务都属于单任务学习。 多任务学习:把多个相关(related)的任务放在一起学习,同时学习多个任务。 多任务学习(multitask learning)产生的原因? 现在大多数机器学习任务都是单任务学习。对于复杂的问题,也可以分解为简单且相互独立的子问题来单独解决,然...
2018-10-15 22:04:03
34565
2
转载 使用caffe的convert_imageset生成lmdb文件
原文地址:https://blog.youkuaiyun.com/losteng/article/details/51170394 最近在看caffe的自带的例子时,才发现需要学习的真的很多其中在将我们的数据转换成lmdb的文件的时候遇到很多问题,现在总结一下,只是个人问题1.首先在一般是使用图片入手的需要将图片生成键值对的文本文件在生成的时候可以使用python的脚本或是shell...
2018-10-13 15:39:08
694
原创 Ubuntu 下 GitHub入门使用
一. 注册账号首先进入GitHub的官网,注册GitHub账户。GitHub官网网址:https://github.com/笔者已经注册了一个GitHub账号,且注册流程十分简单,所以不再赘述。笔者的GitHub主界面如下所示:二. 本机操作1.打开终端检查本地是否安装github,ubuntu默认是安装github的。git --version 2.生成密...
2018-09-26 19:42:44
978
原创 Latex使用
(插播)数学字符加粗:http://blog.sina.com.cn/s/blog_a0e53bf70102vr42.htmlhttps://www.zhihu.com/question/25290041/answer/30422583具体可看上面两篇介绍:1、单个字符加粗,amsmath 宏包(更确切地说是子包 amsbsy)提供了 \boldsymbol 命令\docum...
2018-09-02 21:19:45
4757
原创 ubuntu下pip出现错误
电脑安装了tensorflow,可是这段时间却无故导入失败,出现各种问题,利用pip想要重装的时候,无论卸载还是安装总是提示如下错误:>Traceback (most recent call last):File "/home/myuser/.local/bin/pip", line 7, in <module>from pip._internal import mai...
2018-07-18 17:36:19
2899
原创 Pycharm 首次导入 Tensorflow出现问题的解决方法
参考Pycharm中加入Tensorflow出现问题的解决方法 在看本文前需要先了解一下本文所解决的问题,表现为两个方面:1、在终端中导入tensorflow导入时并不提示 tensorflow 模块不存在问题,而是提示cudnn找不到,问题如下所示:dell@dell-PowerEdge-T630:~$ pythonPython 2.7.12 (default, Dec 4...
2018-07-16 20:59:25
11035
转载 DeepNLP的表示学习·词嵌入来龙去脉·深度学习(Deep Learning)·自然语言处理(NLP)·表示(Representation)
原文:https://blog.youkuaiyun.com/scotfield_msn/article/details/69075227〇、序一、DeepNLP的核心关键:语言表示(Representation)二、NLP词的表示方法类型 1、词的独热表示one-hot representation 2、词的分布式表示distributed representation三、NLP...
2018-07-09 21:10:55
1301
转载 用 Python 实现 LDA
原文地址:https://blog.youkuaiyun.com/github_36299736/article/details/54966460原文出处:Jordan BarberLDA 是什么LDA 演练需要用到的包导入文档清洗文档 分词移除停用词词干提取创建 document-term matrix应用 LDA 模型检查结果LDA 原理完整代码LDA 是什么?隐含狄利克雷分布(以下简写为 LDA)是一种...
2018-07-09 20:56:16
2046
转载 基于gensim的doc2vec实践
原文:https://blog.youkuaiyun.com/John_xyz/article/details/794242841.“句向量”简介word2vec提供了高质量的词向量,并在一些任务中表现良好。 关于word2vec的原理可以参考这几篇论文:https://arxiv.org/pdf/1310.4546.pdfhttps://arxiv.org/pdf/1301.3781.pdf关于如何使用第三...
2018-07-09 19:37:11
1296
转载 词向量之WORD2VEC实践
原文地址:https://www.cnblogs.com/Climbing-Snail/p/7729795.html首先感谢无私分享的各位大神,文中很多内容多有借鉴之处。本次将自己的实验过程记录,希望能帮助有需要的同学。一、从下载数据开始 现在的中文语料库不是特别丰富,我在之前的文章中略有整理,有兴趣的可以看看。本次实验使用wiki公开数据,下载地址如下: wiki英文数据下载...
2018-07-09 14:44:08
799
转载 用scikit-learn学习LDA主题模型
原文:http://www.cnblogs.com/pinard/p/6908150.html 在LDA模型原理篇我们总结了LDA主题模型的原理,这里我们就从应用的角度来使用scikit-learn来学习LDA主题模型。除了scikit-learn, 还有spark MLlib和gensim库也有LDA主题模型的类库,使用的原理基本类似,本文关注于scikit-learn中LDA主题模型的使用...
2018-06-27 19:19:11
1191
1
转载 英文文本挖掘预处理流程总结
原文:http://www.cnblogs.com/pinard/p/6756534.html 在中文文本挖掘预处理流程总结中,我们总结了中文文本挖掘的预处理流程,这里我们再对英文文本挖掘的预处理流程做一个总结。1. 英文文本挖掘预处理特点 英文文本的预处理方法和中文的有部分区别。首先,英文文本挖掘预处理一般可以不做分词(特殊需求除外),而中文预处理分词是必不可少的一步。第二点,大部分英文...
2018-06-27 19:06:46
679
转载 中文文本挖掘预处理流程总结
原文:http://www.cnblogs.com/pinard/p/6744056.html在对文本做数据分析时,我们一大半的时间都会花在文本预处理上,而中文和英文的预处理流程稍有不同,本文就对中文文本挖掘的预处理流程做一个总结。1. 中文文本挖掘预处理特点 首先我们看看中文文本挖掘预处理和英文文本挖掘预处理相比的一些特殊点。 首先,中文文本是没有像英文的单词空格那样隔开的,因此不能...
2018-06-27 19:04:05
467
转载 文本挖掘预处理之TF-IDF
原文:http://www.cnblogs.com/pinard/p/6693230.html 在文本挖掘预处理之向量化与Hash Trick中我们讲到在文本挖掘的预处理中,向量化之后一般都伴随着TF-IDF的处理,那么什么是TF-IDF,为什么一般我们要加这一步预处理呢?这里就对TF-IDF的原理做一个总结。1. 文本向量化特征的不足 在将文本分词并向量化后,我们可以得到词汇表中每个词在各...
2018-06-27 18:50:29
578
转载 文本主题模型之LDA
什么是话题模型(topic model)?话题模型就是用来发现大量文档集合的主题的算法。借助这些算法我们可以对文档集合进行归类。适用于大规模数据场景。目前甚至可以做到分析流数据。需要指出的是,话题模型不仅仅限于对文档的应用,可以应用在其他的应用场景中,例如基因数据、图像处理和社交网络。这是一种新的帮助人类组织、检索和理解信息的计算工具。通过这类算法获得的那些主题都可以比喻成望远镜不同的放大倍数。我...
2018-06-27 18:37:16
19183
转载 doc2vec 句向量模型PV-DM与PV-DBOW原论文翻译
原文:https://blog.youkuaiyun.com/liaocyintl/article/details/50369158原文:LE, Quoc V.; MIKOLOV, Tomas. Distributed representations of sentences and documents. arXiv preprint arXiv:1405.4053, 2014.这篇论文提出了一个使用Word...
2018-06-27 17:48:18
3609
转载 word2vec
近期一直在看关于文本处理的东西,怎奈一点基础都没有,看得着实费劲。特别是自己对于word2vec的理解一直不到位,因为总是介绍含糊不清,刚没说两句呢,就转到它的两个常用模型了。前段时间搜索的相关信息并不能减少word2vec给我的神秘感。不过一直好奇会催使你不断搜索新的信息,从而减少自己对其的持续的违和感。抱怨一句,在自认为一天就能搞定的事情上浪费了一个星期还没有彻底搞明白,真的是很难受,内心在不...
2018-06-25 14:21:51
1759
转载 python︱六款中文分词模块尝试:jieba、THULAC、SnowNLP、pynlpir、CoreNLP、pyLTP
原文:https://blog.youkuaiyun.com/sinat_26917383/article/details/77067515THULAC四款python中中文分词的尝试。尝试的有:jieba、SnowNLP(MIT)、pynlpir(大数据搜索挖掘实验室(北京市海量语言信息处理与云计算应用工程技术研究中心))、thulac(清华大学自然语言处理与社会人文计算实验室) 四款都有分词功能,本博客只...
2018-06-13 15:59:34
1970
转载 doc2vec原理及实践
原文地址:https://blog.youkuaiyun.com/john_xyz/article/details/792085641.“句向量”简介word2vec提供了高质量的词向量,并在一些任务中表现良好。 关于word2vec的原理可以参考这几篇论文:https://arxiv.org/pdf/1310.4546.pdfhttps://arxiv.org/pdf/1301.3781.pdf关于如何使用...
2018-06-11 17:03:13
35022
4
转载 文本分类算法综述
原文:https://blog.youkuaiyun.com/John_xyz/article/details/79602506业务背景最近一段时间在今日头条国际化部门实习,做的文本质量工作。主要是文本分类,就是用一些机器学习或者深度学习的方法过滤掉低俗的新闻。因为做的是小语种,比如说法语,德语,意语,泰米尔语等,标注力量特别有限,有些语种甚至找不到标注人员。在这种情况下,要通过模型准确的识别出低俗新闻,难度...
2018-06-11 16:47:52
6816
转载 fastText、TextCNN、TextRNN……这里有一套NLP文本分类深度学习方法库供你选择
原文地址:https://www.cnblogs.com/DjangoBlog/p/7511979.html这个库的目的是探索用深度学习进行NLP文本分类的方法。 它具有文本分类的各种基准模型,还支持多标签分类,其中多标签与句子或文档相关联。 虽然这些模型很多都很简单,可能不会让你在这项文本分类任务中游刃有余,但是这些模型中的其中一些是非常经典的,因此它们可以说是非常适合作为基准模型的。 每个模型...
2018-06-11 16:39:07
5226
转载 文本处理(八)——深度学习在文本分类中的应用
原文地址:http://www.cnblogs.com/llhthinker/p/8127788.html1. 文本分类任务介绍文本分类是自然语言处理的一个基本任务,试图推断出给定的文本(句子、文档等)的标签或标签集合。文本分类的应用非常广泛。如:垃圾邮件分类:二分类问题,判断邮件是否为垃圾邮件情感分析二分类问题,判断文本情感是积极(positive)还是消极(negative)多分类问题,判断文...
2018-06-11 15:23:47
1818
转载 文本处理(七)——用深度学习(CNN RNN Attention)解决大规模文本分类问题 - 综述和实践
原文地址:https://zhuanlan.zhihu.com/p/25928551近来在同时做一个应用深度学习解决淘宝商品的类目预测问题的项目,恰好硕士毕业时论文题目便是文本分类问题,趁此机会总结下文本分类领域特别是应用深度学习解决文本分类的相关的思路、做法和部分实践的经验。业务问题描述:淘宝商品的一个典型的例子见下图,图中商品的标题是“夏装雪纺条纹短袖t恤女春半袖衣服夏天中长款大码胖mm显瘦上...
2018-06-11 14:59:55
11357
转载 文本处理(六)——Text-CNN、Word2Vec、RNN、NLP、Keras、fast.ai
原文:https://www.jianshu.com/p/7f35a4b33f45Text-CNNText-CNN 文本分类TextCNN 是利用卷积神经网络对文本进行分类的算法,由 Yoon Kim 在 “Convolutional Neural Networks for Sentence Classification” 一文 (见参考[1]) 中提出. 是2014年的算法. ...
2018-06-11 14:39:39
4623
转载 文本处理——基于 word2vec 和 CNN 的文本分类 :综述 & 实践(一)
原文地址:https://zhuanlan.zhihu.com/p/29076736导语传统的向量空间模型(VSM)假设特征项之间相互独立,这与实际情况是不相符的,为了解决这个问题,可以采用文本的分布式表示方式(例如 word embedding形式),通过文本的分布式表示,把文本表示成类似图像和语音的连续、稠密的数据。这样我们就可以把深度学习方法迁移到文本分类领域了。基于词向量和卷积神经网络的文...
2018-06-11 11:29:08
22203
2
转载 文本处理——fastText原理及实践(四)
博文地址:https://zhuanlan.zhihu.com/p/32965521fastText是Facebook于2016年开源的一个词向量计算和文本分类工具,在学术上并没有太大创新。但是它的优点也非常明显,在文本分类任务中,fastText(浅层网络)往往能取得和深度网络相媲美的精度,却在训练时间上比深度网络快许多数量级。在标准的多核CPU上, 能够训练10亿词级别语料库的词向量在10分钟...
2018-06-11 11:06:58
6817
opencv SVM图像分类工程文件
2017-07-17
TensorFlow MNIST数据集下载脚本input_data.py
2016-07-28
word调用操作
2016-05-11
linux流媒体播放
2014-02-20
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人