
机器学习
文章平均质量分 91
SL_World
中国科学院大学计算机应用技术专业在读研究生
展开
-
PIL Image与tensor在PyTorch图像预处理时的转换
前言:在使用深度学习框架PyTorch预处理图像数据时,你可能和我一样遇到过各种各样的问题,网上虽然总能找到类似的问题,但不同文章的代码环境不同,也不一定能直接解决自己的问题。这时,就需要就自身所出bug了解问题本身涉及的大致原理,依据报错的具体位置(要完整的看完bug信息,不要只看最后报错信息而不看中间调用过程)才能更快的精准解决自己的问题一、原理概述PIL(Python Imaging Library)是Python中最基础的图像处理库,而使用PyTorch将原始输入图像预处理为神经网络的输入,.原创 2021-02-26 20:34:11 · 16058 阅读 · 1 评论 -
CentOS下的CUDA安装和使用指南
引言:本文安装CUDA主要用于在GPU上训练深度学习模型,编程语言为Python,与C/C++不同,使用Anaconda安装很方便,没有包管理的冲突。安装步骤安装 Anaconda,如果有则跳过此步骤安装 NVIDIA Driver,即显卡驱动使用 conda 安装 CUDA Toolkit使用 Python 扩展库进行 GPU 加速的 CUDA 编程一、安装Anaconda(若已安装请忽略)Linux的版本在官网上找合适版本的软件包,然后右键复制链接地址,通过wget命令下载。官网.原创 2020-09-11 12:38:41 · 13835 阅读 · 3 评论 -
博弈论完全信息博弈思维导图
前言完整大图请点击链接原创 2020-06-29 10:17:08 · 1556 阅读 · 0 评论 -
马尔科夫奖赏过程
原文出处:https://blog.youkuaiyun.com/Scythe666/article/details/83109474 0 前言本文写作目的:尽量通俗讲解强化学习知识,使读者不会被各种概...转载 2020-04-13 19:25:44 · 1755 阅读 · 0 评论 -
带你玩转谱聚类及拉普拉斯矩阵
引言:在多变量统计和数据聚类中,谱聚类(Spectral Clustering)技术利用数据的相似矩阵的谱(特征值)进行降维。它将数据看成空间中的点,点对之间有边相连,距离越远的点对其边权值越小,距离越近的点对其边权值越大。它将聚类问题转化为切图问题,使得切图后的总代价最小。即子图内点对之间边权值较大,子图间边权值较小。得到切图后子图的个数即为聚类的个数。最后本文力求用推理而非演绎的方式以加深大...原创 2020-02-21 10:29:06 · 15040 阅读 · 21 评论 -
机器学习常用矩阵求导方法
本文主要对在机器学习中常用矩阵求导方法做以总结,以实用为主。同时感谢大佬@刘建平Pinard的博文,浅显易懂,更加全面的资料请见底部参考文献。一、标量向量矩阵求导case向量可以看做一组标量的排列集合,因此向量的求导可视为对向量中的标量逐个求导,这是向量求导的主要思路。而矩阵的求导方式在此基础上继续衍生。此处,用xxx表示标量,x\textbf{x}x表示向量,XXX表示矩阵。根据标量、...原创 2020-02-11 00:24:08 · 1761 阅读 · 0 评论 -
机器学习中的矩阵向量求导(一) 求导定义与求导布局
【参考文献】:[1] 矩阵求导术(上)[知乎][2] 矩阵求导术(下)[知乎][3] 机器学习中的矩阵向量求导(一) 求导定义与求导布局在之前写的上百篇机器学习博客中,不时会使用矩阵向量求导的方法来简化公式推演,但是并没有系统性的进行过讲解,因此让很多朋友迷惑矩阵向量求导的具体过程为什么会是这样的。这里准备用几篇博文来讨论下机器学习中的矩阵向量求导,今天是第一篇。本系列主要参考文献为维基...转载 2020-02-07 18:55:12 · 556 阅读 · 0 评论 -
度量学习中的马氏距离
参考博客:协方差的意义协方差矩阵的实例与意义马氏距离的深入理解马氏距离(推荐看一下原博)度量学习的主流就是学习马氏距离。这里只先简单介绍一下马氏距离中的一些概念和意义。1. 简单理解协方差的物理意义2. 协方差矩阵中的元素对分布的影响3. 对马氏距离的理解(ps:直观上快速理解马氏距离的前因后果直接跳至第3部分的Q3即可)1. 简单理解协方差的物理意义在概率论中,两个随机...转载 2019-10-06 11:10:15 · 1382 阅读 · 2 评论 -
零基础入门自然语言处理的学习建议
原文出处:https://blog.youkuaiyun.com/weixin_36711901/article/details/90728893 在入门的阶段最适合做的事情:(1)阅读和学习自然语言处理(natural language processing,nlp)综述类文章和图书,对nlp有一个基本的认识,梳理n...转载 2019-07-13 13:44:37 · 836 阅读 · 0 评论 -
基于Django+LayUI+HBase的文献数据挖掘系统的实现
引言:本系统的目标是设计并实现一个基于分布式数据库HBase的文献数据挖掘系统,以帮助科研人员分析出相关科技前沿领域的专家、机构等的学术影响力。并挖掘领域高频词和不同协作者之间的关系图谱,如此便可达到科研决策支持的目的。以下将从几个方面进行简要介绍。一、开发意义科研文献是科技与学术的载体,高效的分析科研文献对科技的发展有着重要的推动作用。准确地提取出期刊会议中科研文献元数据里所隐藏的信息,...原创 2019-06-01 13:37:16 · 3699 阅读 · 2 评论 -
机器学习与数据挖掘的学习路线图
机器学习与数据挖掘的学习路线图原文出处:http://blog.sina.com.cn/s/blog_13b7ba9b00102xvt1.html说起机器学习和数据挖掘,当然两者并不完全等同。如果想简单的理清二者的关系,不妨这样来理解,机器学习应用在数据分析领域 =数据挖掘。同理,如果将机器学习应用在图像处理领域 =机器视觉。当然这只是一种比较直白的理解,并不能见得绝对准确或者全面。我们...转载 2018-10-29 12:19:28 · 588 阅读 · 0 评论 -
数据分析中的缺失值处理
转载于:https://blog.youkuaiyun.com/a8131357leo/article/details/79495322 对缺失值的处理要具体问题具体分析,为什么要具体问题具体分析呢?因为属性缺失有时并不意味着数据缺失,缺失本身是包含信息的,...转载 2018-07-08 00:32:37 · 6361 阅读 · 0 评论 -
R语言实战之基本统计分析
原文出处:https://www.jianshu.com/p/90ed27810474第7章 基本统计分析在数据被组织成合适的形式后,可以使用图形探索数据,接下来是使用数值描述每个变量的分布,然后则是两两探索所选择变量之间的关系。本章将评述用于生成基本的描述性统计量和推断统计量的R函数。7.1 描述性统计分析本节介绍分析连续型变量中心趋势、变化性和分布性的方法。使用第1章中Mo...转载 2018-06-02 23:48:18 · 7539 阅读 · 0 评论 -
支持向量机(SVM)入门(一~三)
按:之前的文章重新汇编一下,修改了一些错误和不当的说法,一起复习,然后继续SVM之旅.(一)SVM的八股简介支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中[10]。支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理转载 2017-08-12 00:16:31 · 738 阅读 · 0 评论 -
SVM另讲
支持向量机(support vector machine)是一种分类算法,通过寻求结构化风险最小来提高学习机泛化能力,实现经验风险和置信范围的最小化,从而达到在统计样本量较少的情况下,亦能获得良好统计规律的目的。通俗来讲,它是一种二类分类模型,其基本模型定义为特征空间上的间隔最大的线性分类器,即支持向量机的学习策略便是间隔最大化,最终可转化为一个凸二次规划问题的求解。具体原理:1. 在n维空间中转载 2017-08-12 00:32:07 · 376 阅读 · 0 评论 -
SVM入门(五)线性分类器的求解——问题的描述Part2
SVM入门(五)线性分类器的求解——问题的描述Part2 从最一般的定义上说,一个求最小值的问题就是一个优化问题(也叫寻优问题,更文绉绉的叫法是规划——Programming),它同样由两部分组成,目标函数和约束条件,可以用下面的式子表示: (式1) 约束条件用函数c来表示,就是constrain的意思啦。你可以看出一共有p+q个约束条件,其转载 2017-08-12 10:59:06 · 300 阅读 · 0 评论 -
SVM入门(六)线性分类器的求解——问题的转化,直观角度
SVM入门(六)线性分类器的求解——问题的转化,直观角度 让我再一次比较完整的重复一下我们要解决的问题:我们有属于两个类别的样本点(并不限定这些点在二维空间中)若干,如图, 圆形的样本点定为正样本(连带着,我们可以把正样本所属的类叫做正类),方形的点定为负例。我们想求得这样一个线性函数(在n维空间中的线性函数): g(x)=wx+b 使得转载 2017-08-12 11:22:51 · 351 阅读 · 0 评论 -
SVM入门(七)为何需要核函数
生存?还是毁灭?——哈姆雷特 可分?还是不可分?——支持向量机 之前一直在讨论的线性分类器,器如其名(汗,这是什么说法啊),只能对线性可分的样本做处理。如果提供的样本线性不可分,结果很简单,线性分类器的求解程序会无限循环,永远也解不出来。这必然使得它的适用范围大大缩小,而它的很多优点我们实在不原意放弃,怎么办呢?是否有某种方法,让线性不可分的数据变得线性可分呢? 有!其思想说来也简单,来用一个转载 2017-08-12 11:36:15 · 355 阅读 · 0 评论 -
SVM入门(八)松弛变量
现在我们已经把一个本来线性不可分的文本分类问题,通过映射到高维空间而变成了线性可分的。就像下图这样: 圆形和方形的点各有成千上万个(毕竟,这就是我们训练集中文档的数量嘛,当然很大了)。现在想象我们有另一个训练集,只比原先这个训练集多了一篇文章,映射到高维空间以后(当然,也使用了相同的核函数),也就多了一个样本点,但是这个样本的位置是这样的: 就是图中黄色那个点,它是方形的,因而它是负类的转载 2017-08-12 11:45:06 · 1528 阅读 · 0 评论 -
SVM入门(九)松弛变量(续)
接下来要说的东西其实不是松弛变量本身,但由于是为了使用松弛变量才引入的,因此放在这里也算合适,那就是惩罚因子C。回头看一眼引入了松弛变量以后的优化问题: 注意其中C的位置,也可以回想一下C所起的作用(表征你有多么重视离群点,C越大越重视,越不想丢掉它们)。这个式子是以前做SVM的人写的,大家也就这么用,但没有任何规定说必须对所有的松弛变量都使用同一个惩罚因子,我们完全可以给每一个离群点都使用不同的转载 2017-08-12 11:46:26 · 686 阅读 · 0 评论 -
SVM入门(十)将SVM用于多类分类
从 SVM的那几张图可以看出来,SVM是一种典型的两类分类器,即它只回答属于正类还是负类的问题。而现实中要解决的问题,往往是多类的问题(少部分例外,例如垃圾邮件过滤,就只需要确定“是”还是“不是”垃圾邮件),比如文本分类,比如数字识别。如何由两类分类器得到多类分类器,就是一个值得研究的问题。还以文本分类为例,现成的方法有很多,其中一种一劳永逸的方法,就是真的一次性考虑所有样本,并求解一个多目标函数转载 2017-08-12 11:47:16 · 412 阅读 · 0 评论 -
聚类分析:使用过程CLUSTER实现层次法(聚多少类的评判)
原文出处:http://www.sohu.com/a/138631880_278472 使用过程CLUSTER实现层次法 SAS共提供11种层次法,这些方法可以通过指定PROC CLUSTER中的选项来实现。过程CLUSTER的一般形式为: 其中: DATA = 指定输入数据集,默认值为最后一次使用过的数据。 METHOD= 用来指定做层次分析的具体方法,可供选转载 2018-02-01 23:40:07 · 9822 阅读 · 0 评论 -
聚类算法之K-means算法与聚类算法衡量指标
原文出处:http://blog.youkuaiyun.com/weiyongle1996/article/details/77925325 聚类就是按照某个特定标准(如距离准则)把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地大。即聚类后同一类的数据尽可能聚集到一起,不同数据尽量分离。聚类算法属于无监督学习,即事先不会给出转载 2018-02-02 13:05:15 · 2231 阅读 · 0 评论 -
感知机原始形式C++实现
首先,分享以下我学习李航老师的《统计学习方法》中感知机原始形式学习笔记,如有错误或者其他见解,恳请指正。感知机的对偶形式请参考我的另一篇blog: 感知机对偶形式C++实现 感知机的原始形式如下: 下面直接上代码,此处我用的是C++代码用STL中的向量实现存储,当然也可以用数组或者其他方式,感知机的原始形式代码如下:#include &l...原创 2018-04-30 11:48:14 · 1409 阅读 · 0 评论 -
感知机对偶形式C++实现
首先,分享以下我学习李航老师的《统计学习方法》中感知机对偶形式学习笔记,如有错误或者其他见解,恳请指正感知机的原始形式请参考我的另一篇blog:《感知机原始形式C++实现》 下面直接上代码,此处我用的是C++代码用STL中的向量实现存储,当然也可以用数组或者其他方式,感知机的对偶形式代码如下:#include <iostream>#include &...原创 2018-04-30 13:40:12 · 729 阅读 · 2 评论 -
支持向量机SVM入门(四)
上节说到我们有了一个线性分类函数,也有了判断解优劣的标准——即有了优化的目标,这个目标就是最大化几何间隔,但是看过一些关于SVM的论文的人一定记得什么优化的目标是要最小化||w||这样的说法,这是怎么回事呢?回头再看看我们对间隔和几何间隔的定义: 间隔:δ=y(wx+b)=|g(x)| 几何间隔: 可以看出δ=||w||δ几何。注意到几何间隔与||w||是成反比的,因此最大化几何间隔与最小转载 2017-08-12 00:27:51 · 364 阅读 · 0 评论