
机器学习
文章平均质量分 85
GoodShot
这个作者很懒,什么都没留下…
展开
-
win7下安装TensorFlow
安装CPU版TensorFlow 0.12,在anaconda3的Prompt下输入pip install --upgrade https://storage.googleapis.com/tensorflow/windows/cpu/tensorflow-0.12.0rc0-cp35-cp35m-win_amd64.whl 安装GPU版TensorFlow 0.12,在anaconda原创 2017-01-13 22:00:49 · 4320 阅读 · 0 评论 -
梯度下降(Gradient Descent)小结
https://blog.youkuaiyun.com/GoodShot/article/details/86137783 在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降(Gradient Descent)是最常采用的方法之一,另一种常用的方法是最小二乘法。这里就对梯度下降法做一个完整的总结。1. 梯度 在微积分里面,对多元函数的参数求∂偏导数,把求得的各个参数的偏导数以向...转载 2017-10-22 19:13:23 · 729 阅读 · 0 评论 -
Hadoop较全面的概述
看到的比较全面的介绍Hadoop 1.0 和 2.0的区别软件栈如下图:Hadoop 1.0的内核主要由两部分构成:HDFS 存储大数据的平台,提供可靠性的存储服务(冗余数据,存储)。 MapReduce 构建在HDFS之上的分布式计算框架(计算、数据处理)。 Hadoop 2.0主要构成如下:转载 2017-11-27 11:14:26 · 1140 阅读 · 0 评论 -
hadoop学习——Hadoop核心组件
hadoop学习——Hadoop核心组件 下图展示了hadoop生态系统的核心组件。 下面来简单介绍各个组件的作用: HDFS(Hadoop distribute file system)——Hadoop生态系统的基础组件Hadoop分布式文件系统。它是其他一些工具的基础HDFS的机转载 2017-11-27 11:16:11 · 1264 阅读 · 0 评论 -
线性判别分析LDA原理总结
在主成分分析(PCA)原理总结中,我们对降维算法PCA做了总结。这里我们就对另外一种经典的降维方法线性判别分析(Linear Discriminant Analysis, 以下简称LDA)做一个总结。LDA在模式识别领域(比如人脸识别,舰艇识别等图形图像识别领域)中有非常广泛的应用,因此我们有必要了解下它的算法原理。 在学习LDA之前,有必要将其自然语言处理领域的LDA区别开来,转载 2018-02-03 10:44:28 · 1165 阅读 · 0 评论 -
用scikit-learn进行LDA降维
在线性判别分析LDA原理总结中,我们对LDA降维的原理做了总结,这里我们就对scikit-learn中LDA的降维使用做一个总结。1. 对scikit-learn中LDA类概述 在scikit-learn中, LDA类是sklearn.discriminant_analysis.LinearDiscriminantAnalysis。那既可以用于分类又可以用于降维。当然,应用场转载 2018-02-03 18:31:46 · 1220 阅读 · 0 评论 -
主成分分析(PCA)原理总结
http://www.cnblogs.com/pinard/p/6239403.html转载 2018-02-03 19:27:59 · 633 阅读 · 0 评论 -
训练集(train set) 验证集(validation set) 测试集(test set)
在有监督(supervise)的机器学习中,数据集常被分成2~3个,即:训练集(train set) 验证集(validation set) 测试集(test set)。http://blog.sina.com.cn/s/blog_4d2f6cf201000cjx.html一般需要将样本分成独立的三部分训练集(train set),验证集(validation set)和测试集(test set)转载 2018-01-19 16:42:52 · 884 阅读 · 0 评论 -
没人说得清深度学习的原理 只是把它当作一个黑箱来使
没人说得清深度学习的原理 只是把它当作一个黑箱来使 人类正在慢慢接近世界的本质——物质只是承载信息模式的载体。人脑之外的器官都只是保障这一使命的给养舰队。自从去年AlphaGo 完虐李世乭,深度学习火了。但似乎没人说得清它的原理,只是把它当作一个黑箱来使。有人说,深度学习就是一个非线性分类器?有人说,深度学习是对人脑的模拟……但我觉得都没有捅透那层窗户纸。当读完 Jeff Hawkins 的《论智...转载 2018-02-13 16:53:27 · 1822 阅读 · 0 评论 -
Softmax回归
Softmax回归Contents [hide]1 简介2 代价函数3 Softmax回归模型参数化的特点4 权重衰减5 Softmax回归与Logistic 回归的关系6 Softmax 回归 vs. k 个二元分类器7 中英文对照8 中文译者简介在本节中,我们介绍Softmax回归模型,该模型是logistic回归模型在多分类问题上的推广,在多分类问题中,类标签 可以取两个以上的值。 Sof...原创 2018-02-19 18:32:59 · 384 阅读 · 0 评论 -
主成分分析(PCA)-最大方差解释
我阅读了PCA、SVD和LDA。这几个模型相近,却都有自己的特点。本篇打算先介绍PCA,至于他们之间的关系,只能是边学边体会了。PCA以前也叫做Principal factor analysis。1. 问题 真实的训练数据总是存在各种各样的问题:1、 比如拿到一个汽车的样本,里面既有以“千米/每小时”度量的最大速度特征,也有“英里/小时”的最大速度特征,显然这两个特征有一个多余。2、 拿到...原创 2018-04-15 17:20:35 · 5935 阅读 · 0 评论 -
PCA的本质----特征值分解
本章总结:(可 与主成分分析(PCA)-最大方差解释 https://blog.youkuaiyun.com/goodshot/article/details/79950977 结合理解)从数学的角度,对矩阵的特征值分解进行介绍,介绍了符合条件的矩阵和进行特征值分解(2),通过分析协方差的意义(3),使得原始样本X经矩阵A的空间变换后得到的Y的协方差表示出不同特征间的相关性最小(趋于0),从而使用PCA的得...转载 2018-04-15 20:59:24 · 3397 阅读 · 2 评论 -
向量表示,投影,协方差矩阵,PCA
原文:http://blog.youkuaiyun.com/songzitea/article/details/18219237引言当面对的数据被抽象为一组向量,那么有必要研究一些向量的数学性质。而这些数学性质将成为PCA的理论基础。理论描述向量运算即:内积。首先,定义两个维数相同的向量的内积为:内积运算将两个向量映射为一个实数。其计算方式非常容易理解,但是其意义并不明显。所以,我们分析内积的几何意义。假设A...转载 2018-04-15 20:59:57 · 1785 阅读 · 0 评论 -
数据的中心化和标准化
简介: 意义:数据中心化和标准化在回归分析中是取消由于量纲不同、自身变异或者数值相差较大所引起的误差。 原理:数据标准化:是指数值减去均值,再除以标准差; 数据中心化:是指变量减去它的均值。 目的:通过中心化和标准化处理,得到均值为0,标准差为1的服从标准正态分布的数据。在回归问题和一些机器学习算法中,以及训练神经网络的过程中,还有PCA等通常需要对原始数据进行中心化(Zero-centered或...原创 2018-04-13 10:52:35 · 3332 阅读 · 0 评论 -
"数据的属性"及“数据的特征”
数据的属性指的是数据的最原始的特征,比如图片的原始像素点,而数据的特征大多指的是属性经过特定的操作的数据,如图片的像素点经过CNN卷积之后得到的特征。广义来说,数据的属性和特征没有区别。...转载 2018-05-17 11:25:25 · 9070 阅读 · 0 评论 -
详解最大似然估计(MLE)、最大后验概率估计(MAP),以及贝叶斯公式的理解
转载 2018-06-18 12:50:45 · 599 阅读 · 0 评论 -
正则化方法:防止过拟合,提高泛化能力
本文是《Neural networks and deep learning》概览 中第三章的一部分,讲机器学习/深度学习算法中常用的正则化方法。(本文会不断补充)正则化方法:防止过拟合,提高泛化能力在训练数据不够多时,或者overtraining时,常常会导致overfitting(过拟合)。其直观的表现如下图所示,随着训练过程的进行,模型复杂度增加,在training data上的error渐渐...原创 2018-06-18 22:02:03 · 744 阅读 · 0 评论 -
【机器学习技术】高斯过程初探
【机器学习技术】高斯过程初探 JasonDing 关注2015.11.13 15:21* 字数 2126 阅读 5064评论 0喜欢 8概述高斯过程是基于统计学习理论和贝叶斯理论发展起来的一种机器学习方法,适于处理高维度、小样本和非线性等复杂回归问题,且泛化能力强,与神经网络、支持向量机相比,GP具有容易实现、超参数自适应获取、非参数推断灵活以及转载 2017-11-07 22:59:21 · 1959 阅读 · 0 评论 -
LVQ,Learning Vector Quantization,学习向量量化
LVQ,Learning Vector Quantization,学习向量量化LVQ需要数据样本带有类别标记,学习过程中需要利用这些监督信息来辅助聚类。 接受代标记的数据集D和原型向量个数k,以及初始化的原型向量标记ti,ti∈Y,i=1,2,…,k,学习率参数η∈(0,1)。输出为原型向量q1,q2,…,qk。 为更清晰的描述LVQ,我们假设样本集为D={(x1,y1),转载 2017-09-29 22:38:03 · 2671 阅读 · 0 评论 -
K-Means聚类算法的原理及实现
K-Means聚类算法的原理及实现【转】【转】http://www.aboutyun.com/thread-18178-1-1.html问题导读:1、如何理解K-Means算法?2、如何寻找K值及初始质心?3、如何应用K-Means算法处理数据?K-Means是聚类算法中的一种,其中K表示类别数,Means表示均值。顾名思义K-Means是一种通过均值对转载 2017-09-28 20:59:34 · 1976 阅读 · 0 评论 -
机器学习中的特征空间
声明:这篇博文主要是对参考文献中的那个PPT的学习之后记下的一些笔记,整理出来与大家一起分享,若笔记中有任何错误还请不吝指出,文中可能会使用到原作者的一些图,若侵犯到作者的权益,还请告知,我会删除,谢谢。一、机器学习的流程应用机器学习算法的流程大致可以分为:收集数据数据处理,提取特征训练模型模型部署模型的应用及反馈具体的衔接关系如下图所示:二、机器学转载 2017-01-11 07:21:33 · 4602 阅读 · 0 评论 -
机器学习里的kernel是指什么?
先给个定义:核函数K(kernel function)就是指K(x, y) = ,其中x和y是n维的输入值,f(·) 是从n维到m维的映射(通常而言,m>>n)。是x和y的内积(inner product),严格来说应该叫欧式空间的标准内积,也就是很多人常说的点积(dot product)。光看这一段还是不明白kernel是什么,用来干什么的...对吧?不要急。一个好的知识分享者是不会把转载 2017-01-11 07:31:39 · 6868 阅读 · 0 评论 -
软件框架和软件架构的区别?
软件框架和软件架构的区别? 初学java,遇到jdk,sdk概念:软件开发工具包(外语首字母缩写:SDK、外语全称:Software Development Kit)一般都是一些软件工程师为特定的软件包、软件框架、硬件平台、操作系统等建立应用软件时的开发工具的集合。软件包:(SoftWare Package)是指具有特定的功能,用来完成特定任务的一个程序或一组程序。转载 2017-02-08 17:43:23 · 3489 阅读 · 0 评论 -
机器学习(1)之梯度下降(gradient descent)
机器学习(1)之梯度下降(gradient descent)题记:最近零碎的时间都在学习Andrew Ng的machine learning,因此就有了这些笔记。 梯度下降是线性回归的一种(Linear Regression),首先给出一个关于房屋的经典例子,面积(feet2)房间个数价格(1000$)21043400转载 2017-03-05 10:53:39 · 710 阅读 · 0 评论 -
机器学习(2)之正规方程组
上一章介绍了梯度下降算法的线性回归,本章将介绍另外一种线性回归,它是利用矩阵求导的方式来实现梯度下降算法一样的效果。1. 矩阵的求导首先定义表示m×n的矩阵,那么对该矩阵进行求导可以用下式表示,可以看出求导后的矩阵仍然为m×n这里要用到矩阵迹的特性,trace. 对于一个n阶的方阵(n×n),它的迹(tr)为对角线元素之和:1. 对于一个实数,它的迹转载 2017-03-05 14:00:41 · 943 阅读 · 0 评论 -
再谈机器学习中的归一化方法(Normalization Method)
机器学习、数据挖掘工作中,数据前期准备、数据预处理过程、特征提取等几个步骤几乎要花费数据工程师一半的工作时间。同时,数据预处理的效果也直接影响了后续模型能否有效的工作。然而,目前的大部分学术研究主要集中在模型的构建、优化等方面,对数据预处理的理论研究甚少,可以说,很多数据预处理工作仍然是靠工程师的经验进行的。从业数据建模/挖掘工作也有近2年的时间,在这里结合谈一谈数据预处理中归一化方法。在转载 2017-03-05 14:04:26 · 731 阅读 · 0 评论 -
meshgrid 的使用方法
meshgrid 的使用方法:[X,Y] = meshgrid(x,y) 将向量x和y定义的区域转换成矩阵X和Y,这两个矩阵可以用来表示mesh和surf的三维空间点以及两个变量的赋值。其中矩阵X的行向量是向量x的简单复制,而矩阵Y的列向量是向量y的简单复制。 Generate X and Y matrices for three-dimensional plotsSyntax转载 2017-03-07 21:49:12 · 1210 阅读 · 0 评论 -
想学数据分析(人工智能)需要学哪些课程?
本文转自:Robin Shen利益相关:楼主以应用数学和运筹学的背景转到博士德国海德堡大学机器学习、计算机视觉这俩个数据分析(人工智能)的分支里来,希望对想入门数据科学和人工智能的朋友们有点借鉴作用。 首先如果对人工智能、数据科学还不是很了解的同学,可参考以下综述:大话“人工智能、数据科学、机器学习”--综述 - 知乎专栏 先说点宽泛的、上纲上线的东西。(要干货转载 2017-06-20 19:38:07 · 4710 阅读 · 0 评论 -
想学数据分析(人工智能)需要学哪些课程?
转自:Robin Shen 前言--正本清源:优化理论(运筹学),研究的是如何求解目标函数在约束条件下的最优解。机器学习、人工智能中的绝大部分问题,到最后基本都会归结为求解优化问题,因此学习优化理论是非常有必要的。机器学习中用到的优化,只是整个运筹学(最优化理论)中的一瞥。只需一门NumericalOptimization(数值优化)或ConvexOptimization(凸优化)即可。还转载 2017-06-20 19:49:05 · 1975 阅读 · 0 评论 -
大数据和人工智能时代下的运筹学
首发于[运筹帷幄]大数据和人工智能时代下的运筹学大话“人工智能、数据科学、机器学习”--综述12 个月前作者系美国克莱姆森大学运筹学硕士,Ph.D. Candidate,师从整数规划大师W. Adams,后跳槽至欧盟玛丽居里博士项目,期间前往意大利IBM Cplex实习半年,现任德国海德堡大学交叉学科计算中心、组合转载 2017-06-20 19:54:59 · 18170 阅读 · 1 评论 -
机器学习算法应用场景实例六十则
本文整理了60个机器学习算法应用场景实例,含分类算法应用场景20个、回归算法应用场景20个、聚类算法应用场景10个以及关联规则应用场景10个。包含了天池、DataCastle、DataFountain中所有竞赛场景。目录1 分类算法应用场景实例1.1 O2O优惠券使用预测1.2 市民出行选乘公交预测1.3待测微生物种类判别转载 2017-06-15 07:01:27 · 3886 阅读 · 0 评论 -
聚类算法应用场景实例十则
本文整理了10个天池、DataCastle、DataFountain等中出现的,可使用聚类算法处理的问题场景实例。1 基于用户位置信息的商业选址 随着信息技术的快速发展,移动设备和移动互联网已经普及到千家万户。在用户使用移动网络时,会自然的留下用户的位置信息。随着近年来GIS地理信息技术的不断完善普及,结合用户位置和GIS地理信息将带来创新应用。如百度转载 2017-06-15 07:03:58 · 11038 阅读 · 0 评论 -
关联规则应用场景实例十则
本文整理了10个天池、DataCastle、DataFountain等中出现的,可使用聚类算法处理的问题场景实例。1 基于用户位置信息的商业选址 随着信息技术的快速发展,移动设备和移动互联网已经普及到千家万户。在用户使用移动网络时,会自然的留下用户的位置信息。随着近年来GIS地理信息技术的不断完善普及,结合用户位置和GIS地理信息将带来创新应用。如百度转载 2017-06-15 07:05:32 · 7135 阅读 · 0 评论 -
分类和回归的区别和联系
先简单的说下吧,下面给出实际例子类和回归的区别在于输出变量的类型。定量输出称为回归,或者说是连续变量预测;定性输出称为分类,或者说是离散变量预测。举个例子:预测明天的气温是多少度,这是一个回归任务;预测明天是阴、晴还是雨,就是一个分类任务。 拿支持向量机举个例子,分类问题和回归问题都要根据训练样本找到一个实值函数g(x)。回归问题的要求是:给转载 2017-08-18 21:31:55 · 5176 阅读 · 0 评论 -
对线性回归、逻辑回归、各种回归的概念学习
回归问题的条件/前提:1) 收集的数据2) 假设的模型,即一个函数,这个函数里含有未知的参数,通过学习,可以估计出参数。然后利用这个模型去预测/分类新的数据。1. 线性回归假设 特征 和 结果 都满足线性。即不大于一次方。这个是针对 收集的数据而言。收集的数据中,每一个分量,就可以看做一个特征数据。每个特征至少对应一个未知的参数。这样就形成了一个线性转载 2017-08-21 20:30:09 · 594 阅读 · 0 评论 -
7种回归模型
【编者按】回归分析是建模和分析数据的重要工具。本文解释了回归分析的内涵及其优势,重点总结了应该掌握的线性回归、逻辑回归、多项式回归、逐步回归、岭回归、套索回归、ElasticNet回归等七种最常用的回归技术及其关键要素,最后介绍了选择正确的回归模型的关键因素。什么是回归分析?回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分转载 2017-08-23 16:52:30 · 6155 阅读 · 0 评论 -
大数据中,机器学习和数据挖掘的联系与区别
数据挖掘是从海量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。数据挖掘中用到了大量的机器学习界提供的数据分析技术和数据库界提供的数据管理技术。从数据分析的角度来看,数据挖掘与机器学习有很多相似之处,但不同之处也十分明显,例如,数据挖掘并没有机器学习探索人的学习机制这一科学发现任务,数据挖掘中的数据分析是针对海量数据进行的,等等。从某种意义上说,机器学习的科学成分更...原创 2018-10-16 21:59:55 · 1978 阅读 · 0 评论