
机器学习
暗夜猎手-大魔王
热爱运动,喜欢跑步
展开
-
机器学习学习计划
最近一段时间正值秋招,找了一圈工作,主要找了一些后台开发方面的工作(在实验室项目主要是写业务后台)。时间过的好快,自己写后台代码已经有两年了,怎么说呢,可能是自己的视野过小吧,其实不少人都是认为普通的后台只是增删改查。其实我觉得只是现在从事后台开发的门槛降低了,大量开发框架的出现,使得程序开发只需要调用基本的API,可以专心与自己的业务。然而个人觉得要想真正掌握好后台还是需要学习很...原创 2018-10-18 15:03:27 · 2257 阅读 · 3 评论 -
机器学习--支持向量机SMO算法1
结合论文《Sequential Minimal Optimization A Fast Algorithm for Training Support Vector Machines》以机器学习实战数据为例,编程实践SVM,来实现分类问题。1.SVM待求解的问题:以上为引入松弛变量的软间隔SVM对偶问题。拉格朗日乘子法求偏导有:KKT条件有: 最终线性模型有:...原创 2018-10-27 20:29:13 · 704 阅读 · 1 评论 -
机器学习--支持向量机SMO算法2
1.完整SMO算法实现现在给出完整版的SMO算法,主要体现在参数alpha的选择上。具体选择过程如下:第一个参数:①遍历一遍整个数据集,对每个不满足KKT条件的参数,选作第一个待修改参数②在上面对整个数据集遍历一遍后,选择那些参数满足的子集,开始遍历,如果发现一个不满足KKT条件的,作为第一个待修改参数,然后找到第二个待修改的参数并修改,修改完后,重新开始遍历这个子集③遍历...原创 2018-10-28 10:34:16 · 476 阅读 · 0 评论 -
机器学习--FP-grownth
Apriori算法可以用来发现数据集的频繁项以及关联规则,当发现频繁项时,每计算一个频繁项支持度时,需要计算遍历一遍数据集,当数据集较大时效率不高。FP-grownth算法:扫描数据集两次,第一次构建FP树,从FP树中挖掘频繁项集。FP频繁模式(Frequent Pattern)树节点给出单个元素以及单个元素出现的次数,每个项可以出现多次,项集通过路径给出。从叶子到根为一个项集以及...原创 2018-11-01 15:46:24 · 997 阅读 · 0 评论 -
机器学习--聚类
常见的无监督学习类型:聚类任务 密度估计 异常检测聚类算法试图将样本分成k个不想交的子集,每个子集称为一个簇,对应一些潜在的概念。样本集x={x1, x2....xm} 每个样本Xi={xi1,xi2...xin}对应n个特征划分为K个不同的类别C={C1,C2....Ck} ,其中样本xi的簇标记为i,则={1,2,m}可以表示聚类的结果。1.性能指标:衡量聚类效果数据集...原创 2018-10-31 09:40:33 · 561 阅读 · 0 评论 -
机器学习--降维技术PCA
1.PCA降维原理:PCA属于线性降维方式:X为原空间 W为变化矩阵 Z为新空间 Z的维数要小于X维数,实现了降维处理。用一个超平面来表示正交属性空间的样本点,这个超平面应该尽量满足最近重构性以及最大可分性,即空间中所有点离这个超平面尽可能近,样本点在超平面的投影尽可能区分开,基于最近重构性以及最大可分性,可以推导出PCA分析就是对于矩阵XXT进行特征值分解:对于...原创 2018-11-04 10:03:17 · 813 阅读 · 0 评论 -
机器学习--降维技术SVD
1.矩阵SVD分解对于一个矩阵A mxn 进行矩阵分解:其中U mxm V nxn Sigmoid mxn U,V都是酉矩阵 即UUT=I VVT=ISigmoid矩阵是一个mxn对角矩阵,对角元素为奇异值,即为矩阵A的奇异值,也是AAT特征值的平方根,代表了矩阵数据的重要特征,进行SVD分解可以看成是在有噪声的数据中提取相关特征。矩阵的低维近似表示:当...原创 2018-11-04 11:53:21 · 1691 阅读 · 0 评论 -
机器学习--LR逻辑回归与损失函数理解
今天第一次算法面试,被问到了LR回归,没有实践经验有些问题还是理解不到位,现在总结一下。1.LR的推导LR逻辑回归是一种监督学习分类算法,其实现了给定数据集到0,1的一种映射。给定数据集其中(xi,yi)表示第i个样本,其中。即每个数据有n个特征,类别,要求训练数据,将数据分成两类0或1。假定xi的n个特征为线性关系,即: ...原创 2018-11-02 20:22:57 · 27823 阅读 · 7 评论 -
机器学习--AdaBoost详细推导
之前看过一次AdaBoost分类模型,现在结合大神的讲解准备自己从头理解一下。主要包含一下几个方面:1.泰勒展开式2.AdaBoost算法思想3.指数损失函数的意义4.迭代权重参数的求解1.泰勒展开式泰勒公式是将一个在x=x0处具有n阶导数的函数f(x)利用关于(x-x0)的n次多项式来逼近函数的方法。若函数f(x)在包含x0的某个闭区间[a,b]上具有n阶导数,且在开...原创 2018-11-04 20:58:06 · 2010 阅读 · 0 评论 -
机器学习--降维技术
当数据集维数较高时,往往会出现样本稀疏以及距离难以计算等问题,而某个学习任务可能仅与数据的某个低维分布有关,因此可以采用降维技术来变换数据空间坐标系,主要有:LDA线性判别分析 PCA主成分分析 ICA独立成分分析 FA因子分析 SVD奇异值分解维数灾难:数据集在高维情况下出现数据集稀疏以及距离难以计算等问题数据降维:降维可以增加采样密度;降维可以减少数据样本的噪声,一般来说...原创 2018-11-02 20:58:18 · 531 阅读 · 0 评论 -
机器学习--蓄水池抽样与加权抽样算法
学习一下蓄水池抽样以及加权抽样算法1.蓄水池抽样如果数据总量是有限的,随机抽样k个值,可以直接利用随机数产生器来产生。如果数量总量是不断增加的,内存并不能完全存放所有数据,此时若随机产生k个值可以采用蓄水池抽样算法。1.从一个数据流中随机取出一个数,要求每个数被取到的概率相等第一个数以概率1取值,第二个数以1/2概率替换,第三个数以1/3概率替换。。。。直到第n个数第一个数被取...原创 2018-11-08 21:10:52 · 3489 阅读 · 1 评论 -
机器学习--统计学习方法概论
参考《统计学习方法》一书,学习一下统计学习的相关知识。1.统计学习学习:一个系统能够执行某个过程改进他的性能统计学习:运用数据以及统计方法提高系统性能的机器学习统计学习的对象是数据,并且假设同类数据具有一定的统计规律性,可以用随机变量描述特征,用概率分布描述数据分布规律统计学习方法 基于数据构建统计模型从而对数据进行预测以及分析 监督学习 半监督学习 非监督学习 强化学...原创 2018-11-05 11:10:08 · 213 阅读 · 0 评论 -
机器学习--感知机
感知机:二类分类的线性模型,对应于输入空间将实例划分为正负两类的分离超平面,属于判别模型。其基本思想,基于误分类的损失函数,利用梯度下降法对损失函数极小化,求得感知机模型。1.感知机模型perceptron输入空间X,输出空间Y={-1,+1} x为实例的特征向量,感知机:w为权重向量 b为偏置,sign为符号函数:感知机的假设空间:2.感知机学习策略数据集的...原创 2018-11-05 17:26:47 · 553 阅读 · 0 评论 -
机器学习--特征工程1--标准化
sklearn.preprocessinghttps://scikit-learn.org/stable/modules/preprocessing.html结合sklearn来学习一下数据的预处理过程:安装 pip install -U scikit-learnsklearn源码位置:C:\Users\chen\AppData\Local\Programs\Pytho...原创 2018-11-13 11:12:30 · 1161 阅读 · 0 评论 -
机器学习--特征工程0
之前面试遇到过好几次特征工程的理解,学习一下特征工程系列知识参考地址:https://www.cnblogs.com/peizhe123/p/7412364.htmlhttps://scikit-learn.org/stable/modules/preprocessing.htmlhttps://blog.youkuaiyun.com/weishiym/article/details/7962...原创 2018-11-11 21:50:25 · 351 阅读 · 0 评论 -
30个超赞的机器学习开源项目!
Medium上的作者Mybridge从8800个项目中,挑选出了30个GitHub上收获了超多星星的机器学习项目,量子位搬运一下,希望大家学的开心~注:此份列表的星星数量仅供参考,因为,GitHub上的星星数量是动态变化的。No 1 | FastText用于快速文本表示和分类的库。Github:16510颗星。来自Facebook Research。链接:https:/...转载 2018-12-20 17:27:55 · 2016 阅读 · 0 评论 -
机器学习--CART分类回归树
许多问题都是非线性的,用线性模型并不能很好的拟合数据,这种情况下可以使用树回归来拟合数据。介绍CART, 树剪枝,模型树。1.CART传统决策树是一种贪心算法,在给定时间内做出最佳选择,不关心是否达到全局最优。切分过于迅速,特征一旦使用后面将不再使用。不能处理连续型特征,进行离散化可能会破坏连续变量的内在特征。CART 分类回归树,既能分类又能回归。CRAT来进行节点决策时,使用二元...原创 2018-10-30 17:09:04 · 1930 阅读 · 2 评论 -
机器学习--关联分析
1.主要概念关联分析:从大规模数据集中寻找物品间隐含关系频繁项集:经常出现在一起的物品的集合关联规则:两种物品之间可能存在的关系支持度:数据集中包含该项集的记录所占的比例置信度(可信度): 对于规则A-->B 定义可信度=支持度(A,B)/支持度(A),即规则在A中的适应程度2.Aprior原理假设四种商品0,1,2,3,则所有可能的项集如下所示: ...原创 2018-10-31 20:25:03 · 3050 阅读 · 0 评论 -
机器学习--LR逻辑回归实现
1.梯度上升求解最优值训练集D 样本{yi;xi} 其中yi取值为0或1 xi=(xi1,xi2....xin) 梯度上升递推式:利用矩阵运算,同时对于参数进行变更,即对样本空间进行并行计算。将样本x 类别信息y以及 待求参数表示成矩阵: 计算A以及误差E,利用矩阵运算,同时进行所有样本的计算参数0的迭代式:参...原创 2018-10-24 21:10:02 · 472 阅读 · 0 评论 -
机器学习--KNN近邻分类算法
KNN近邻分类算法算法思想: 存在一个样本数据集合,也称为训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类对应的关系。输入没有标签的数据后,将新数据中的每个特征与样本集中数据对应的特征进行比较,提取出样本集中特征最相似数据(最近邻)的分类标签。一般来说,我们只选择样本数据集中前k个最相似的数据,这就是k近邻算法中k的出处,通常k是不大于20的整数...原创 2018-10-22 18:30:45 · 1328 阅读 · 0 评论 -
机器学习--决策树
1.决策树简介决策树算法是一种分类学习算法一颗决策树包含一个根节点,若干个内部节点以及若干个叶节点叶节点对应决策结果;其他节点对应于一个属性测试从根节点到每个叶子节点路径对应了一个判定测试序列决策树学习目标:产生一颗泛化能力强,处理未见示例能力强的决策树算法如下所示:1.当前结点包含样本属于同一类别时,无需划分2. 当前节点属性集为空,或所有样本所有...原创 2018-10-22 20:34:28 · 285 阅读 · 0 评论 -
机器学习--正则化与过拟合
给出过拟合的原因以及解决措施,从贝叶斯以及代数角度来解释正则化能够降低过拟合1.过拟合产生的原因:在训练过程中,由于样本数量有限,模型学习能力过强,导致模型泛化性能不高。第一种方式利用一次函数来模拟,则该函数没有很好的拟合所有点,出现高方差的现象,称为欠拟合第三种方式,增加函数的次数,该函数拟合了所有点,但是函数泛化能力不强,出现高偏差,即过拟合。过拟合出现的原因:1....原创 2018-10-25 10:34:47 · 651 阅读 · 0 评论 -
机器学习--线性判别分析LDA
LDA是一种监督学习的数据降维方式:将带有标签的数据降维,投影到低维空间同时满足三个条件:尽可能多地保留数据样本的信息(即选择最大的特征是对应的特征向量所代表的的方向)。 寻找使样本尽可能好分的最佳投影方向。 投影后使得同类样本尽可能近,不同类样本尽可能远1.LDA原理详解将样例投影到一条直线上,使得同类样本尽可能接近,异类样本尽可能远离。给定数据集一共有C类样本,样本总...原创 2018-10-25 18:30:57 · 1271 阅读 · 0 评论 -
机器学习--集成学习
1.集成学习通过多个学习器的集成构建来组合输出。基学习器根据基本学习算法来学习训练,组合学习器将基学习器的结果进行组合来输出最终结果。若想组合学习器最终结果效果好,需要基学习器学习能力不能太差,其次需要基学习器之间具有差异性。二分类问题 y = { +1, -1} 真实函数f T个集成学习器使用投票法进行决策假设每个基学习器错误率独立,则集成的错误率为:即随...原创 2018-10-29 08:47:30 · 378 阅读 · 0 评论 -
机器学习--决策树2
以机器学习实战决策树为例,实现具体的决策树算法:1.信息增益的实现2.划分数据集3.递归构建决策树4.使用matplotlib构造决策树5.测试和存储决策树6.实例--隐形眼镜类型1.信息增益的实现集合D中类别数y,各种类别概率为pk,则集合D的信息熵为Ent(D)属性a的取值有a1,a2...av,取值为av的样本集合为Dv,则由于属性a划分而引起的集...原创 2018-10-23 11:21:37 · 235 阅读 · 0 评论 -
机器学习--贝叶斯分类器
1.贝叶斯理论在已知相关概率下,基于概率和误判损失来选择最优的类别标记。假设类别标记总数为N,即Y{c1,c2..cn}.rij表示将一个真实样本为cj误判为ci的损失,p(ci|x)表示样本x分类为ci的概率,则有样本x的条件风险:寻找一个判定准则h,使得X---->Y,总体风险最小贝叶斯判定准则:对于每个样本x,若R(h(x)|x)最小,则总体风险R(h)...原创 2018-10-23 18:41:30 · 571 阅读 · 0 评论 -
机器学习--朴素贝叶斯实践
1.贝叶斯理论贝叶斯决策的核心:选择具有最高概率的决策条件概率: 若P(c1|x)>P(c2|x),则说明样本x应该属于c1类,直接对于P(c|x)不好求解,通过贝叶斯准则变换,转换为P(C),P(x|c)来求解x=(x1,x2...xd)一般是一个d维特征向量,其联合分布难以计算,这里进行朴素贝叶斯假设,属性独立性假设,即每个属性对于分类结果的作用是独立的,因此...原创 2018-10-24 10:28:03 · 390 阅读 · 0 评论 -
机器学习--集成学习2--AdaBoost
以《机器学习实战为例》编程实现AdaBoost算法。1.AdaBoost算法原理Boosting算法主要基于多个弱学习器来构建强学习器,最终结果由多个弱学习器的加权平均决定,每个基学习器的权重并不相同,每个权重代表对应分类器在上一轮的迭代中成功度。训练中的每个样本都有一个权重,基于上一次分类器分类结果,分类正确样本权重会降低,分类错误样本权重会升高。错误率的计算,未正确分类样本占总...原创 2018-10-29 11:27:18 · 397 阅读 · 0 评论 -
机器学习--支持向量机SVM
支持向量机是一种分类学习方法。给定训练集D={(x1,y1),(x2,y2),....(xm,ym)} yi={-1,+1}.分类的基本思想是找到一个线性超平面将不同类别的样本划分开。线性超平面的选择多种多样,直觉应该选择最中间的划分方式,这种情况下对于训练样本的局部扰动容忍性最好,即对未见示例的泛化能力最强。1.间隔,支持向量线性超平面的方程:空点中一点到平面的距离...原创 2018-10-27 11:04:09 · 658 阅读 · 0 评论 -
机器学习--性能度量
性能度量:衡量模型泛化能力的评价标准给定数据集D={(xi,yi)} yi为xi的真实标记 f(xi)为xi的预测输出。1.均方误差对于回归任务一般采用均方误差:2.错误率与精度错误率:分类错误样本数占总样本数精度:分类正确样本数占总样本数3.查准率,查全率对于二分类混淆矩阵:定义查全率: 真实正例中有多少正例被分类正确识别出来 ...原创 2018-10-29 15:49:24 · 359 阅读 · 0 评论 -
机器学习--K-means聚类
以《机器学习实战》为参考,实现K-means聚类算法1.K-means聚类算法数据示例: 每一个样本特征是二维向量读取数据文件,加载数据集:def loadDataSet(fileName): #general function to parse tab -delimited floats dataMat = [] #as...原创 2018-10-31 11:18:36 · 881 阅读 · 1 评论 -
机器学习--回归
回归主要用来解决数值预测问题,给定数据集D={(xi, yi)} ,xi={xi1,xi2...xid} 即每个样本有d个属性,求出x与y的最佳拟合曲线。1.线性回归假设x与y之间存在线性关系:将数据矩阵进行处理,添加x0=1这一项,将b看成w参数的一部分,即:若使线性方程能够很好地你和所有点,这里使用均方误差作为优化目标:令 对于W求导有:导数等于零,...原创 2018-10-29 20:03:21 · 276 阅读 · 0 评论 -
机器学习--回归2--岭回归与IASSO回归
主要讨论岭回归 IASSO回归以及前向逐步回归。之前解决线性回归时,得到最终解:当XTX可逆时,可以直接求解,当XTX不可逆时(特征属性数大于样本数),可以采用岭回归以及IASSO回归解决,其实就是相当于引入了正则化。1.岭回归普通线性回归目标函数为:引入岭回归之后,其实相当于添加L2正则化即进行矩阵变换得:E=(Y-XW)T*(Y-XW)+WTW...原创 2018-10-29 21:22:52 · 745 阅读 · 0 评论 -
机器学习--线性模型
1.基本形式线性模型:给定一组样本X=(x1,x2...xd),其中xi是X在第i个属性上的取值,通过属性线性组合来预测函数其中W=(w1,w2...wd)分别为各个属性xi的权重。1.1线性回归:数据集D={(x1,y1),(x2,y2)...(xm,ym)},其中xi={xi1,xi2...xid},yi是实数,寻找一个线性模型使得尽可能准确预测实值输出标记。多元线性回...原创 2018-10-24 15:02:17 · 894 阅读 · 0 评论 -
大数据--人工智能视频学习资料分享
计算机基础课程分享计算机组成原理--哈工大链接: https://pan.baidu.com/s/19JORvDfGKXx5Goj2sIhMRw 提取码: 75z7B站链接:https://www.bilibili.com/video/av15123338大数据资料分享牛牛学堂链接:https://pan.baidu.com/s/1LMm7KnRSlaHdnYnuxcR...原创 2019-02-27 17:28:18 · 2668 阅读 · 6 评论