
MachineLearning
文章平均质量分 87
troysps
这个作者很懒,什么都没留下…
展开
-
卡方分箱(Chi Merge 算法)
卡方分箱原理及实现(Chi Merge 算法)一. 卡方分布卡方分布的定义:若k个独立的随机变量Z1,Z2,…,Zk满足标准正态分布N(0, 1), 则这k个随机变量的平方和:X=∑i=1kZi2X = \sum_{i=1}^{k}Z_{i}^2X=i=1∑kZi2为服从自由度为k的卡方分布, 记做:X−χ2(k)或者记作X−χk2X-\chi^{2}(k) 或者记作X-\c...原创 2020-01-19 10:16:33 · 6730 阅读 · 0 评论 -
莱文斯坦距离计算(LD levenshtein Distance)
莱文斯坦距离计算(LD levenshtein Distance)基本理论莱文斯坦距离用户衡量两个字符串之间的相似度.s(原字符串)和t(目标字符串).莱文斯坦距离被定义为"将字符串s变换为字符串t所需的删除 插入 替换操作的次数算法原理该算法的解决是基于动态规划的思想,具体如下:设 s 的长度为 n,t 的长度为 m。如果 n = 0,则返回 m 并退出;如果 m=0,则返回 n 并退...原创 2020-01-19 10:03:49 · 1612 阅读 · 0 评论 -
AdaBoost算法理解与提升树原理及实现
AdaBoost算法理解与提升树原理及实现从机器学习三要素理解AdaBoost算法AdaBoost算法模型:加法模型 f(x)=∑m=1MalphamGm(x)f(x)=∑m=1MalphamGm(x)f(x)=\sum\limits_{m=1}^{M}alpha_mG_m(x) , 最终模型:最终模型:最终模型:G(x) = sign(f(x))$$ 损失函数:指数函数...原创 2018-06-06 15:54:07 · 585 阅读 · 0 评论 -
特征工程-处理样本不均衡现象
处理样本不均衡现象样本非均衡现象: 正例子数目与反例数目不相等 (相差很大)1. 能否收集到更多的数据2. 尝试使用其他的评价指标 error Rate: 不能用于非均衡的数据集 因此可以使用其他的评价指标 Procision:精准度计算 TPTP+FPTPTP+FP\frac{TP}{TP+FP} 实际被检索到的(TP+FP) Recall: 召回率 TPTP+...原创 2018-06-06 16:20:15 · 1429 阅读 · 0 评论 -
K-Means 算法聚类
K-Means 算法聚类非监督学习: 从数据中发现隐含的关系 对数据进行聚类 cluster 监督学习: 根据已有的历史数据 对数据进行分类 classificationK-Means 算法 问题:如何对数据进行聚类?假设数据集T中, 由K类的数据, 但是如何确定这些数据之间存在关系 损失函数: 平方误差函数 我们可以以它们之间距离度量确定数据之间存在关系,越是...原创 2018-06-14 18:15:29 · 576 阅读 · 0 评论 -
Apriori算法:关联分析
Apriori算法: 关联分析Apriori算法概览什么是关联分析? 找出大规模数据集中寻找物品间的隐含关系Apriori算法: 创建函数频繁项集高效发现的函数,从而从频繁项集中抽取关联规则Apriori算法的优缺点 优点: 易编码实现 缺点: 在数据集上较慢 使用数据类型: 数值型或者标称型关联分析关键词: 频繁项集: 经常一起出现关联规则: 暗...原创 2018-06-15 16:28:56 · 524 阅读 · 0 评论 -
预测算法-线性回归(鲍鱼年龄预测)
预测算法-线性回归面对可逆矩阵线性回归(模型,策略,算法) 模型: h(x)=WTx+bh(x)=WTx+bh(x) = W^T x + b 损失函数: J(θ)=∑i=1N(f(xi)−yi)2J(θ)=∑i=1N(f(xi)−yi)2J_{(\theta)} = \sum\limits{i=1}^{N}(f(x_i)-y_i)^2 目标函数为:minJ(θ)=∑i=1N(f(xi...原创 2018-06-09 23:32:05 · 15186 阅读 · 3 评论 -
FP-Growth算法理解
FP-Growth算法理解基本概念FP-Growth 全称: Frequent Pattern Growth—-频繁模式增长 在整个算法执行过程中,只需要遍历数据集2次,就可完成频繁模式的发现FP-growth算法简介 一种非常好的发现频繁项集的算法那 基于Apriori算法构建但是数据结构不同,使用叫做FP树的数据结构来存储集合算法核心思想基于数...原创 2018-06-20 10:47:05 · 1862 阅读 · 0 评论 -
信息量, 信息熵, 信息增益, 互信息, 交叉熵与相对熵
熵信息如何量化?信息怎么度量, 在生活中当发生某些不可思议的事情, 往往我们会用’信息量大’, 这个词语进行描述。 那么信息量大, 这一词语在对信息量化中, 体现了哪些思路? 1. 当小概率事件发生时, 我们才会感觉’信息量大’ 2. 当大概率事件发生时, 我们会感觉’理所应当’, ‘信息量小-正常操作’ 已知上述信息量化度量的特点, 如何设置函数使用数学直观的表现...原创 2018-07-04 19:33:25 · 1288 阅读 · 0 评论 -
核函数
核函数核函数基本想法:通过非线性变换将数据从一个空间映射到另一个空间(欧式空间对应于希尔伯特空间) 扩展–核函数是一个独立的概念(只是在机器学习中仅仅用作将数据从低纬度映射到高纬度)1. 核函数与SVM完全是两个正交的概念, 相互独立, 早在SVM提出之前, RKHS的应用就比较广泛了, 一个经典的列子就是信号处理中信号检测问题:给定一段时间序列, 如何判断信号不是随机噪声而是有特定的模...转载 2018-07-06 08:58:31 · 1026 阅读 · 0 评论 -
核函数以及SMO算法实现手写数字识别
核函数使用以及SMO算法实现手写数字识别核技巧什么是核函数 解决什么问题1.非线性分类问题–使用核技巧解决的问题非线性分类问题是指利用非线性模型才能很好的进行分类的问题 如图:实质上是将非线性问题 — 转化为线性问题 设原空间为χ⊂R2,x=(x(1),x(2))T∈χχ⊂R2,x=(x(1),x(2))T∈χ\chi \subset R^2, x=(...原创 2018-05-30 11:42:23 · 1854 阅读 · 0 评论 -
支持向量机 (SMO算法原理与简化版实现)
SMO算法原理及实现支持向量机的学习问题本质上是求解凸二次规划问题 SMO算法 序列最小最优化算法就是求解该问题的代表性算法 SMO算法 解决的凸二次规划的对偶问题: mina12∑i=1N∑j=1NαiαjyiyjK(xi,xj)−∑i=1Nαimina12∑i=1N∑j=1NαiαjyiyjK(xi,xj)−∑i=1Nαi\min\limits_{a} \frac{1}{2} \su...原创 2018-05-29 17:30:31 · 2603 阅读 · 0 评论 -
K Nearest Neighbor
KNN算法概述KNN算法:即最邻近分类算法(K-NearestNeighbor算法思路:如果一个样本在特征空间中的k个最相似(即特征空间中最临近)的样本中的大多数属于某一个类别 则该样本也属于这个类别 k通常是不大于20的整数 KNN算法中 所选择的邻居都是已经正确分类的对象 该方法在定义决策上只依据最邻近的一个或几个样本的类别来决定待分样本所属的类别如上所示...原创 2018-06-11 23:33:03 · 1079 阅读 · 0 评论 -
算法原理 朴素贝叶斯法
朴素贝叶斯法什么是朴素贝叶斯法?是基于贝叶斯定理与特征条件独立假设的分类方法对于给定的训练数据集 首先基于特征条件独立假设学习输入/输出的联合概率分布然后基于此模型 对给定的输入x 利用贝叶斯定理求出后验概率最大的输出y常用于:文档分类的算法理论学习图谱基本方法1.首先将问题形式化 –用线性代数的思维分析数据集 数据集的一般表现形式 输入变量X与输入变...原创 2018-05-07 02:51:04 · 354 阅读 · 0 评论 -
logistics regression原理与线性回归
逻辑回归从分类问题线性回归到逻辑回归分类问题0:Negative class1:Positive Class二分类问题开始将已知数据分类 0 1采用算法 线性回归假设函数 hx = theta0 + theta1*x1 + ... + thetaN * xN设置阈值---什么情况下属于1类 or 0类 > 0.5 1 < 0.5 0...原创 2018-05-13 14:33:35 · 1171 阅读 · 0 评论 -
朴素贝叶斯法实现 --基于极大似然估计(垃圾邮件分类)
朴素贝叶斯分类器训练函数 基本原理p(ci|w)=p(w|ci)p(ci)p(w)p(ci|w)=p(w|ci)p(ci)p(w)p(c_i|w) = \frac{p(w|c_i)p(c_i)}{p(w)}w表示向量由多个值组成w表示向量由多个值组成w表示向量 由多个值组成即核心问题:量化为在向量w发生时 属于cicic_i的概率比较问题条件概率中 分母是一致的 因...原创 2018-05-08 13:23:33 · 934 阅读 · 0 评论 -
统计学习方法 -- 方法概论(1)
站在巨人肩上统计学习统计学习的特点统计学习是关于计算机基于数据构建概率统计模型并运行模型对数据进行预测与分析的一门学科统计学习的特点以计算机及网络为平台以数据为研究对象目的是对数据进行预测以及分析以方法为中心 构建模型以及应用模型概率论 统计学 信息论 信息理论 最优化理论 交叉学科统计学习对象是数据 — 连续变量 离散变量 目的: 用于数据进行预测与分...原创 2018-05-15 11:42:01 · 181 阅读 · 0 评论 -
朴素贝叶斯法实现 --基于贝叶斯估计(垃圾邮件分类)
实现朴素贝叶斯的两个缺点1.在利用贝叶斯分类器对文档进行分类时,要计算多个概率的乘积以获得文档属于某个类别的概率,即计算 p(w0|1) * p(w1|1) * p(w2|1)。如果其中一个概率值为 0,那么最后的乘积也为 0。为降低这种影响,可以将所有词的出现数初始化为 1,并将分母初始化为 2 (取1 或 2 的目的主要是为了保证分子和分母不为0,大家可以根据业务需求进行更改)。2.另...原创 2018-05-08 15:33:19 · 1840 阅读 · 0 评论 -
支持向量机(support vector machine)
支持向量机(Support vector machine)支持向量机是一种二分类模型 基本模型是定义在特征空间上间隔最大化的线性分类器 学习策略:间隔最大化 可形式化为求解一个凸二次规划的问题也等价于正则化的合页损失函数的最小化问题支持向量机的学习算法是求解凸二次规划的最优化算法支持向量机面对不同的数据集 有不同的分类策略线性可分支持向量机 硬间隔最大化线性支...原创 2018-05-25 19:51:25 · 1396 阅读 · 0 评论 -
统计学习方法-方法概论(2)
统计学习方法-方法概论(2)模型评估与模型选择统计学习的目的是使学到的模型不仅对已知数据而且对位置数据都能有很好的预测能力 不同的学习方法会给出不同的模型 当损失函数给定时 基于损失函数的模型的训练误差与模型的测试误差: 为学习方法评估的标准 注意: 统计学习方法具体采用的损失函数未必是评估时使用的损失函数 当然 让两者一致是比较理想的训练误差: 假设学习到的模型是Y=f^(...原创 2018-06-02 17:28:32 · 379 阅读 · 0 评论 -
集成方法(Boosting:以AdaBoost为例)原理以及实现
集成方法(boosting又称为提升方法)提升方法重要概念1.思路:三个臭皮匠顶个诸葛亮2.重要概念: PAC:(Probably approximately correct):概率近似正确 强可学习:PAC中,面对假设模型,如果存在一个多项式的学习算法能够学习它,且正确率很高,那么这个概念就是强可学习 弱可学习:PAC中,面对假设模型,如果存在一个多项式的学习算法能够学习它,且...原创 2018-06-04 23:04:52 · 877 阅读 · 0 评论 -
线性回归 --梯度下降法与标准方程法
线性回归简单线性回归机器学习三要素 – 模型 策略 算法 线性回归 输入空间为XXX 输出空间为YYY 模型:假设函数 hypothesis:hθ=θ0+θ1x1hypothesis:hθ=θ0+θ1x1hypothesis: h_{\theta} = \theta_0 + \theta_1x_1模型参数:θ0,θ1θ0,θ1\theta_0 , \theta_1思考:...原创 2018-05-08 22:57:40 · 2205 阅读 · 1 评论