
机器学习
文章平均质量分 83
June__11
主要研究方向有模糊认知、机器学习、数据挖掘
展开
-
被掰弯的线性函数,海王一样的logstic
本文将要讲述的内容是多个机器学习方法推导的一些共通支出,虽涉及到算法的推导,但还是希望能尽量轻松愉快的讲解,并且能够帮助大家,将这几个算法的推导,更加系统化的理解。本文主要将要讲到的几个机器学习的方法包括线性回归、logstic回归、XGBoost、Word2Vector以及深度学习等一系列方法的推导以及他们在推导中的共通之处。可能这里提到的内容,很多大神都有提到过,没有关系,可以再次温习一下。原创 2020-04-19 00:05:57 · 476 阅读 · 0 评论 -
机器学习 相关算法原理及推导详解(目录页)
机器学习 相关算法原理及推导详解<索引>栏目传送(敬请期待)1、LeetCode 学习讲解2、其它1、传统机器学习1.1 线性回归 (Linear regression)详解1.2 逻辑回归 (Logistic regression)详解1.3 支撑矢量机(SVM)详解1.4 决策树 (Decision Tree) 详解1.5随机森林(Random Fore...原创 2020-04-06 20:09:14 · 294 阅读 · 0 评论 -
windows下安装xgboost的python包
最近参加一些竞赛用到xgboost算法,首先第一步就是要安装xgboost的包到python下,由于xgboost原作者github上的windows目录删除了,所以在尝试安装的过程中遇到了挺多问题,在网上找了很多办法尝试,参考这篇博文如何在python下安装xgboost,终于安装好了,感谢博主。现在整理一下。1、下载原来的具有windows目录的xgboost包,链接:winows下python原创 2016-06-11 17:12:18 · 3045 阅读 · 0 评论 -
机器学习:线性回归(Linear Regression)
通过学习邹博《机器学习》的课程,学完之后感觉记忆支离破碎,现在再复习一下,加强记忆。 在统计学中,线性回归是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。举个栗子: 我们要预测房价。当前自变量(输入特征)是房子面积x,因变量是房价y.给定了一批训练集数据。 我们要做的是利用手上的训练集数据,原创 2016-10-14 11:07:20 · 1243 阅读 · 0 评论 -
机器学习:EM算法
EM算法是一种迭代算法,用于含有隐含变量的概率模型参数的极大似然估计,或极大后验概率估计。EM算法的每次迭代分为两步:E步,求期望(expectation);M步,求极大(maximization)。1、EM算法假定观测数据表示为 未观测数据表示为,则观测数据的似然函数为 通过最大似然估计建立目标函数,有 算法1(EM算法) 输入:观测变量数据Y,隐变量数据Z,联合分布 ,条件分布; 输原创 2017-01-15 15:03:36 · 910 阅读 · 0 评论 -
机器学习:支持向量机(SVM)
支持向量机(support vector machines,SVM)是一种二分类模型,它的基本模型是定义在特征空间上的间隔最大的线性分类器,间隔最大使其有别于感知机;SVM还包括核技巧,这使它成为实质上的非线性分类器。SVM的学习策略就是间隔最大化,可形式化为一个求解凸二次规划的问题,也等价于正则化的合页损失函数的最小化问题。SVM的学习算法是求解凸二次规划的最优化算法。 --- 引自李航《统计学习方法》原创 2017-01-13 21:09:50 · 731 阅读 · 0 评论 -
机器学习:提升方法AdaBoost算法
AdaBoost算法是提升方法中具有代表性的一种算法,本篇博文主要学习AdaBoost的算法思想以及从前向分步加法模型的角度来解释AdaBoost算法。1、AdaBoost算法思路对于提升方法来说,其基本思路是从弱学习算法出发,反复学习,得到一系列弱分类器(基分类器),然后组合这些弱分类器,构成一个强分类。大多数提升方法都是改变训练数据的概率分布或权值分布,针对不同训练数据分布调用弱学习算法学习一系原创 2017-01-06 12:36:57 · 707 阅读 · 0 评论 -
机器学习:GBDT
Boosting系列算法里主要的算法有AdaBoost算法和提升树系列算法,而提升树系列算法里广泛应用的算法是GBDT(Gradient Boosted Decision)和XGBoost。GBDT是以决策树(CART树)为基函数的梯度提升算法,XGBoost是对GBDT的改进,以本篇博文主要学习GBDT、XGBoost的理论推导及两者之间的区别,本次主要来复习一下GBDT的相关理论知识,主要内容参考邹老师的PPT。原创 2017-01-04 10:42:14 · 1278 阅读 · 0 评论 -
机器学习:XGBoost
上一篇博文提到XGBoost是GBDT的扩展和改进,在GBDT中只用了一阶导信息,XGBoost中考虑了二阶导信息,对Loss Function做了二阶泰勒展开,并在目标函数上加入了正则项,用以权衡目标函数的下降和模型的复杂度,避免过拟合。1、目标函数 (式1) 式中第二项为正则项,第三项为常数项。 对L(.)进行一阶求导为gi,二阶求导为hi,根据泰勒展开式,则可将目标函数转化为如下原创 2017-01-04 13:17:50 · 1855 阅读 · 0 评论 -
机器学习:决策树(Decision Tree)
本博客参考邹博机器学习课件以及李航的《统计学习方法》,仅用于督促自己学习使用,如有错误,欢迎大家提出更正决策树(decision tree)是一种基本的分类与回归方法。在分类问题中,它可以认为是if-then规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。在学习时,利用训练数据,根据损失函数最小化的原则建立决策树模型;在预测时,对新的数据,利用决策树模型进行分类。1、决策树 1)决原创 2016-11-01 21:47:27 · 5662 阅读 · 3 评论 -
机器学习:Logisitic回归
Logistic回归(logistic regression)是统计学习中经典的分类方法,其模型属于对数线性模型。1.Logistic分布(logistic distribution)什么是logistic分布? 我们假设有一组变量X是连续随机变量,当X具有下列分布函数和密度函数时,我们就说X服从Logistic分布, 分布函数: 密度函数: 式中,位置参数,为形状参数。logistic分的原创 2016-10-24 22:34:41 · 2096 阅读 · 0 评论 -
机器学习:随机森林(Random Forest)
本博客参考邹博机器学习课件以及周志华的《机器学习》,仅用于督促自己学习使用,如有错误,欢迎大家提出更正。ps:前面几篇主要关注的是机器学习理论部分,后续博文会写一些相关的实践内容。随机森林(Random Forest)是在以决策树为基学习器构建Bagging集成的基础上,进一步在决策树的训练过程中引入了随机属性选择。首先,来了解一下Bagging的内容。1、BaggingBagging是一种并行式集原创 2016-11-04 00:15:47 · 1830 阅读 · 0 评论