
机器学习
jj_千寻
qq:425776024
展开
-
ML-线性回归-公式推导- 多种实现
1. 简单线性回归只有一个未知数x,两个参数的,称为简单线性回归,一条直线。此时不需要线性代数概念,直接迭代求解,形如:1.1 表示形式1.2 定义损失1.3 求参,极大似然2.多元线性回归2.1形式2.2误差2.3求参2.4问题通常不是nxn矩阵,既,数据量:行n,自变量及偏置:列p+1,通常n!=p+1,也就是说矩阵不存在逆;...原创 2019-02-19 09:37:04 · 1009 阅读 · 0 评论 -
ML-逻辑回归的公式推导及实现、LogisticRegression, LogisticRegressionCV 和logistic_regression_path
目录1.简介2.数学背景3.推导4.联合概率5.求参、极大似然6.参数求解:7.牛顿法、拟牛顿法、梯度下降法等求参:牛顿法:梯度下降法8.完整流程9.正则化10.多元逻辑回归11.scikit-learn中逻辑回归1.简介逻辑回归并不是回归,是分类算法。通过函数映射,通常映射后的值>0.5称为正例,反之反例,这样的学习称为二分类。...原创 2019-02-19 09:37:13 · 2935 阅读 · 0 评论 -
ML决策树ID3、C4.5、CART公式推导实现
目录1.决策树2.ID3算法3.C4.5算法ID3/C4.5的防过拟合ID3/C4.5的缺失数据4.CART算法1)cart在分类方面:基于基尼系数:Gini(D)2)cart在回归方面:基于方差/标准差CART的剪枝sklearn实现:分类DecisionTreeClassifier回归DecisionTreeRegressor1.决策树...原创 2019-02-20 22:10:37 · 2301 阅读 · 0 评论 -
ML-KDTree思想、划分、实现
1.概念 kd树是一种对k维空间中的实例进行存储以便快速检索的二叉树形结构。构造kd树相当于不断用垂直于坐标轴的超平面对k维空间切分,构成一系列k维超矩形区域。每个节点对应于k维超矩形区域。所有非叶子节点可以视作用一个超平面把空间分区成两个半空间。节点左边的子树代表在超平面左边的点,节点右边的子树代表在超平面右边的点。如果选择按照x轴划分,所有x值小于指定值的节点都会出现...原创 2019-02-13 23:58:03 · 1503 阅读 · 0 评论 -
ML-贝叶斯-原理及实现
目录1.原理背景拉普拉斯修正 半朴素贝叶斯贝叶斯网scikit-learn实现(GaussianNB,MultinomialNB和BernoulliNB)https://www.cnblogs.com/pinard/p/6074222.html1.原理背景贝叶斯公式:假如我们的分类模型样本是m个样本,每个样本有n个特征,特征输出有K个类别,定义为 :...原创 2019-02-20 22:11:00 · 1174 阅读 · 0 评论 -
ML-支持向量:SVM、SVC、SVR、SMO原理推导及实现
目录1.导出目标2拉格朗日转换3对偶问题:4求对偶问题5 求b6 得出模型6.1 f(x)的约束条件:7 核函数7.1 软间隔7.2 松弛变量:7.3KKT约束8 SMO求a8.1对偶问题上,上面已知对偶形式:8.2.SMO算法思想8.2.1更新方法8.2.2 推导过程8.2.3选两点a1,a2的方法8.2.4b和...原创 2019-02-20 22:30:10 · 3283 阅读 · 0 评论 -
ML聚类:k均值、学习向量量化LVQ、EM/高斯混合GMM、DBSCAN密度聚类、AGNES层次聚类、BIRCH、谱聚类原理推导及实现
目录1.聚类概念2.聚类结果的“好坏”评价指标2.1外部指标2.2内部指标2.3距离的计算3聚类类算法3.1 k均值算法3.2LVQ学习向量量化算法3.3 高斯混合GMM3.3.1EM算法3.3.2GMM中参数的求解3.4 DBSCAN 密度聚类3.5 AGNES层次聚类3.6 BIRCH层次方法的平衡迭代规约和聚类(Balanced I...原创 2019-03-03 18:33:13 · 3826 阅读 · 1 评论 -
ML-特征选择
1.概念特征选择是一个重要 “数据预处理”过程,机器学习任务中,获得数据之后通常先进行特征选择,此后再训练学习器。特征选择需要确保不丢失重要特征。“无关特征”:与当前学习任务无关;“冗余特征”:所包含信息能从其它特征中推演出来,很多时候不起作用,去除可以减轻学习负担。2.特征子集搜索与评价有许多特征,欲从特征集中选择一个包含所有重要信息的子特征集,如果没有经验领域知识等先验假设...原创 2019-03-04 22:24:09 · 621 阅读 · 0 评论 -
马尔科夫链中的应用
若每年要统计一个城市极其郊区人口,像,可以显示60%住城市,40%住郊区,加起来是1;具有这种特性的向量称为:概率向量;随机矩阵是各列都是这样的向量组成的方阵;马尔科夫链是一个概率向量序列,和一个随机矩阵P()例1:城市与郊区之间移动模型/随机矩阵:即每年有5%的城市人口流到郊区,3%的郊区人口留到城市;假设此城市2000年城市人口600000,郊区400000,则2001年人口...原创 2019-02-16 19:49:05 · 6158 阅读 · 0 评论 -
ML-sklearn参数随机优化:GridSearchCV、RandomizedSearchCV、hyperopt
目录1 GridSearchCV:网格式暴力搜索2.RandomizedSearchCV:采样式搜索3.hyperopt:贝叶斯优化总结全都在:sklearn.model_selection里面的https://scikit-learn.org/stable/modules/classes.html#hyper-parameter-optimizers1 GridSearc...原创 2019-02-21 22:27:08 · 4054 阅读 · 0 评论 -
ML-集成学习:AdaBoost、Bagging、随机森林、Stacking(mlxtend)、GBDT、XGBoost、LightGBM、CatBoost原理推导及实现
目录1.名称简介2.设计集成原则3.集成学习算法分类4.Boosting4.1基本流程4.2Adaboost实现4.2.1.分类4.2.2.回归4.2.3Adaboost的正则化4.2.4Adaboost小结5.Bagging5.1基本流程6.随机深林Random Forest6.1基本流程7.Stacking8.GBDT8.1...原创 2019-02-26 17:17:22 · 7137 阅读 · 4 评论 -
scipy.optimize优化器的各种使用
目录0.scipy.optimize.minimize1.无约束最小化多元标量函数1.1Nelder-Mead(单纯形法) 1.2拟牛顿法:BFGS算法1.3牛顿 - 共轭梯度法:Newton-CG2 约束最小化多元标量函数2.1SLSQP(Sequential Least SQuares Programming optimization algorithm) 2....原创 2019-02-22 22:33:53 · 56952 阅读 · 7 评论 -
python最小二乘的实现
1.使用 linalg最小二乘法的权重参数(m,c)。import matplotlib.pyplot as pltx=Aarray([[ 0., 1.], [ 1., 1.], [ 2., 1.], [ 3., 1.]])y = np.array([-1, 0.2, 0.9, 2.1])m, c = np.linalg.lstsq(x, ...原创 2019-02-09 12:13:16 · 4154 阅读 · 0 评论 -
Jensen 不等式
1.先要看这个,凸函数性质:https://blog.youkuaiyun.com/jiang425776024/article/details/876078482.于是,对于任意点集,若且,使用数学归纳法,可以证明凸函数 f (x) 满足:(凹函数相反)如果把看成取值为的离散变量 x 的概率分布,那么公式(2)就可以写成3.这个公式在EM算法中有用到:ht...原创 2019-02-27 21:35:20 · 11660 阅读 · 1 评论 -
机器学习-KNN-ListedColormap绘制
1.了解KDTree:KDTree的思想、划分、实现2.K近邻(KNN):scikit-learn 中KNN相关的类库概述原理很简单:K近邻法(KNN)原理小结取数据集中最近的k个点,然后投票,k个点中标记的众数作为查询点的标记类型。绘制区域图:import numpy as npimport matplotlib.pyplot as pltfrom sklearn ...原创 2019-02-16 19:50:23 · 5892 阅读 · 0 评论