
机器学习
文章平均质量分 80
笨拙的石头
目前主要研究机器学习领域,希望和大家一起学习,多多交流!!!
展开
-
集成学习(Ensemble Learning)
一、集成学习简介 集成学习的思想就是将多个弱学习器组合成一个强学习器。集成学习的优点在于保证了弱分类器的多样性,使得其得到的结果往往比单个学习器的效果好(可以理解为真理往往掌握在大多数人手中)。 常见的集成学习的思想主要有: 1)bagging (自举汇聚法) bagging算法:对于有m个样本的原始数据集,进行n次有放回的抽样得到一个样本,重复s次操作得到s个数据集...原创 2018-04-08 16:00:20 · 2126 阅读 · 0 评论 -
交叉验证(Cross Validation)与网格交叉验证(GridSearchCV)的区别
一.交叉验证 交叉验证就是将原始数据集(dataset)划分为两个部分.一部分为训练集用来训练模型,另外一部分作为测试集测试模型效果. 作用: 1) 交叉验证是用来评估模型在新的数据集上的预测效果,也可以一定程度上减小模型的过拟合 2) 还可以从有限的数据中获取尽可能多的有效信息。 交叉验证主要有以下几种方法: ① 留出法.简单地将原始数据集划分为训练集,验证集...原创 2018-05-03 16:49:25 · 5539 阅读 · 5 评论 -
决策树(DecisionTree)
一、决策树前置知识准备 1.1 信息熵 信息熵也叫香农熵,其计算公式为: 1.2 条件熵 在给定X的条件下,所有的不同x值的条件下Y的熵的平均值叫做条件熵。 计算公式为: 1.3 纯度度量的公式(值越大越不纯) 1)信息熵 2)基尼系数 3)错误率 ...原创 2018-04-07 11:13:09 · 1096 阅读 · 0 评论 -
KNN(K近邻)总结
一、KNN思想简介 KNN 采用的是“物以类聚,人以群分”的思想。也就是找出K个距离待遇测点最近的数据点,然后根据这K个点的类别(或者数值),根据一定的规则判断(或者计算)得到带预测点的类别(或者数值)。 KNN的核心就是找出数据点的K个邻近的数据点。 在分类中采用少数服从多数或者加权的少数服从多数的分类方法。(当然,KNN一般用于分类) 在回归中采用平均值或者加权平均值的...原创 2018-04-06 21:27:51 · 782 阅读 · 0 评论 -
Logistic回归算法
一.logistic回归要点概述 Logistic回归算法是机器学习中的较为简单的也是一般教学中首先讲解的算法. 对于Logisti回归,我们首先要知道它是一种二分类算法,不是回归算法. 其次,我们要知道Logistic回归的一个重要的函数:sigmoid函数以及为什么选用这个函数?这些在后面都会讲到. 最后,我们还要知道Logistic回归的目标函数是什么?如何用梯度下降...原创 2018-05-01 11:20:48 · 1571 阅读 · 0 评论 -
SVM算法(Support Victor Machine,支持向量机)
一、SVM前置知识 1) SVM的思想 对于线性可分的数据集,我们一定可以找到多个超平面(二维是直线,三维是平面)将数据集分为两个类别,这个就是SVM算法的前身感知器模型。 SVM算法就是在感知器模型的基础上,找到一个超平面将数据集分为两类,并且使得距离超平面最近的点距离超平面最远。其实这也很好理解,距离超平面越近说明越容易被分类到其它类别中去,置信度也就越低,要想置信度大只有使...原创 2018-04-13 11:38:59 · 2214 阅读 · 0 评论 -
特征工程(总结)
一、数据清洗 1.1 预处理 1)数据处理工具的选择: 一般选用数据库处理和Python等工具处理。 2)查看数据的元数据以及数据特征 1.2 缺省值处理(删除、补全) 缺省值处理的一般步骤:确定缺省值范围、去除不需要的字段、填充缺省值内容(经验值、均值、中位数、众数、推测值)、重新获取数据。 1.3 格式、内容错误的数据(修改、删除) 1.4 逻辑错误...原创 2018-04-05 22:00:45 · 2113 阅读 · 0 评论 -
HMM算法概述(总结)
一:马尔科夫简述 1.1 马尔科夫性质:设{X(t), t ∈ T}是一个随机过程,E为其状态空间,若对于任意的t 1 <t 2 < ...<t n <t,任意的x 1 ,x 2 ,...,x n ,x∈E,随机变量X(t)在已知变量X(t 1 )=x 1 ,...,X(t n )=x n 之下的条件分布函数只与X(t n )=x n 有关,而与X(t 1 )=x 1...原创 2018-04-03 15:53:46 · 6518 阅读 · 0 评论 -
聚类算法(无监督算法)
一、聚类算法简介 聚类的基本思想:对于给定的M个样本的数据集,给定聚类(簇)的个数K(K<M),初始化每个样本所属的类别,再根据一定的规则不断地迭代并重新划分数据集的类别(改变样本与簇的类别关系),使得每一次的划分都比上一次的划分要好。 聚类是一种无监督的算法。 距离的常用度量方法:欧氏距离(P=2)二、聚类算法分类 聚类算法有很多种,主要分为划分聚类、密度聚类和谱聚...原创 2018-04-10 11:18:21 · 24115 阅读 · 1 评论 -
朴素贝叶斯算法(Naive Bayes)
一.相关公式 先验概率P(A):在不考虑任何条件下,根据经验或样本统计给出的事件发生的概率. 条件概率P(B|A):A事件发生的条件下,事件B发生的概率. 后验概率P(A|B):事件B发生后,对事件A的概率的重新评估. Bayes公式: 贝叶斯公式是由条件概率和全概率公式组成.二.贝叶斯算法 1. 朴素贝叶斯的特征条件独立性假设 朴素贝叶斯认为...原创 2018-05-04 15:46:48 · 7241 阅读 · 0 评论