
统计学与机器学习
统计学与机器学习
Keiji1102
这个作者很懒,什么都没留下…
展开
-
机器学习实战:回归
线性回归矩阵X存放输入数据,矩阵w存放回归系数。误差是预测y值和真实y值的差值平方,最佳拟合曲线曲线就是误差最小的曲线。公式平法误差 回归系数示例:标准回归函数(1) 导入数据函数def loadDataSet(filename): fr = open(filename,'r') NumFea = len(fr.readline()....原创 2020-02-03 19:03:00 · 483 阅读 · 0 评论 -
机器实战学习:AdaBoost元算法
AdaBoost元算法元算法meta-algorithm对其他算法进行组合。(作重要决定时,会考虑吸取多个专家而不只是一个人的意见。)bagging从原始数据集选择S次得到S个新数据集。从原始集合中随机选择一个样本,然后随机选择一个样本来代替这个样本。boosting通过集中关注 被已有分类器错分的数据来获得新的分类器。boosting中的分类器权重并不相等。训练...原创 2020-02-02 23:28:00 · 263 阅读 · 0 评论 -
机器学习实战:Logistic回归
Logistic回归最优化算法的一种。用一条直线对一些数据点进行拟合的过程称为回归。回归的核心是寻找最佳拟合参数。Sigmoid函数随着z的增加,对应的Sigmoid值将逼近1;随着z的减少,对应的Sigmoid值将逼近0。Sigmoid值在0~1范围中,大于0.5的数据被分到1类,小于0.5的数据被分到0类。Sigmoid函数的输入向量x是分类器的输入数据,向...原创 2020-02-01 16:30:59 · 463 阅读 · 0 评论 -
机器学习实战:朴素贝叶斯
朴素贝叶斯朴素贝叶斯能给出一个类别猜测结果和该猜测的概率估计值。在数据量较少的情况下仍然有效。核心 ——概率算法示例:文档分类(1) 将文本构建为词条向量。分类类别0代表正常言论,1表示侮辱性文字。def loadDataSet(): postingList = [['my','dog','has','flea','problems','help...原创 2020-01-31 18:36:31 · 203 阅读 · 0 评论 -
机器学习实战:决策树
决策树构造决策树1.找到决定性特征2. 如果某个分支下的数据属于同一类,则无需继续分类;如果分支下的数据属于不同类,则重复划分数据集。如何划分数据集信息增益:划分数据集前后的信息变化。信息增益最高的特征就是最好的选择。香农熵越高,混合的数据也越多。示例一:区分鱼类和非鱼类(1) 创建数据集import numpy as npdef c...原创 2020-01-29 17:11:50 · 182 阅读 · 0 评论 -
机器学习实战:KNN
KNN—K近邻算法工作原理Training set中每个样本都存在标签(分类信息),输入的新数据没有标签。计算新数据与Training set中各个样本数据的距离,距离越近相似度越高。选择Training set中前k个最相似的数据(k通常不大于20),新数据的分类为k个最相似数据中出现次数最多的分类;若标签为数值型,则为k个最相似数据的平均值。计算原理欧式数据公式:测试分类器...原创 2020-01-26 19:22:06 · 270 阅读 · 0 评论 -
《人人都会数据分析》笔记:指数分布
指数分布指数分布指两次随机事件发生的时间间隔的概率分布情况。时间间隔指的是一次随机事件发生到下一次随机事件再发生的时间间隔。在图中,X轴表示时间间隔,Y轴表示频率密度。因为时间间隔可以为任意一个数值,所以指数分布属于连续型概率分布。区分指数分布和泊松分布在现实生活中,指数分布研究试验:某医院过去平均10分钟出生一个婴儿,求接下来5分钟内有婴儿出生的概率。指数分布在于研究时间间隔,所以时间不是...原创 2019-04-12 22:43:59 · 2037 阅读 · 0 评论 -
《人人都会数据分析》笔记:超几何分布
超几何概率分布(1)相当于是有限总体的无放回抽样,总体数量不断减少。所以每次试验开始前,每种试验结果都会改变。(2)概率质量函数定义有限总体包含N个数,符合要求数目有m个,从中抽取n个个案,其中有k个符合要求的概率C(n,N)=总抽取方式数目C(k,m)=抽取符合要求的方式数目C(n-k,N-m)=抽取不符合要求的方式数目(3)当N>10n,可以用二项分布近似...原创 2019-04-12 22:43:41 · 1816 阅读 · 0 评论 -
《人人都会数据分析》笔记:泊松分布
泊松分布在连续时间或空间单位中某次随机事件发生次数的概率来 预测未来同样长的时间或同样大的空间内发生n次的概率。实际应用中,常用来预测某些事件的发生:超市收银台在某段时间内的结账人数;公交车站在某个时间段的候车人数等。公式推导均值与方差分布特征(1)泊松分布是一种描述和分析稀有事件的概率,样本量n必须足够大。(2)λ是泊松分布所依赖的唯一参数。λ值越小...原创 2019-04-12 22:43:12 · 2178 阅读 · 0 评论 -
《人人都会数据分析》笔记:多项分布及其实际应用场景
多项分布多项分布是二项分布的推广。多项分布的试验结果多于两个。例如足球比赛有:胜、平、负。性质(1)每次多项分布的试验结果有N种可能,但是只会出现一种结果。(2)每次试验,每种结果都有各自发生的概率,所有结果发生的概率和为100%。(3)各次试验相互独立,每次实验中结果概率都不会受影响。公式假设某个多项分布试验可能发生的结果数目为k(1,2....k)。根据历史数...原创 2019-04-11 16:44:33 · 1825 阅读 · 0 评论 -
《人人都会数据分析》笔记:二项分布及其实际应用场景
解读“二项”(1)某次事件(试验)最终结果只有两个。例子:工厂产品质量评估只有合格、不合格两个结果。(2)某次事件(试验)最终结果多于两个,但只关心其中一个,也可以视为两个结果。例子:国乒乓球队可能获得金牌、银牌或铜牌,但鉴于我国乒乓球的世界地位,我们通常只关心结果:是金牌和不是金牌。(3)实际运用中,一般用“成功”表示我们感兴趣的结果发生,“失败”表示我们不感兴趣的结...原创 2019-04-11 16:29:51 · 5495 阅读 · 0 评论 -
《人人都会数据分析》笔记:概率分布
左图:离散型概率分布图形:一条条垂直于X轴的垂线(也可以是矩形柱)。X轴与竖线相交的端点是事件可能发生的结果,Y轴是对应结果发生的概率。离散型概率分布的函数被称为概率质量函数,较常见的有二项分布、多项分布、超几何分布和泊松分布等。右图:连续性概率分布图形:一条连续的曲线,因为事件发生的结果可以是X轴上的任意一点。Y轴表示事件结果对应的概率密度(区别于概率),概率值等于曲...原创 2019-04-11 16:03:45 · 1162 阅读 · 0 评论 -
《人人都会数据分析》笔记:概率
概率(1)取值在0-1之间。如果某个随机事件其中一个结果为0,表示这个结果不可能发生;如果概率等于1,则表示这个结果必定会发生;介于0到1之间的概率说明事件发生可能性的大小,数值越接近1发生的可能性越大。古典概率法:抛硬币和掷骰子(1)条件:结果种类是确定的;每种结果发生的概率相同。(2)抛硬币:结果-正面、反面;概率:1/2 掷骰子:结果-点数1~...原创 2019-04-11 15:36:52 · 386 阅读 · 0 评论 -
《人人都会数据分析》笔记:数据离散程度描述
离散程度描述:可以用来说明事物在发展过程中的均衡性、节奏型和稳定性的问题。离散程度指标:全距、平均差、方差、标准差、离散系数全距:数据中最大值与最小值的差值。R=Xmax-Xmin 不足:是一个比较粗糙的测度指标,若数据集合存在极大值或极小值就不适用。 离散指标的数据越小,说明数据的变异程度越小;离散指标的数据越大,说明数据的变异 ...原创 2019-04-11 15:11:04 · 4680 阅读 · 0 评论 -
《人人都会数据分析》笔记:数据的集中趋势描述
数据的集中趋势描述:寻找反映事物特征的数据集合的代表值或中心值。算数平均值:最常用的数据集中趋势指标(1)算数平均值:数据集合中所有数值的加和除以数值个数。 不足:当数据集合中出现异常值(极大值或极小值)时,算数平均值不适用。例如:国家公布的人均年收入数据,一些极端的高收入人群拉高了算数平均值。(2)几何平均值:当数据之间不是加减关系而是乘除关系时使用。...原创 2019-04-11 14:54:38 · 1110 阅读 · 0 评论 -
《人人都会数据分析》笔记:数据的类型
数据的结构属性分类:结构化数据、非结构化数据(1)结构化数据:即为联想的各种数值;数据库存储的对象基本都是结构化数据。如生活中的企业系统财务系统等。结构化数据可以直接用于检索、分析和结果可视化。(2)非结构化数据:无统一的存在形式,如:视频、音频、图片图像、文本文档等。非结构化能存储在数据库中;它们无法被直接用于数据分析,只能通过量化的方法将非结构化数据量化为结构化数据。...原创 2019-04-11 14:41:26 · 1542 阅读 · 0 评论 -
《人人都会数据分析》笔记:数据分析过程
数据分析过程:确定目标数据——目标数据采集——数据清理——数据存储——数据分析——结果可视化——结果支持(1)确定目标数据:根据数据分析的目的筛选出所需要的采集目标,不仅要全面筛选出重要数据种类, 还要避免筛选出具有重复功能的数据种类。(2)目标数据采集:分为数据实时采集(温度传感器)和数据抽样采集(调查问卷)。...原创 2019-04-11 14:21:00 · 621 阅读 · 0 评论