
机器学习
文章平均质量分 80
嘉木空青
工科硕士,从事信号处理,数据分析,人工智能算法研究。19年入职场,现从事机器学习工作。
展开
-
TDigest算法原理
起因一般的聚合分析中较为常见的 percentiles 百分位数分析:n 个数据按数值大小排列,处于 p% 位置的值称第 p 百分位数。当数据量较小或者数据集中存储在同一位置时,用上述类似的百分位数分析方法就很容易。但当数据量不断增长时,对于数据进行聚合分析就需要在数据量,精确度和实时性三个方面进行取舍,只能满足其中两项。T-Digest算法TDigest就是一种简单,快速,精确度高,可并行化的近似百分位算法,被Spark,ES,Kylin等系统使用。TDigest主要有两种实现算法,一原创 2022-03-15 10:46:56 · 3097 阅读 · 0 评论 -
ADF单位根检验-时间序列平稳性检验
ADF检验全称是 Augmented Dickey-Fuller test,顾名思义,ADF是 Dickey-Fuller检验的增广形式。DF检验只能应用于一阶情况,当序列存在高阶的滞后相关时,可以使用ADF检验,所以说ADF是对DF检验的扩展。单位根(unit root)在做ADF检验,也就是单位根检验时,需要先明白一个概念,也就是要检验的对象——单位根。当一个自回归过程中:,如果滞后项系数b为1,就称为单位根。当单位根存在时,自变量和因变量之间的关系具有欺骗性,因为残差序列的任何误差都不会.原创 2022-03-05 23:45:29 · 8340 阅读 · 0 评论 -
决策树--统计学习方法
基本模型:决策树模型呈树形结构,在分类问题中,表示基于特征对实例进行分类的过程。可以认为是if-then规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。其主要优点是模型具有可读性,分类速度快。决策树由结点和有向边组成。结点分为内部结点和叶结点:内部结点表示一个特征或属性,即图中的圆;叶结点表示一个类,即图中的方框。步骤:特征选择、决策树的生成和决策树的修剪。...原创 2019-03-10 17:49:07 · 625 阅读 · 0 评论 -
决策树模型的用途
概念定义在特征空间与类空间上的条件概率分布,即给定特征条件下类的条件概率分布;也可以认为是if-then规则的集合优点模型具有可读性,分类速度快。模型首先,介绍一下决策树模型:由结点和有向边组成,结点又可分为内部结点和叶结点。内部结点表示一个特征或属性,叶结点表示一个类。决策树与条件概率分布决策树所表示的条件概率分布由各个单元给定条件下的类的条件概率分布组成。若X表...原创 2019-03-18 23:29:03 · 6014 阅读 · 0 评论