
算法原理
专门记录算法原理及对算法原理的理解
不停下脚步的乌龟
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【算法原理】时间序列模型ARIMA
1. 平稳性指的是时间序列样本及拟合曲线在未来时间点上按照现有的某种趋势延续下去。均值与方差无明显的变化。平稳性分为严平稳性(不太可能出现)和弱平稳性(期望与相关系数不变)时间序列模型主要用来预测,若平稳性都无法保证,何来预测?2. 差分举例来说:一阶差分就是XtX_tXt与Xt−1X_{t-1}Xt−1时刻的差值。二阶差分就是在一阶差分完成后,在进行一次一阶差分的操作。差分...原创 2020-03-14 16:33:43 · 4184 阅读 · 0 评论 -
【简要理解】主成分分析与因子分析
目标: 降低特征维度如何降维: 基变换(将原始特征所依赖的基组变换为新的基组,基组改变,原始特征也会按照基组的变换而变)。如何确定新基组: 变换后方差越大越好(保留的原始信息越多),同时基组中的基协方差要为0(协方差衡量变量间的相关程度,协方差为0则两个变量不相关,即基组中的基两两正交,几何表示为垂直)。有了新基组的确定标准,该如何计算新基组: 利用协方差矩阵(对角线上是方差,其余位置是协方...原创 2020-03-07 18:01:59 · 414 阅读 · 0 评论 -
【算法原理】聚类算法之DBSCAN
基于密度的聚类算法:DBSCAN需要预先确定的两个参数分别是:“影响半径”和“影响阈值”优点是:不需要像kmeans一样事先确定k值,适应非常规型数据,可以用来发现异常值(离群点)缺点是:还是需要事先确定两个参数理解关键:类似于传销发展下线或者部落扩张原理示意图:DBSCAN可视化展示...原创 2020-03-06 19:12:33 · 511 阅读 · 0 评论 -
【聚类方法】
直接上自己之前记的笔记原创 2020-03-06 19:04:14 · 540 阅读 · 0 评论 -
【算法原理】线性回归算法原理
假设小明是银行的一名客户研究员,他想利用银行客户的年龄(X1)与工资(X2)建立一个预测模型,预测不同客户存款数额(Y)的大小。目前他手头已经有银行客户的历史数据表:X1列记录客户年龄、X2列记录客户工资、Y列记录客户存款数额。最开始,他建立了最简单的预测方程:(小明知道不同变量所占的权重是不一样的,方程中变量前的参数就代表权重)然后,他用手头的数据去训练该方程,发现该方程并不是能够...原创 2020-03-05 12:10:00 · 683 阅读 · 0 评论 -
【算法原理】支持向量机SVM算法原理
原创 2020-03-05 11:37:29 · 226 阅读 · 0 评论 -
【算法原理】朴素贝叶斯算法原理
朴素贝叶斯算法主要关注先验概率与后验概率,利用先验概率求出后验概率下面的是以前记过的笔记导出:原创 2020-03-03 18:47:06 · 204 阅读 · 0 评论 -
【算法原理】集成算法
目前,纵观各种竞赛和论文,拿的出手的成果许多是采用了集成算法。本文记录集成算法最基础的知识。1. Bagging算法原理:并行。训练多个模型最终结果取平均。代表:随机森林(RandomForest),随机指的是每棵树的训练数据是随机的(原始数据有放回随机抽取)每棵树所选择的数据特征也是随机的。之所以要进行两个随机是为了提高随机,降低过拟合性;森林顾名思义,不只是一棵树而是多棵树。随...原创 2020-02-26 11:55:29 · 388 阅读 · 0 评论 -
【算法原理】决策树算法原理
基本的决策树知识不再赘述,只记录难点决策树节点的划分依据:1.基于信息增益的划分(ID3算法:信息增益;C4.5算法:信息增益率)2.基于基尼系数的划分(CART算法)(更常用)信息增益的预备知识:信息熵定义:信息的混杂度,熵值越大,信息越混杂;熵值越小,信息越纯公式:公式解读:pi是概率值,取值范围在0-1对于对数函数来说,若定义域是0-1,值域则为负无穷到0.公式中加...原创 2020-02-24 11:39:39 · 248 阅读 · 0 评论