数据分析-算法 模型
文章平均质量分 57
Gavin姓陈
管理科学、数据科学、计算机科学。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【决策树】ID3算法理解与R语言实现
用R语言自带包实现决策树,以及自定义函数来实现决策树算法。原创 2017-12-20 18:54:09 · 9216 阅读 · 1 评论 -
R语言中时间序列日期设置
时间序列的不同时间分段设置1. 普通的时间序列:年、月、季 1 myserises<-ts(data,start=,end=,frequency=)#其中frequency=1代表年;frequency=12代表月;frequency=4代表季度数据 2. 如果以天为单位的时间序列1 t<-ts(1:365,frequency=1,start=as.Date("201...转载 2018-11-23 11:41:19 · 32103 阅读 · 3 评论 -
Python 多元回归实现与检验
python 实现案例1、选取数据 执行代码#!usr/bin/env python#_*_ coding:utf-8 _*_import pandas as pdimport seaborn as snsimport matplotlib.pyplot as pltimport matplotlib as mpl #显示中文def mul_lr(): pd_data=pd...转载 2018-06-06 11:03:42 · 18396 阅读 · 3 评论 -
【转载】机器学习实战:模型评估和优化
原文:Real-World Machine Learning: Model Evaluation and Optimization 作者:Henrik Brink, Joseph W. Richards, Mark Fetherolf 监督学习的主要任务就是用模型实现精准的预测。我们希望自己的机器学习模型在新数据(未被标注过的)上取得尽可能高的准确率。换句话说,也就是我们希望用训练数据训练得到的模...转载 2018-06-05 09:36:11 · 698 阅读 · 0 评论 -
数据挖掘算法学习及应用场景
------------------------------------------------------------------------------------ ...转载 2018-05-21 15:09:49 · 4668 阅读 · 0 评论 -
使用R语言进行回归分析
1、线性回归的基本函数lm<-lm(formula,data=data.frame)#其中formula为回归公式,data为数据源数据框#例如:lm<-lm(y~x1+x2,production)2、与线性模型相关的函数print()原本为打印函数,当参数为线性模型对象时,会打印出模型中的系数以及截距值。基于线性模型操作的对象有很多,比如:predict、summary、...原创 2018-04-06 21:26:11 · 21827 阅读 · 2 评论 -
使用R语言进行决策树建模
关于决策树的理解及自定义代码实现请参考我的另一个博客:数据挖掘常用算法理解与R语言实现(系列待完成)本次技能点:训练集和测试集的选取决策树构建与减值决策树的print和plot预测值与实际值关系描述用到的函数或包:ctree(party包),rpart(rpart包),set.seed、sample、predict、cptable、cp属性、prune、xerror属性。代码:#一、使用part包...原创 2018-04-06 16:25:03 · 15005 阅读 · 1 评论 -
【分类算法】BP神经网络算法理解与实现
一、模型理解本次介绍的主要为BP神经网络,是ANN(Artifical Neural Networks)神经网络中的一种。BP即为前馈的意思,即输入节点只跟前边的隐藏层或者输出节点向前发生关系。这是一种预测模型,能根据已有的学习集训练出模型,根据预测集中的x1,x2,x3预测Y的值。在下边的博客中,详细介绍了BP神经网络的算法:https://blog.youkuaiyun.com/google1989010...原创 2018-04-04 22:40:42 · 2561 阅读 · 0 评论 -
【数据挖掘】使用R语言进行聚类分析
本文主要介绍在R语言中使用k-means和K-Medoids进行聚类分析的方法。一、首先介绍下聚类分析中主要的算法:lK-均值聚类(K-Means)十大经典算法l K-中心点聚类(K-Medoids)l 密度聚类(DBSCAN)l 系谱聚类(HC)l期望最大化聚类(EM)十大经典算法聚类算法软件包主要函数K-meansstatskmeans()K-Medoidsclust...原创 2018-04-09 15:29:15 · 92222 阅读 · 1 评论 -
使用R语言进行时间序列分析
一、时间序列的定义时间序列是将统一统计值按照时间发生的先后顺序来进行排列,时间序列分析的主要目的是根据已有数据对未来进行预测。一个稳定的时间序列中常常包含两个部分,那么就是:有规律的时间序列+噪声。所以,在以下的方法中,主要的目的就是去过滤噪声值,让我们的时间序列更加的有分析意义。二、时间序列的预处理1、平稳性检验:拿到一个时间序列之后,我们首先要对其稳定性进行判断,只有非白噪声的稳定性时间序列...原创 2018-04-08 10:50:32 · 119718 阅读 · 2 评论 -
多层线性模型(HLM or Mix Model)使用中的问题合集
1、HLM运行只运行到一半,报错:无法继续,Matrix Vtheta1 is not invertible. Unable to continue 报错如下图。在运行HLM中时,出现上述错误,直译是说矩阵不可逆,无法继续,所以没有得出期望的结果。现在查到线索说是《分层线性模型层-1自变量中心化问题研究综述》何晓群,文献中有详细的说明,正在跟踪。问题原因已找到,确实是因为数据未中心化原创 2018-01-05 15:39:28 · 19577 阅读 · 1 评论 -
多层线性模型(HLM)--层次嵌套样本应用HLM的必然性论证
以上截图来自张磊的《多层线性模型应用》原创 2017-12-09 22:44:17 · 3477 阅读 · 0 评论 -
数学算法中的各种距离
摘自:薛毅的R_modeling原创 2017-12-18 21:29:34 · 1144 阅读 · 0 评论 -
【聚类分析】Kmeans算法理解及R语言实现
一、基本解释(算法思想、名词解释)算法:1、在总体中随机选择k个值作为初始质心。2、计算每个样本点到每个质心的距离(一般为欧式距离),将每个点指派到最近的质心点,形成K个聚类。3、重新这个簇的样本点的平均值,作为簇的新质心。4、重复2-3直至质心不再发生变化,或者只发生很微小的变化。名词解释:关于距离的定义请参考:数学算法中的各种距离二、数学推导原创 2017-12-19 14:58:45 · 26260 阅读 · 2 评论 -
轻松看懂机器学习十大常用算法
以下文章转载自:http://blog.jobbole.com/108395/通过本篇文章可以对ML的常用算法有个常识性的认识,没有代码,没有复杂的理论推导,就是图解一下,知道这些算法是什么,它们是怎么应用的,例子主要是分类问题。每个算法都看了好几个视频,挑出讲的最清晰明了有趣的,便于科普。以后有时间再对单个算法做深入地解析。今天的算法如下:决策树随机森林算转载 2017-12-07 23:01:02 · 660 阅读 · 0 评论 -
数据挖掘常用算法理解与自定义函数实现(ing)
要做啥:1、把自己学到的数据挖掘常用算法,按照自己的理解做详细的整理和解释。2、用R语言自带包实现经典算法小案例。3、用R语言编写自定义函数实现算法。4、做算法自定义函数的模型评估。为何做:1、熟悉R语言语法2、深入理解算法内容3、练习模型评估方法做了啥【决策树】 ID3算法理解与实现【聚类算法】Kmeans算法理解与实现【分类算法】BP神经网络算法理解与实现【关联规则】Aprior 算法理解与实...原创 2017-12-18 10:40:33 · 1414 阅读 · 1 评论 -
【转】十大数据挖掘算法
数据挖掘十大经典算法转自:https://www.cnblogs.com/lcchuguo/p/4874288.html 一、 C4.5 C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3 算法. C4.5算法继承了ID3算法的长处。并在下面几方面对ID3算法进行了改进: 1) 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足。 2)...转载 2019-02-20 10:53:51 · 991 阅读 · 0 评论
分享