
R语言与机器学习
Ethan_pika
一个爱养花的程序员
展开
-
R语言与评分卡模型WOE+IV+ROC
摘要:信用评分卡模型在国外是一种成熟的预测方法,尤其在信用风险评估以及金融风险控制领域得到了广泛的关注。其原理是将模型变量WOE编码方式离散化之后运用Logistic回归模型进行的一种二分类变量的广义线性回归模型。本文重点介绍模型变量WOE以及IV原理,为表述方便,讲模型目标标量1记为“违约用户”,对于目标变量为0记为“正常用户”。WOE(Weight Of Evidence:证据权重)...原创 2019-11-19 10:37:21 · 1719 阅读 · 0 评论 -
R语言与支持向量机SVM应用实例
IRIS数据集简介IRIS数据集中的数据源于1936年费希尔法发表的一篇论文。彼时他收集了三种鸢尾花(分别标记为setosa、versicolor和virginical)的花萼和花瓣数据。包括花萼的长度和宽度,以及花瓣的长度和宽度。我们将根据这四个特征来建立支持向量机模型从而实现对三种鸢尾花的分类判别任务。有关数据可以从datasets软件包中的iris数据集里获取,下面我们演示性地列出了...原创 2019-11-19 10:36:50 · 6556 阅读 · 0 评论 -
R语言与随机森林
随机森林算法(Random Forest)由很多决策树分类器组合而成 单个的决策树分类器用随机方法构成:首先,学习集是从原训练集中通过有放回抽样得到的自助样本。其次,参与构建该决策树的变量也是随机抽出,参与变量数通常嗒嗒小于可用变量数。 单个决策树在产生学习集和确定参与变量后,使用CART算法计算,不剪枝。 最后分类结果取决于各个决策树分类器简单多数选举。随机森林算法优点准确率可以...原创 2019-11-19 10:36:32 · 854 阅读 · 0 评论 -
R语言与分类+线性判别
常见分类模型与算法线性判别法 距离判别法 贝叶斯分类器 决策树 支持向量机(SVM) 神经网络分类和聚类的区别分类分析中有学习集而聚类分析中没有学习集线性判别法(Finsher)线性判别法-计算实例例子:天气预报数据构建样本数据的数据框,并绘制散点图进行初步观察可以看到,在散点图中,数据的分布的情况十分明显,具有明显的分类现象。线性判别法的原理用一...原创 2019-11-19 10:36:19 · 1252 阅读 · 1 评论 -
R语言与因子分析
因子分析因子分析概述因子分析时降维的一种方法,是主成分分析的推广和发展 因子分析时分析隐藏在表面现象背后的因子作用的统计模型。试图用最少个数的不可测的公共因子的线性函数与特殊因子之和来描述原来观测的每一个分量 因子分析时研究相关阵或协方差阵的内部依赖关系,它将多个变量综合为少数几个因子,以再现原始变量与因子之间的相关关系。因子分析的主要用途较少分析变量的个数 通过对变量间相关关...原创 2019-11-19 10:36:02 · 10400 阅读 · 0 评论 -
R语言与主成分分析
主成分分析实例例 9.1 (中学生身体四项指标的主成分分析)在某中学随机抽取某个年纪30名学生,测量其身高(X1)、体重(X2)、胸围(X3)和坐高(X4),数据如表9.1所示。试对这30名中学生身体四项指标数据做主成分分析。解析:用数据框的形式输入数据。用princomp()作主成分分析,由前面的分析,选择相关矩阵做主成分分析更合理。因此,这里选择的参数为cor=TRUE。最后用...原创 2019-11-21 10:28:58 · 7474 阅读 · 3 评论 -
R语言与LASSO回归和LAR算法
LASSO介绍Tibshirani(1996)提出了LASSO(The Least Absolute Shringkage and Selectionator operator)算法 通过构造一个一阶惩罚函数获得一个精炼的模型;通过最终确定一些指标(变量)的系数为零(岭回归估计系数等于0的机会微乎其微,造成筛选变量困难),解释力很强 擅长处理具有多重共线性的数据,与岭回归一样是有偏估计L...原创 2019-11-18 10:25:28 · 6112 阅读 · 1 评论 -
R语言与岭回归
岭参数的一般选择原则选择k(或lambda)值,使得: 各回归系数的岭估计基本稳定 用最小二乘估计时符号不合理的回归系数,其岭回归的符号变得合理 回归系数没有不合乎实际意义的绝对值 残差平方和增大的不多用R语言进行岭回归这里使用MASS包中的longley数据集,进行岭回归分析(longley数据集中的变量具有显著的多重共线性)。从而分析使用岭回归进行多重共线性的解决。...原创 2019-11-18 10:25:16 · 17202 阅读 · 11 评论 -
R语言与回归分析网站流量案例
数据集概述使用互联网排名前1000的网站的数据 Rank:排名 PagaViews:网站访问量 UniqueVisitors:独立访问用户数 HasAdvertising:是否有广告 InEnglish:主要使用的语言是否为英语分析过程1. 安装ggplot2绘图包,并加载2. 加载数据集文件top_1000_sites.tsv在加载本地数据文件的时候,注意需要对文...原创 2019-11-18 10:25:04 · 721 阅读 · 0 评论 -
R语言与非线性回归模型
6.7 非线性回归模型下面列举两个非线性模型的例子:模型(6.52)和(6.53)都是以非线性的形式包含参数和。这这种意义下,它们都是非线性模型,但它们有本质上的区别。一个可以转化为线性模型,如果对模型(6.52)两边取对数,得到它具有如下线性模型的形式,即参与参数是线性的。类似于模型(6.52)那样,可以通过适当的变换转达化为线性模型的非线性模型称为内在线性的。然而,要想将模...原创 2019-11-18 10:24:55 · 8624 阅读 · 1 评论 -
R语言与广义线性回归模型
广义线性模型(GLM)是常见正态线性模型的直接推广,它可以适用于连续数据和离散数据,特别是后者,如属性数据、计数数据。这在应用上,尤其是生物、医学、经济和社会数据的统计分析上,有着重要意义。对于广义线性模型应有一下三个概念:第一是线性自变量,它表明第i个响应变量的期望值E(yi)只能通过线性自变量βTxi而依赖于xi,其中如通常一样,β是未知参数的(p+1)x1向量,可能包含截距。 第二...原创 2019-11-18 10:24:35 · 12259 阅读 · 0 评论 -
R语言与多元线性回归分析计算实例
6.3.7 计算实例例 6.9 某大型牙膏制造企业为了更好地拓展产品市场,有效地管理库存,公司董事会要求销售部门根据市场调查,找出公司生产的牙膏销售量与销售价格,广告投入等之间的关系,从而预测出在不同价格和广告费用下销售量。为此,销售部门的研究人员收集了过去30个销售周期(每个销售周期为4周)公司生产的牙膏的销售量、销售价格、投入的广告费用,以及周期其他厂家生产同类牙膏的市场平均销售价格,如表...原创 2019-11-18 10:24:24 · 24146 阅读 · 0 评论 -
R语言与回归分析计算实例
6.1.7 计算实例这里用Forbes数据为例,全面展示一元回归模型的计算过程。例 6.5 Forbes数据在十九世纪四、五十年代,苏格兰物理学家James D. Forbes,试图通过水的沸点来估计海拔高度。他知道通过气压计测得的大气压可用于得到海拔高度,高度越高,气压越低。在这里讨论的实验中,他研究了气压和沸点之间的关系。由于在当时,运输精密的气压计相当困难,这引起了他研究此问题的...原创 2019-11-18 10:24:47 · 6406 阅读 · 1 评论 -
R语言与回归诊断
回归诊断在前面,我们给出了利用逐步回归来选择对因变量Y影响最显著的自变量进入回归方程的方法,并且还可以利用AIC准则或其他准则来选择最佳回归模型。但是这些只是从选择自变量上来研究,而没有对回归模型的一些特性做更进一步的研究,并且没哟研究一引起样本问题,异常样本的存在往往会给回归模型带来不稳定。为此,人们提出所谓回归诊断的问题(regression diagnostics),其主要内容如下:...原创 2019-11-18 10:24:07 · 2831 阅读 · 0 评论 -
R语言与多元线性回归+逐步回归
多元线性回归多元线性回归的核心问题:应该选择哪些变量???RSS(残差平方和)与R2 (相关系数的平方)选择法:遍历所有可能的组合,选出使RSS最小,R2最大的模型。 AIC(Akaike Information Criterion)准则与BIC(Bayesian Information Criterion)准则AIC = n ln (RSSp/n)+2p其中:n为变量总个数...原创 2019-11-18 10:23:56 · 25923 阅读 · 1 评论 -
R语言机器学习概述
课程说明机器学习算法为主的课程,结合软件的使用和部分案例 课程需要有一定的数学素养,数学是能表达量化关系和算法的唯一语言 将机器学习算法用于大数据挖掘,是本课程的主要目标,但也会讲述其它的机器学习覆盖领域 参考书大多艰涩,言简意赅,但通过精读即使能掌握部分也能有很大收获。希望学习者可以坚持 怎样把复杂的算法用浅显易懂的方式和例子,向非专业人士清晰表达,是本课程的最大挑战 课程内容可能...原创 2019-11-18 10:23:45 · 1000 阅读 · 0 评论