- 博客(18)
- 收藏
- 关注
原创 subset分组 R语言
validdataK1Kmid <- subset(validdataK1K, as.numeric(validdataK1K$Age)<60&as.numeric(validdataK1K$Age)>=45)
2023-07-01 15:56:18
221
转载 R语言 决策树 可视化8
决策树是一种非常有用的分类方法,它能够对新出现的对象给出正确的分类。比起文本描述的规则,我们更希望能使用图形来直观展示决策树的结果,这就是本文介绍的重点——决策树结果可视化。
2023-05-15 20:40:07
302
转载 决策树 可视化7
原创 阿越就是我发表于上海关注公众号,发送或,可获取资料医学生➡医生👨⚕️的R语言和生信学习🔖345篇原创内容公众号💡专注R语言在🩺生物医学中的使用免费千人🐧决策树的可视化我们之前介绍过,主要是使用rpart.plottreeheatr。
2023-05-15 20:39:13
224
转载 神经网络可视化
接下来,调用neuralnet()函数训练神经网络模型,在建模过程中,除了指明类标号(setosa、versicolor和virginica)以及函数中训练的自变量,还人为规定了隐藏层的神经元的个数为3。在本例中,我们基于iris数据集,使用RSNNS扩展包的mlp()函数建立Sepal.Length、Sepal.Width、Petal.Length、Petal.Width对Species类别预测的神经网络模型。然而,神经网络的效能不仅是一个网络规模的函数,也取决于其构成元素的组织方式。
2023-05-01 14:02:32
716
转载 动态列线图
原创 修身立道发表于河南收录于合集#预测模型7个#r语言60个之前的文章介绍了静态列线图的制作过程,做出来的图形如下图所示,可直接在文章中使用。这种图片可以说在逻辑回归模型中是标配,但是使用起来有点不方便,实用性和可操作性可太低。另外一种做法是在列线图上加垂直的网格线,像下图这样。但是还是需要手动计算,精确性也不高。总之,这种静态列线图使用起来不是很方便。如何才能合理准确的使用列线图呢?下面介绍两种基于shiny的动态列线图,可提高列线图的实用性和准确性。
2023-04-30 00:20:20
1383
1
转载 R语言机器学习-《Tidy Modeling with R》笔记(九)之模型解释
鉴于机器学习模型的“黑盒”性质,为了更好地理解模型,需要对模型进行合理的解释。到目前为止,我们介绍了单个观测值的局部模型解释(breakdown和shap)和整个数据集的全局模型解释(基于排列的特征重要性)。全局模型解释,也称为全局特征重要性或变量重要性,有助于我们了解哪些特征在模型整体预测中的重要性。关于机器学习模型的解释有很多种方法,本文只是介绍了其中的几种,更多的内容可以查看【参考资料】。从以上计算结果及可视化可以看出,红色的变量对模型预测的贡献度为负值,浅蓝的变量贡献度为正值。
2023-04-16 09:47:18
462
转载 R语言 如何测量函数的执行时间
tic()函数 启动定时器, toc()函数 结束定时器,无论这些函数调用之间放置什么代码,经过的时间都会被测量。然后从system.time( {}的参数中调用 sleep_func ,这就测量并返回我们 sleep_func() 的执行时间。将sleep_func()作为参数传入benchmark()函数中。system.time({}) 是一个简单的函数,它接收任何R表达式或代码或函数作为参数,并返回其执行时间。然后我们计算执行后的时间与执行前的时间之差,这就得到了函数的执行时间(运行时间)。
2023-04-13 23:38:30
1042
1
转载 R与生物专题 | 第四十二讲 R-回归预测模型的交叉验证
跟投必得学在“R与生物统计专题”中,我们会从介绍R的基本知识展开到生物统计原理及其在R中的实现。以从浅入深,层层递进的形式在投必得学术公众号更新。在第四十一讲中,我们讲到了判断回归模型性能的指标(),但是,我们的例子都是展现在训练数据集(建立模型的数据集)中的拟合情况,也就是说,我们通过训练数据集建立了预测模型,然后在训练数据集中检测模型的拟合性能情况。那么,这个建立的预测模型在独立的另一个数据集,即测试集中的表现如何呢?
2023-04-13 21:35:24
626
转载 第四十一讲 R-判断回归模型性能的指标
关于R2,有一个调整预测变量数的指标,称为调整后的R方(Adjusted R-squared),它有效地考虑了模型中的预测变量数量的不同,从而使各个模型可比较。但是,模型2比模型1更简单,因为它包含更少的变量。上述性能指标都存在一个问题,即预测变量在解释结果上即便没有显着贡献,但当加入新的预测变量进模型时,也会对上述性能指标产生影响,这些性能指标对模型的变化是非常敏感的。· glance() [broom软件包中],可以一次性计算所有的指标:R2,调整后的R方,sigma(RSE),AIC,BIC。
2023-04-13 21:33:15
580
原创 模型统计学检验,
我的目的是用xgb建模。过程中对比了xgb和逻辑回归,用xgb和逻辑回归建模的ROC分别是0.851和0.834,选择了ROC更大的xgb模型。审稿人要求我做ROC的统计学检验,p=0.3,我想继续用xgb模型做,请问我在统计学无明显差异的情况下,怎么选择xgb作为我的模型呢?
2023-04-09 22:52:20
72
转载 基于R语言的ROC曲线绘制及最佳阈值点(Cutoff)选择
https://zhuanlan.zhihu.com/p/159201640ROC曲线在介绍ROC曲线之前,我们首先需要介绍混淆矩阵(Confusion Matrix)。在统计分类模型的评估过程中分别统计分类模型归错类,归对类的观测值个数,然后把结果放在一个表里展示出来的表格就是混淆矩阵。混淆矩阵的示意图如下:在混淆矩阵中:TP代表的是真实值是positive,模型分类为positive的样本数量。FP代表的是真实值是negative,模型分类为positive的样本数量。
2023-01-17 08:11:26
7318
转载 【无标题】R语言 cutoff
http://t.csdn.cn/3t5Polibrary(pROC)# label: 金标准,0 1 变量# pred: 模型预测值,连续变量# 方法一cal_metrics <- function(label, pred){ roc.p=pROC::roc(label, pred) if (roc.p$auc>0.5){ cutoff=roc.p$thresholds[which.max(roc.p$sensitivities+roc.p$sp
2023-01-17 07:32:32
548
转载 R语言检验多重共线性 vif
vif()干啥用的计算方差膨胀(variance-inflation)和广义线性方差膨胀因子(generalized variance-inflation factors for linear)。方差膨胀因子越小,多重共线性程度越小,自变量之间越没关系。具体解释见文末,看不看都行。咋用vif(model, merge_coef = FALSE)参数啥意思model: 填你用某个模型计算的计算结果那个变量merge_coef:merge_coef = FALSE默认值为F
2023-01-15 15:36:43
4893
转载 vif诊断多重共线性
多重共线性的诊断\n1.方差扩大因子法\n经验表明,V I F j ≥ 10 VIF_{j}\\geq10VIF \nj\n\t\n ≥10时,就说明自变量x j x_{j}x \nj\n\t\n 与其余变量之间有严重的多重共线性,且这种多重共线性可能会过度地影响最小二乘估计值。\n\n代码实现如下:\n\ndata3.3\u003C-read.csv(\"C:/Users/Administrator/Desktop/data3.3.csv\",head=TRUE)\nlm3.3\u003C-lm(y~
2023-01-15 14:56:30
1680
转载 混淆矩阵 灵敏度 特异度 阳性预测值 阴性预测值 阳性似然比 阴性似然比
http://iccm.cc/classification-model-evaluation-confusion-matrix/分类器评价与在R中的实现:混淆矩阵Posted by c cm on January 18, 2014分类模型评价一般有以下几种方法:混淆矩阵(Confusion Matrix)、收益图(Gain Chart)、提升图(Lift Chart)、KS图(KS Chart)、接受者操作特性曲线(ROC Chart)。“分类模型评价与在R中的实现”系列中将逐个介绍。
2023-01-13 19:48:35
1571
转载 R语言中数据的分层预测效果
split函数函数split()可以按照分组因子,把向量,矩阵和数据框进行适当的分组。它的返回值是一个列表,代表分组变量每个水平的观测。这个列表可以使用sapply(),lappy()进行处理(apply – combine步骤),得到问题的最终结果。 split( )的基本用法是:group <- split(X,f) 其中X 是待分组的向量,矩阵或数据框。f是分组因子。##例1:对向量分组> library(MASS)#使用Cars93数据集,利用其中的O
2023-01-13 18:15:46
1440
空空如也
基于算法本身,是否可以有更好的算法来验证模型性能、提高预算精度?
2024-05-11
如何从算法方面提升论文档次
2024-05-11
建立集成堆叠模型能调参吗?
2024-05-10
Rstudio中,怎么把已经调参、训练好的几个模型,做成一个集成模型?
2024-05-04
将已经训练好的几个模型做成集成模型
2024-05-03
关掉Rstudio后,再打开时代码发生改变
2024-04-29
数据插补时没有没有设置随机种子,以至于建出的模型不一样
2024-04-29
R连续运行代码时,崩溃
2024-04-24
请问随机生存森林的校准曲线怎么画(R语言)?
2024-04-23
请问怎么绘寻找高低风险阈值的图?
2024-04-23
生存分析找最佳截点时运行正常,然而作图时,提示错误,请问如何解决呢?
2024-04-23
'length = 2' in coercion to 'logical(1)'
2024-04-23
Error in plot.window() : 'xlim'值不对
2024-04-23
上下图之间太近了,abc被挡住
2024-04-20
R语言replace函数失效
2024-04-20
Error in { : task 1 failed - "'x'必需为数值"
2024-04-20
ggsurvplot画图 数字被坐标轴挡住了
2024-04-16
请问怎么控制模型在外部验证集的表现?
2024-04-12
R遇到致命错误,会话终止
2024-04-06
模型在外部验证集的ROC只有67%,怎么办?
2024-03-31
r保存的图片刚开始好好的,再打开变空白了。请问是什么原因,怎么解决呢
2024-03-28
R语言作图 给图片下方添加abc,结果超出图片,显示不全,怎么办呢?
2024-03-28
"predict"没有适用于"character"目标对象的方法。
2024-03-26
怎么提高模型在外部验证集上的性能呢?
2024-03-25
R语言运行时电脑自动关机
2024-03-24
请问tidymodel建立的模型的变量名存储在哪里呢?
2024-03-23
请问已经用tidymodel建立好的模型怎么修改变量名呢?
2024-03-23
No default method available. 请问是哪里错了呢?
2024-03-22
跑模型没有设置seed,怎么办?
2024-03-22
TA创建的收藏夹 TA关注的收藏夹
TA关注的人