
R语言
文章平均质量分 72
皮肤小白生
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
数据可视化小技巧 | R语言ggplot2包绘制分组点图[特殊字符]
用scale_fill_manual函数为每个分组的点设定不同的颜色,用theme_minimal函数将绘图主题设置为简约风格。然后,我们来创建一个模拟数据框data,里面包含Group和Value两列,模拟三个分组数据,每个分组都有100个观测值。这样我们就能动手绘制分组点图啦!用ggplot函数创建绘图对象,指定x轴和y轴变量及分组信息,然后调用geom_dotplot函数绘制分组点图。分组点图的灵活性很强哦!今天来和大家分享一个超实用的数据可视化技巧——用R语言的ggplot2包绘制分组点图!原创 2025-01-23 20:23:28 · 339 阅读 · 0 评论 -
生存网络与mlr3proba
通过结合生存网络和mlr3proba,可以使用生存网络模型来预测个体在给定时间点发生事件的概率,并使用mlr3proba提供的工具进行模型的训练、评估和选择最佳模型。iii)基本的机器学习(ML)方法,如重新排序和调整。在本文中,我们将只讨论前五种,因为它们在文献中得到了更好的建立,并且它们具有相同的接口,这简化了调优,我们将在下面看到。我们不会为模型指定自定义架构,而是使用默认架构,如果你熟悉PyTorch,那么你可以选择创建自己的架构,如果你愿意的话,通过将其传递给模型中的custom_net参数。原创 2025-01-23 20:15:37 · 1056 阅读 · 0 评论 -
【Survival Analysis and Time-Dependent ROC Curve Script】代码--实测可行
【代码】【Survival Analysis and Time-Dependent ROC Curve Script】代码--实测可行。原创 2025-01-23 20:01:21 · 276 阅读 · 0 评论 -
生存数据cox-nomogram-临床预测研究代码-实测可行
传统的模型评估方法常存在一个关键误区:在训练集和验证集中分别建立独立模型。这种做法实际上会严重扭曲模型的真实预测能力。正确的方法是在训练集中建立统一模型,并使用相同的模型参数分别对训练集和验证集进行性能评估。在临床预测研究中,构建一个可靠、准确且具有广泛适用性的预测模型是研究者面临的核心挑战。模型的有效性不仅取决于其在开发阶段的性能,更重要的是其在未知数据集上的泛化能力。这种方法不仅能准确反映模型的实际预测能力,还能确保研究结果的科学性和可重复性。对于临床预测研究而言,方法的严谨性与结果的可靠性同等重要。原创 2025-01-23 17:41:53 · 380 阅读 · 0 评论 -
“““【运用 R 语言里的“predict”函数针对 Cox 模型展开新数据的预测以及推理。】“““
本文详细介绍了在R语言中使用predict函数对Cox比例风险模型进行新数据预测的具体步骤。核心观点包括导入必要的包、准备新数据集、使用predict函数的不同参数(type = "survival" 和 type = "risk")来进行生存概率和风险比的预测,以及如何输出和查看这些预测结果。本文主要介绍了如何在R语言中使用predict函数对已拟合的Cox比例风险模型进行新数据的预测和推理。首先需要导入R语言中的survival包,该包提供了实现Cox比例风险模型和其他生存分析方法的功能。原创 2025-01-23 17:14:52 · 1091 阅读 · 0 评论 -
MLR3:ModuleNotFoundError: No module named ‘pycox‘
报错辛苦的被解决了,如果还存在评论区留言。原创 2024-12-25 10:17:07 · 269 阅读 · 0 评论 -
【MLR3_Terminate after a specific performance has been reached:达到特定性能指标后停止】
需要达到的性能水平。如果性能超过(相应的度量必须最大化)或福尔斯(相应的度量必须最小化)此值,则终止。如果终止条件为正,则为TRUE,并且 否则,请执行以下操作。:在给定迭代次数中确实找到表现很好的参数组合后停止。这个类的对象可以用这个方法克隆。类在达到性能级别后终止优化。Super class 超类。Dictionary 字典。:达到特定性能指标后停止。:达到特定性能指标后停止。Arguments 论点。Arguments 论点。See also 另见。创建此R6类的新实例。Examples 示例。原创 2024-12-24 16:06:53 · 803 阅读 · 0 评论 -
Biomaterials近期论文及下载链接
近期论文1近期论文2近期论文3近期论文4近期论文5近期论文6https://authors.elsevier.com/a/1jimvWWN0%7EIuZ公众号投稿请联系:原创 2024-09-26 00:14:00 · 239 阅读 · 0 评论 -
xQTLs 共定位分析(XQTLbiolinks包)
是一个端到端的生物信息学工具,由开发,用于高效地分析公共或用户定制的个xQTLs数据。原创 2024-09-26 00:06:41 · 1114 阅读 · 0 评论 -
基因共定位 xQTLbiolinks 第4部分
此小插图中提供了一些可视化示例,包括示例数据、代码和图形。组织 eQTL 、 sQTL 、 基因表达的可视化。4. 使用 xQTLbiolinks 进行可视化。原创 2024-09-25 23:36:39 · 450 阅读 · 0 评论 -
基因共定位 xQTLbiolinks 第3部分
All we need to prepare include three parts:我们需要准备的包括三个部分:Prostate cancer is one of the most common cancers in men. Prostate cancer pathogenesis involves both heritable and environmental factors. The molecular events involved in the development or prog原创 2024-09-25 23:34:57 · 844 阅读 · 0 评论 -
【基因共定位 xQTLbiolinks 第2部分】
共定位位点应显示一种一般模式,其中高 LD 中的 SNP 将与共定位基因的表达水平表现出很强的相关性,而低 LD 中 SNP 的 eQTL 关联将减弱。eQTL 的这种模式在不同的组织/细胞类型中有所不同,其强度表明变体的调节作用的强度。在此示例中,加载了 16538 (rows) x 5 (cols) 的 data.table 对象。此外,为了减少性状基因的数量,从而减少运行时间,我们将 eGenes 和性状基因的重叠作为功能。性状基因是位于哨兵 SNP 的 1Mb (默认,可以使用参数。原创 2024-09-25 23:32:23 · 1007 阅读 · 0 评论 -
【基因共定位 xQTLbiolinks 第1部分】
下载指定基因或组织的 sGenes (sQTL Genes) 的详细信息。下载指定基因或组织的 eGenes (eQTL Genes) 详细信息。eGene/sGene download eGene/sGene 下载。xQTL expression download xQTL 表达下载。Gene expression download 基因表达下载。下载 sQTL 对的内含子的标准化内含子切除比。1. xQTLbiolinks:查询和下载。下载组织中指定基因的所有样品的中位表达。原创 2024-09-25 23:28:19 · 1236 阅读 · 0 评论 -
【无标题】
报错:方案1:install.packages() 加上INSTALL_opts = '--no-lock':方案1会安装升级成功,但是00LOCK-rlang文件夹还在——说明下次更新此包时仍可能出同样的error。方案2:use unlink() to delete 00LOCK-rlang删除00LOCK-rlang文件夹,后续照常安装即可。如果unlink失败可尝试重启R。install.package()的说明文件里是这么解释的:也就是说,出于防止其他安装过程干扰和暂存旧版本的目的,R原创 2024-09-25 16:06:13 · 810 阅读 · 0 评论 -
【R 4.4.0 Can‘t Install hyprcoloc】
HyPrColoc 是一种高效的确定性贝叶斯分裂聚类算法,使用 GWAS 摘要统计数据,可以同时检测大量特征的共定位。原创 2024-09-25 15:57:35 · 517 阅读 · 0 评论 -
count格式的数据转换(count to FPKM,count to TPM) 【GEO数据库】
在正式分析之前,对于数据的处理是至关重要的,这种重要性是体现在很多方面,其中有一点是要求分析者采用正确的数据类型。对于,原始数据,比如差异分析、热图、箱线图、PCA分析、生存分析、模型构建,聚类分析和相关性分析等。对于,在上述的常见分析中是需要。首先要去获取基因长度文件,因为后续需要用这个数据去矫正基因长度。网址:https://gdc.cancer.gov/about-data/gdc-data-processing/gdc-reference-files。原创 2024-08-27 08:56:50 · 4719 阅读 · 1 评论 -
【错误于split.default(seq_len(nrow(mat)), split): 组的长度为零但数据的长度大于零】
无厘头的报错:circos.heatmap(mat1, col = col_fun1)报错如下。原创 2024-08-01 21:06:41 · 1264 阅读 · 1 评论 -
【无标题】
为了衡量学习者在新的数据上的表现,我们通常通过将数据分成训练集和测试集来模拟unseen数据的场景。通常,我们可以选择此类超参数的值。然而,在大多数情况下,我们希望调整学习器,以便它可以自己搜索“好的”模型配置。num.trees 默认为 500,mtry 为 floor(sqrt(ncol(data) - 1)),在我们的例子中是 4。在我们的例子中,我们的目标显然是对二元因子变量 credit_risk 进行建模或预测。通常,在机器学习中,我们不使用可用的完整数据,而是使用一个子集,即所谓的训练数据。原创 2024-04-25 13:52:46 · 839 阅读 · 0 评论 -
mrls3 超参数调参
机器学习的是模型的一阶(直接)参数,是训练模型时用梯度下降法寻优的参数,比如正则化回归模型的回归系数;而是模型的二阶参数,需要事先设定为某值,才能开始训练一阶模型参数,比如正则化回归模型的惩罚参数、KNN的邻居数等。超参数会对所训练模型的性能产生重大影响,所以不能是随便或凭经验随便指定,而是需要设定很多种备选配置,从中选出让模型性能最优的超参数配置,这就是。。首先要知道学习器包含哪些超参数:id列就是超参数的名字,default列是默认值。原创 2024-04-25 13:27:27 · 1157 阅读 · 0 评论 -
R语言数据可视化-Upset图
我要给你安利一个R语言绘图的超实用干货——集合可视化的神器:UpSetR包!🌟它能够优雅地处理集合间的交集、并集,让数据的对比和关系一目了然。🎨告别那些让人眼花缭乱的传统图表,用UpSetR包让你的数据图形简洁又美观,还能轻松展示出更多的信息。✨🚀 特点速览:1️⃣ 直观展示集合关系2️⃣ 动态交互,探索数据更深入3️⃣ 自定义设置,满足你的个性化需求4️⃣ 一键导出,分享你的发现🔬 数据分析,不再只是数字游戏,让我们一起用UpSetR包,把数据变成故事,讲述属于你的见解。📚关于不同集合之间的交集原创 2024-04-22 22:57:22 · 5342 阅读 · 0 评论 -
R语言-基于现有临床预测模型预测性能评估(predRupdate)
在结果中给出校准曲线的斜率0.7403,截距0.7479,AUC为0.5816及95%置信区间(0.5703-0.5928),Brier Score为0.1246。当我们用模型集成时,元模型必须是同一类型的模型,比如logistic或survival模型,这与常用的模型集成有所不同。在新数据上验证现有的预测模型,以估算模型的预测性能,即外部验证;将现有模型的系数及截距构建为数据框。将多个现有模型集成为一个新的模型。构建逻辑回归模型。模型验证。原创 2024-04-22 22:26:12 · 1699 阅读 · 0 评论 -
【基于机器学习算法的随机生存森林-R语言生存分析】
随机生存森林是随机森林处理生存数据的扩展方法。它涵盖了随机森林的各种模型,包括:连续变量的回归,多元回归,分位数回归,分类,生存分析等典型应用。我们着重介绍其中的生存分析部分的内容。在生存分析中,常用Cox回归进行多因素分析。本文介绍一种基于随机森林算法的生存分析方法-随机生存森林(randomForestRSC)。4.2 绘制Brier score 随时间变化的曲线。7.2 karno变量对生存的影响。2.2 打印模型信息。绘制前5个样本的生存曲线。优化后的最佳节点数为10。原创 2024-04-22 22:17:10 · 1626 阅读 · 0 评论 -
R语言-新颖的可解释性机器学习(vivid)
vivid构建了一种新的矩阵类型的布局,用于显示所有单变量和双变量的部分依赖图。这些新的可视化技术与模型无关,可以应用于回归和分类监督的学习设置,即使在变量数量很大且交互结构复杂的情况下,也能增强解释性。函数生成了一个广义偏依赖对图(GPDP),该图在对角线上包含了单变量偏依赖(带有ICE曲线),在上三角区包含了双变量偏依赖图,而在下三角区则是原始变量值的散点图。函数生成一个热图,用于显示变量重要性和交互作用,其中对角线上显示重要性值,非对角线上显示交互作用值。参数设置要显示的ICE曲线的数量。原创 2024-04-22 22:14:20 · 884 阅读 · 0 评论 -
R绘图--峰峦图/山脊图/ggridges包
第二列是X年X月X天的平均气温值,第三列是月份。目标是展现每个月份的气温分布密度曲线。示例数据。原创 2024-04-21 13:57:00 · 1033 阅读 · 0 评论 -
R进阶绘图--散点图+统计分布图/ggpubr包/aplot包/gridExtra包
示例数据ToothGrowth数据集结构如图所示,这是一项评估维生素C对豚鼠牙齿生长的影响的研究数据,len是牙齿长度;supp是两种给药方式,一种是橙汁OJ,另一种是抗坏血酸VC;dose是三种给药水平。对于该数据集我们后续均采用非参数检验方法。iris数据集是R语言自带的鸢尾花数据集,有5个变量,我们今天用到的3个变量Petal.Length、Petal.Width、Species分别是花瓣长度、花瓣宽度和品种。示例数据。原创 2024-04-21 13:56:05 · 1113 阅读 · 0 评论 -
R实用绘图--火山图 / ggplot2
火山图由散点图和阈值线构成,它通常用于展现统计检验的显著性(如:p value)和变化幅度(如:差异倍数),能够帮助我们快速直观地识别出那些变化幅度较大且具有统计学意义的数据点(如:差异基因)。常应用于生物学中的转录组、基因组等研究中。原创 2024-04-21 13:53:17 · 4609 阅读 · 1 评论 -
实用绘图--弦图 / circlize包
今天带领大家绘制的是弦图,主要用到的是circlize包中的chordDiagram()函数。和弦图与桑基图比较类似,可以展示类别型数据之间的关系和流向。连接两个数据点之间的弧线可以通过方向、颜色、线型、线宽和与圆的接触面积来展示不同纬度的关系信息。弦图的优点在于它能把复杂的数据关系可视化,数据关系呈现的更加直观,缺点是当连接数过多的时候,弦图会比较混乱。原创 2024-04-21 13:51:14 · 442 阅读 · 0 评论 -
R实用绘图--桑基图 / 冲击图 / networkD3
今天带领大家绘制的是桑基图(Sankey diagram),用于可视化流动、转移或转换过程中的能量、资源或数量。桑基图主要由两个元素组成:节点和流线。节点代表不同的实体,而流线则表示这些实体之间的流动。桑基图的特点是它能够清晰地展示复杂的流动关系,使观察者能够迅速理解系统中各个部分之间的相互作用和能量或资源的流动路径。这种图表常常用于能源管理、物流优化、资源分配等领域。桑基图的名称来源于一名爱尔兰船长,最初他采用这种图展示了蒸汽的能源效率,所以该图以他的名字命名为桑基图。原创 2024-04-21 13:50:29 · 1276 阅读 · 0 评论 -
R实用绘图--韦恩图
今天带领大家绘制的是韦恩图(Venn diagram),韦恩图属于关系型图表,通过圆圈与圆圈之间的重叠关系,来表示集合与集合之间的相交关系。一般来说韦恩图只适用于小于等于5个集合的场景,如果集合过多,一方面是不美观,另一方面是常用的R包也不支持。这种情况可以考虑花瓣图或者Upset图等,后续我们都会更新。原创 2024-04-21 13:48:31 · 1533 阅读 · 0 评论 -
R实用绘图--相关性热图
准备好相关系数和显著性两个数据文件,数据展示如下。原创 2024-04-21 13:47:15 · 781 阅读 · 0 评论 -
R中list与dataframe相互转换
在用R语言处理数据的过程中,我经常会遇到list和dataframe数据格式之间的转换,一般是需要把list转换为dataframe的情况居多。一直以来我也没有好好研究两者的转换关系,通常都是碰到一次花时间解决一次,不知道有没有和我一样的小伙伴。这期推文比较系统的研究了list与dataframe转换的转换关系,希望能够对大家有所帮助,节约大家一些时间。原创 2024-04-21 13:46:03 · 1446 阅读 · 0 评论 -
R语言:层次聚类分析(单、全、平均联动)+论文作图+计算距离矩阵+输出欧式距离
并且方法包括 "single"、"complete"、"average"、"centroid"和"ward"层次聚类方法可以用hclust()函数来实现,格式是hclust(d,method=)层次聚类:对于小样本来说很实用(如150个观测值或更少)划分聚类:能处理更大的数据量,但是需要事先确定聚类的个数。其中d是通过dist()函数产生的距离矩阵。直到所有的类被聚成一类为止。然后观测值被随机分成K类。每一个观测值自成一类。原创 2024-04-21 13:11:22 · 974 阅读 · 0 评论 -
R语言:随机森林分类+影响因子重要性可视化
我的理解:任一变量都不能单独作为判别好或坏的标准,建模的目的是找到多个变量(气象因子)的某种组合,从而实现对因变量(树皮厚度)的准确预测。rf为randomForest对象,需要说明的是,在构建随机森林模型时必须指定计算临近矩阵,即设置proximity参数为TRUE;(2)randomForest包:提供randomForest()函数用于随机森林。还可以通过R自带的plot函数绘制随机森林决策树的数目与模型误差的折线图。fac指定随机森林模型中所使用到的因子向量(因变量);原创 2024-04-21 13:09:59 · 2703 阅读 · 0 评论 -
R语言:冗余RDA分析(结合回归和主成分分多元的排序方法)+置换检验+变差分解图
结合回归分析和主成分分析的排序方法使用:vegan包的rda()函数数据准备:变量之间要一一对应(比如都为30个样方)绘制RDA排序图(参数设置)参考R语言实践第三章:图形初阶RDA结果的置换检验:anova()注意:与方差检验无关。原创 2024-04-21 13:08:21 · 2879 阅读 · 0 评论 -
R语言:相关性可视化绘图+进阶散点图矩阵、高密度散点图、六边形封箱图、气泡图
以相关系数表示的二元关系:通过散点图和散点图矩阵进行可视化。原创 2024-04-21 13:06:16 · 2309 阅读 · 0 评论 -
R语言:计算变量间相关系数+导出矩阵结果
alternative则用来指定进行双侧检验或单侧检验(取值为"two.side"、"less"或"greater")method用以指定要计算的相关类型("pearson"、"kendall" 或 "spearman" )参数use=的取值可为"pairwise"或"complete"(分别表示对缺失值执行成对删除或行删除)参数method=的取值可为"pearson"(默认值)、"spearman"或"kendall"当研究的假设为总体的相关系数小于0时,请使用alternative="less"原创 2024-04-21 13:04:41 · 1658 阅读 · 0 评论 -
【R数据分析-基础】
可以在这里插入的典型函数有mean()、sd()、var()、min()、max()、median()、length()、range()和quantile()可以计算非缺失值的数量、平均数、标准差、中位数、截尾均值、绝对中位差、最小值、最大值、值域、偏度、峰度和平均值的标准误。格式为:stat.desc(x, basic=TRUE, desc=TRUE,norm=FALSE, p=0.95)若basic=TRUE(默认值),则计算其中所有值、空值、缺失值的数量,以及最小值、最大值、值域,还有总和。原创 2024-04-21 13:02:04 · 1257 阅读 · 0 评论 -
【mantel test R 语言实现】
左边4个点表示4个分组,注意:点虽然只有一个,但表示的是矩阵数据!右边每个理化因子之间做相关性热图,颜色表示相关系数在通过manlel test,将左边矩阵与每个理化因子相关联注意:左边可以是一个大矩阵,也可以采用某些方法划分成若干小矩阵中间连线部分的宽窄和颜色分别代表r的统计量和显著性p值1.如果你有三个物种的数据和环境理化因子数据,你想知道哪些理化因子分别对三个物种影响最大?(当然也不一定要物种数据,可以换成其它)2.探索不同环境中的酶活性与理化因子间的关系。原创 2024-04-21 12:55:44 · 4713 阅读 · 0 评论 -
ggcor【安装方案实测成功】
这里要介绍的ggcor是corrplot的有一种实现,在吸收借鉴(或者说是全般)corrplot的基础上,略有提升,使用上会更灵活简单。矩阵可视化已经至少有两个版本的实现了,魏太云基于base绘图系统写了corrplot包,应该说是相关这个小领域中最精美的包了,使用简单,样式丰富,只能用惊艳来形容。基于重写了corrplot,实现了corrplot中绝大多数的功能,但仅支持“square”和“circle”的绘图标记,样式有些单调,不过整个ggcorrplot包的代码大概300行,想学习用。原创 2024-04-21 10:21:36 · 3815 阅读 · 0 评论 -
mlr3工具包: 重采样、基准测试
基准测试(benchmark)就是将不同学习器应用于同一个或几个任务,并使用同一个或几个重采样方法,然后使用同一个或几个评估指标来比较学习效果的过程。分层重抽样是指,拥有某一共同特征的样本必须以同比例分布在训练集和测试集中。在前两篇推文里,我们都将原始数据随机划分为训练集和测试集,其中训练集用于模型训练,测试集用于模型评估。分组重采样是指,拥有某一共同特征的样本必须同时被划分到训练集或测试集里去。在重采样中,使用训练集训练出的模型称为“中间模型”,第二步是将重采样方法应用于学习任务,使用。原创 2024-04-13 19:54:15 · 830 阅读 · 0 评论