一个人旅行*-*-优快云博客

原创用R绘制世界地图及中国地图

在如今这个数据可视化无处不在的世界里，R语言不再只是统计分析的工具，它更像是一支画笔，能为你描绘出一幅幅地图。如果你曾经幻想过用代码勾勒出世界的轮廓，或者展现中国的山川河流，那么今天的探索正适合你~

2024-09-03 09:57:42 2245

如果你觉得R只是用来科研的工具，那就太辜负广大开发者的良苦用心了。今天给大家介绍几个useless但fun的的R包，为大家工作学习之余提供一点微不足道的小乐趣。fortunes包还支持自定义礼物库，你可以使用它为家人、朋友、恋人，甚至陌生人制作礼物。引用的上下文 (if available, otherwise NA),引用来源 (if available, otherwise NA),引用日期 (if available, otherwise NA).虽然没有随机选择动物的选项，但我们可以自己轻松实现。

2024-09-03 09:47:41 711

原创使用openair包分析气象数据

气象数据通常是有规律的时间序列，分析气象数据时需要对空气质量测量、气象数据和扩散模型输出进行分析。openair 是用于分析空气质量数据或更广泛的大气成分数据的R软件包。该软件包广泛应用于学术界、公共和私营部门。该项目最初由英国自然环境研究委员会（NERC）资助，并由英国环境部（Defra）提供额外资金。

2024-09-03 09:38:19 1582

原创排序分析(Ordination analysis）及R实现

在生态学、统计学和生物学等领域，排序分析是一种用于探索和展示数据结构的多元统计技术。这种分析方法通过将多维数据集中的样本或变量映射到低维空间，以便更容易理解和可视化数据之间的关系。排序分析常用于研究物种组成、生态系统结构等生态学和生物学问题。

2023-11-30 18:37:23 1398

原创 ERROR：sf is not compatible with GDAL version below 2.0.1

考虑到是在conda环境下进行的安装，系统环境更新了但是conda环境下的gdal版本未更新，未验证这一假设，我deactivate了meta2的conda环境，果然如我所料，系统版本更新为2.2.2。但由于我R的配置都安装在conda环境，如何更新conda环境中的gdal版本呢？尝试了以下解决方案，在conda环境下，使用conda进行安装时，加上conda-forge。显示GDAL版本不对，必须得更新到2.0.1以上，于是尝试更新版本。但更新版本后，显示版本仍为1.9.2。

2023-11-30 16:32:02 962

原创 “rhdf5filters.so’ not found when install ‘glmGamPoi‘ package

安装lighdf5-dev，并将安装路径链接至usr/lib/文件。先安装rhdf5filters，然后安装rhdf5。之后安装glmGamPoi包成功！

2023-11-29 16:26:57 1415

原创 /usr/bin/ld cannot find lopencl的解决方案

使用make命令时发现报错： “ld cannot find lOpenCL" ，详细信息如下所示。的共享库文件，但是在默认情况下，它无法在共享库搜索路径中找到该文件。这些默认搜索路径包括。，那么该变量中列出的目录也将成为搜索路径。，那么它实际上是在寻找名为。来实现这一目的，或者编辑。或者，可以使用环境变量。找到之后便可以安装了。

2023-11-29 16:18:12 2031

原创如何用R语言优雅地玩转PubMed-RISmed包的使用

PubMed是最大的生命科学文献数据库之一，在开展课题使用关键词搜索时，会检索出大量文献。如何对这些文献进行筛选，出了巧妙使用关键词组合外，还可以使用R将相关文献信息一键提取，实现文献的快速浏览。RISmed是一个用于从PubMed数据库获取和分析医学文献数据的R包。它可以帮助你进行文献检索、下载文献摘要、获取作者信息等操作。这将检索包含关键词”diabetes”的文献记录。想要及时获取订阅消息请搜索公众号“单细胞学会”。这将提取文献摘要中的作者信息。

2023-10-20 09:13:06 1719 2

原创两台服务器间进行文件传输

两台服务器之间进行文件传输通常可以使用SCP（Secure Copy Protocol）或rsync命令。这两种方法都是在UNIX和Linux系统上常用的工具，用于安全地复制文件和目录。以下是使用这两种方法的示例：方法1：使用SCPSCP是一种在两台服务器之间安全地复制文件的方法。你可以使用scp命令来实现这一目标。以下是一个示例：# 从本地服务器复制文件到远程服务器这里的参数解释如下/path/to/local/file.txt 是本地服务器上的文件路径。

2023-09-20 14:47:43 5687

原创 SWAP分区介绍和扩展

swap 分区是将磁盘当作内存使用，使得虚拟地址空间的范围大小可以超出物理内存的实际大小，在物理内存空间不足时，可以将物理内存中的一些不重要数据拷贝到磁盘的 swap 分区中，从而让出内存空间，并且在需要那些已被拷出数据时再从 swap 分区中拷回到内存。也就是说物理内存和缓存区内存不够用的时候，才会用到SWAP。

2023-09-15 14:16:16 2700

原创阈值回归模型（Threshold Regression Model）及R实现

这里，e是阈值参数，x是具有阈值效应的预测变量，z表示额外的预测变量。该方法被多项研究使用，如一项探索维生素D补充后的临床和生物标志特征的研究中（Clinical and biomarker modifiers of vitamin D treatment response: the Multi-Ethnic Study of Atherosclerosis），使用阈值回归模型发现，在25（OH）D浓度为21 ng/mL（95%CI：13，31）时，其与PTH的变化有分段阈值效应。两者都有两个自由度；

2023-09-14 16:41:40 9098

原创用于人类复杂疾病成药性评估的R包：DREAM包

模块2用于评估所研究疾病的成药性以及疾病网络上药物的拓扑特性（例如疾病网络上被研究药物的作用区域及其药物靶标之间的距离），来研究药物间的协同作用。DREAM包提供多种功能，（i）鉴定疾病相关基因和推断共表达网络，（ii）识别候选药物靶点，（iii）药物MOA的推断和评估，（iv）评估药物 - 药物相似性，以及（v）确定候选药物以重新利用和联合治疗疾病等。药物组合预测鉴定了20种药物组成的2种组合，17种药物组成的3种组合和4种药物组成的4种组合治疗特应性皮炎。下期我们将继续分享DREAM包的R实现。

2023-09-14 16:38:45 282

转载 python机器学习库sklearn——交叉验证（K折、留一、留p、随机）

学习预测函数的参数，并在相同数据集上进行测试是一种错误的做法: 一个仅给出测试用例标签的模型将会获得极高的分数，但对于尚未出现过的数据它则无法预测出任何有用的信息。例如，如果数据是从不同的 subjects 获得的，每个 subject 有多个样本，并且如果模型足够灵活以高度人物指定的特征中学习，则可能无法推广到新的 subject。StratifiedShuffleSplit 是 ShuffleSplit 的一个变种，会返回直接的划分，比如：创建一个划分，但是划分中每个类的比例和完整数据集中的相同。

2023-07-21 08:56:15 1358

原创解决Rstudio server is taking longer than usual.

点任何一个键都无法解决，查询了一下原因是由于当使用RStudio Server处理占内存极大的数据后，长时间不清理内存，当再次打开rstudio，会自动恢复上次的数据，出现RStudio Server: R is taking longer to start than usual。首先我简单粗暴地选择了重装Rstudio server，适配Ubuntu16.04的Rstudio的具体安装方法见我之前的博客（二、~/.local/share/rstudio/sessions/），未能结局这个问题。

2023-07-07 11:21:05 2683

原创随机森林算法介绍及多分类预测的R实现

随机森林（Random Forest）是一种经典的机器学习算法，是数据科学家中最受欢迎和常用的算法之一，最早由Leo Breiman和Adele Cutler于2001年提出。它是基于集成学习（Ensemble Learning）的一种方法，通过组合多个决策树来进行预测和分类，在回归问题中则取平均值。其最重要的特点之一是能够处理包含连续变量和分类变量的数据集。在本文中，我们将详细了解随机森林的工作原理，介绍其在R中的实现及其优缺点。

2023-07-03 21:25:15 17742 9

转载使用bypy让Linux和百度云实现文件互传

作为一只科研生信狗，每晚卷完时，时常会担心自己的数据安全问题（虽然也没啥重要成果）。使用实验室的硬盘备份，还需要插-拔-查等步骤（摔坏了还得你赔）。这是如果能通过一行代码直接把自己的数据备份到云盘，是多么的舒适~ 作为一个常年给百度会员交保护费的娃，得使劲用下云盘，不然老觉得亏了点啥~~这里只需要先把第一个框内的链接复制到浏览器打开，然后你会看到如下授权码，复制到linux终端里，回车确认。

2023-06-29 09:58:10 2907

原创 Ubuntu 16.04安装RStudio server

该种情况通常是因为RStudio server更新版本不再适用于Ubuntu16.04，需下载安装旧版本的RStudio server.

2023-01-07 19:42:19 989

转载 GO/KEGG富集分析

GO全称是Gene Ontology，它分为：细胞组分（cellular component, CC）、分子功能（molecular function, MF）、生物过程（biological process, BP），那这三者有什么关系呢？，大概就是母鸡A被养在鸡笼里，它能够下鸡蛋，但是前提是我往笼子里再放一只公鸡后才能下蛋，在这个比喻里，鸡笼就是CC，下蛋这个动作是BP，而放进公鸡就是这个过程的催化作用，所以是MF。用科研专业术语来说，CC描述的像是位置，比如定位在细胞核；

2022-12-30 16:47:51 9341

转载 Pathview绘制KEGG通路图

Pathview包是最早在2013年发布的一个生信工具，该包的主要功能是基于基因通路的数据整合和可视化。用户只需要提供自定义的数据并指定目标通路，Pathview就可以自动下载相应的kegg路径图数据，解析数据文件，将用户数据映射和整合到通路上，并显示出通路图。，再提供了一个样本的基因数据和一个指定的KEGG通路的ID后，我们就得到了一副经典的KEGG通路图，并且通路图映射着该样本的基因表达量。该样本在该通路上基因的表达量映射在了相应基因处，此时展示的是基因的KEGG名称，而不是常规的Symbol。

2022-12-29 20:49:11 4426

转载 R语言Circos图可视化

R语言绘制circos heatmap

2022-10-08 14:05:55 3251

原创在Ubuntu 16.04中安装RStudio Server

/lib/x86_64-linux-gnu/libc.so.6: version `GLIBC_2.25' not found

2022-08-30 17:20:09 947

原创 R中绘制以特定数值为对称的colorbar

在绘制figure时，有连续性变量赋值时常常要用colorbar表示值的大小，如果有特殊的界值（如Pvalue1），需要将中间值单独设置个颜色作为区分。scales包中的scale_color_gradient2可以解决这个问题。

2022-08-09 14:51:44 1135

原创绘制confusion matrix的R实现

在评估分类器效果的时候，除了要呈现sensitivity，specificity，F1score等参数外，还需要图示confusion matrix的结果，以更直观地呈现结果。此为confusion matrix的表格，如何图示呢？先用caret包中的confusionMatrix函数构建matrix。1）自选函数。2）使用内置函数fourfoldplot。3)使用yardstick包......

2022-08-09 14:23:37 6959

转载与2000人2年读完5本R语言经典书籍

来源：公众号：TTfriends# 注意 #本文请按顺序阅读，不要跳读。以下内容为本活动门槛，如果读完或读到中间觉得陌生和无趣，请直接退出本文；如果感到亲切和好奇，请继续阅读活动介绍以及加入方式。最近朱永官院士出了一本新书《英语科技论文写作技巧与实例》，我第一时间入手，然后就忘记了此事，直到一天厉舒祯在快乐磕盐群里推荐此书，我才想起来自己买了。当时也是对自己叹了口气，看来老毛病改不了，以为买了等于看了。怀着这份愧疚，第二天书就到货了，正好最近写论文心里没底，干脆看完它，说

2022-04-25 11:10:28 817

原创 ggtreeExtra包的安装及出现的问题

包的安装BiocManager::install("ggtreeExtra")运行过程中可能出现以下报错a.BiocManager版本不匹配，是由于之前安装的BiocManager版本较老，需要更新到当前R版本下的版本。if (!requireNamespace("BiocManager", quietly = TRUE)) install.packages("BiocManager")BiocManager::install(version = "3.14")b.Unabl

2022-04-12 20:37:34 2457 1

转载 50万人数据库UK Biobank使用介绍

UK Biobank（英国生物样本数据库），简称为UKB，UKB生物数据库是由维康信托基金和英国政府(医学研究委员会、卫生部和苏格兰行政院)资助，并注册成为一家慈善公司。该生物数据库是一个试点项目，目的是将英国电子医疗记录中的数据与遗传数据联系起来，从而建立一个更全的英国国民健康保险制度（National Health Service）生物库。它是目前世界上已建成人类遗传队列生物样本库中规模最大的。其收集了来自英国各地，年龄在40岁至69岁之间，大约50万志愿者的疾病和生活方式信息及基因型数据。UK

2022-04-05 14:57:34 63865 9

原创 BKMR运行时报错

当拟合二分类BKMR时，可能会得到如下报错信息："Error in checkSymmetricPositiveDefinite(H, name = “H”) : H must be positive definite"或“Error in if (log(runif(1)) <= logalpha) { : missing value where TRUE/FALSE needed”一个通常有效的解决方案是在kmbayes函数中设置参数 "est.h = TRUE"。这样做会导致MC

2022-03-28 14:39:06 3248 12

转载粪菌移植构建人源化菌群小鼠的分析探讨

来源：公众号（无菌动物）利用无菌小鼠进行人源化菌群移植构建人源化菌群小鼠模型（HFA小鼠）是一种研究人类肠道菌群和人类健康或疾病关系的一个良好模型。然而现有的粪菌悬液制备、粪菌移植（FMT）及人源化菌群小鼠构建的实验方法并没有统一的标准，其中很多的实验方法存在着一些弊端，例如粪便样本的处理时间较长、粪菌悬液制备过程中空气的暴露等，这导致样本中微生物活性受损，在这种条件下HFA小鼠并不能很好的模拟人类菌群。因此在构建HFA小鼠模型时，应尽快完善从粪样供体筛选、收集、粪菌悬液制备到菌群移植的标准操作，实现这

2022-03-07 14:18:05 3806

转载 MDL4Microbiome：通过多模态深度学习提升宏基因组数据疾病预测的准确性

来源国家基因库大数据平台在过去的几十年里，先进的宏基因组测序技术使得对人类微生物组的研究能够发现细菌组成与功能、疾病之间的病理关系。然而相关分析工具在诊断和治疗方面的应用仍需提高其准确性。近日，《Scientific reports》发表了一个新工具：MDL4Microbiome，其通过使用宏基因组序列的各种特征和多模态深度学习模型，在预测疾病状态方面表现出很高的准确性。MDL4Microbiome是什么？MDL4Microbiome是一个深度学习模型，利用从微生物组测序...

2022-03-02 10:24:34 763

转载 Endnote —— Zotero数据库转换

从Endnote导出时，选择xml，并将原来的PDF文件夹和xml放在一起。 .xml文件记事本打开，替换internal-pdf://成/文件名.Data/PDF/ 导入Zotero并选择拷贝文件到Zotero储存文件夹随后删掉多余笔记

2022-01-19 14:36:33 1980

原创 Bayesian Model Averaging (BMA)的R实现

变量选择模型，贝叶斯模型平均法通过根据近似的后验模型概率对模型类中的最佳模型进行平均，说明了变量选择问题中固有的模型不确定性。它对指定的生物标志物与结果的所有可能组合进行模型估计，并通过其后验模型概率对模型进行加权，同时调整协变量以确定给定变量对结果的影响程度。它产生后置包容概率（Posterior Inclusion Probabilities，PIP值），这是衡量每个变量相对于BMA模型中其他变量对结果的影响。在R中有三个包可以实现BMA：BMA，BMS及BAS实例：set.seed(

2022-01-15 16:24:41 4977

转载 Ubuntu安装mwget

系统准备安装或更新组件：sudo apt install build-essentialsudo apt upgrade intltoolsudo apt install libssl-dev获取安装包(方案一，安装成功)wget http://jaist.dl.sourceforge.net/project/kmphpfm/mwget/0.1/mwget_0.1.0.orig.tar.bz2tar -xjvf mwget_0.1.0.orig.tar.bz2cd mwget_

2021-12-14 15:12:05 2470 2

原创 Linux修改文件列名

在服务器远程操作中，通常会有修改列名的情况，手动操作比较繁琐，可使用sed函数修改列名如想修改文件夹中的taxonomy.tsv文件夹列名并导出为biom-taxonomy.tsv文件，可使用以下函数sed '1{ s/Feature ID/#OTUID/; s/Taxon/taxonomy/;s/Confidence/confidence/}' exported/taxonomy.tsv > biom-taxonomy.tsv1为指定第一行文件名已修改完成refere..

2021-12-02 15:08:56 1930

原创 linux向文件追加行并求和

使用awk函数，-F用逗号分隔，"\t"换行awk -F "\t" '{sum += $[列数]};END {print sum}' filename >[输出文件]$后面为列数，>后面为输出文件名，“>”符号为输出文件，“>>”为追加例如，将table文件夹下的table.txt文件第2-5列求和并输出到sum文件awk -F "\t" '{sum += $2};END {print sum}' table/table.txt >sumawk -F

2021-12-02 14:47:41 1543

转载结构方程模型二-R实现

其实有些时候，我们将SEM想的过于复杂了，其实操作起来还是较容易上手的，不过建模过程中需要我们根据自己试验设计等自行建立一个因子间的关系模型，然后对这个模型进行反复调试，直至达到自己满意的结果为止，这就是SEM的难点，因为构建这个关系模型需要丰富的经验，但是有没有什么入门比较快的法门呢，当然是有的——借鉴前人的文献！！！一般建模前，我们会通过一些相关性分析、VIF、CCA/RDA等筛选一下用于建模的因子，去除不必要的因子，使得起始模型的建立更简单一些，也可以通过相关性结合研究实际初步评估一下直接作用和间接作

2021-11-17 23:44:48 5832 4

转载 ICC分析的R实现

intraclass correlation coefficient (ICC)中文叫做同类相关系数。为什么要做icc呢。比如在标注的过程中，我们要衡量这个人标注的怎么样，我们可以这样做：1.从总体样本中选择N个样本。每一个样本都由两个人标注，然后检查两个人标注的差别有多大。2.还是N个样本，一个人标注完了，第二天再让他标注一次，检查两次标注的差别有多大。上面1过程就是组间差异性，2就是组内差异性。icc可以用来衡量这种差异性。计算公式如下，比较复杂这个过程可以用R语言实现。工具包：irr

2021-11-16 16:03:32 5214 1

原创 NHANES数据库的介绍及使用（二）

前一篇介绍了NHANES数据库的加权及数据的下载NHANSE数据库的介绍及使用（一）_Christina-优快云博客，这一篇主要介绍数据库如何导入软件进行下一步计算合并。例一：以NHANSE数据库的文章为例（Brody DJ, Pratt LA, Hughes J. Prevalence of depression among adults aged 20 and over: United States, 2013-2016. NCHS Data Brief, no 303. Hyattsvill

2021-11-12 22:27:02 20857 46

原创 NHANES数据库的介绍及使用（一）

一、数据库概况NHANES（National Health and Nutrition Examination Survey）是一项旨在评估美国成人和儿童健康和营养状况的研究计划，计划始于20世纪60年代初期，是一项针对不同人群或健康主题的调查。1999年该调查成为一项持续计划，涉及各种健康和营养测量，项目每年调查一个全国代表性的样本，约5000人，这些人群位于全国各县，每年对其中15个县进行访问。NHANES访谈部分包括人口统计学、社会经济学、饮食和健康相关问题。体检部分包括生理测量、实验室检查等

2021-11-12 22:00:43 43791 14

原创 nonnegative matrix factorization (NMF）的R实现

非负矩阵分解（NMF）是一种最新的特征提取算法，与主成分分析（PCA）或独立成分分析（ICA）类似，非负矩阵分解（NMF）的目的是使用有限的基础成分来解释观察到的数据，这些成分组合在一起时尽可能准确地接近原始数据。换句话来说，NMF是一种降维方法。NMF的显著特点是，代表基础成分的矩阵以及混合系数矩阵都被限制为非负项，并且没有对基础成分施加正交性或独立性的限制。当有许多属性，并且这些属性是模糊的或具有较弱的可预测性时，NMF是有用的。通过组合属性，NMF可以产生有意义的模式、话题或主题。无标签的文档或

2021-11-12 21:04:02 2572

原创多分类RandomForest回归及ROC曲线绘制

require(multiROC)data(iris)head(iris)set.seed(123456)total_number <- nrow(iris)train_idx <- sample(total_number, round(total_number*0.6))train_df <- iris[train_idx, ]test_df <- iris[-train_idx, ]rf_res <- randomForest::randomFores.

2021-11-12 20:59:24 8471 3

test_lAUu6dG.csv

如何批量地将数据集中的分类变量设置成因子变量