
r
文章平均质量分 62
生信小博士
本人声明2024年之前的内容非本人原创,仅作为记录本人的学习过程的一个平台,当时声明原创是由于平台自动默认,刚使用这个平台不太清楚,现在很多文章找不到原文链接,批量修改过于复杂,如有内容不适合发表在本博客上,对您造成影响,请及时联系我删除该内容或在文章下方声明是您的原创,不甚感激。2024年的内容为本人原创如有兴趣,可关注了解。
展开
-
管理员配置Jupterhub
目标是在服务器上配置一个JupyterHub,支持多个用户登录使用。建议在Ubuntu 20.04以上哦以root权限配置全局的JupyterHub作为入口首先,我们安装python3和python然后,需要手动安装npm安装configurable-http-proxy最后配置jupyterhubhub是一个中心,具体需要调用jupterlab和notebook,因此建议安装测试下安装状态Jupyterhub的启动有两种1、基于命令行参数2、基于配置文件第一步,生成配置文件。原创 2023-12-01 20:08:53 · 1601 阅读 · 0 评论 -
02 从头开始atac项目 ubuntu20 install r4.2 Linux系统环境配置 服务器版本的rstudio r install in linux /ubuntu/centos
使用的是阿里云的ubuntu20系统,原创 2023-02-10 18:55:47 · 552 阅读 · 0 评论 -
gsea分析 全代码完整版本
【代码】gsea分析。原创 2022-10-28 22:58:43 · 4952 阅读 · 0 评论 -
热图ggplot pheatmap ggplot2画热图及个性化修饰
免疫浸润计算方法是CIBERSORT和ssgsea 画图_YoungLeelight的博客-优快云博客 ggplot画热图 合并细胞组合细胞 单细胞基因整体表达量 合并多个细胞整体表达量条形热图 合并热图_YoungLeelight的博客-优快云博客原创 2022-10-28 21:17:57 · 501 阅读 · 0 评论 -
GEO学习笔记1 去除批次效应 学习教程 非常好的练习
allDiff_pair原创 2022-10-13 23:26:41 · 2519 阅读 · 0 评论 -
自己给基因组注释 geo自建函数 id转换 探针转换 实现表达矩阵expr 与注释文件ids探针名称转换 留下平均表达值最大的那个探针对应的基因 注释包没有线粒体基因 没注释到线粒体基因
【代码】geo自建函数 id转换 探针转换 实现表达矩阵expr 与注释文件ids探针名称转换 留下平均表达值最大的那个探针对应的基因。原创 2022-10-03 17:42:11 · 887 阅读 · 0 评论 -
gp6244 <- getGEO(“GPL6244“, destdir=“.“) ##下载下来的注释 乱码 根据GPL号下载的是芯片设计的信息 芯片信息注释 自己处理geo下载的gpl芯片信息ids
*原创 2022-10-03 17:38:00 · 1152 阅读 · 0 评论 -
ggplot柱状图geo 柱状图 geo分组柱状图带显著性分组柱状图加显著性 duqiang GSE32537 ipf 加p值 自建函数
画出每个基因在不同分组下的表达 及其显著性。原创 2022-10-03 17:17:24 · 1120 阅读 · 0 评论 -
依协变量(time-dependent covariables) 兼谈分层Cox回归 依时变量
简单来说,时依协变量的意思就是,对一个人来说,在研究期间,该变量随着时间的改变而发生了变化,所以英文叫做time dependent,也就是说,依赖于时间变化而改变的变量。举个简单例子,性别gender,很明显不是时依协变量(除非有极其特殊的情况),然而gender*时间t,两个变量的乘积,这就是个时依协变量了。比如污染状态,这个如果城市的工厂关闭一段时间,大气状况变成了“优”,如果工厂恢复运作,大气状况变成了“污染”,这就随时间而发生了变化,而且是靠外部力量推动的变化。中,一切变得大为不同。原创 2022-10-09 23:29:18 · 2948 阅读 · 0 评论 -
生存分析 合并三个数据集的结果 自建函数id转换 geo duqiang
【代码】生存分析 合并三个数据集的结果 自建函数id转换 geo duqiang。原创 2022-10-09 23:28:10 · 529 阅读 · 0 评论 -
高级火山图 突出显示自定义的基因volcanic volcano plot duqiang 差异基因火山图
自己事先从总的差异基因筛选出来的,显示为红色或者绿色。原创 2022-09-30 17:27:10 · 920 阅读 · 0 评论 -
批量基因生存分析 简洁版本
【代码】批量基因生存分析 简洁版本。原创 2022-09-30 16:41:20 · 794 阅读 · 0 评论 -
批量生存分析画图 循环画图 必须用pdf 不可以使用jpeg
【代码】批量生存分析画图 循环画图 必须用pdf 不可以使用jpeg。原创 2022-09-30 16:19:24 · 286 阅读 · 0 评论 -
临床预测之logictic回归 1-2
多因素logistic回归 最终发现了四个因素 显著性影响是否发生肺动脉高压那么这种简单粗暴的 多因素逻辑回归有没有可能漏掉了一些 协变量呢,下面进入。原创 2022-09-28 23:16:12 · 8570 阅读 · 3 评论 -
生存分析原理简明教程 单因素生存分析 Kaplan-Meier、LogRank 只能针对单一的变量进行 多因素cox回归分析
这些具体事件可以是死亡,也可以是肿瘤转移、复发、病人出院、重新入院等任何可以明确识别的事件,而不同条件即为不同的分组依据,可以是年龄、性别、地域、某个基因表达量的高低、某个突变的携带与否等等。下图是钟南山院士在对欧洲呼吸学会针对 Covid-19 的报告中提到的研究结果,他们对湖北省内和省外的病人从开始症状到入院时间做了分析,从发生症状开始,入院则是我们刚才讲的 event 事件,而湖北省内外则是不同的分组条件。图中还提到,原创 2022-09-28 15:56:07 · 14494 阅读 · 2 评论 -
生存分析 存活分析 survival analysis 基因的 高低表达生存分析 按照基因表达量的高低做生存分析 批量基因批量生存分析 做生存分析,已经不需要正常样本的表达矩阵了,所以需要过滤
数据准备:1.phe 临床信息 dataframe格式。行名顺序要与表达矩阵样本顺序一致2.表达矩阵临床信息 meta信息给感兴趣的指标进行赋值。原创 2022-09-28 12:13:15 · 6373 阅读 · 0 评论 -
geo下载表达矩阵 多因素差异分析 deseq2 duqiang_1分析GEO数据库差异基因(GSE150910)将差异基因与泛素化酶取交集
#deseq2 素材准备 包括矩阵和meta信息。2.在geo官网把文件下载下来,然后读取。#表达矩阵样本顺序和meta信息是否一致。原创 2022-09-28 11:01:26 · 1349 阅读 · 0 评论 -
自建函数 输出提取固定位置的字符串 输出特定位置的字符串 正则表达 有竖线为分界线 | 中括号[] 提取某个元素 ()括号
自建函数,只要输入一个长的类似于"ENST00000641515.1|OR4F5-202|OR4F5|2618|protein_coding|"的字符串,#探索矩阵 发现一个基因对应多个探针。#就可以返回第一个 | 之前的名字。原创 2022-09-28 10:36:36 · 117 阅读 · 0 评论 -
NA 去掉删除多余的na 向量是否存在两个以及两个以上等于0的值 na NA 如何计算R中向量中大于某个值的元素数量 R如何按条件查找数据并删除符合条件的数据所在的行 判定一个向量是否包含0这个元素
【代码】向量是否存在两个以及两个以上等于0的值 na NA 如何计算R中向量中大于某个值的元素数量 R如何按条件查找数据并删除符合条件的数据所在的行 判定一个向量是否包含0这个元素。原创 2022-09-28 10:07:20 · 244 阅读 · 0 评论 -
GEO表达芯片平台 — GPL14951,注释文件探索过程 geo注释文件 比对 数据比对 对比 探针基因名转换 gpl
的确这个平台无法找到!原创 2022-09-28 08:47:20 · 5148 阅读 · 6 评论 -
The S4 object system s3 http://adv-r.had.co.nz/S4.html
【代码】http://adv-r.had.co.nz/S4.html原创 2022-09-28 08:32:30 · 389 阅读 · 0 评论 -
S4 classes and methods s3类 s4类 s3对象 s4对象
【代码】S4 classes and methods s3类 s4类 s3对象 s4对象。原创 2022-09-28 08:27:15 · 252 阅读 · 0 评论 -
SuperSeries 超gse号geo下载并处理表达矩阵duqiang同一个gse数据集里存在不同的测序平台产生的数据 生信技能树——GEO芯片数据的合并 如何去除批次效应 rnaseq去除批次效应
*原创 2022-09-27 10:55:54 · 1520 阅读 · 0 评论 -
duqiang_1分析GEO数据库差异基因(GSE150910),将差异基因与泛素化酶相关基因取交集。 这个差异分析ipf chp control
但是当我使用以下代码读取时候,发现不太对 读取出来的格式好像有问题 注意:观察到逗号,是不是csv的分隔符为逗号呢?3但是下载文章阅读之后 发现差异分析deseg2的时候 是需要meta信息 消除批次 年龄 实验方法这些因素影响的。莫非是因为显示的问题?在r中8-10行没有数据 所以sublime或者excel查看时候,直接跳过了NA行。我知道作者为什么行名这么长了 因为 有很多类型的基因都检测到了:假基因 非编码基因 编码基因。但是我使用sublime可以看到 啊 你看 6-8行都是有数据的。原创 2022-09-26 11:38:07 · 1397 阅读 · 0 评论 -
r 提取元素函数 R语言中利用sapply函数提取列表中元素 提取满足某种要求的字符 提取固定符号出现时的字符串 切割字符串 双斜杠 双斜线 正则表达 切割之后并提取出现相应符号时的内容元素
【代码】r 提取元素函数 R语言中利用sapply函数提取列表中元素 提取满足某种要求的字符 提取固定符号出现时的字符串。原创 2022-09-26 11:17:04 · 1129 阅读 · 0 评论 -
R 语言中的特殊函数 - 左中括号 “[“ r 开放括号 函数
函数 https://blog.youkuaiyun.com/nixiang_888/article/details/124058558。就是分别取两个list里的第二个数,结果为。"["在R里作为一个函数使用,举。原创 2022-09-26 11:03:36 · 301 阅读 · 0 评论 -
Google Drive中下载文件的13种方法 下载不了 不能下载 报错multicloud dropbox
我们将重要的文件上传到Google云端服务器保存,最主要的原因就是能够在需要这份文件时可以轻松地从Google云端服务器将其下载下来。但是据不少Google用户反馈说,在使用Google Drive文件时,无法将文件下载下来,这是怎么回事呢?如果您也同样遇到这样的问题,那么请您阅读这篇文章,查看我们在本篇文中提供的13种解决Google Drive下载不了文件的方法。Google云盘。原创 2022-09-26 15:19:23 · 8409 阅读 · 0 评论 -
一个基因对应多个探针 多个探针对应同一个基因到底该如何取舍
前些天我发现了乳腺癌领域的PAM50算法原理探索,在:PAM50的概念及分子分型算法原理 ,其实并不难,然后我注意到他们在挑选50个基因的时候,提到了多个探针对应同一个基因到底该如何取舍。,这个概念主要是在boxplot图表里面显示出来。当然了,不同芯片平台也是有一些细微的差别。原创 2022-09-25 11:59:25 · 3063 阅读 · 0 评论 -
lapply与自定义函数 apply sapply 字符串变成list list变成vector 向量 调用开方括号函数“[”和参数1来获取每个基因的第一个 id r匹配双反斜杠 双斜杠匹配正则。
在使用apply函数应用自己写的函数提高运算速度的时候,我遇到了问题(其实还是自己apply函数运用的不够熟练)。使用apply处理一个数据框,我想对每一行进行处理,每一行上使用自己编写的函数进行计算。具体的代码不需要看,它的意思就是我输入一个向量或数组x,还有后面两个参数vars_event和str1,最后会得出一个数值结果。原创 2022-09-25 11:52:30 · 660 阅读 · 0 评论 -
r如何让新增加的列出现在第一列 r如何调整新增加的列的位置
在同一个 mutate() 中可以同时创建或计算多个列,它们是从前往后依次计算,所以可以使用前面新创建的列。注意,不能用sum(), 它会将整个列的内容都加起来,类似的还有 mean().用数据框的列计算新列,若修改当前列,只需要赋值给原列名。原创 2022-09-25 09:51:29 · 7651 阅读 · 0 评论 -
RNA-seq workflow: gene-level differential expression rna-seq pipeline 从原始数据到差异分析一条龙
Abstract。原创 2022-09-24 23:41:32 · 357 阅读 · 0 评论 -
多因素deseq2 formula 怎么理解 如何设置design 哈佛大学——差异表达分析(七)设计公式(Design formulas)多因素差异分析 多个影响因子会影响差异分析结果 多因子
然后,它将估计基因方面的分散(gene-wise dispersions),并缩小这些估计,以产生更准确的离散估计,以建立计数模型。注意:DESeq2中有一些单独的功能,可以让我们以一种循序渐进的方式执行工作流中的每一步,而不是单个调用。在执行差异表达分析之前,通过在QC期间的探索和/或之前的知识,了解数据中存在的变异来源是一个好主意。一旦知道了变异的主要来源,就可以在分析前删除它们,或通过在你统计模型的设计公式中包含他们来控制。然后,要运行实际的差异表达分析,我们使用对函数DESeq()的单个调用。原创 2022-09-24 23:28:18 · 2222 阅读 · 0 评论 -
英文英语写信给老外要原始数据 通讯作者原始数据 问通讯作者要数据
没给我回信的两个实验室:其中一个实验室,那个质粒也是他们根据别人赠与的质粒改造的,所以估计不是自己的版权自己不敢乱给嘿嘿。而另一个实验室就是那个赠与他们质粒的实验室,但是也没有给我回信,我查了一下,觉得可能是据他们构建那个质粒的时间太久了,好几十年了所以,我觉得大家尽量找原版的质粒索要,就是最初构建质粒的实验室,可能会更容易获得一些。这下我踏实了,等吧……原创 2022-09-24 15:04:16 · 4534 阅读 · 0 评论 -
随机森林 原理介绍 实战https://zhuanlan.zhihu.com/p/161389525
简单的说,随机森林就是用随机的方式建立一个森林,森林里面有很多的决策树,并且每棵树之间是没有关联的。得到一个森林后,当有一个新的样本输入,森林中的每一棵决策树会分别进行一下判断,进行类别归类(针对分类算法),最后比较一下被判定哪一类最多,就预测该样本为哪一类。在整个森林的生长过程中m将保持恒定;对于有不同级别的属性的数据,级别划分较多的属性会对随机森林产生更大的影响,所以随机森林在这种数据上产出的属性权值是不可信的。包含一个好方法可以估计遗失的资料,并且,如果有很大一部分的资料遗失,仍可以维持准确度;原创 2022-09-20 09:48:58 · 1205 阅读 · 0 评论 -
差异表达分析结果与生存分析结果不一致
请问老师,分析某癌症TCGA数据后得到多个差异表达miRNA,但遇到个问题,某些miRNA在癌症组织中表达上调,提示为促癌基因,但做生存分析却发现高表达患者生存期却延长;同样,癌症组织中表达降低的miRNA,提示为抑癌基因,但做生存分析时却出现高表达生存期反而缩短的想象。3、这个基因的高表达与癌症的发生有关,低表达与癌症的发展有关,这说明这个基因并不是单独起作用的,有可能是被动调控的。2、在在癌症发生早期表达发生了变化,而在癌症发展过程中变化并不明显。1、他在差异和预后的结果中有一个结果可能是假阳性的。原创 2022-09-20 08:58:22 · 1249 阅读 · 0 评论 -
TGCA数据的标准化以及差异分析
【代码】TGCA数据的标准化以及差异分析。原创 2022-09-19 20:49:07 · 1601 阅读 · 0 评论 -
找出TCGA中的配对样本并正确展示数据
【代码】找出TCGA中的配对样本并正确展示数据。原创 2022-09-19 20:40:56 · 1999 阅读 · 0 评论 -
单基因批量相关性分析 TCGA基因相关性分析 单基因批量相关性分析的妙用
该数据,列名就是基因名,行名就是样本名。为了缩短数据处理时间,我们在此只取前。首先,做这个相关性分析,在这里需要安装几个R包。自己构建数据 artificial data。作为后续的实验分析。原创 2022-09-19 20:12:49 · 1869 阅读 · 0 评论 -
R语言实战 input+结果——ROC曲线的绘制 auc 时量下曲线面积
第一步当然得处理一下数据。原创 2022-09-19 16:33:11 · 3573 阅读 · 0 评论 -
ggplot 更改坐标顺序 R语言绘图 | 调整ggplot2坐标轴标签排列顺序
【代码】ggplot 更改坐标顺序 R语言绘图 | 调整ggplot2坐标轴标签排列顺序。原创 2022-09-06 17:48:13 · 3695 阅读 · 0 评论