- 博客(52)
- 收藏
- 关注

原创 R 数据处理技巧_3
1.R中查找某个向量中元素在另一个向量中的位置:原博客取了向量交集之后,想要找到子集在之前的向量中的位置,进行筛选使用match函数,match(x,y),返回x在y中的位置。
2021-01-05 09:47:56
219
1

原创 linux (中操作各种问题的解决办法)
1.对每个文件夹下的.fastq.gz文件检查md5## 不知道为什么突然不行了nohup find *fastq.gz -type f -print0 | xargs -0 md5sum > sjy.check.md5 &## 换一个吧:nohup find / -type f -print0 | xargs -0 md5sum > sjy.check.md5 &md5sum -c sjy.check.md5 > complete.log链接: m
2020-12-03 15:38:40
180
1
原创 RNA-seq数据的GATK找变异流程
由于运行BAMixChecker软件需要构建过variant的bam文件,直接用RNA-seq STAR输出的bam文件会报字眼为“GATK HaplotypeCaller…
2023-08-29 17:30:56
298
原创 Linux CentOS查看和修改PATH环境变量的方法
致敬大佬查看PATH:echo $PATH以添加mongodb server为列修改方法一:export PATH=/usr/local/mongodb/bin:$PATH//配置完后可以通过echo $PATH查看配置结果。生效方法:立即生效有效期限:临时改变,只能在当前的终端窗口中有效,当前窗口关闭后就会恢复原有的path配置用户局限:仅对当前用户修改方法二:通过修改.bashrc文件:vim ~/.bashrc 在最后一行添上:export PATH=/usr/local
2022-02-18 14:24:41
1042
原创 R venn图
常用library(RColorBrewer)color <- brewer.pal(3, "Set3")# Chartvenn.diagram( x = list(set1, set2, set3), category.names = c("Set 1" , "Set 2 " , "Set 3"), filename = 'venn2.png', output=TRUE, # 输出
2021-12-03 15:02:26
383
原创 TCGA (linux下载)
1.gdc-client方法下载,含软件安装和下载命令gdc-client download -m gdc_manifest_2021.txt -d ./## -m的意思是下载manifest,后面接着文件列表的txt文件名称,-d是下载的文件药储存的地方下载之后的文件,一个样本在一个文件夹下并且为gz格式2.批量解压缩子目录中的gz文件: find . -name '*.gz' |xargs gunzip {}3.整理合并所有样本的基因counts matrix## R中运行##
2021-11-17 18:46:36
572
原创 linux (在linux运行R遇到的问题)
1.运行R显示"biobase"未安装R语言安装并使用Biobase包:install.packages("BiocInstaller", repos="https://bioconductor.org/packages/3.6/bioc")BiocInstaller::biocLite("Biobase")2.运行"library(NMF)“报错,提示运行"install.extras(NMF)”直接运行"install.extras(NMF)"行不通,显示各种错误,例如Error in c
2021-11-03 21:43:34
1766
原创 R语言 NMF
R语言 NMF 如何自动判断最佳rank的数目NMF层次聚类(较简单,可follow)R语言实现非负矩阵分析(较详细,含原理)NMF包中包含不同的算法method,含对比代码
2021-10-25 11:04:02
1294
原创 limma包进行多组间差异表达
1.两组间阐述较清楚2.大致相似,多组间差异表达看这里3.生信技能树,含topTreat函数+韦恩图4.生信星球,差异表达分子分母弄错了但解释较清楚
2021-08-18 17:53:41
3305
1
原创 各种聚类原理总结
MCL,马尔可夫聚类如果你从一个点出发,到达其中的一个邻近点,那么你在簇内的可能性远大于离开当前簇而到达新簇的可能性——这就是MCL的核心思想。如果在一张图上进行多次的“Random Walks”,那么就有很大可能发现簇群,达到聚类的目的。而“Random Walks”的实现则是通过“Markov Chains”(马尔柯夫链)。...
2021-05-07 14:52:18
285
原创 ChIP-seq 原理及实践
包含RNA-seq/ChIP-seq/ATAC-seq/scRNA-seq等原理及实践这个可能更全面,之后仔细看吧简书:有数据可以跟着做
2021-04-19 10:57:21
616
原创 R k.means及其聚类评估
1.k.means原理及实践K-means介绍使用R完成Kmeans聚类(不依赖包)所需代码都有2.聚类稳定性评估
2021-03-30 10:50:42
322
原创 R语言 GO|KEGG
GO分析,参数写得详细clusterProfiler,含代码‘clusterProfiler: 分析+可视化GO和KEGG富集
2021-03-22 16:13:44
796
原创 R 求具有重复行标签的值的和(for循环)
致敬原文章library(plyr)#示例表a<-data.frame("A"=c("a","b","a"),"B"=c(1,1,3),"C"=c(2,3,4))#先求一列初始化alldata<-aggregate(C ~ A,data=a,sum)#重命名避免重复colnames(alldata)[2]<-"test"for (i in colnames(a)[2:length(colnames(a))]){ #计算每列的和 ter<-aggrega
2021-03-17 16:19:04
466
原创 R mutation signature
本文介绍如何利用deconstructSigs-R包进行mutation signature分析:deconstructSigs|探寻cosmic的独特“气质“mutation signature菜鸟写的比较详细:突变频谱探究mutation siganures | 生信菜鸟团至于突变模式为什么有96种?维基百科真的是百科...............
2021-02-24 21:20:42
807
1
原创 R read.table报错
> data2 <- read.table("./Phospho (STY)Sites.txt",header = T,sep = "\t")Warning messages:1: In scan(file = file, what = what, sep = sep, quote = quote, dec = dec, : EOF within quoted string2: In scan(file = file, what = what, sep = sep, quote =
2021-02-23 09:22:29
2176
原创 文章实践篇(病毒序列|系统发育树|芯片探针)
TCGA生信技能树66个教程1.手把手教你“破译”武汉新型冠状病毒(一天完成中文期刊《生物信息学》文章的工作)2.1 寻找 Nankai回文序列2.2 构建进化树2.3 寻找“可变翻译”2.构建系统发育树:只靠这个就能发PNAS?!我没看错?3.芯片探针序列的基因注释已经无需你自己亲自做了(重磅!价值一千元的R代码送给你)芯片探针序列的基因组注释...
2021-01-14 21:51:44
278
原创 文献拓展阅读
各类文献篇都是别人公众号总结的:生信菜鸟团的周六文献专栏生信菜鸟团-每周文献分享单细胞篇欧易生物:单细胞文章送你20篇单细胞数据挖掘文章56篇单细胞文献,带你快速了解单细胞领域最新动态...
2021-01-14 16:21:20
203
原创 贝叶斯通俗解释
在贝叶斯写这篇文章之前,人们已经能够计算“正向概率”,如“假设袋子里面有N个白球,M个黑球,你伸手进去摸一把,摸出黑球的概率是多大”。而一个自然而然的问题是反过来:“如果我们事先并不知道袋子里面黑白球的比例,而是闭着眼睛摸出一个(或好几个)球,观察这些取出来的球的颜色之后,那么我们可以就此对袋子里面的黑白球的比例作出什么样的推测”。这个问题,就是所谓的逆概问题。我们就需要提供一个猜测(hypothesis),我们需要做两件事情:算出各种不同猜测的可能性大小。2.算出最靠谱的猜测是什么。第一个就是计算特定
2021-01-11 15:55:59
331
原创 质谱简介
1.MS/MS简称LC-MS,是有机物分析市场中的高端仪器。液相色谱(LC)能够有效的将有机物待测样品中的有机物成分分离,而质谱(MS)能够对分开的有机物逐个的分析,得到有机物分子量,结构(在某些情况下)和浓度(定量分析)的信息。它的基本原理是蛋白质经过蛋白酶的酶切消化后成肽段混合物,液相色谱进行肽分离,在质谱仪中肽段混合物电离形成带电离子,质谱分析器的电场、磁场将具有特定质量与电荷比值(即质荷比,M/Z)的肽段离子分离开来,经过检测器收集分离的离子,确定每个离子的M/Z值。经过质量分析器可分析出每个
2020-12-29 10:10:17
3187
原创 机器学习+算法
我觉得这句话写的很清楚:“决策树算法主要是指决策树进行创建中进行树分裂(划分数据集)的时候选取最优特征的算法,他的主要目的就是要选取一个特征能够将分开的数据集尽量的规整,也就是尽可能的纯. 最大的原则就是: 将无序的数据变得更加有序”决策树(Decision Tree).....................
2020-12-28 18:59:14
110
1
原创 R 维恩图
1.venn.diagram首先我们有这样一个格式的文件,是将colname对应的四个文件merge之后(注意“all = T”),意思就是看“Accession”这一列对应蛋白在每个数据集的存在情况,不存在则为“NA”:tmp1 <- merge(LCC1_12F[,c(1,2)],LCC1_24F[,c(1,2)],by="Accession",all = T)tmp2 <- merge(LCC2_12F[,c(1,2)],LCC2_24F[,c(1,2)],by="Accession
2020-12-23 17:50:38
418
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人