
生物信息
文章平均质量分 65
土豆西红柿青椒
这个作者很懒,什么都没留下…
展开
-
mOTU 安装以及简单使用
motu安装和说明原创 2023-02-01 04:07:26 · 371 阅读 · 0 评论 -
ANCOMBC 安装以及使用
ancombc r 包安装报错记录及解决办法原创 2023-01-16 23:33:57 · 1604 阅读 · 0 评论 -
metaphlan3和strainphlan3运行记录
metaphlan3老版本安装+strainphlan3运行记录。原创 2023-01-11 23:03:08 · 1661 阅读 · 0 评论 -
根据列名提取指定列 shell awk
例子文件colname.txtenzyme sample1 sample2 sample3 sample4 sample51 2 2 3 4 52 2 4 6 8 83 4 7 8 9 104 5 2 5 9 0只想要提取sample1和sample5还有enzyme的数据从网上搜到的方法, 首先建立一个awk的脚本 ...原创 2021-04-08 20:56:04 · 4772 阅读 · 0 评论 -
graphlan/iTOL画进化树记录
最近遇到一个问题,需要将进化树展示出来,并对特定物种进行标记。我的数据是来自于人类的gut microbiome数据,分析流程是metaphlan3的分析流程,基于此输出,以及几天的调研,我下面总结了自己如何一步步画出进化树的以供参考。metaphlan3 输入文件我有一个来自于metaphlan3的输出文件,这里使用来自metaphlan3官网的例子文件wget https://github.com/biobakery/biobakery/raw/master/demos/bio...原创 2021-03-04 07:42:46 · 3802 阅读 · 0 评论 -
如何使用 PRROC 画 ROC 曲线
1. 什么是ROC 曲线?1.1 曲线的横纵轴sensitivity,recall,hit rate, ortrue positive rate(TPR)TPR = TP/P = TP/(TP + FN)fall-outorfalse positive rate(FPR)FPR = FP/N= FP/(FP + TN)1.2 ROC曲线:wiki在信号检测理论中,接收者操作特征曲线(receiver operating characteristic curve,...原创 2021-02-19 23:59:34 · 804 阅读 · 0 评论 -
统计学小知识-什么是qqplot
最近读文章遇到qqplot的问题,看了几个视频讲解,大致有了个了解首先我们需要了解什么是 quantile :从这个视频里有个大概了解:https://www.youtube.com/watch?v=IFKQLDmRK0Yquantile – median – it splits the data into equal sized groups. 50% quantile如果我们将数据分为4个大小相等的组,则25%的分位数表示25%的数据点小于它。Quantile 就是把样本区分成.原创 2020-11-18 19:05:36 · 6512 阅读 · 0 评论 -
R语言 去掉NA求均值
数据里面有很多NA,去掉NA再对每列求均值怎么求呢?这里用到的是dyplr包a <- data.frame(a = c(1,2,NA,3),b = c(1,3,4,5),d=c(NA,1,2,3))a %>% summarise(mean_mpg = mean(a, na.rm=T),mean_b = mean(b, na.rm = T), mean_d = mean(d, na.rm = T))> a a b d1 1 1 NA2 2 3...原创 2020-07-31 21:05:09 · 9478 阅读 · 0 评论 -
好用的网站来一波
同事推荐的看机器学习的帖子的网站https://towardsdatascience.com/ai-in-industry-how-a-maintenance-routine-ruined-my-machine-learning-model-9b45acc69f83caret cheatsheethttps://rstudio.com/resources/cheatsheets/搜索caret就能找到了好用的PPT网站slidsgo 里面的模板都是免费的非常好...原创 2020-07-31 17:26:45 · 699 阅读 · 0 评论 -
R包ggpubr 带error bar的柱状图怎么画
有个神奇的画图包 叫ggpubr也是我经常用来画barplot;boxplot的,可以自动计算统计量,非常简洁好用,而且默认图形也非常好看拿数据集合ToothGrowth作为例子数据 :# install packagesinstall.packages("ggpubr")# load library and datasetlibrary(ggpubr)data(ToothGrowth)先画一个最简单的barplotggbarplot(ToothGrowth,...原创 2020-07-07 17:49:41 · 5515 阅读 · 4 评论 -
deeparg 安装
真是一波三折,经过多次发邮件更新,这个软件的安装终于可以流畅的进行下去了需要注意的是软件用的2.7的版本,所以一个单独的python环境是需要的,可以用docker virtualenv conda这里是安装conda的环境Install using conda environmentCreate a virtual environment with conda: 新建conda环境conda create -n deeparg_env python=2.7.18source a..原创 2020-06-25 18:59:37 · 1596 阅读 · 5 评论 -
R语言如何对每一行求和
最近遇到的小问题,需要对每一行的特定列求和文件实例df <- data.table(sample = c("test1","test2","test3"), value1 = c(1,2,3),value2 = c(2,4,5),value3 = c(2,1,7), value4 = c(4,2,1), group = c("Disease","Healthy","Disease"))推荐一个集成R包 叫tidyverse里面集成了非常多有用的R包 非常便利...原创 2020-06-16 22:40:07 · 34629 阅读 · 0 评论 -
用awk求和某一列+bash循环+下载gg13数据库以及建立索引
做课题遇到的小问题,随手记录1. 下载greengenes13_5数据库 + 用bowtie2建立索引+ 统计长度greengene是有名的16S数据库,里面有多个版本,此次我使用的是13_5的版本https://greengenes.secondgenome.com/?prefix=downloads/greengenes_database/链接网址选择想要下载的版本,选择fasta.gz右击地址复制下载fasta序列 后面我需要比对 所以下载这个wget htt...原创 2020-06-10 17:54:59 · 411 阅读 · 0 评论 -
关于文章配色好用的网站和R包
有时候发现自己做的图很低级,今天请教同事才发现,我可以用这个方式来定义自己的图 https://cran.r-project.org/web/packages/ggsci/vignettes/ggsci.html对应不同的杂志,他都有对应的Function推荐这个网站列出了很多popular的图供参考:https://www.designwizard.com/blog/design-trends/colour-combination...原创 2020-06-05 01:46:36 · 214 阅读 · 0 评论 -
带有“/”的sed替换怎么做 - 随手记录系列
经常会遇到地址改变了 但是脚本其他地方都不变的情况这时候使用sed替换再方便不过了sed 's;/Volumes/documents/;/media/documents/;' test.sh > analysis_1.sh 这里是使用;作为定界符,非常方便!附上普通sed s的替换查找小例子在文件每一行前面插入固定的字符sed 's/^/hello/' test.sh全局替换某个字符串sed 's/hello/hi/g' test_1.sh替换每行的第二个..原创 2020-06-03 16:23:27 · 420 阅读 · 0 评论 -
画多边形图 R语言 polygon ggplot2
最近涉及到画多边形的diversity的图建立好的坐标系set.seed(1234)df <- data.frame(x = rnorm(20), y = rnorm(20), group = c(rep("Disease",12),rep("Healthy",8)))数据举例:# 计算凸点chull 以便于连线find_hull <- function(df) df[chull(df$x, df$y),]hulls <- ddply(df, "grou..原创 2020-05-31 06:15:32 · 5522 阅读 · 0 评论 -
ddply 分组求均值 r
方法一:建立一个矩阵dfx <- data.frame( group = c(rep('A', 8), rep('B', 15), rep('C', 6)), sex = sample(c("M", "F"), size = 29, replace = TRUE), age = runif(n = 29, min = 18, max = 54))利用plyr里的ddply可以分组求均值和sumddply(dfx, .(group, sex), sum...原创 2020-05-31 05:55:11 · 4091 阅读 · 0 评论 -
R语言 rscript 传参数
Rscript 传参数,非常简单的方法例子如下 :args = commandArgs(trailingOnly=TRUE)if (length(args)!=6) { stop("Rscript 1_compare_results.R file1 file2 outdir outname file3 file4")} else if (length(args)==6) {...原创 2020-04-28 18:46:23 · 3029 阅读 · 0 评论 -
快速统计multi-fasta的长度信息 ( 多种方法汇总)
做项目遇到一个问题需要统计fasta的长度信息Way1 :有一个特别简单的粗略统计的,在自己服务器上用了下,可以work~我的文件叫AT078.1M.fasamtools faidx AT078.1M.fa cut -f2 AT078.1M.fa.fai | Rscript -e 'data <- as.numeric (readLines ("stdin"))...原创 2020-04-25 17:30:29 · 626 阅读 · 0 评论 -
如何把 变量 i 写入到lm 循环里 R
偶然碰到的小问题,需要对一个数据里的每一列变量和其他变量做线性相关。但是通常情况下 在 r 里,直接写入lm(i~.,data=...)是不识别的。可以用下面的方法解决:col10 <- c("cyl","wt")data <- mtcars for(i in 1:length(col10)){ tempSubset <- data[,c("...原创 2020-04-21 17:43:55 · 789 阅读 · 0 评论 -
处理文件遇到的小问题 gunzip 软连接解压
想要通过软连接 soft link/symbolic link 解压报错too many levels of symbolic links通过看gunzip说明文档gunzip -c --keep 1.Tags.fasta.gz > test.fastq-c 标准输出到别的文件,--keep保留原文件就可以输出啦,生信小白的土路子。。另外查...原创 2020-04-16 19:09:51 · 1246 阅读 · 1 评论 -
write_xls 写入xls文件 R
非常好用的写入 xls 的功能,非常适合我这种生信小白。# install the packagesinstall.packages("writexl") 以 mtcars 为例子write_xlsx( mtcars, path = "testtesttest.xlsx", col_names = TRUE, format_headers = TRUE,)...原创 2020-04-16 05:32:20 · 2920 阅读 · 0 评论 -
比较两个文件相同点 和 不同点
比较两个文件相同点 和 不同点LWS2.idf.veen <- read.table("LWS2.idf.veen", header = F)LWS3.idf.veen <- read.table("LWS3.idf.veen", header = T)head(LWS3.idf.veen[LWS3.idf.veen$model %in% LWS2.idf.veen$mod...原创 2018-09-07 10:53:47 · 1137 阅读 · 0 评论 -
ggplot2 画折线图
画折线图脚本Gene_name<-c("GeneA","GeneB","GeneC")sampleA<-c(4,6,3,10)sampleB<-c(2,5,6,9)sampleC<-c(3,6,8,5)data<-data.frame(Gene_name,sampleA,sampleB,sampleC)install.packages("reshape2.原创 2018-09-07 10:47:48 · 5378 阅读 · 0 评论