数据处理读书笔记
文章平均质量分 72
穆易青
用大模型思维颠覆传统学习生信路径
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
2025.07.18【横向评测L1】国产AI模型Kimi-K2:生物信息代码写作新星?
本文测评了国产AI模型kimi-K2在生物信息分析中的表现,重点测试了R语言火山图绘制和Shell脚本编写能力。在火山图绘制测试中,kimi-K2生成的R脚本存在四处问题:缺少示例数据、包依赖错误、图例表达不清、颜色区分不足,增加了初学者使用难度。与Gemini和GPT-4o相比,kimi-K2在代码完整性上有待改进,但标记top20基因的设计优于Gemini的全标记方案。整体来看,kimi-K2虽具备超长上下文处理等优势,但在生物信息代码生成细节上仍需优化。原创 2025-07-18 17:04:01 · 1049 阅读 · 0 评论 -
2025.07.04【服务器】|使用万兆网卡提升服务器间互联速度,实现快速数据传输
万兆网卡(10GbE, 10 Gigabit Ethernet)是目前广泛应用于高性能计算、数据中心、存储系统等场景中的高速网络接口。相比于传统的千兆网卡(1GbE),万兆网卡提供了10倍以上的带宽,能够大大提高数据传输速度。万兆网卡的应用不仅限于高速数据传输,它还可以有效减少网络延迟,提升大规模并发数据流的处理能力。无论是文件传输、虚拟化应用还是高性能计算,万兆网卡都能显著改善网络性能。原创 2025-07-04 11:26:25 · 1184 阅读 · 0 评论 -
2025.06.24【R语言】|clusterProfiler:R语言功能富集工具安装与使用说明
clusterProfiler 是R/Bioconductor生态中最流行的功能富集分析包之一,由于其强大的兼容性、丰富的可视化和灵活的接口,广泛应用于转录组、蛋白组、表观组等多组学数据的生物学意义挖掘。原创 2025-06-24 10:54:03 · 1620 阅读 · 0 评论 -
2025.06.16【Ribo-seq】|sORF翻译能力预测:ORFscore计算与解读
ORFscore是评估开放阅读框(ORF)翻译活性的关键指标,通过分析Ribo-seq数据中核糖体足迹的分布特征来量化翻译活性。本文系统介绍了ORFscore的计算原理和实际应用。ORFscore计算基于三碱基周期性和读段分布特征,公式为标准化读段分布的方差值。分析流程包括数据准备、ORF信息提取、ORFscore计算及结果解读,并提供质量控制方法。ORFscore结果可用于新ORF发现和翻译效率分析,但需注意数据质量控制和多维度验证。典型阈值设定为:ORFscore>0.5表示高可信度翻译ORF,&原创 2025-06-16 10:52:54 · 1066 阅读 · 0 评论 -
2025.06.16【转录组】|Ribo-seq数据流程详解(二 基因组比对)
本文详细介绍了Ribo-seq数据分析中的比对流程,包括环境准备、STAR索引构建、比对参数设置及结果统计可视化。通过samtools和R脚本实现比对质量评估,提供常见问题解决方案和关键指标解读。该流程强调比对参数优化和质量控制,为后续翻译组学分析奠定基础。原创 2025-06-16 10:38:09 · 1204 阅读 · 0 评论 -
2025.06.12【3D曲线图】|用Python绘制DNA甲基化3D曲线图(以CpG位点为例)
本文介绍了利用Python matplotlib库绘制3D曲线图可视化DNA甲基化数据的方法。文章以CpG位点甲基化数据为例,展示了从数据准备到3D图形生成的完整流程,包含代码实现和结果解读。通过X轴(CpG位点)、Y轴(组织类型)和Z轴(甲基化百分比)的三维展示,能够直观比较不同组织或疾病状态下的甲基化模式差异。这种可视化方法有助于发现甲基化水平的区域性变化和分组特征,为生物医学研究提供重要线索。最后还提供了图形保存和参数调整的建议,便于读者根据实际需求应用。原创 2025-06-12 16:04:57 · 651 阅读 · 0 评论 -
2025.06.11【Ribo-seq】|用CPAT预测sORF序列的编码潜能
摘要:本文介绍了使用CPAT工具预测sORF编码潜能的方法。sORF(small Open Reading Frame)在基因组中广泛存在且具有重要功能。文章详细讲解了CPAT安装、物种模型下载、sORF核酸序列准备(需拼接后的ORF序列)等步骤,并提供了Python示例脚本。运行CPAT后需重点关注"Coding_prob"值(人类阈值推荐0.364)。作者强调必须使用拼接后的ORF序列而非基因组区间,并解答了常见问题。最后建议结合多种工具和生物学证据综合判断结果。(148字)原创 2025-06-11 17:28:57 · 1151 阅读 · 0 评论 -
2025.06.11【Ribo-seq】|根据注释文件获取外显子及ORF序列
摘要:本文介绍从RiboCode生成的GTF文件中提取ORF外显子序列的流程。主要步骤包括:1) 使用Python脚本将GTF文件中exon条目转换为BED格式;2) 通过bedtools工具提取外显子FASTA序列;3) 根据orf_id拼接外显子获得完整ORF序列。关键点涉及GTF(1-based)到BED(0-based)的坐标转换,以及链特异性(-s)和序列命名(-name)参数设置。该流程最终输出包含ORF标识和基因组位置信息的FASTA序列,为后续ORF分析提供基础数据。(149字)原创 2025-06-11 17:26:46 · 342 阅读 · 0 评论 -
2025.03.22【读书笔记】| fastq-multx:高效barcode拆分数据解决工具
在生物信息学的世界里,工具的选择至关重要。它们就像是我们探索基因奥秘时的瑞士军刀,每个工具都有其独特的功能和用途。今天,我们要介绍的这个工具,不仅仅是一个简单的程序,而是一把能够解锁生物数据深层含义的钥匙。它能够让我们从海量的数据中提取出有价值的信息,帮助我们理解生物过程的基本机制和相互关系。这个工具,就是,一个用于高效barcode去复用和demultiplex的解决方案。是一个专门设计用于处理高通量测序数据中的barcode去复用问题的工具。原创 2025-03-22 16:21:00 · 1249 阅读 · 0 评论 -
2025.03.16【读书笔记】|生信专用Python异步编程指南
异步编程是一种编程范式,它允许程序在等待外部事件(如I/O操作)时继续执行其他任务,从而提高程序的效率和响应速度。在Python中,异步编程通常通过asyncio库来实现。原创 2025-03-16 00:38:28 · 827 阅读 · 0 评论 -
2025.03.14【读书笔记】| Stacks快速安装及拆分命令介绍
在生物信息学领域,Stacks工具以其高效处理RAD-seq数据的能力而备受推崇。Stacks是一种集数据预处理、变异检测和群体遗传分析于一体的软件,特别适合于大规模的遗传变异研究。Stacks是一个用于处理和分析RAD-seq(限制位点相关DNA标记)数据的软件包。它可以帮助用户识别和分析单核苷酸多态性(SNPs)。Stacks工具以其强大的功能和易用性,成为RAD-seq数据分析的首选工具。原创 2025-03-14 15:47:01 · 1012 阅读 · 0 评论 -
2024.12.29 【RNA-seq】Rawdata数据缺失问题与解决方案
Fastq格式是一种用于存储高通量测序数据的文件格式,包含序列和相应的质量信息。第一行以开头,后接序列标识符;第二行是测序的DNA序列;第三行以开头,可能会跟随序列标识符;第四行是对应的质量值,以ASCII字符表示。Rawdata的数据完整性通常情况下是没有问题的,但我们仍然需要对下机数据进行验证,确保后续分析的正常进行,好的分析习惯可以提高整体的分析效率,避免很多不必要的麻烦。原创 2024-12-29 16:06:38 · 599 阅读 · 0 评论 -
2024.12.11【读书笔记】MLST多序列分型分析使用方法
它通过分析多个不同基因座位上的序列变异,为每个样本分配一个独特的序列型(Sequence Type, ST),从而实现菌株的精确分类和追踪。选择合适的MLST方案对于目标菌种的分析至关重要,我们可以通过PubMLST数据库查询目标菌种的基因座信息,以确定合适的MLST方案。📚 我承诺,将持续为您带来深度与广度兼具的生物信息学内容,让我们一起在知识的海洋中遨游,发现更多未知的奇迹。工具的输出结果,我们可以解读得到的等位基因和序列型(ST),从而确定样本的MLST型别。是目标菌种的MLST方案名称,原创 2024-12-11 11:40:30 · 1994 阅读 · 0 评论 -
2024.12.03【读书笔记】|BBmap比对工具使用方法
BBmap是生物信息学领域中一个强大的序列比对工具,尤其在处理DNA和RNA序列数据方面表现出色。BBmap是一个功能强大、灵活且高效的序列比对工具,特别适合处理大规模的DNA和RNA序列数据。随着生物信息学领域的不断发展,BBmap和其他相关工具,如bbduk、bbsplit等,将继续在基因组学研究中发挥重要作用。📚 我承诺,将持续为您带来深度与广度兼具的生物信息学内容,让我们一起在知识的海洋中遨游,发现更多未知的奇迹。原创 2024-12-03 16:16:27 · 1608 阅读 · 0 评论 -
2024.12.03【读书笔记】|BBmap修复损坏fastq数据详细步骤
准备你的数据时,请确保输入文件是FASTQ格式,无论是单端还是双端测序数据,并明确文件的存储路径。脚本在修复损坏的FASTQ数据方面具有明显优势,本教程总结了其使用方法,并鼓励读者尝试使用BBmap来修复自己的FASTQ数据。同时,也可以讨论其他修复FASTQ文件的工具,并比较它们的优缺点。📚 我承诺,将持续为您带来深度与广度兼具的生物信息学内容,让我们一起在知识的海洋中遨游,发现更多未知的奇迹。原创 2024-12-03 15:50:17 · 1143 阅读 · 0 评论 -
2022.04.21【日常维护】|服务器存储清理浅谈
文章目录摘要基本命令结尾摘要随着业务拓展,项目越来越多,并且多人使用服务器,需要时刻注意清理存储,一不小心就容易满。今天整理几个命令,说一下我日常清理存储的方法。基本命令第一个就是df命令,这个命令常用来查看磁盘存储情况:(base) [yangxin@genomic2 ~]$ df --help用法:df [选项]... [文件]...Show information about the file system on which each FILE resides,or all file原创 2022-04-21 11:43:56 · 653 阅读 · 0 评论 -
2021.12.21【读书笔记】| 在Liunx中替换windows格式文本回车符
文章目录摘要问题描述解决方法vim界面中命令替换文本编辑器Notepad++中进行格式转换Word中另存为Unix格式总结摘要在分析常规项目的时候,一般我们会在NCBI或者UCSC上下载参考基因组还有对应的注释文件。但有时遇到的客户是自己组装的序列,而他们提供的参考基因组和注释文件都是自己组装或者用注释工具生成的,在格式上和标准数据库里的结果有些细微差别。这些格式问题对于刚入门的小白而言,在不知道的情况下分析起来会时常受阻。问题描述这次我们就遇到一个fa后缀的参考基因组,但是换行符是windows格原创 2021-12-21 16:16:32 · 817 阅读 · 0 评论 -
2021.12.13【读书笔记】|对链特异性建库的理解
刚接触高通量测序的时候就知道有链特异性建库这么个概念,当时也了解可以利用加U法,但是没有思考其中的细节。最近把这个概念掰开了揉碎了好好理解,终于填上了这个坑。正式讲之前,有几个概念是要明确的。DNA 的正链和负链,就是那两条反向互补的链。参考基因组给出的那个链就是所谓的正链(forword),另一条链是反链(reverse)。但是这正反一定不能和正义链(sense strand)反义链(antisense strand)混淆。正义链(sense strand):两条互补的DNA链其中一条携带编码转载 2021-12-13 14:36:58 · 3334 阅读 · 1 评论 -
2021-09-09【linux】丨shell使用for循环遍历文件/数组
目录摘要for循环遍历文件使用方法方法一方法二总结摘要在日常生信分析过程中,分析员或多或少会使用for循环批量处理样品或者分组。这里我简单整理一下自己常用的两种遍历方法。for循环遍历文件使用方法方法一对于在同一个文件内的所有样品,使用 ls 可以遍历该文件夹内的所有文件名。for i in ls ./;doecho ${i}done可能有时候还有一些脚本文件在里面, 我们可以使用 正则表达式 *来表示文件内的样品名for i in *_R1.fastq.gz;doi={i%_R原创 2021-09-09 14:18:00 · 9041 阅读 · 2 评论 -
2021.08.06【微生物】丨提取excel字符串制作metadata表格
目录摘要数据准备提取字符串结果展示总结摘要最近开始接手16S项目,遇到一个原始问题,就是制作样本的统计文档和metadata文件。微生物动辄几十上百个样品,一个一个整理是不现实的。目前在手动制作metadata文件时用到几个excel的参数,在此记录一下。数据准备上图展示了部分样品信息,这两列分别是样品名和细分分类标签,其中细分分类标签又有三个含义。BBH19 = BB(样品位置)+ H (个体状态,这里是健康) + 19 (采集年份)。客户提出要求,除了进行细分分类分析,还要按照样品位置和个体状原创 2021-08-06 10:43:59 · 745 阅读 · 0 评论 -
2021.07.30丨snakemake常见问题汇总(上)
目录摘要问题汇总1. MissingInputException: Missing input files for rule XXX:2. SyntaxError in line 28 of /path/to/snakefile: invalid syntax3. SyntaxError in line 25 of /path/to/snakefile: Expected name or colon after rule or checkpoint keyword.4. RuleException in l原创 2021-07-30 16:15:32 · 6255 阅读 · 6 评论 -
2021.05.11丨COG分析柱状图绘制
目录摘要环境与方法文档准备分类简称及描述比对结果使用代码结果展示总结摘要在RNA-seq项目中,需要将差异基因比对到各个数据库当中,生成相应的注释结果和图像,便于深度挖掘信息。COG(Cluster of Orthologous Groups ofproteins 同源蛋白簇)数据库可以帮助了解蛋白功能甚至进化关系(细/真菌)。此次记录一下COG分类图的绘制方法环境与方法R version 3.6.1 (2019-07-05)文档准备分类简称及描述 # Code Name原创 2021-05-11 16:48:30 · 5449 阅读 · 0 评论 -
2021.05.07丨linux sort 命令详解
sort是在Linux里非常常用的一个命令,管排序的,集中精力,五分钟搞定sort,现在开始!1 sort的工作原理sort将文件的每一行作为一个单位,相互比较,比较原则是从首字符向后,依次按ASCII码值进行比较,最后将他们按升序输出。[rocrocket@rocrocket programming]$ cat seq.txtbananaapplepearorange[rocrocket@rocrocket programming]$ sort seq.txtappleba.转载 2021-05-07 15:06:03 · 199 阅读 · 0 评论 -
2021.05.05【数据分析心得】丨如何将基因名称转化为基因ID
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言 一、pandas是什 二、使用步骤 1.引入库 2.读入数据 总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考一、pandas是测示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任..原创 2021-05-06 10:14:08 · 3221 阅读 · 0 评论 -
2021.04.28丨VIM/VI跳转行常用操作
vim/vi操作1.跳到文本的最后一行:按“G”,即“shift+g”2.跳到最后一行的最后一个字符 : 先重复1的操作即按“G”,之后按“$”键,即“shift+4”。3.跳到第一行的第一个字符:先按两次“g”,4.跳转到当前行的第一个字符:在当前行按“0”。5.vi加密。进入vi,输入”:” + “X” 之后就提示你输入两次密码。之后:wq 保存退出。再次进入时就提示你输入密码了。如果你不想要密码了,就:X 提示你输入密码时连续按两次回车,就搞定了。...转载 2021-04-28 14:59:14 · 517 阅读 · 0 评论 -
2021.04.27【R语言】丨箱线图无法显示解决办法
摘要 箱线图主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比 较。箱线图的绘制方法是:先找出一组数据的上边缘、下边缘、中位数和两个四分位数;然后, 连接两个四分位数画出箱体;再将上边缘和下边缘与箱体相连接,中位数在箱体中间。然而,我们在绘制过程中,会出现不显示的情况(如下图),本篇文章则是解决箱线图无法显示的问题。 图一 环境与方法 R version 3.6.1 (2019-07-05) 产生原因 箱线图绘制原始代码 library(ballgown)librar原创 2021-04-27 10:28:58 · 6115 阅读 · 4 评论 -
2021.04.23丨批量提取子目录文件
这是木青的第96篇原创文章,本篇240字,阅读大约需要1分钟文章目录摘要环境与方法使用代码总结摘要做项目偶尔会收到一些上游测序企业,把每个样品单独放在一个文件夹内,样品少还可以手动搬运,样品数量大就比较麻烦了。照单全收又不方便我们批量分析。因此需要批量提取处理。这里写了一个小脚本,分享给大家,方便提取。环境与方法GNU bash, 版本 4.2.46(2)-release (x86_64-redhat-linux-gnu)使用代码 for i in AG0...原创 2021-04-23 10:20:10 · 265 阅读 · 0 评论 -
2021.04.21丨awk使用手册&常用命令
awk是行处理器: 相比较屏幕处理的优点,在处理庞大文件时不会出现内存溢出或是处理缓慢的问题,通常用来格式化文本信息awk处理过程:依次对每一行进行处理,然后输出awk命令形式:awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file[-F|-f|-v] 大参数,-F指定分隔符,-f调用脚本,-v定义变量 var=value' ' 引用代码块BEGIN 初始化代码块,在对每一行进行处理之前,初...转载 2021-04-21 14:07:35 · 477 阅读 · 0 评论 -
2021.04.13丨sRNAnalyzer报错fastx_collapser: Invalid input: This looks like a multi-line FASTA file解决办法
摘要 接到一个外泌体的miRNA分析,正常来说,本来可以直接使用sRNAnalyzer进行比对和定量(见文章https://share.mubu.com/doc/5KSIFg9R9u),但是在cutadapt去接口之后,执行fastx_collapser命令就发生了报错:fastx_collapser: Invalid input: This looks like a multi-line FASTA file。研究了2天终于找到了问题所在,特此记录一下。 软件配置 Python 3.8 sR原创 2021-04-13 15:32:22 · 571 阅读 · 0 评论 -
2021.04.12丨对测序样品统一命名
摘要 在公司已经待了几个月,项目也有条不紊地推进。RNA-seq流程是早就搭建好了的,奈何拿到的测序样品数据名称和后缀经常会有一些变化,比如R1.fq.gz, R1_001.fq.gz, R1_001.fastq.gz等等。导致每次都要到流程里面改一下后缀。为了尽早实现标准化,周末闲来无事,把这个统一命名的问题解决了一下 环境配置 python:3.8.5 使用代码#encoding=utf-8import ospath = "./"filelist = os.listdir...原创 2021-04-12 10:16:44 · 716 阅读 · 0 评论 -
2021.04.09丨使用featurecount进行定量处理
摘要 接到一个个性化分析,客户发了一个文档,明确了分析流程以及使用工具。其中定量环节要求使用featurecount工具。平时我都是使用htseq-count进行定量,因此,在这里记录一下新工具的使用步骤和遇到的一些小问题。 软件版本 featureCounts(subread) v2.0.1 使用说明 安装featureCounts 该工具属于Subread软件中的定量工具,另外subread还可以进行比对和寻找SNP位点,在这里就不详述了。我们要做的就是安装Subread原创 2021-04-09 16:30:36 · 14642 阅读 · 4 评论 -
2021.04.08丨RNA-seq消除批量效应
摘要 按照正常情况,送去测序的样品最好是同一个批次上机测序,避免外部干扰。最近接到一个项目,拿到手的数据就是分了四批。组长提醒我研究一下批量效应的处理方式。因此,这里总结一下批量处理的分析流程。环境配置 R版本:3.6.1 依赖R包:limma使用代码:library(limma) #调用limma包,线性分析主要包data <- read.table("all_count.txt",header = T, sep = "\t", ...原创 2021-04-08 11:42:57 · 3350 阅读 · 2 评论 -
2021.03.30丨使用python提取与合并指定列
摘要 最近优化RNA-seq,在定量环节后,需要汇总各样品的count值生成一份总表,然后转换成FPKM值。之前使用的是组长写的perl脚本,奈何自己实在是看不懂,并且之后为了加入到snakemake流程中也只支持python。于是,今天使用python对这部分进行了重写。 环境配置 python:3.8.5 使用代码 import reimport osimport pandas as pdnewfile_name = "../02.align/htseq/all_coun原创 2021-03-30 16:49:27 · 726 阅读 · 0 评论 -
2021.03.25【读书笔记】丨生物信息学与功能基因组学(第五章 高级数据库搜索 上)
学习目标 定义位置特异性打分矩阵(PSSM); 解释位置特异性迭代BLAST(PSI-BLAST)和DELTA-BLAST怎样大幅提升蛋白质BLAST蛋白搜索的灵敏度; 描述谱隐马尔可夫模型(HMMs)并解释其与BLAST相比在数据库搜索中的优势; 解释空位种子的策略怎样提升DNA搜索的灵敏度; 描述数以百万计的二代测序是怎样比对到参考基因组上的。 引言 第四章介绍了BLAST,BLAST搜索可以有很多种用途,本章将介绍几种高级的数据库搜索技术。 NCBI五种BLAST不足以解决的三个问原创 2021-03-25 23:03:23 · 964 阅读 · 0 评论 -
2021.3.24丨snakemake搭建转录组流程(一)
摘要 在公司已经待了一段时间,流程也尝试搭建了几个,但在使用过程中总是会由于项目之间的一些差异导致各种问题。同时由于bash命令看起比较乱,且某一个环节出错,整个封装程序就要全部重跑,导致面对不同项目时维护困难。跟同学一阵业务交流后,他建议我尝试使用Snakemake进行流程搭建。本篇文章将对snakemake进行简单的介绍,并且用质控工具fastqc进行示范,阐述单个命令的搭建方式。 简介 Snakemake工作流管理系统是生成可重现和可扩展的数据分析的工具,该工作流基于Python语言。 它可原创 2021-03-24 11:18:42 · 1282 阅读 · 2 评论 -
2021.02.03丨quast报错module ‘cgi‘ has no attribute ‘escape‘解决办法
最近采购了新服务器,在上面第一次跑组装,按正常流程要进行组装评估,在使用quast的过程中发生了报错,报错如下:抓重点,问题在于cgi.escape,里面其实有提示,‘html’:cgi.escape,解决方法:根据报错路径,找到最后一个报错文件/home/yangxin/miniconda3/lib/python3.8/site-packages/quast-5.0.2-py3.8.egg/quast_libs/site_packages/jsontemplate/jsontemplat原创 2021-02-03 17:00:55 · 3362 阅读 · 0 评论 -
2021.01.25丨conda环境配置
最近新换了服务器,需要重新搭建工作环境,在此整理记录一下环境搭建步骤 安装miniconda 下载地址:https://docs.conda.io/en/latest/miniconda.html 以Miniconda3 Linux 64-bit为例 sh Miniconda3-latest-Linux-x86_64.sh 一路空格、yes。注意,安装接近完成后会问你是否开机默认进入conda/base环境,这个根据个人喜好,我是习惯了base环境,所以我选择的ye.原创 2021-01-25 11:06:51 · 646 阅读 · 0 评论 -
2020.12.19丨根据差异基因ID匹配注释文本脚本
上周遇到一个比较麻烦的项目。物种是一种酵母菌,参考基因组是组装的,并没有像样的gtf文件,使用genemark-ES生成注释文件后,需要对差异基因进行注释。本来之前有一个脚本能够很流畅地处理这个步骤。然而,由于genemark-ES自动生成的geneID在perl脚本中存在bug,个人对perl又不是很熟悉,因此重新写了一个脚本,用于差异基因与注释文本的匹配注释,下面直接上脚本。import csvgenome_file = open('C:/Users/bbplayer/Downloads/ge原创 2020-12-19 15:17:31 · 724 阅读 · 1 评论 -
2020.11.20丨使用GATK CombineGVCFs命令批量合并vcf文件
GATK是一款强大的数据处理软件,最近在优化GWAS流程时遇到一个麻烦事,就是要将各样品的VCF文件进行合并,本来GATK里面有一个可以合并VCF数据的命令 CombineGVCFs,可以将所有样品的VCF合并成一个文件。但是这个命令需要一个一个输入文件名。 熟悉GWAS的小伙伴应该清楚,GWAS项目动辄上百个样品,让人一个一个输入还是很繁琐的。因此我写了个shell脚本,能够快速输入样品名称,并执行CombineGVCFs命令。 脚本 Ref_genome="genome.fna"原创 2020-11-20 15:20:18 · 13267 阅读 · 12 评论 -
2020.11.18丨Multiqc使用对多样本数据进行统计
平时做一些项目,在样品不多的情况下,使用fastqc,可以对每个样品单独生成质控报告。然而,当遇到群体遗传相关的项目、样本数量比较多的时候,则需要统计所有样品生成汇总表,方便观察各样品质控结果。因此我们选择使用Multiqc来对结果进行汇总。 使用软件:Multiqc 安装说明: 官方下载:Release MultiQC Version 1.9 · ewels/MultiQC · GitHub code: gunzip MultiQC-1.9.tar.gz tar -vzf Multi原创 2020-11-18 11:48:29 · 1162 阅读 · 0 评论
分享