
RNA-seq
文章平均质量分 73
穆易青
用大模型思维颠覆传统学习生信路径
展开
-
2025.03.13【读书笔记】|kallisto:单细胞定量工具安装介绍
kallisto是一个用于转录本定量的软件工具,其独特的基于伪对齐的技术,使得在不需要传统比对的情况下,就能够快速准确地估计转录本的丰度。这种方法的主要优点包括速度快、准确性高和计算成本低。cDNA文件是kallisto分析中不可或缺的一部分,它包含了用于定量的参考转录本信息,直接影响定量结果的准确性。Kallisto 以其显著的计算速度优势,让研究人员能够更高效地处理 RNA-seq 数据,极大推动了转录组学研究的进展。原创 2025-03-13 10:25:29 · 642 阅读 · 0 评论 -
2025.03.12【读书笔记】|monocle:快速安装及使用
通过一个具体的实战案例,我们可以更直观地了解monocle工具的应用。Monocle 凭借其构建伪时间轴的能力,为我们深入理解细胞发育和分化过程提供了强有力的工具。它在识别关键基因、揭示细胞状态转变以及探索时间依赖性的表达模式等方面,具有显著优势。虽然随着单细胞技术的快速发展,涌现出许多新的分析工具,但 Monocle 依然是研究人员进行细胞轨迹分析和时间序列分析的重要选择。尤其是在以下情况下,Monocle 能够提供独到的见解:研究细胞发育过程中的动态变化识别在细胞分化过程中起关键作用的基因。原创 2025-03-12 10:39:13 · 1394 阅读 · 0 评论 -
2024.12.29 【RNA-seq】Rawdata数据缺失问题与解决方案
Fastq格式是一种用于存储高通量测序数据的文件格式,包含序列和相应的质量信息。第一行以开头,后接序列标识符;第二行是测序的DNA序列;第三行以开头,可能会跟随序列标识符;第四行是对应的质量值,以ASCII字符表示。Rawdata的数据完整性通常情况下是没有问题的,但我们仍然需要对下机数据进行验证,确保后续分析的正常进行,好的分析习惯可以提高整体的分析效率,避免很多不必要的麻烦。原创 2024-12-29 16:06:38 · 303 阅读 · 0 评论 -
2024.12.11【读书笔记】GitHub项目创建:生信人员快速入门 (中)
GitHub项目与仓库的区别在于,项目提供了一个更高层次的组织结构,可以包含多个仓库,而仓库则用于存储项目的代码和文件。有效的脚本编写是实现分析自动化和复现性的核心,我们将探讨如何选择合适的编程语言和工具来构建模块化的RNA-seq分析流程。项目的初步搭建是确保后续分析顺利进行的基石,让我们从创建一个新的GitHub仓库并设计清晰的项目结构开始。📚 我承诺,将持续为您带来深度与广度兼具的生物信息学内容,让我们一起在知识的海洋中遨游,发现更多未知的奇迹。🔔 关注我的账号,不错过每一次知识的分享和探索的旅程。原创 2024-12-11 14:46:43 · 612 阅读 · 0 评论 -
2024.12.02.【读书笔记】|miRDeep2快速安装使用教程
miRDeep2是一个用于从小RNA测序数据中发现已知和新的miRNA的分析工具。它包含了多个模块,可以对测序数据进行预处理、比对到参考基因组、检测已知和新的miRNA等。原创 2024-12-02 17:07:44 · 1095 阅读 · 0 评论 -
2024.11.27【流程搭建L2】3句话搭建工业级生信流程(以RNA-seq为例)
Cursor是基于VSCode技术构建的AI代码编辑器,由Kite公司开发,旨在通过集成人工智能技术来提高开发者的编程效率和体验。Cursor是基于VSCode技术构建的高级代码编辑器。它从VSCode的代码库派生而来,继承了VSCode的所有基础功能和用户界面,布局和操作基本一致,使得VSCode用户可以无缝迁移到Cursor,无需重新学习新的操作习惯。最大的不同在于它内置了AI进行代码协作的功能,这是对VSCode的扩展和增强。原创 2024-11-28 00:50:52 · 1050 阅读 · 0 评论 -
2024.11.20【读书报告】|multiMiR:microRNA靶基因数据库快速使用教程
在网上看到很多文章,都是在介绍如何通过在线工具获取miRNA的靶基因,为了优化流程,将识别环节也进行标准化处理,在本地运行,本人研究了这个库。multiMiR。原创 2024-11-20 12:01:13 · 984 阅读 · 0 评论 -
2024.09.04【读书笔记】|如何使用Tombo进行Nanopore Direct RNA-seq(DRS)分析
首先,需要将原始的纳米孔读取数据(FAST5文件)转换为参考序列对齐的信号。这一步是Tombo分析的第一步,称为“重抖动”(re-squiggle),即将原始纳米孔读取转换为参考序列对齐的信号。可以通过Conda安装Tombo,这是推荐的安装方法。tombo run --input input FAST5文件路径 --output output 输出文件路径 --model model 模型名称其中,input参数指定输入的FAST5文件路径,output参数指定输出文件路径,model。原创 2024-09-04 11:42:07 · 1738 阅读 · 0 评论 -
2022.11.21【bug笔记】|bam文件报错:Cannot add sequence that already exists in SAMSequenceDictionary
sam文件是通过hisat2,bowtie2或者bwa将rawdata进行比对后得到的包含比对信息的数据格式。经过samtools处理后得到的bam文件经常用于后续分析,比如RNA-seq分析时,可以统计序列的插入片段也可以做后续定量,WGS流程里比对后生产的bam文件也可以去冗余获取snp位点。原创 2022-11-21 17:23:36 · 784 阅读 · 3 评论 -
2022.04.14【读书笔记】|转录因子分析
转录因子(transcription factors, TFs)是直接作用于基因组,与特定DNA序列结合,调控DNA转录过程的一类蛋白质原创 2022-04-14 15:42:57 · 3111 阅读 · 0 评论 -
2022.04.14【读书笔记】|WGCNA分析原理和数据挖掘技巧
WGCNA,全称weighted gene co-expression network analysis,即权重基因共表达网络分析。自2005年B Zhang, S Horvath等提出,在疾病以及其他性状与基因关联分析等方面的研究中被广泛应用。原创 2022-04-14 15:19:46 · 5252 阅读 · 3 评论 -
2021.11.23【bug笔记】丨picard运行报错:Exception in thread “main“ java.lang.UnsupportedClassVersionError
项目场景:RNA-seq对比对后bam文件绘制insert图片问题描述:执行picard命令时发生报错:JAVA报错代码: at java.lang.ClassLoader.defineClass1(Native Method) at java.lang.ClassLoader.defineClass(ClassLoader.java:800) at java.security.SecureClassLoader.defineClass(SecureClassLoader.java:1原创 2021-11-23 22:16:11 · 1430 阅读 · 0 评论 -
2021.11.20【读书笔记】|差异可变剪接事件及DTU分析
一、可变剪接(Alternative Splicing) 定义: 同一前体mRNA分子,可以在不同的剪接位点发生剪接反应,生成不同的mRNA分子,最终产生不同的蛋白质分子的一种RNA剪切方式。 意义: 1. AS是形成生物多样性的重要原因之一 2. AS是基因表达调控的重要组成部分,与基因表达的时空性息息相关 3. 由于可变剪接直接造成表达产物的差异,因此可变剪接在一些性状、疾病中发挥重要作用。 识别: 分成了7个类型 识别..原创 2021-11-21 22:30:18 · 5927 阅读 · 0 评论 -
2021.06.29【R语言】丨png转pdf批量生成
摘要接到一个特别要求,客户想把结果里的png图片全部转化成pdf。刚开始,这边销售想着结果图片不多,打算手动一个一个处理,直到她发现了16差异分组里,每个分组都有个kegg_map的文件夹...环境与方法R version 3.6.0 (2019-04-26)环境包 require(stringr) EBimage: install.packages('BiocManager') BiocManager::install('EBImage')使原创 2021-06-29 15:03:45 · 996 阅读 · 0 评论 -
2021.05.26【R语言】丨clusterProfiler注释大肠杆菌GO/KEGG富集图
摘要 之前写过一篇文章,对clusterProfiler常用注释包进行简单的整理分类2021.05.17【R语言】丨clusterProfiler注释表——KEGG/GO enrich富集图专用_穆易青的博客-优快云博客。然而在遇到一个原核转录组项目想使用大肠杆菌注释包的时候却遇到了报错,经过一番查阅和测试。终于能够注释大肠杆菌,得到GO/KEGG富集图,在这里将整个过程做个梳理。 环境与方法 R version 3.6.1 Bioconductor version 3.10 packa原创 2021-05-26 15:01:13 · 3001 阅读 · 3 评论 -
2021.05.22丨snakemake报错positional argument follows keyword argument解决办法
摘要 从3月学习snakemake,到目前为止已经基本掌握了框架的思路,并且用snakemake将之前的RNA-seq流程重新串了起来。今天在处理项目的时候打算将里面的差异分析和注释分析串起来。遇到了报错,这里进行一个简单记录。 报错问题:positional argument follows keyword argument 翻译:位置参数跟在关键字参数之后 错误示范: rule anno:input:genome = config["reference"],gff = con原创 2021-05-22 11:24:42 · 1008 阅读 · 0 评论 -
2021.05.17【R语言】丨clusterProfiler注释表——KEGG/GO enrich富集图专用
摘要 刚开始接触项目的时候一直用公司搭建好的流程分析项目,慢慢学习后,发现有些地方的注释除了靠参考基因组相关的注释文档,还需要对应物种。在R中绘制KEGG.GO enrich富集图就需要根据物种来读取相应注释包,这里记录一份常用物种及对应注释包表,方便以后使用。注释表packages organism org.Ag.eg.db Anopheles org.At.tair.db Arabidopsis org.Bt.eg.db Bovine org.C..原创 2021-05-17 15:48:48 · 2128 阅读 · 0 评论 -
2021.05.11丨COG分析柱状图绘制
目录摘要环境与方法文档准备分类简称及描述比对结果使用代码结果展示总结摘要在RNA-seq项目中,需要将差异基因比对到各个数据库当中,生成相应的注释结果和图像,便于深度挖掘信息。COG(Cluster of Orthologous Groups ofproteins 同源蛋白簇)数据库可以帮助了解蛋白功能甚至进化关系(细/真菌)。此次记录一下COG分类图的绘制方法环境与方法R version 3.6.1 (2019-07-05)文档准备分类简称及描述 # Code Name原创 2021-05-11 16:48:30 · 5323 阅读 · 0 评论 -
2021.04.29丨KEGG富集点状图绘制问题——附绘制脚本
项目场景:KEGG富集图绘制问题问题描述:得到差异基因名称,却无法成功绘制富集点状图。@Override public void run() { bytes = mmInStream.read(buffer); mHandler.obtainMessage(READ_DATA, bytes, -1, buffer).sendToTarget(); }  v2.0.1 使用说明 安装featureCounts 该工具属于Subread软件中的定量工具,另外subread还可以进行比对和寻找SNP位点,在这里就不详述了。我们要做的就是安装Subread原创 2021-04-09 16:30:36 · 14424 阅读 · 4 评论 -
2021.04.08丨RNA-seq消除批量效应
摘要 按照正常情况,送去测序的样品最好是同一个批次上机测序,避免外部干扰。最近接到一个项目,拿到手的数据就是分了四批。组长提醒我研究一下批量效应的处理方式。因此,这里总结一下批量处理的分析流程。环境配置 R版本:3.6.1 依赖R包:limma使用代码:library(limma) #调用limma包,线性分析主要包data <- read.table("all_count.txt",header = T, sep = "\t", ...原创 2021-04-08 11:42:57 · 3246 阅读 · 2 评论 -
2021.03.30丨使用python提取与合并指定列
摘要 最近优化RNA-seq,在定量环节后,需要汇总各样品的count值生成一份总表,然后转换成FPKM值。之前使用的是组长写的perl脚本,奈何自己实在是看不懂,并且之后为了加入到snakemake流程中也只支持python。于是,今天使用python对这部分进行了重写。 环境配置 python:3.8.5 使用代码 import reimport osimport pandas as pdnewfile_name = "../02.align/htseq/all_coun原创 2021-03-30 16:49:27 · 706 阅读 · 0 评论 -
2021.3.24丨snakemake搭建转录组流程(一)
摘要 在公司已经待了一段时间,流程也尝试搭建了几个,但在使用过程中总是会由于项目之间的一些差异导致各种问题。同时由于bash命令看起比较乱,且某一个环节出错,整个封装程序就要全部重跑,导致面对不同项目时维护困难。跟同学一阵业务交流后,他建议我尝试使用Snakemake进行流程搭建。本篇文章将对snakemake进行简单的介绍,并且用质控工具fastqc进行示范,阐述单个命令的搭建方式。 简介 Snakemake工作流管理系统是生成可重现和可扩展的数据分析的工具,该工作流基于Python语言。 它可原创 2021-03-24 11:18:42 · 1222 阅读 · 2 评论 -
2021.3.20丨Cutadapt数据统计脚本
摘要 在使用sRNAnalyzer分析miRNA时,会调用到Cutadapt进行去接口。该过程的结果也将通过报告被记录下来。然而,报告作为单个样品的结果统计,没有对所有样品进行汇总,不方便客户统计查看。因此,我写了一个简单的统计脚本,用于抓取Cutadapt结果报告里的基本信息。 需要获取的基本信息 材料与方法 python版本:Python 3.8.5 使用代码 import reimport osnewfile_name = 'Cutadapt_stat.tx原创 2021-03-20 11:20:28 · 624 阅读 · 0 评论 -
2021.01.18丨sRNAnalyzer分析流程
最近接到一个miRNA的分析项目,经过网上初步的一个工具搜索,选择了本地分析工具sRNAnalyzer进行比对和统计miRNA分类,使用在线分析工具miRWalk预测了miRNA的Target Gene。本篇文章是对sRNAnalyzer工具使用的一个梳理,对使用过程中遇到的一些问题进行注释。 软件说明文档链接:http://srnanalyzer.systemsbiology.net/start.html 在安装sRNAnalyzer之前,我们需要预安装三款软件,这些使用conda/miniconda原创 2021-01-18 15:53:53 · 726 阅读 · 0 评论 -
2021.01.07丨使用fastp统计样品质量结果
各位小伙伴在对测序样品进行质控的时候,首选基本上都是fastQC,他能能够生成许多图片直观地展示质控结果。 然而,当我们有多个样品,希望对其结果以表格形式进行展示的时候,fastQC能提供的信息就比较少了,比如GC含量精确到小数点,或者Q30等等 fastQC能统计到的基本信息 我们希望得到的统计结果 那么如何能够批量统计到更详细的质控信息呢?fastp工具和这篇文章脚本的必要性就产生了,它可以统计测序数据较多的信息并以.json形式进行展示。 我们用Editplus打开f原创 2021-01-07 11:23:59 · 4703 阅读 · 0 评论 -
2021.01.05丨根据基因名称拼接表达量与相关注释
这一步是在进行最后的数据汇总工作中用到的,将基因的count与FPKM值和基因注释的结果组合在一起,得到一个完整的数据。方便客户进行后续研究。算法与之前那篇基因ID匹配注释文本一文相似,用了两个for循环嵌套进行比对,O=n²,在此也希望能够抛砖引玉,得到大神指点。输入文件:anno.DEG.txtall.anno.xls #这里用的Editplus打开本来之前我对all.anno.xls的geneID已经处理过了,但是正好遇到ftp出问题,无法下载最新文件,就将就前两天的结果进行处原创 2021-01-05 16:54:32 · 301 阅读 · 0 评论 -
2020.12.19丨根据差异基因ID匹配注释文本脚本
上周遇到一个比较麻烦的项目。物种是一种酵母菌,参考基因组是组装的,并没有像样的gtf文件,使用genemark-ES生成注释文件后,需要对差异基因进行注释。本来之前有一个脚本能够很流畅地处理这个步骤。然而,由于genemark-ES自动生成的geneID在perl脚本中存在bug,个人对perl又不是很熟悉,因此重新写了一个脚本,用于差异基因与注释文本的匹配注释,下面直接上脚本。import csvgenome_file = open('C:/Users/bbplayer/Downloads/ge原创 2020-12-19 15:17:31 · 676 阅读 · 1 评论 -
2020.11.12丨tRNAscan-SE-2.0最新安装流程
最近接了一些细菌和真菌做RNA-seq的项目,有客户提到想要获取核糖体RNA(tRNA)的统计结果,之前用sortmerna一个样品都要比对4,5个小时,打算试试tRNAscan-SE。不过安装过程卡了半天,一是官网没有安装说明,二是该软件的安装教程最新也是2017年的,版本和安装方式已经发生了变化。特此写下这篇文章,作为记录。 软件名称:tRNAscan-SE 官网地址:tRNAscan-SE Search Server (ucsc.edu) 下载链接:tRNAscan-SE-2.0.7.tar.g原创 2020-11-12 16:54:59 · 1772 阅读 · 0 评论 -
2020.02.18【数据分析心得】丨如何将基因ID转化为基因名称
上一次在这个平台上写文章居然已经是5年前了,毕竟研究生阶段没有主攻数据处理,让自己少了很多IT属性。废话少说,今天记录一下将基因ID转化为基因名称的操作办法。在拿到公司的基因测序数据后,不同的测序公司给出的数据也是不同的,有时候会遇到一个问题就是测序公司给出的分析报告中,GO富集以及KEGG通路通常直接以基因ID的形式给客户,而导师要求送审文章的附件要显示为基因名称。尽管在拿到的测序数...原创 2020-02-18 14:20:01 · 26962 阅读 · 4 评论 -
2020.10.21【R语言】丨 undefined columns selected 问题解决办法
最近做RNA-seq项目的时候准备用R的boxplot()工具画一个各个样品的箱线统计图。 然而,在运行脚本后报错 Error in `[.data.frame`(fpkm, , c("MB7409-A", "MB7409-B", "MB7409-C", :undefined columns selectedCalls: [ -> [.data.frameExecution halted 抓取数据列的命令哪里错了呢? 打开输入的数据框和脚本做对比 数据是.原创 2020-10-21 14:44:19 · 25730 阅读 · 5 评论 -
2020.09.30【RNA-seq流程】丨转录组生信分析全流程
RNA-Seq生信分析全流程摘要第一部分step.1 下载数据step.2 数据质控第二部分step.3序列比对step.4 计算基因表达量step.5 插入片段长度检验step.6 基因表达量从count值转换为FPKM值使用基因组注释,通过R工具包GenomicFeatures获得exon length求reads 总数第三部分step.7 进行各样品分析样品间相关性分析各样品FPKM箱线图各样品FPKM密度分布对比图step.8 差异表达分析step.9 差异基因功能注释获取差异基因注释信息比对基因组原创 2020-12-10 10:03:17 · 16017 阅读 · 0 评论 -
2020.8.28丨转录组、全转录组产品概述和应用方向
知识点梳理 转录调控是基因表达调控的一种重要方式 转录水平调控 翻译水平调控 翻译后水平调控 转录调控测序研究热点 RNA分类 转录组研究 概念 转录组(transcriptome): 特定组织或细胞在某一发育阶段或功能状态下转录出来的所有RNA的集合,包括 mRNA和ncRNA,从整体水平研究基因功能和基因结构,揭示特定生物学过程的分子机理。 转录组测序(RNA-seq): 通过第二代高通量测序技术进行原创 2020-08-28 14:35:37 · 3588 阅读 · 0 评论 -
2020.8.28丨蛋白质组产品介绍、方案设计和案例解析
蛋白质组概述 研究意义: 蛋白质组是空间和时间上动态变化着的整体,一个基因组对应多个蛋白质组 人类与简单生物的巨大差别,来自蛋白质之间相互作用的数量 蛋白质定义:一类重要的生物高分子,参与了生物体内几乎所有的生理功能和代谢过程。由20种氨基酸通过肽键(酰胺键)连接形成的长链分子(肽链),在此基础 上,肽链进一步形成二级、三级的空间结构。有的蛋白质还包含辅基成分,如金属铁、 锰等。 蛋白质组:一种基因组或一个细胞、组织所表达的全套蛋白质 蛋白质组学:围绕一种细胞或一个生物体所表达原创 2020-08-28 14:30:30 · 584 阅读 · 0 评论 -
2020.8.28丨转录组、全转录组方案设计和案例解析
知识点梳理 方案设计 研究背景 本课题组前期工作的 总结,当前研究领域 文章综述,研究的目 的。 前期工作: 种质资源 生理指标 优良性状 相关研究: 查找文献,与高通量测序相关的文献 搜索:物种拉丁名+transcriptome+? 百度学术http://xueshu.baidu.com/中文、方便、可以迅速 对物种信息、研究背景进行了解 NCBI pubmedhttps://www.ncbi.nl..原创 2020-08-28 14:17:05 · 3945 阅读 · 0 评论 -
2020.8.26丨全长转录组测序产品概述
知识点梳理全长转录组 测序发展史 测序原理 Sanger测序:毛细管电泳测序 illumina测序:制备文库、桥式PCR、可逆终止边合成边测序 SMRT测序:边合成边测序 二代拼接与组装 二代测序:更多关注基因表达情况 弊端: 多倍体或杂合物种(无参)转录本拼接难 无参转录组的定量准确性偏低 无法准确检测可变剪接位点(假阳性较高)、APA、融合基因,基因家族 可变剪接 概念:一个mRNA前体通过不同的剪接方原创 2020-08-26 13:50:19 · 1359 阅读 · 0 评论 -
2020.08.18【转载】丨叶绿体基因组二代测序组装经验分享
叶绿体基因组二代测序组装(个人经验分享)前段时间,有老师咨询我关于叶绿体基因组组装的问题,虽然本人不才,但也很热心地帮了个忙。虽说中间出了一些小意外,唉唉算了还是不提了。在这里顺便就个人常用的叶绿体基因组组装思路和方法(基于二代测序),给大家作个分享。叶绿体基因组本身不大(平均不到200kb),所以使用二代测序,在高深度测序模式下,配合一个有效的参考基因组,理论上足以组装出一条完整的环状序列出来(10个里面9个可以吧)。当然,只单纯地通过组装软件自动拼接基本上是不可能实现的(主要是IR区的问题.转载 2020-08-18 16:49:01 · 23111 阅读 · 8 评论 -
2020.8.18丨MUMmer中文使用说明
如何使用MUMmer比对大片段序列测序技术刚开始发展的时候,大家得到的序列都是单个基因的长度,所以一般都是逐个基因的比较,用的都是BLAST或FASTA通过逐个基因联配的方式搜索数据库。但是1999年后,越来越多的物种全基因组出现,比如说在1999年出现了Helicobacter pylori的第二类菌株的基因组序列,就需要研究同一物种不同品系进化过程的基因组变化,比如说基因倒置现象。传统的BLAST/FASTA就用不了,就需要用到新的工具,这就是MUMmer出现的历史背景。那么MUMmer能用来研转载 2020-08-18 14:06:11 · 1831 阅读 · 0 评论 -
2020-08-18 | 39个RNAseq分析工具与对比
史上最全 | 39个RNAseq分析工具与对比文献:Sahraeian S M E, Mohiyuddin M, Sebra R, et al. Gaining comprehensive biological insight into the transcriptome by performing a broad-spectrum RNA-seq analysis[J]. Nature Communications, 2017, 8(1):59.这是一篇在NC上发表的使用RNAseq工具对比的一篇转载 2020-08-18 13:52:05 · 4062 阅读 · 0 评论