
基因组
文章平均质量分 76
穆易青
用大模型思维颠覆传统学习生信路径
展开
-
2024.11.13【BUG报错】|使用 Clustal-Omega 遇到 Segmentation Faults 报错问题及解决方案
Clustal-Omega 是一款广受欢迎的多序列比对工具,它能够快速、准确地对大量序列进行比对。然而,有时在使用 Clustal-Omega 时会遇到 Segmentation Faults 的报错,这给分析带来了不便。先将序列拆分为多个小文件,然后分别对这些小文件进行比对,最后合并结果。在使用 Clustal-Omega 进行多序列比对时,有时会遇到这种错误,导致比对过程中断。如果序列较长,文件较大,不妨将核苷酸序列经过预测、翻译、去冗余后再进行比对,可以缩短序列长度,也降低了文件大小。原创 2024-11-13 22:04:54 · 589 阅读 · 0 评论 -
2022.03.03【微生物】|比对后去宿主分析
去宿主的分析可以让你节省更多比对时间原创 2022-03-03 17:19:02 · 1252 阅读 · 0 评论 -
2021.12.04【宏基因组】|宏基因组流程搭建进展梳理
分析框架 质控 过滤 trimmomatic PE {input.R1} {input.R2} {output.R1_PE} {output.R1_UNPE} {output.R2_PE} {output.R2_UNPE} LEADING:3 TRAILING:3 SLIDINGWINDOW:5:20 MINLEN:50 -phred33 去重 echo \"{input.R1}\" > {params.sample_ID}_merge.fastuniq ;ech..原创 2021-12-06 10:38:05 · 1372 阅读 · 0 评论 -
2020.11.9【WGS/GWAS】丨全基因组分析(关联分析)全流程(下)
经过为期半个月的~~东拼西凑~~ 研发测试,作者终于整理出了一个从VCF开始的GWAS后期分析流程。当然要感谢很多大佬提供的~~代码~~ 帮助,在文章中也附上参考链接。对GWAS还不够熟悉的朋友,可以看一下我之前整理的一份PPT学习笔记[《遗传进化与GWAS研究》](https://blog.youkuaiyun.com/yangl7/article/details/108486232)。原创 2020-11-09 14:36:28 · 18126 阅读 · 10 评论 -
2021.07.30【WGS/GWAS】丨全基因组分析全流程(上)
目录摘要命令行三级目录摘要时隔半年,终于把WGS前面的分析用snakemake搭建好了。读者不要嫌我慢,确实是项目不多,流程也不算特别复杂。之前的shell脚本也能用,因此迟迟没有真正搭建。现在项目慢慢多了,考虑到提升工作效率,趁着前几天做了2个WGS的项目,把这个流程梳理出来。命令行#vim: set syntax=python#__author__ = "Yang Xin"#__copyright__ = "Copyright 2021, Wang lab"#__email__ = "4原创 2021-07-30 17:05:54 · 4735 阅读 · 5 评论 -
2021.06.08|提取、比较各样品vcf文件中snp突变频率
目录摘要环境与方法使用代码分析结果总结摘要接到一个wgs项目,要帮助客户统计vcf文件中snp突变频率,比较两个样品的突变位点。这个工作在上一个项目中是手动处理的,当时参考序列短,突变位点少。这次经过比对后,发现了有个样品有上万个snp位点,肯定不能用手动处理的方式。因此,写了一个脚本来统计各个样品的突变频率。需要统计的信息包括染色体,突变位置,参考位点,各样品突变位点,突变率(AD杂合位点覆盖度/DP总覆盖度)环境与方法python 3.7R version 3.6.1 使用代码统原创 2021-06-08 16:02:38 · 6398 阅读 · 8 评论 -
2020.12.10【读书笔记】丨基因组De novo 产品介绍
基因组De novo 简介 基因组 定义:基因组就是物种所含有的一套遗传物质 单倍体 细胞核、 细胞器所 含的全部 DNA 分子),包括全套基因和间隔序列。 基因组观察维度 基因组测序 基因组测序( Genome Sequencing) 利用测序技术对物种的体内的所有 DNA 分子进行测序,获取碱基组成明确出基因的结构信息,外显子及内含子区域、启动子位置,以及基因的排列顺序及功能。 基因组测序技术 二代测序:基于 BGI 平台的边合成边测序; 三代测序:基原创 2020-12-10 15:23:56 · 1602 阅读 · 0 评论 -
2020.12.10丨cufflinks 简介及使用说明
一. 简介Cufflinks下主要包含cufflinks,cuffmerge,cuffcompare和cuffdiff等几支主要的程序。主要用于基因表达量的计算和差异表达基因的寻找。Cufflinks程序主要根据Tophat的比对结果,依托或不依托于参考基因组的GTF注释文件,计算出(各个gene的)isoform的FPKM值,并给出trascripts.gtf注释结果(组装出转录组)。注意:1. fragment的长度的估测,若为pair-end测序,则cufflinks自己会有一套算法,转载 2020-12-10 10:01:53 · 2616 阅读 · 1 评论 -
2020.12.02丨使用dfast工具进行细菌基因组注释
接到一个项目,需要对一个2代细菌全基因组数据进行组装和注释,网上给到了2个软件,Prokka和dfast。我优先安装下载的Prokka,无奈在环境配置上一直没有处理好,查过一些问题后发现可能需要对perl降低版本到5.22,另一个是对Bioperl的安装配置。弄了两天感觉时间成本比较高,转过来尝试使用dfast,虽然过程中也出现不少问题,但最终还是完成了注释过程。接下来就进行一个梳理。 使用软件:dfast 安装方式: 源码下载:DFAST-core (nig.ac.jp) conda安装:cond原创 2020-12-02 11:27:01 · 2234 阅读 · 0 评论 -
2020.11.30【读书笔记】丨在本地运行NCBI细菌基因组注释工具(PGAP)
Annotation in the biological analysis workflow importance of gene annotation in whole-genome analyses PGAP in brief automated pipeline Protein-coding gene prediction protein homology Ab initio calls Hidden Markov Model non-coding原创 2020-11-30 16:08:06 · 2297 阅读 · 0 评论 -
2020.11.16【读书笔记】丨ATAC-seq技术的功能基因组研究
原理介绍 识别染色体开放区域、高信噪比、低成本; 在不同转录因子周围形成特定信号分布模式; 获得大量线粒体来源的测序读长; 不同细胞类型的艰苦条件需要进行摸索 基于表型预测调控关键分子 解析基因组开放区域 基于ATAC-seq的基因组调控网络研究 文章解析富集研究 信号通路 点突变 ...原创 2020-11-16 10:15:17 · 299 阅读 · 0 评论 -
2020.11.13【读书笔记】丨植物多倍化的表观遗传学研究进展
主办方:诺禾致源 主讲人:四川农业大学草学系黄琳凯教授 内容: 植物多倍体的普遍性和重要性 概念 种类同源多倍体AAAA 异源多倍体AABB 普遍性比如拟南芥、大豆、水稻、高粱和玉米等禾本科植物 重要性 多倍化是植物表观遗传学研究领域的重要内容 植物多倍体对转录调控的影响 RNA的种类 概念 研究方法 多倍化对基因表达的影响 课题组研究 WGCNA分析 miRNA测序 ...原创 2020-11-13 15:52:41 · 630 阅读 · 0 评论 -
2020.9.17丨Chip-seq结果可视化之peak检测(下)
这一部分是使用deeptools对样品进行相关性分析以及主成分分析,同时从peak中去挖掘motif。我使用的工具是MEME-ChIP,MEME是一个工具系列,挖掘motif的工具比较丰富,MEME、DREME、TomTom、MEME-ChIP,其中MEME-ChIP可以同时调用其他几个工具进行综合分析,比较方便。 deeptools是一个很好用的深度分析工具,中文版使用手册可以让你快速上手(虽然翻译有些直,但竟然看得懂!)。在进行相关性分析和主成分分析之前,需要对样品数据进行一个综合统计,deeptoo原创 2020-09-17 16:19:56 · 3921 阅读 · 0 评论 -
2020.9.17丨Nanopore测序介绍
昨天晚上参加了贝纳基因的线上产品介绍会,主要介绍了Nanopore和公司两大特色产品,DirectRNA和isoform-全长cDNA,主讲人讲得比较快,PPT也不能拷贝,因此只能粗略搭了个框架,要想看更详细的Nanopore与PB的差异,可以看PB&ONT比较概览。 Nanopore测序介绍 发展历程 4个产品 MinION GridION PromethION 技术原理 DNA通过纳米孔形成电信号,五个碱基为一组信号,通过电流变化,对波形图进行校正,对已知序列进行原创 2020-09-17 14:33:22 · 1071 阅读 · 0 评论 -
2020.09.17丨PB&ONT比较概览
补充一下目前两个主流的三代测序产品PB和ONT PB&ONT比较概览 ONT 生产国:英国 设备种类:MinION GridION X5 PromethION-β PromethION-24 PromethION-48 便携、实时; 户内、户外 使用酶:解旋酶/马达蛋白 孔:纳米孔蛋白(Nanopore) 膜:多聚合物膜 外力:ATP-马达蛋白-纳米孔-ds DNA 信号:电信号-fast5 分析:fastQ PB 生产国:美国 设备种类:RSI.原创 2020-09-17 14:32:13 · 2161 阅读 · 0 评论 -
2020.09.15丨细菌&真菌基因组测序原理
细菌基因组测序原理 细菌定义: 属于原核生物,无核膜、DNA裸露,分真细菌和古细菌两大类的微生物。是在自然界分布最广、个体数量最多的有机体,是大自然物质循环的主要参与者。 细菌基因组特点: 基因组:一般在0.16- 13Mb,大部分在5M左右; 编码序列:占总长度的90%,基因平均大小为 1kb; 结构特点:多为一条环状闭合双链DNA,无内含子 细菌基因组产品类型、 产品列表Pacbio 准确率较高,成本高 ONT测序平台通量高,成本低(混样建库加Barcode:原创 2020-09-15 16:57:40 · 12389 阅读 · 0 评论 -
2020.9.12丨变异检测的原理&应用方向
变异检测的原理&技术要点 定义:变异检测是指 通过测序 技术对某一物种个体或群体的基因组进行测序及差异分析,获得单核苷酸多态性SNP )、插入缺失 InDel )、结构变异( SV )、拷贝数变异CNV )等大量的遗传变异信息用于开发分子标记建立遗传多态性数据库,为后续揭示进化关系、挖掘功能基因等奠定数据基础。 按照片段大小分类: 单碱基:SNP SNP (单核苷酸多态性)主要是指在基因组水平上由单个核苷酸的变异所引起的 DNA 序列多态性,包括单个碱基的转换、颠换等。利用 GATK软原创 2020-09-12 11:44:38 · 4915 阅读 · 1 评论 -
2020.9.10丨Pacbio技术三代建库、测序原理
基本概念: 第三代基因测序技术又被为“Single Molecule Real Time (SMRT™) DNA Sequencing”(单分子实时DNA测序技术),该方法基于纳米孔的单分子读取技术,不需要扩增即可快速读取序列。目前,Pacific Biosciences公司已经成功推出了商业化的第三代测序仪PacBio RS平台和PacBio Sequel平台 SMRT测序原理 步骤1:将磷酸化核苷酸引入零模波导孔(ZMW) 步骤2:核苷酸在检测体积中保持数十毫秒,当被光激发时发出荧光。 捕获原创 2020-09-10 16:18:26 · 10506 阅读 · 0 评论 -
2020.9.9丨细菌基因组学的技术原理、研究应用与热点
本次课程内容为欧易生物线上公开课内容,现讲主讲内容笔记进行一个梳理总结细菌全基因组简介 1.1细菌与科学研究 研究对象:病原菌、环境细菌、工业菌 研究方向: 细菌全基因组研究 定义:对细菌所有基因进行核苷酸测序,了解个体的基因结构基础,研究单个基因或多个基因的作用、功能以及他们间的相互作用 研究内容和相应分析: 结构基因组学 :基因组序列的测定 功能基因组学:基因组的注释 比较基因组学:基因组功能研究 1.2细原创 2020-09-09 15:18:32 · 2419 阅读 · 0 评论 -
2020.9.9丨微生物多样性、宏基因组测序原理
微生物多样性测序原理及案例解析 研究对象 人类:口腔、皮肤、粪便、肠道... 动物:瘤胃、肠道… 植物:菌根、内生菌... 历代测序原理 一代测序 双脱氧链终止法 正常的DNA碱基是四种脱氧核糖核苷酸(dNTP),如果将这个碱基稍加改造,将一个-OH的氧去除,变成-CH2,就变成了一个双脱氧的核糖核苷酸(ddNTP)。在DNA合成的过程中加上这个ddNTP,由于ddNTP无法和下一个碱基链接,DNA链将无法继续延伸。 缺点:成本高、通量低原创 2020-09-09 11:41:42 · 8925 阅读 · 0 评论 -
2020.9.4丨三代测序的基本原理、组装方法和应用场景
三代测序的基本原理、组装方法和应用场景PB/Nanopore测序原理及优缺点介绍 PB:光信号,荧光基团结合碱基测序 Nanopore:电信号 优点 无GC偏好性 缺点 错误率较高 有效孔只有三分之一 三代测序组装方法 参考文献:Comprehensive evaluation of non-hybrid genome assembly tools for third-generation PacBio long-read sequence data原创 2020-09-04 11:44:15 · 1816 阅读 · 0 评论 -
2020.9.2丨个体重测序、KASP分型产品介绍
二代个体重测序 1.1 个体重测序部分基本概念 个体重测序:对已知基因组序列的物种进行全基因组测序,将不同样品的测序reads与参考基因组进行比对 (不做组装),从而得到个体与参考基因组和个体之间的在基因组序列上变异。 文库插入片段:基因组DNA进行片段化处理后,会根据分析需求选择特定长度的DNA片段进行建库,构建到文库中的片 段即为插入片段,重测序文库默认350bp,还可构建270bp、500bp文库。 测序深度 测序深度:实际测序得到的碱基总量(bp)与基因组 大小的比值,测序带原创 2020-09-02 10:19:52 · 2079 阅读 · 0 评论 -
2020.8.5丨细菌基因组二代测序组装流程梳理
应老板要求,重复一个之前由其他团队完成的质粒组装项目,为之后内部消化项目打下基础。研究了几天,昨天把结果提交上去还算满意,故特此整理。原创 2020-08-05 11:35:58 · 5854 阅读 · 9 评论 -
2020.8.26丨Nanopore甲基化测序产品概述
一、Nanopore甲基化 基本概念 甲基化属于表观遗传 遗传学: 基于基因序列改变所致基因表达水平变化,如基因突变、基因杂合丢失和微卫星(SSR) 等 表观遗传学: 指基于非基因序列改变所致基因表达水平变化,如DNA甲基化和染色质构象变化等 表观遗传现象:DNA甲基化(去甲基化)、基因组印记、休眠转座子激活、母体效应、基因沉默、核仁显性、RNA编辑等 表观遗传学的常见机制 DNA 甲基化:化学修饰的一种形式,能在不改变DNA序列的前提下,改变遗传表现; l 组蛋白修饰原创 2020-08-26 13:52:10 · 2440 阅读 · 0 评论 -
2020.8.25丨微生物基因组重测序流程梳理
微生物基因组重测序流程产品概述基本概念产品优势研究内容分析流程图数据产出及处理测序质量报告标准信息分析初级组装及评价比较基因组分析SNPCalling计算统计SNV的等位基因频率在全基因组上的分布分析对象包括全新预测的SNP,indel,large deletion, 以及外显子SNP在每个等位基因频率类别下的数目比率(fraction)。计算SNP,Deletion,以及Insertion 大小分布。InDel检测及在基因组的分布:CNV拷贝数变异与SV结构变异检测及在基因组中的分布:变异类型注释(发生区原创 2020-08-25 14:41:56 · 4918 阅读 · 0 评论