
基因组
文章平均质量分 73
徐洲更hoptop
这个作者很懒,什么都没留下…
展开
-
告别3D-DNA试试chromap和yahs做Hi-C辅助组装吧
是时候告别3d-DNA了原创 2023-01-27 10:41:01 · 7514 阅读 · 3 评论 -
3d-dna软件提速(一)edit-fasta-according-to-new-cprops.awk
通过后续的分析发现,只需要保证输入的fasta是多行形式,而不是单行形式,那么原来的流程的分析 速度并不会受到影响。可以使用 seqkit seq -w 80 input.fasta > output.fasta 的方式来调整输入fasta的格式。原创 2020-04-18 19:12:20 · 2038 阅读 · 6 评论 -
从一则12年前的提问中学习:从配对序列联配到多序列联配
优秀的提问和很有用的回答原创 2022-10-21 21:55:05 · 729 阅读 · 0 评论 -
使用jcvi绘制微共线性(Microsynteny)
JCVI画图真好看!原创 2022-10-20 13:15:38 · 4511 阅读 · 0 评论 -
计算分子进化-搞懂PAML的正选择分析
努力搞懂基因正选择分析背后的原理原创 2022-08-31 11:29:30 · 6909 阅读 · 3 评论 -
对水稻的注释进行了二次整理
代码和数据都在GitHub上,见 https://github.com/xuzhougeng/rice_annotaiton原创 2022-02-15 21:05:22 · 3078 阅读 · 0 评论 -
如何绘制物理图谱和遗传图谱的对应关系
唐海宝老师开发的JCVI有一个工具,叫做ALLMAPS, 能够展示遗传图谱和物理图谱的对应关系,如下所示但是这个图的目标是为了对ALLMAPS的scaffold结果进行可视化,并不是专门用于展示遗传图谱的标记和物理图谱的对应关系。尽管在allmaps这个组件下提供了plot函数,命令行输入只要求 input.bed 和 seqid, 但实际运行的时候还要求 allmaps path的中间文件, xxxx.lifted.bed, xxxx.agp, weight.txt等文件。为了解决这一问题,我阅读了原创 2021-12-13 15:33:26 · 4878 阅读 · 2 评论 -
如何用WGDI进行共线性分析(一点五)
在如何用WGDI进行共线性分析(一), 我们基于blastp的结果绘制了点图,之后用 -icl 模块进行进行共线性分析,得到了 collinearity 结果 。后面就直接基于该文件开始计算ka/ks,然后绘制ks plot.但是,在那篇教程的时候,我其实还有一个问题,就是能不能直接根据 collinearity 结果绘制点图呢?在WGDI提供的流程示意图中,没有这一分支虽然自己写代码实现也不复杂,但是为了避免重复造轮子,我们使用了JCVI的图形模块绘制dotplotjcvi.graphcis.do原创 2021-08-18 20:39:13 · 2081 阅读 · 0 评论 -
hifiasm对HiFi PacBio进行组装
hifiasm是一个能有效利用PacBio HiFi测序技术,在分型组装图(pahsed assembly gprah)中可靠的表示单倍体信息的算法。流程介绍hifiasm的分析流程如下,主要分为3个阶段第一阶段:通过所有序列的相互比对,对前在测序错误进行纠正。如果一个位置只存在两种碱基类型,且每个碱基类型至少有3条read支持,那么这个位置会被当作杂合位点,否则,视作测序错误,将被纠正。第二阶段:根据序列之间的重叠关系,构建分型的字符串图(phased string graph)。其中调整朝向的序原创 2021-07-28 15:08:37 · 8687 阅读 · 5 评论 -
使用NextDenovo组装Nanopore数据
NextDenovo是武汉未来组胡江博士团队开发的一个三代组装工具,能够用于PacBio和Nanopore数据的组装。但是从官方的介绍而言,改工具在组装Nanopore上优势更大一些。NextDenovo包括两个模块,NextCorrect用于原始数据纠错,NextGraph能够基于纠错后的进行组装。使用修改版的minimap2进行序列间相互比对。v2.0-beta.1版中在处理高度重复序列上可...原创 2019-10-21 11:03:02 · 6440 阅读 · 3 评论 -
如何对基因组序列进行注释
基因组组装完成后,或者是完成了草图,就不可避免遇到一个问题,需要对基因组序列进行注释。从头注释(de novo prediction):通过已有的概率模型来预测基因结构,在预测剪切位点和UTR区准确性较低同源预测(homology-based prediction):有一些基因蛋白在相近物种间的保守型搞,所以可以使用已有的高质量近缘物种注释信息通过序...原创 2018-09-07 18:01:37 · 98882 阅读 · 12 评论 -
使用QTLseqr进行BSA-seq分析
QTLseqr是一个用于BSA-seq的R包,它能够读取GATK输出结果进行过滤,最终使用SNP-index和G 统计值的方法进行定位。我们这次尝试使用这个R包来替代我们自己手撸代码来分析一批水稻BSA数据,文章的数据在如何使用BSA方法进行遗传定位(水稻篇)提供了下载链接。首先是安装和加载R包,由于QTLseqr目前托管在GitHub上,因此需要用devtools才能安装。devtools:...原创 2019-10-05 19:14:16 · 12027 阅读 · 3 评论 -
使用ASMap构建高密度遗传图谱
在我大学的时候,构建遗传图谱靠的是人工跑胶,然后看胶图统计基因型。当时我用的SSCP(单分子构象多态性)技术区分单个碱基存在差异的等位基因,要放在4度过夜12小时,然后第二天银染显色,放在一个医学看片的设备上读条带。现在测序便宜了,简化基因组测序随随便便就能获得成千上万的分子标记。然而标记多有标记多的烦恼,就是以前的作图软件不好用了。以前的暴力穷举的方法在海量标记面前,几乎不可能在有限的时间里完...原创 2019-10-06 17:07:49 · 4218 阅读 · 1 评论 -
使用MAKER进行基因注释(高级篇之SNAP模型训练)
训练 ab initio 基因预测工具(以SNAP为例)对于一个新的物种而言,你大概率是没有一个高质量的基因模型去进行基因预测。但是我们可以利用EST序列(少部分物种估计有)、二代测序数据、同源物种蛋白序列,先直接用Maker做基因注释,尽管得到的模型可能不是特别的完美,但可以作为输入反复迭代运行Maker,从而提高最终的表现。这次使用的是下载的练习数据集(见附录)cd ~...原创 2018-09-10 11:54:03 · 3834 阅读 · 0 评论 -
如何做基因组survey
基因组survey在组装基因组之前一定要先对要组装的物种有一个大致的了解,判断其复杂程度, 标准如下简单基因组: 杂合度低于0.5%, GC含量在35%~65%, 重复序列低于50%二倍体普通基因组: 杂合度在0.5%~1.2%中间,重复序列低于50%。或杂合度低于0.5%,重复序列低于65%高复杂基因组: 杂合度>1.2% 或 重复率大于65%k-mers最简单...原创 2018-09-07 18:06:13 · 5526 阅读 · 0 评论 -
使用新版Falcon进行三代测序基因组组装
这里的新版指的是PacBio公司在2018年9月发布pb-assembly, 而这篇文章是在2018年9月30日发的。今年早些时候在参加三代培训时,听说PacBio会在今年对Falcon进行一些改变。前几天我在读 readthedocs上的Falcon文档时,发现了文档页面上方出现了这样两栏提醒其中pb_assembly就是新的FALCON组装套装在GitHub上的使用文档,经过了几天的...原创 2018-09-30 21:10:11 · 4781 阅读 · 0 评论 -
「Bionano系列」下机数据的BNX文件到底说了什么
最近我拿到了一批Bionano数据,用关键字 “Bionano+组装” 进行检索时,并没有发现任何的教程,所以这应是中文网络世界里第一个Bionano数据分析系列Bionano技术简单来说,就是给分子加上荧光标记,然后拍照,所以最原始的下机数据就是TIFF格式,但是用户拿到的一般都是经AutoDetect/IrysView 转换过的BNX格式。这篇文章主要就是讲讲BNX格式的具体含义。根据...原创 2018-12-24 11:52:22 · 1737 阅读 · 0 评论 -
「Bionano系列」下机原始数据过滤和评估
从这部分开始,就开始涉及一些软件的操作和数据分析,因此在进入正文之前,我们需要准备好环境。环境准备第一步:从 https://bionanogenomics.com/library/datasets/下载人类测试数据集,以及对应的NA12878人类基因组。wget http://bnxinstall.com/publicdatasets/DLS/20180413_NA12878_S3_co...原创 2018-12-24 11:52:48 · 1658 阅读 · 1 评论 -
Nanopore测序的基因组组装策略
最近拿到了nanopore的数据,尝试对其组装。目前用的是Canu,预计2个月内才能走完第一波分析,速度实在感人,所以翻了翻文献,找找组装方法。目前Nanopore卖点主要是两个角度:第一是Nanopore的读长长,某些情况下能够达到单条上M,但是这种情况可遇而不可求,很多时候只存在于宣传册上。另一个则是Nanpore便宜,这样就能够保证测序深度,从而提高组装质量。但是Nanopore也有...原创 2019-05-29 13:55:27 · 2745 阅读 · 0 评论 -
NECAT: Nanopore数据的高效组装工具
文章首发在个人博客: NECAT: Nanopore数据的高效组装工具NECAT是肖传乐老师团队开发的一个针对Nanopore数据组装的软件,目前该工具尚未发表,除了https://github.com/xiaochuanle/NECAT有软件的介绍外,暂时没有中文资料介绍NECAT的使用。太长不看的结论: Nanopore的组装推荐用下NECAT。组装之后是先用MEDAKA做一遍三代po...原创 2019-08-31 12:27:18 · 7435 阅读 · 0 评论 -
使用purge_haplogs处理基因组杂合区域
文章首发于个人博客 <xuzhougeng.top>FALCON和Canu的组装后会得到一个单倍型融合的基因组,用来表示二倍体基因组。之后,FALCON Unzip和Supernova这类软件进一步处理其中等位基因区域,将这部分区间进行拆分。当基因组某些区域可能有着比较高的杂合度,这会导致基因组该区域的两个单倍型被分别组装成primary contig, 而不是一个为prima...原创 2019-08-31 12:30:11 · 1307 阅读 · 0 评论 -
如何用binmapr进行遗传定位
binmapr是我折腾的一个R包,它能够将NGS测序得到SNP数据基于binmap进行纠错,用于更好的遗传定位。在阅读本文之前,请先花点时间看看Bin, Bin, Bin!Map, Map, Map Now!, 我只是将里面的步骤整理成R包方便调用而已。首先你得安装并加载R包。因为这个R包目前主要是方便自己使用,所以托管在GitHub上,需要用devtools进行安装devtools::in...原创 2019-10-01 21:29:59 · 4506 阅读 · 2 评论 -
使用MAKER进行基因注释(基础入门
在基因组注释上,MAKER算是一个很强大的分析流程。能够识别重复序列,将EST和蛋白序列比对到基因组,进行从头预测,并在最后整合这三个结果保证结果的可靠性。此外,MAKER还可以不断训练,最初的输出结果可以继续用作输入训练基因预测的算法,从而获取更高质量的基因模型。Maker的使用比较简单,在软件安装成后,会有一个”data”文件夹存放测试数据ls ~/opt/biosoft/ma...原创 2018-09-10 11:53:32 · 6669 阅读 · 0 评论