- 博客(39)
- 收藏
- 关注
原创 「干活」基因组组装之前要做的:Genome Survey
Genome Survey:jellyfish + kmc + Genome Scope 2.0 + Smugdeplot
2022-10-16 15:33:46
1124
原创 「一文搞定序列比对算法」Global以及Local Alignment序列比对算法的实现
Global/Local Alignment序列比对算法的Python实现
2022-10-08 13:46:31
4930
2
原创 「OrthoFinder2」直系同源基因的寻找以及Orthogroup构建
ortholog + paralog的鉴定、Orthogroup的构建~
2022-09-20 14:34:11
5984
2
原创 【Jellyfish和KMC,我应该选谁?】
比较软件:Jellyfish 2.3.0KMC 3.2.1使用数据:大肠杆菌基因组### count速度对比# 1.jellyfishtime jellyfish count -m 15 -o jf.Ecoli.15mer -c 3 -s 1G -t 16 Ecoli.fasta &# real 73m41.868s# user 23m1.113s# sys 28m0.840stime jellyfish dump -c -t jf.Ecoli.15mer
2022-05-12 23:57:30
691
原创 【知识点】什么是homoeolog?
homoeolog的概念从文字定义上来了解 —— 什么是homoeolog?指由物种形成事件(e.g. 杂交)导致将原本分化的gene或者chromosome又重新融合进了一个基因组的情况。一次物种形成事件,形成了物种A和物种B,经过几百万年之后,物种A和物种B的杂交种,生成了一个物种C。物种C基因组内,对应物种A和物种B同源的基因/染色体组分,即为homoeologs上述“重新融合”一般指异源多倍体的形成。从流程图的形式来进一步明晰概念。什么是positional homoeology?
2022-05-12 14:29:31
621
原创 【如何使用Jellyfish进行Kmer频数统计分析?】2022年版本
软件概述将基因组等序列文件,按长度为K的字符串进行切割、归类以及频数统计。软件安装软件版本:2.3.0wget https://github.com/gmarcais/Jellyfish/releases/download/v2.3.0/jellyfish-2.3.0.tar.gz# 1151287 (1.1M)# 安装包就1.1M,可以说是压缩效率非常高了./configure prefix=/opt/biosoft/Jellyfishmakemake install echo 'P
2022-05-11 11:26:33
2368
3
原创 【SubPhaser-多倍体亚基因组分型流程解读】
写本篇文章,主要目的是从tmp文件和软件运行信息解读亚基因组分型分析。进入tmp文件夹之后,其实就可以看到对应的文件:如何查看什么步骤产生了怎么样的结果文件?上述在进行SubPhaser试运行的时候,使用了nohup命令,该软件调用了什么软件、产生了什么结果文件等信息,都是记录在最终的nohup.out。1、参数配置从截图中,我们可以得到很多的信息分析所使用的k是多少(默认情况下,k=15)min_fold是多少min_freq是多少lower_count是多少LTRfinder所使
2022-05-09 17:24:25
1460
原创 【如何拆分多倍体亚基因组?】SubPhaser软件
SubPhaser原文链接:https://nph.onlinelibrary.wiley.com/doi/10.1111/nph.18173
2022-05-02 22:10:51
1315
原创 【vscode设置对应版本的R】
最近蹭一波热度,重新开始用vscode写R。但是在配置过程中还是会遇到一些问题,遇到有意思的就记录下来。当通过Rpath修改/添加了R可执行文件,如下:但还是发现无法设置成对应版本的R,该怎么办?【标注】这边已经设置成R.3.6.3,但是radian终端显示的还是R.4.0.0如果使用“Rpath”而没有使用“r.rterm.option”会怎么样?下面这个例子,我的R.3.6.3安装了devtools,但是R4.0.0中没有安装,并且设置Rpath为“R.exe”,但r.rterm.opt
2022-04-15 21:20:18
1948
原创 【哈佛大学:计算生物学 & 生物信息学】学习记录(五)
为什么没有(四)?(四)主要说的就是SAM格式,网上一搜就有,就没必要了(五)就草草地记录了Chapter 4.1: RNA-Seq Applications - Chapter 5.2 Differential RNA-SeqRNA-Seq的应用生物体内的转录&翻译过程RNA-Seq建库流程1、提取所有的mRNA或所有的RNA2、去除DNA(在RNA建库流程中,DNA被认为是污染物)可选过程:去除rRNA(选择mRNA)3、将RNA片段打断(二代测序读长问题)4、将RNA逆转
2022-04-15 21:18:55
1437
原创 【哈佛大学:计算生物学 & 生物信息学】学习记录(三)
局部比对算法 —— Smith-Waterman AlgorithmSwimt-Waterman算法本质上是一种Dynamic Programming(动态规划算法),和Needleman算法有许多相同之处。其分为3个步骤:Initialization —— Matrix Filling —— Trace Back。Swith-Waterman算法相较于Needleman-Wunsch算法最大的区别就在于,在“matrix preparation阶段”,其用0表示mismatch的数值和比对过程中产生的
2022-04-15 21:18:01
1298
原创 【群体遗传】Fst(群体间分化指数)
(1)FSTF_{ST}FST是什么?含义是什么?FSTF_{ST}FST,全称为fixation index,是一种用于衡量群体间分化程度的统计检验量(由Wright’s F-statistics衍生而来)。 一般从SNP或microsatellites数据计算得到,且一般用在群体遗传学分析中。microsatellites,即微卫星序列,是在一种串列重复序列 —— https://en.wikipedia.org/wiki/Microsatellite但是现在WGS和RAD-Seq都已经非常
2022-03-14 21:40:22
11484
原创 【Centos8 启动httpd服务】
今天想着是要重新配置一下我的Centos8虚拟机,目的是为了以后搭自己的博客有一个站点,同时在自己电脑上使劲造,也不用怕学校服务器出事怪到我头上。于是就开始了下面这一步:# 启动httpd服务systemctl start httpd.service运行上述命令的时候,会出现如下报错Failed to start httpd.service: Unit httpd.service not found.然后,就想着用yum安装httpd,然而。。。yum install httpd -y#
2022-03-04 23:11:06
4135
1
原创 浅谈统计检验效能和FDR
最近写的文章,朋友过目后提出的问题让我自己感觉到本科阶段的学习没有做一个非常好的总结,应付完考试之后,早已忘到九霄云外,现在的我通过写博客,一点一点找回来。什么是统计检验的效能(power)?我们首先来回顾一下,在假设检验中,我们需要什么。(1)原假设(H0H_{0}H0):可以认为是辩论赛中,保守一方的观点(e.g. 超级英雄和普通人没啥区别)(2)备择假设(HA/H1H_{A}/H_{1}HA/H1):可以类比为辩论赛中,激进一方的观点(e.g. 超级英雄就是爷,就是比普通人牛)在做计算
2022-03-02 11:04:21
2512
原创 【一文读懂生物学重复与技术重复】
在RNA-Seq等测序设计中,生物学重复和技术重复,是非常需要注意的问题。那么问题就来了,生物学重复和技术重复,到底是什么?它们是如何影响我们的实验设计的。生物学重复(biological replicate):可以理解为我们对一个群体进行研究,但是我们不会对整个群体进行检测(考虑到成本和工作量的问题,我们肯定也不会采取这种地毯式的方法),只是抽取群体中的一部分进行检测,用样本来代表总体。这边样本个数,实际上就是生物学重复数。技术重复(technical replicate):对一个样本的数值进行多
2022-02-28 22:29:03
12098
原创 【群体遗传】Treemix四倍体分析 & 最优m值选择
之前已经有生信菜鸟团前辈写过关于Treemix的分析,但值得关注的是,现在的软件大部分都只适用于二倍体,那今天介绍一下四倍体怎么进行Treemix分析以及如何选择最优m值。
2022-02-22 14:35:00
2495
2
原创 【哈佛大学:计算生物学 & 生物信息学】学习记录(二)
笔记主要内容:1~3代测序技术,fastq文件 & FASTQC(1)测序技术1、一代测序技术:Sanger Sequencing测序条件:需要有足够的量的单链DNA,即相同序列需要达到多少数量才能进行测序。测序过程:以一条链作为模板,DNA聚合酶将环境中的材料(dNTP & ddNTP),进行结合,即合成另一条链(ddNTP结合之后,DNA合成反应终止)。下图所示,SEQUENCE (END)代表对应DNA序列的最后一个碱基是什么。参考阅读资料:https://zhuanlan.
2022-01-29 16:59:07
868
原创 【哈佛大学:计算生物学 & 生物信息学】学习记录(一)
第一部分 —— 关于计算生物学 & 生物信息学 & 本课程内容(1)Protein Wave【技术】Sanger测序了一个蛋白质序列【算法】Needleman-Wunsch algorithm【数据库】PDB(Protein Data Bank,蛋白质3D结构数据库)【算法】BLAST —— instead of pairwise sequence alignment【比赛】CASP —— predicting the protein structure【数据库】BLOCKS
2022-01-29 16:57:38
2360
3
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人