
生物信息
文章平均质量分 50
JasonKQLin
我欲仁,斯仁至矣!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
参考基因组中的大小写字母
在这 60 种重复区域家族中,Alu 和 MIR 家族属于 SINE 类型,L1 和 L2 家族属于 LINEs 类型,除 Simple repeats 和 Low complexity repeats 外的其它 54 种家族大部分属于 LTR 和 DNA 重复。经统计,人类基因组 60% 以上的重复属于散在重复序列,其中又以 Alu 和 L1 为主体,二者之和占散在重复序列的 80% 及全基因组重复区40%以上。原创 2025-04-25 11:09:38 · 329 阅读 · 0 评论 -
全基因组关联分析GWAS
WGBS常用来研究基因型(SNP)和表型的关系。用到的数据是基因组测序数据(WGS,WES,microarray)和临床信息,通过常规的或者新的统计方法去检验基因型和表型的相关性。原创 2024-12-13 11:01:55 · 524 阅读 · 0 评论 -
bsmap输出结果解释
516290和输出结果中的unique pairs: 257594对不上(257594*2=515188),相差的1102条是read 1和read 2完全反向互补的reads(bam格式中第7列是=,第9列是0)。对757427条记录进行拆解:516290(双端比对到同一染色体的reads数)+232457(单端比对上的reads数)+8680(双端比对到不同染色体的reads数)。r=0: 只输出唯一比对上的reads(包括单端和双端)S=1234:随机种子。原创 2024-12-04 00:21:09 · 527 阅读 · 0 评论 -
均匀狄利克雷先验
原创 2024-11-10 16:36:42 · 158 阅读 · 0 评论 -
gzip不同压缩等级的区别
Gzip supports different compression levels, which range from 1 (fastest, least compression) to 9 (slowest, most compression). Here’s what each level generally means:Level 1 (Fastest): This is the fastest compression level, which results in the least amount原创 2024-11-02 10:29:50 · 477 阅读 · 0 评论 -
Bootstrapping、Bagging 和 Boosting
bagging方法如下:bagging和boosting比较原创 2024-10-19 22:58:18 · 357 阅读 · 0 评论 -
孟德尔随机化
IVW的应用前提是所有的SNP均为有效的工具变量且相互之间完全独立。②加权中位数估计(Weighted median,WM):WM为所有的个体SNP效应值按照权重排序后得到的分布函数的中位数。当至少50%的信息来自于有效的工具变量时,WM可得到稳健的估计值。该基因型与年龄、性别等混杂因素无关。②估计工具变量对结局的作用,工具变量对结局的作用也是从所有的研究中估计出来的整体效应,这样可以拒绝单个研究的偏倚。①找工具变量,从其他研究中挑选特定基因作为工具变量,从基因库中挑选需要的和暴露相关的基因变量SNPs。原创 2024-10-07 16:42:54 · 960 阅读 · 0 评论 -
二进制分割策略
原创 2024-10-04 15:27:06 · 164 阅读 · 0 评论 -
辛普森法则
原创 2024-09-30 18:11:38 · 199 阅读 · 0 评论 -
两个beta函数乘积积分的含义
这个积分实际上是在计算所有导致 ( X ) 取特定值 ( x ) 的 ( V ) 和 ( U ) 的组合的概率。由于 ( V ) 和 ( U ) 是独立的,我们可以分别对它们的概率密度函数进行积分。总之,两个Beta分布的卷积积分是一个强大的工具,它允许我们结合两个概率分布的信息,以预测它们的和或总和的分布。其中 ( B(\alpha, \beta) ) 是Beta函数,用于归一化概率密度函数,确保积分等于1。这个积分表示了所有可能的 ( V ) 和 ( U ) 的组合,它们的和等于 ( x ) 的概率。原创 2024-09-30 15:15:28 · 495 阅读 · 0 评论 -
sam格式总结
256: 代表这个序列不是主要的比对,一条序列可能比对到参考序列的多个位置,只有一个是首要的比对位置,其他都是次要的。8: 代表这个序列的另一端序列没有比对到参考序列上,比如这条序列是R1,它对应的R2端序列没有比对到参考序列上。153 = 128+16+8+1(R2比对到负链接,R1没有匹配上)163 = 128+32+2+1(R2完全匹配,R1比对到负链)99 = 64+32+2+1 (R2比对到负链,R1完全匹配)32 :代表这个序列对应的另一端序列比对到参考序列的负链上。原创 2024-09-03 16:48:50 · 1161 阅读 · 0 评论 -
TCGA masked cnv含义
Masked copy number segments are generated using the same method except that a filtering step is performed that removes the Y chromosome and probe sets that were previously indicated to be associated with frequent germline copy-number variation.原创 2024-06-04 14:24:59 · 152 阅读 · 0 评论 -
HISAT2双端read比对结果解释
(51100+57804+33582+277922+1144382)/(4165142)=0.4803原创 2024-02-26 20:12:24 · 1064 阅读 · 0 评论 -
PCA和LDA
PCA is an unsupervised method that tries to find the directions of maximum variance in the data. It projects the data onto a new set of orthogonal axes, called principal components, that capture as much of the variability as possible. The first principal c原创 2023-09-05 15:46:16 · 333 阅读 · 0 评论 -
MDS,PCoA和PCA
Non-metric的MDS就叫做Principal Coordinates Analysis(PCoA),它跟PCA的区别在于用距离矩阵代替了PCA中的观察值。MDS分为两种类型:1,metric MDS,它使用距离矩阵进行计算;2,Non-metric MDS,用距离的排序构造矩阵。MDS: A distance matrix.(这里的距离包含各种各样的距离,或者距离的rank)原创 2023-09-05 11:42:19 · 503 阅读 · 0 评论 -
平均值和方差的点估计、区间估计
0,预备知识0.1,中心极限定理0.2,均值的标准误差0.3,卡方分布1,总体均值的无偏估计量2.1,当总体方差已知时对样本均值的描述(Z统计量)2.2,当总体方差未知时对样本均值的描述(t统计量)3.1,当总体方差已知,或者大样本量(n>200,总体方差未知)时,总体均值的区间估计。(在实际操作过程中会对样本进行抽样,每次取n个数出来,算平均值,这些平均值的期望就是对总体方差的无偏估计)3.2,当总体方差未知,总体均值的区间估计。4.1,总体方差的点估计(对任何分布原创 2023-08-29 09:59:30 · 1609 阅读 · 2 评论 -
为什么样本方差(sample variance)的分母是 n-1?
https://www.zhihu.com/question/20099757原创 2023-08-28 20:24:26 · 143 阅读 · 0 评论 -
RR、OR和HR区别
1,在医学统计学中,有三个关于比值的概念,分别为相对危险度(relative risk,RR,也称 risk ratio)、风险比(hazard ratio,HR)和优势比(odds ratio,OR)。很多同行一看见这三个概念就容易混绕。在此,笔者拟谈谈如何正确理解这三个概念的区别和联系。我们以病因学研究为例,先谈谈 OR 与 RR 的区别,因为这两个指标均可以从四格表中衍生出来。我们先来看看两个关于吸烟与肺癌的例子:RR(Relative Risk) - 相对危险度RR(Relative Risk转载 2023-08-20 15:52:24 · 1261 阅读 · 0 评论 -
chi-square, McNemar‘ exact, Mantel-Haenszel, Kappa, Fisher exact test区别
1,chi-square test2, McNemar’ exact test3,Mantel-Haenszel test4,Kappa test5,Fisher exact test原创 2023-04-03 19:06:00 · 2238 阅读 · 0 评论 -
bismark和bsmap比对原理
任意取一条比对后的reads,经过PCR后得到BSW,BSWR,BSC,BSCR四种reads,因为BSW和BSWR完全互补,BSC和BSCR完全互补,我们只需要取BSW和BSCR去查看就好了(如果BSW能比对上,那么BSWR一定也可以比对上)。1,watson链和crick链都用来做参考基因组,这样只要容许有T比对到C或者T上,就可以实现所有的比对;2,只用watson链做参考基因组,既需要容许有T比对到C或者T上,又需要容许A比对到A或G上。原创 2023-04-26 11:08:33 · 1643 阅读 · 0 评论 -
常用序列比对算法总结
常用比对算法总结原创 2021-12-07 09:49:57 · 5731 阅读 · 0 评论 -
WGCNA分析之一-------理清概念
1,定义WGCNA即Weighted gene co-expression network analysis,加权基因共表达网络分析。2,有什么用2.1 将共表达的一组基因放在一起研究,可以得到比单个上调、下调基因更多的信息;2.2 鉴定"hub gene"(即与其它基因关系密切的基因、处于中心位置的基因、有重要作用的基因);2.3 探究基因模块(一组共表达的基因)与性状(疾病状态)之间的关系。3,输入数据的格式RPKM,FPKM和标准化之后的counts值等等都可以。但必须是以样本为单位进行原创 2021-01-07 22:47:46 · 1986 阅读 · 0 评论 -
不同转录组测序方法总结
1,有参与无参的区别有参和无参指的是有无参考基因组,对于没有参考基因组的物种,采用如下的处理方法:无参考基因组的真核生物转录组项目使用Illumina测序平台,获得测序原始数据后,首先进行质控拼接,并进一步对拼接所得转录本进行功能注释、SNP、SSR标记开发等分析。在此基础上,也可以进行多个样本的差异基因表达分析和差异基因功能富集分析等,用于发现功能基因,为下一步研究提供方向。2,globin去除与否珠蛋白(globin)是一类能够通过铁卟啉环可逆性结合氧的呼吸性蛋白质,广泛存在于细菌、真菌、植物.原创 2021-01-03 00:26:17 · 14022 阅读 · 0 评论 -
RPKM vs. FPKM vs. TPM
1,全称RPKM: Reads Per Kilobase MillionFPKM: Fragments Per Kiolbase MillionTPM: Transcripts Per MillionRPKM vs. FPKM二者类似,RPKM针对单端测序,测得的一条序列就叫做一条reads;FPKM针对双端测序,测序得到的Read 1和Read 2合起来称为一个fragment。如果严...原创 2019-08-09 01:00:44 · 2788 阅读 · 0 评论 -
Normalization方法
1,处理生物学重复问题在生物学实验中,常常需要做3次或以上的重复,但在用数据时,往往要考虑用哪个重复去代表这个状态,比较常用的方法貌似是取平均值,但更好的貌似是下面这种(from L1000):L1000 experiments are typically done in 3 or more biological replicates. We derive a consensus replic...原创 2019-06-15 16:38:56 · 750 阅读 · 0 评论 -
RNAseq Tophat2 library-type
1,RNAseq library typeRNAseq的文库分为链特异性(strand-specific)和非链特异性(non-strand-specific)两种;其中链特异性又分为去掉cDNA第一条链的建库方法,即保留第二条链,参考tophat2软件命名为fr-secondstrand,以及保留第一条链的fr-firststrand方法。Note:RNAseq建库过程首先要将mRNA反转为...原创 2019-01-21 16:53:19 · 1204 阅读 · 0 评论 -
一文学会制作R包
R语言小巧精悍,能在多个平台上快速安装,具有众多的统计包,能快速画出还算美观的图(推荐ggplot2),因此在编程语言的舞台上占有一席之地。对于生物狗来说,主要用下面两种方式来安装R包:1,install.packages()2,source(“https://bioconductor.org/biocLite.R”)biocLite()用别人的包很爽,自己开发一个也很有趣,下面来谈...原创 2018-11-18 22:07:01 · 587 阅读 · 0 评论 -
Kaplan-Meier plot cutoff选择
Kaplan-Meier plot在生物医学中很常见,主要用来做预后分析,比如可以根据gene A的表达量把病人分成两组,用KM plot去比较哪组病人预后好,进而可以得出gene A的表达量高低与病人预后好坏相关性的结论。画KM plot时,有时候会比较纠结怎样对病人进行分组,如何来设置分组的cutoff。经过大量的文献调研,我发现下面几条规律:1,在有充分的证据定义gene A的表达量在某...原创 2018-10-30 22:56:30 · 5723 阅读 · 1 评论 -
R DESeq2 详解
DESeq2结果p-value和padj设为NA的理由:Note on p-values set to NA: some values in the results table can be set to NA for one of the following reasons:If within a row, all samples have zero counts, the baseMea...原创 2018-10-17 20:01:20 · 14012 阅读 · 0 评论