
生物信息学
FarmerJohn
Java后端工程师。
肿瘤学研究生;平时也喜欢研究算法、统计学、机器学习、深度学习、贝叶斯分析、临床数据分析、生信数据分析、Android开发。
展开
-
提高非参数检验功效的潜在方法
对于非正态分布的数据,当样本量不够大(如小于30)时,Wilcoxon 检验的功效较低。如何提高非参数检验的功效,这是个不容易的问题。Wilcoxon是一个特异度很高的检验方法,但小样本时灵敏度较低。如果简单放宽检验水准,将会迅速损失特异度,并不是上上策。小样本的差异分析一直是个头疼的问题,对于两组样本量都少于30的情况,各类非参数检验都很低效。除了尝试对数据log或开根号转化等数据预处理技巧外,...原创 2019-11-17 02:20:00 · 2609 阅读 · 0 评论 -
富集分析
说到富集分析,做生信的童鞋立刻就会想到GO/KEGG Enrichment、GSEA这两大类方法。但这只是富集分析的两种常见形式,富集分析的概念要更广。GO/KEGG Enrichment 这一类富集分析是最简单的富集方法,只关心基因集的富集比例;GSEA类方法更进一层,还关心基因集在打分排序中的分布情况。我们经常使用富集分析的p值以及FDR值,判断是否富集显著。然而对应的统计量如何计算?富集分析...原创 2019-11-14 18:00:01 · 18410 阅读 · 3 评论 -
数据分析中的严谨问题
数据分析中,不少人存在或多或少的不严谨操作。本文大致列举一些关于Fold Change的计算Fold Change是差异biomarker筛选的一个常用步骤,一般大家都使用两组的均值相除进行计算。但是,对于非正态分布,使用均值相除是否合理?以下找几个特殊案例进行分析存在异常值时A组:1, 2, 2, 3, 3, 3, 4, 4, 4, 5, 5, 6, 7, 10, 36, 均值为...原创 2019-11-06 18:31:22 · 4624 阅读 · 0 评论 -
相关性系数替代模型预测得分
我们知道,构建模型后(得到权重参数),预测某个样本的得分(输出),只需要将该样本的按照模型的转化公式计算即可。但是,笔者最近看到两篇CNS的转录组学文献,采用了另一种构建样本得分的方法,使用相关性系数替代预测得分。具体来讲,这些文献中,在求得模型的权重向量W后,对于样本X,其预测得分用替代。而常规做法中,预测得分采用的是。上述score与predict之间是否总是一致,一致性是否健壮?...原创 2019-11-04 11:13:31 · 2072 阅读 · 0 评论 -
BWT算法原理解读
测序数据alignment有一些不错的算法,其中Burrows–Wheeler transform算法(简称BWT)是非常高效的一种。本文简单总结下BWT算法思路和原理。BWT的计算与还原BWT计算及还原步骤此处不赘述,大致如下图(图1和图2)所示,详细讲解可参考其他资料。 图1:BWT计算(图片来自宾州大学王凯老师) ...原创 2019-07-31 12:17:21 · 12644 阅读 · 2 评论 -
偏最小二乘法 Partial Least Squares
本文前部分摘自:偏最小二乘法回归(Partial Least Squares Regression),后半部分原创。诸如基因组学、转录组学、蛋白组学及代谢组学等高通量数据分析,由于自变量数目大于病例数(未知数大于方程个数),无法直接使用传统的统计分析模型。比如,线性回归的窘境:如果样例数m相比特征数n少(m<n)或者特征间线性相关时,由于(n*n矩阵)的秩小于特征个数(即不可逆)。因此最...转载 2019-06-24 00:15:58 · 79300 阅读 · 9 评论 -
高维数据中特征筛选方法的思考总结——多变量分析筛选法
前言:之前的文章(高维数据中特征筛选方法的思考总结——单变量分析筛选法)中,对单变量分析筛选变量进行了初步考量,本文将进一步总结多变量分析筛选法。由于本文多处摘录网上的博客,只是进行了归纳整理,因此笔者将本文定性为转载类(转载请注明出处:https://blog.youkuaiyun.com/fjsd155/article/details/93754257)。多变量分析方法根据建模特点可以分为线性降维和非...转载 2019-06-26 17:11:31 · 31213 阅读 · 2 评论 -
高维数据中特征筛选方法的思考总结——单变量分析筛选法
基因组学、转录组学、蛋白组学及代谢组学等生信问题(高通量数据)中,面临的第一步往往就是降维(或者说筛选特征)。降维方法分为两大类:单变量分析降维法、多变量分析降维法。单变量降维常常使用FC值或者P值,多变量降维常常使用LASSO和PLS等方法。对于这个问题,将分为两篇文章进行探讨,本文着重探讨单变量分析筛选法。常规方法的问题常规的方法是使用P值法和FC值法。所谓P值法,就是对两组样本进行 ...原创 2019-06-11 21:06:44 · 4794 阅读 · 0 评论 -
非靶向代谢组学数据分析方法总结
生物信息学早已不再局限于基因组学领域了,后基因组学越来越受到关注,并且这几年“多组学”的也研究越来越多。其中,代谢组学是相对比较年轻的一门学科,“代谢组”(metabolome)的概念于1998第一次被提出。基因组学和转录组学是生物信息的上游,更多的体现的是生物活动的内在本质因素,而代谢组学是生物信息的最下游,体现的是生物活动的表型结果。代谢组学分为靶向代谢组学和非靶向代谢组学,本文将结合本人的经...原创 2019-04-30 18:53:10 · 66616 阅读 · 0 评论 -
代谢组学精华汇总
代谢组学的介绍代谢组学那些事儿 代谢组数据处理代谢组学数据分析的统计学方法综述典型机器学习算法在代谢组学数据分析中的应用和比较代谢组学数据处理非靶向代谢组学数据处理的基本流程代谢组学生物信息分析的那些事儿一文看懂主成分分析运用ROC曲线筛选生物标志物的策略 关于筛选标记物筛选差异代谢产物通常基于OPLS-DA模型,因为它更易于进行模型解释,所有跟...原创 2018-10-01 22:26:58 · 58391 阅读 · 3 评论 -
代谢组学数据分析的统计学方法综述
转自:https://mp.weixin.qq.com/s/XThAKeSBriHbeYKlU96pmA代谢组学研究产生大量的数据,这些数据具有高维、小样本、高噪声等复杂特征。如何从复杂的代谢组学数据中提取出有价值的信息,筛选出潜在的生物标志物成为近年来代谢组学研究的热点和难点。据此,本文针对目前代谢组学数据分析中的常用统计学方法及其研究进展进行介绍。代谢组学数据的特点代谢组学是...转载 2018-10-01 21:34:14 · 37824 阅读 · 4 评论 -
字符串的非精确匹配
对于字符串的exact matching,KMP、Suffix Tree等方法是利器,但是对于inexact matching,这些方法就有些吃力了,虽然也能使用Suffix Tree解决一些错配问题或通配符问题,但是使用范围很有限。对于inexact matching,一般使用Dynamic Programming处理。DP是老朋友了,时隔6年,好久不见。这里使用的DP比较简单,转移方程容易理解...原创 2018-05-08 13:34:17 · 1432 阅读 · 0 评论 -
生物信息学算法笔记
入门生物信息学,选了一条比较难的路,直接从底层算法开始,这种做法其实不太明智。读了"Algorithms on Strings, Trees and Sequences",一本厚厚的算法书,后半部分其实读得有些粗糙。今天读完了第一遍,总的来说还是有些收获,将笔记记录于此。全书总共分为四部分:基本字符串算法、后缀树算法、非精确匹配算法、映射与测序。基本字符串算法以KMP为代表,这个是基本功,而且...原创 2018-05-19 22:14:17 · 14807 阅读 · 0 评论 -
后缀树系列三:后缀树的应用
前面两篇转载的后缀树系列文章已经描述了后缀树的线性构建算法。创建后缀树的O(n)算法,除了1995年E. Ukkonen大幅简化的算法,还有Peter Weiner的73年年度最佳算法、Edward McCreight1976的改进算法、Juha Kärkkäinen 和 Peter Sanders2003年进一步简化的线性算法,可以根据自己喜好选择。 转载的本系列文章应该预设有第三篇的(后缀树...原创 2018-05-06 14:41:59 · 3297 阅读 · 0 评论 -
后缀树系列二:线性时间内构建后缀树(包含代码实现)
上一篇文章已经介绍了后缀树的前前后后的知识,并且采用各种技巧逼近线性时间了,至于具体怎么操作大家看完之后应该多多少少有点想法了。而之所以将本文跟上一篇文章分开,主要考虑有三:第一,和在一起文章就会太长了,看的头疼。第二,理论跟实现本来就有差异,本文中一些具体实现并没有严格遵守上文中的条条框框。当然了,主题思想是一样的。第三,本文会从具体实现的角度,在实现过程中进一步阐述上文中的原理...转载 2018-05-06 00:36:43 · 658 阅读 · 0 评论 -
后缀树系列一:概念以及实现原理( the Ukkonen algorithm)
首先说明一下后缀树系列一共会有三篇文章,本文先介绍基本概念以及如何线性时间内构件后缀树,第二篇文章会详细介绍怎么实现后缀树(包含实现代码),第三篇会着重谈一谈后缀树的应用。 本文分为三个部分,首先介绍一下后缀树的“前身”– trie树以及后缀树的概念;然后介绍一下怎么通过trie树在平方时间内构件后缀树;最后介绍一下怎么改进从而可以在线性时间内构件后缀树;一,从t...转载 2018-05-06 00:33:18 · 5506 阅读 · 0 评论