宏基因组数据分析：差异分析（LEfSe安装使用及LDA score计算）

最新推荐文章于 2025-01-09 14:18:28 发布

__dys__

最新推荐文章于 2025-01-09 14:18:28 发布

阅读量2w

点赞数 15

分类专栏：宏基因组文章标签：经验分享算法数据分析

本文链接：https://blog.youkuaiyun.com/weixin_42072765/article/details/108356184

版权

LEfSe是一种用于宏基因组数据分析的工具，它结合统计显著性和生物一致性来识别不同分类群之间的区分特征。本文介绍了LEfSe的原理、LDA score计算方法、安装过程以及如何进行差异分析、绘制各种图表的详细步骤。通过对宏基因组数据的处理和LEfSe分析，可以发现不同样本组间的显著生物标志物。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

导读

LEfSe（Linear discriminant analysis Effect Size）通过将用于统计显着性的标准检验与编码生物一致性和效果相关性的检验相结合，确定最有可能解释类别之间差异的特征。
LEfSe分析可以实现多个分组之间的比较，还进行分组比较的内部进行亚组比较分析，从而找到组间在丰度上有显著差异的物种（即biomaker）。

原理

在这里插入图片描述

首先在多组样本中采用的非参数检验Kruskal-Wallis秩和检验检测不同分组间丰度差异显著的特征；
然后在上一步中获得的显著差异特征，用成组的Wilcoxon秩和检验进行组间差异分析（若没有亚组，该步跳过）；
最后用线性判别分析（LDA）对数据进行分类和评估差异显著的物种的影响力（即LDA score）。

LDA score计算

计算步骤包括（详细计算过程看源码）：

拟合lda模型，获取第一特征向量；
对第一特征向量进行标准化；
根据标准化后的第一特征向量，计算样本新坐标；
根据分组信息，计算组间距离，作为效应系数；
LDA score = 效应系数 * 标准化后特征向量；
对LDA score进行log转换。

def test_lda_r(cls,feats,cl_sl,boots,fract_sample,lda_th,tol_min,nlogs):
    fk = list(feats.keys())
    means = dict([(k,[]) for k in feats.keys()])
    feats['class'] = list(cls['class'])
    clss = list(set(feats['class']))

    for uu,k in enumerate(fk):
        if k == 'class':
            continue

        ff = [(feats['class'][i],v) for i,v in enumerate(feats[k])]

        for c in clss:
            if len(set([float(v[1]) for v in ff if v[0] == c])) > max(float(feats['class'].count(c))*0.5,4):
                continue

            for i,v in enumerate(feats[k]):
                if feats['class'][i] == c:
                    feats[k][i] = math.fabs(feats[k][i] + lrand.normalvariate(0.0,max(feats[k][i]*0.05,0.01)))

    rdict = {
   }

    for a,b in feats.items():
        if a == 'class' or a == 'subclass' or a == 'subject':
            rdict[a] = robjects.StrVector(b)
        else:
            rdict[a] = robjects.FloatVector(b)

    robjects.globalenv["d"] = robjects.DataFrame(rdict)
    lfk = len(feats[fk[0]])
    rfk = int(float(len(feats[fk[0]]))*fract_sample)
    f = "class ~ "+fk[0]

    for k in fk[1:]:
        f += " + " + k.strip()

    ncl = len(set(cls['class']))
    min_cl = int(float(min([cls['class'].count(c) for c in set

最低0.47元/天解锁文章