线性模型(linear model)

机器学习基本概念

Regression

要找的函数的输出是一个数值(scalar),这样的机器学习任务我们称之为Regression

Regression举例

假如要预测明天的pm2.5指数,我们可以通过输入种种和pm2.5相关的信息,最终输出明天的pm2.5值

Classification

给出选项,让机器在选项中进行选择的任务我们称之为Classification

Classification举例

假如要判断一封电子邮件是不是垃圾邮件,我们的输入是一封电子邮件,输出是 是或否,是和否都是我们给出的结果

Structured Learning

Structured Learning举例

比如让机器输出一张图片或者写一篇文章,让机器产出一个有结构的东西的任务叫做Structured Learning

机器怎么找到一个函数呢?

1,Function with unKnown Parameter

带有未知参数的函数,例如y = b + wx y是我们的目标 x是我们的输入 w和b则是未知参数未知参数基于领域内知识

2,Defin

### GWAS 理论模型介绍 GWAS(全基因组关联研究)是现代遗传学中一种重要的研究方法,用于识别与复杂性状或疾病相关的遗传变异。以下是三种常见的理论模型线性模型、Logistic模型和混合模型的详细信息及区别。 #### 线性模型 (Linear Model) 线性模型是一种广泛应用于连续型性状的统计模型。在GWAS中,它通常用于检测基因型与连续型表型之间的关联。该模型假设表型值 $y$ 是由基因型 $x$ 和其他协变量共同决定的,并且这种关系是线性的[^1]。 模型公式如下: ```python y = β0 + β1 * x + ε ``` - $y$: 表型值。 - $x$: 基因型(例如0, 1, 2表示等位基因计数)。 - $β0$: 截距项。 - $β1$: 基因型对表型的影响大小。 - $ε$: 随机误差项。 线性模型的优点在于其简单性和计算效率,但它仅适用于连续型性状,且假设误差服从正态分布。 #### Logistic模型 (Logistic Model) Logistic模型主要用于二分类性状(如患病/未患病)。它通过将线性预测值映射到概率空间来估计基因型对疾病风险的影响[^2]。模型公式为: ```python logit(p) = β0 + β1 * x ``` - $p$: 患病概率。 - $logit(p)$: 概率的对数比值(log odds)。 - 其他参数意义同上。 Logistic模型通过最大似然估计法拟合参数,能够直接输出基因型对疾病风险的相对风险(Odds Ratio, OR)。然而,它的计算复杂度较高,尤其在大规模数据集上。 #### 混合模型 (Mixed Model) 混合模型结合了固定效应和随机效应,以解决群体结构和亲缘关系对关联分析的干扰问题。在GWAS中,它常用于校正隐性相关性[^3]。模型公式为: ```python y = Xβ + Zγ + ε ``` - $Xβ$: 固定效应部分,包含基因型和其他协变量的影响。 - $Zγ$: 随机效应部分,用于捕捉群体结构或个体间的亲缘关系。 - $ε$: 随机误差项。 混合模型通过引入随机效应矩阵(如亲缘关系矩阵,Kinship Matrix),可以有效降低假阳性率。但其计算成本较高,尤其是在处理大规模数据时。 #### 模型间的区别 | 特性 | 线性模型 | Logistic模型 | 混合模型 | |--------------------|-----------------------|------------------------|----------------------| | 数据类型 | 连续型性状 | 二分类性状 | 任何类型性状 | | 主要用途 | 检测基因型与连续性状关联 | 检测基因型与疾病风险关联 | 校正群体结构和亲缘关系 | | 假设条件 | 正态分布误差 | 二项分布误差 | 包含随机效应 | | 计算复杂度 | 较低 | 中等 | 较高 | ### 示例代码 以下是一个简单的Python代码示例,展示如何使用 `statsmodels` 库实现线性模型和Logistic模型: ```python import statsmodels.api as sm # 线性模型示例 X_linear = sm.add_constant(data['genotype']) model_linear = sm.OLS(data['phenotype'], X_linear).fit() print(model_linear.summary()) # Logistic模型示例 X_logistic = sm.add_constant(data['genotype']) model_logistic = sm.Logit(data['disease_status'], X_logistic).fit() print(model_logistic.summary()) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值