40、选择模型与数据采集相关知识解析

选择模型与数据采集相关知识解析

1. 常见选择模型介绍

在选择模型领域,有多种不同的模型可供使用,每种模型都有其特点和适用场景。
- Logit 和 Multinomial Logits 模型
- 原理 :$\log \left(\frac{P(y = s|x)}{P(y = t|x)}\right) = B_ix_i - B_jx_j$,该比例与除 $s$ 和 $t$ 之外的所有替代方案无关,意味着 $s$ 相对于 $t$ 的相对偏好不受其他替代方案的存在或属性影响。但这一特性存在局限性,如“红巴士/蓝巴士问题”所示。假设通勤者在汽车和红巴士之间选择且偏好相同,加入蓝巴士后,根据独立性假设(IIA),选择汽车的概率变为 33%,选择红巴士或蓝巴士的概率变为 67%,这与直觉不符。
- 优势与不足 :尽管存在强假设,但由于其简单性和易于实现,它们是最常见的选择模型。实践表明,即使在违反 IIA 假设的情况下,这些模型也能表现良好。
- Probit 模型
- 原理 :当 $f(\epsilon)$ 选择多元正态分布时,就得到了 Probit 模型。给定 $\sigma^2$($f(\epsilon)$ 的协方差矩阵),选择概率为 $P(y = s|x) = \int_{\Sigma_0} \frac{e^{-\epsilon^T \epsilon / 2\sigma^2}}{\sqrt{(2\pi)^{|S|} |\sigma^2|}} d\epsilon$,其中 $\Sigma_0 \subset \mathbb{R}^{|S|}$ 且 $\forall t: \epsilon_s > B_tx_t + \epsilon_t - B_sx_s$。
- 优势 :该模型的主要优点是允许误差项之间存在相关性,具有完整协方差矩阵的一般模型可以允许替代方案之间的任何可能替代模式,并且在存在未考虑的偏好异质性时是无偏的。但选择概率没有封闭形式,必须通过模拟或数值方法(如高斯求积)进行评估。
- Nested Logit 模型
- 原理 :该模型通过允许选定替代方案组的效用函数的随机分量相关,放宽了 MNL 模型的 IIA 假设。$f(\epsilon)$ 采用广义极值分布,其累积分布为 $F(\epsilon) = e^{-\sum_{p \in P} \left(\sum_{s \in p} \left(-e^{-\epsilon_s / \lambda_p}\right)^{\lambda_p}\right)}$,选择概率为 $P(y = s|x) = \sum_{p \in P|s \in p} \frac{e^{B_sx_s / \lambda_p} \left(\sum_{t \in p} e^{B_tx_t / \lambda_p}\right)^{\lambda_p - 1}}{\sum_{q \in P} \left(\sum_{t \in q} e^{B_tx_t / \lambda_q}\right)^{\lambda_q}}$,通常可分解为两个 logit 的乘积。
- 应用问题 :具有讽刺意味的是,嵌套 logit 模型最常见的动机“红/蓝巴士悖论”,是选择选项之间误差完全相关($\lambda_p = 0$)的情况,该模型无法捕捉这种行为。此外,还有非归一化嵌套 logit 模型,它可以解决“红巴士/蓝巴士问题”,但与随机效用最大化不一致。
- Random Effects MNL 模型
- 原理 :混合模型在 MNL 模型的部分价值中添加了一个随机分量 $\alpha$,$B_{jk} = B_j + \alpha_{jk}$,$P_k(y = i|x, \alpha) = \frac{e^{B_{jk}x_i}}{\sum_{j \in S} e^{B_{jk}x_j}}$,$P(y = i|x) = \int_{\Omega} P_k(y = i|x, \alpha) g(\alpha) d\alpha$。
- 特点 :该模型的概念基础是部分价值可能因个体而异,随机分量捕捉了这种变化。在每个受访者或患者案例的选择中,IIA 仍然成立,并且该模型可以捕捉总体中的任何替代模式。
- Mixture MNL 模型
- 原理 :混合模型将选择概率预测为一组具有不同部分价值的 MNL 模型的加权和。存在一个潜在变量 $c \in C$,$P_c(y = i|x, c) = \frac{e^{B_{jc}x_i}}{\sum_{j \in S} e^{B_{jc}x_j}}$,$P(y = i|x) = \sum_{c \in C} P_c(y = i|x) P(c)$。
- 概念解释 :从概念上讲,市场中的每个利益相关者都属于某个类别 $c$,每个类别使用不同的效用函数,它相当于 $g(\alpha)$ 具有有限支持的随机效应 MNL 模型。
- Ordered Logit 和 Probit 模型
- 原理 :当响应具有序数性质时,如 Likert 量表或处方覆盖水平,可使用这些模型。假设每个响应代表被评估对象效用的一个范围,以处方覆盖为例,不同效用范围对应不同的覆盖层级,其概率计算方式如下:
- $P(\text{Tier} = \text{Not Covered}) = F(v_1 - U)$
- $P(\text{Tier} = 4) = F(v_2 - U) - F(v_1 - U)$
- $P(\text{Tier} = 3) = F(v_3 - U) - F(v_2 - U)$
- $P(\text{Tier} = 2) = F(v_4 - U) - F(v_3 - U)$
- $P(\text{Tier} = 1) = 1 - F(v_4 - U)$
- 分类 :如果效用误差是正态的,$F$ 是累积正态函数,模型称为有序 Probit;如果效用误差是逻辑的,$F$ 是逻辑函数,模型称为有序 Logit。

以下是这些模型的特点总结表格:
| 模型名称 | 原理特点 | 优势 | 不足 |
| ---- | ---- | ---- | ---- |
| Logit 和 Multinomial Logits 模型 | 比例与部分替代方案无关 | 简单易实现 | 存在 IIA 假设局限性 |
| Probit 模型 | 基于多元正态分布 | 允许误差项相关,无偏性好 | 选择概率无封闭形式 |
| Nested Logit 模型 | 放宽 IIA 假设 | 可处理部分相关性 | 无法解决部分悖论 |
| Random Effects MNL 模型 | 部分价值添加随机分量 | 捕捉个体差异,可捕捉总体替代模式 | |
| Mixture MNL 模型 | 加权和形式 | 考虑不同类别效用函数 | |
| Ordered Logit 和 Probit 模型 | 适用于序数响应 | 处理序数数据 | |

2. 样本考虑因素

在进行选择模型研究时,样本的选择至关重要,涉及多个方面的考虑。
- 利益相关者确定
- 医生 :对于大多数药品,医生对产品使用的影响最大。在患者概况和驱动因素研究中,医生最了解可用治疗方法的医学特性以及如何匹配患者的临床需求。在目标产品概况(TPP)开发中,医生的决策会影响治疗选择的次要终点以及产品使用的行政和给药选项。
- 患者 :当产品属性与患者体验(如给药、服用方便性)在治疗决策中起重要作用,或者诊断或治疗需要患者主动参与时,应将患者纳入研究。
- 支付方 :如果研究目标是预测和理解保险覆盖范围和患者自付费用的影响,则应包括支付方。
- 样本大小确定
- 规则 :离散选择研究需要足够的样本量来获得合理的选择模型参数估计。确定最小样本量有一些经验法则,如每个选择任务至少有 20 名受访者,对应每个模型自由度至少 20 名受访者;另一个规则是 $N > \frac{500c}{ta}$,其中 $c$ 是单个属性的最大水平数,$t$ 是选择任务的数量,$a$ 是替代方案的数量。但该公式假设所有替代方案具有通用属性,在实际医药市场决策中很少适用,不过适用于驱动因素研究。
- 误差计算与样本设计选择 :对于 MNL 模型,可以直接计算效用函数参数的误差;对于更复杂的模型,可以通过数据模拟计算。通过模拟不同样本大小和策略的调查结果数据集,检查不同抽样策略的误差图,有助于选择合适的样本设计。
- 子群体样本考虑
- 重要性 :除了样本大小,某些子群体有足够的样本对于产生准确的选择模型和实现研究目标可能很重要。标准 Logit 和 Multinomial Logit 模型假设研究群体的偏好具有同质性,大的偏差会导致模型估计出现遗漏变量偏差。
- 样本量要求 :子群体所需的样本量取决于子群体与其他样本之间假设差异的性质。简单的假设(如品牌偏好差异),在满足一定条件下,最小样本量建议为 20,但实际中通常建议至少 30 或 40 个样本。复杂的假设(如子群体在效用函数的任何组成部分都可能不同)需要足够的样本量来估计整个模型。
- 设计复杂性影响
- 参数数量与模型复杂度 :选择模型的复杂度最简单的衡量标准是模型中的参数数量,通常对应测试的属性数量和属性水平数量。不同产品具有不同属性会增加模型参数,而多个产品具有相同属性可以简化模型。
- 响应选项数量影响 :增加响应选项可能会通过有效增加每个选择任务提供的测量数量来减少样本量,但在处方决策背景下,额外的选择通常会增加设计复杂性,因为医疗治疗很少能用相同的属性集描述。
- 难以参数化的设计空间 :某些属性水平组合不能一起呈现,会引入设计复杂性,如测试癌症治疗时,无进展生存期(PFS)不能超过总生存期(OS),这种限制会降低设计效率。

以下是样本考虑因素的流程图:

graph TD;
    A[样本考虑因素] --> B[利益相关者确定];
    A --> C[样本大小确定];
    A --> D[子群体样本考虑];
    A --> E[设计复杂性影响];
    B --> B1[医生];
    B --> B2[患者];
    B --> B3[支付方];
    C --> C1[规则确定];
    C --> C2[误差计算与样本设计选择];
    D --> D1[重要性];
    D --> D2[样本量要求];
    E --> E1[参数数量与模型复杂度];
    E --> E2[响应选项数量影响];
    E --> E3[难以参数化的设计空间];

选择模型与数据采集相关知识解析

3. 数据收集与调查设计考虑因素

在进行选择模型研究时,数据收集和调查设计的方式会对结果产生重要影响,常见的方法有以下几种。
- 联合分析(Conjoint)
- 原理 :联合分析是一个广义术语,用于描述从一组属性和水平配置中得出偏好排名的任何技术。在常见的联合分析中,受访者独立评估产品或产品属性,然后将这些评估组合起来,得出产品和产品配置的排名。
- 调查流程 :在典型的联合分析调查中,受访者首先通过恒定总和分配等方式为每个属性分配重要性,然后对每个属性的每个水平进行评分(通常使用 Likert 量表),得到陈述的重要性和性能。接着,受访者通过评分量表、排名或选择任务等方式评估一组部分或完整的产品配置。通过将属性水平偏好与配置选择进行回归分析,得出属性的派生重要性。
- Max - Diff 练习 :这是一种流行且有用的联合分析任务。当完整项目集太大,无法期望受访者准确完成完整排名练习时,Max - Diff 练习可以发挥作用。受访者会看到完整项目集的一系列子集,对于每个子集,选择最有吸引力和最无吸引力的项目。通过将选择模型(通常是 Multinomial Logit 或 Random Effects Multinomial Logit)拟合到响应中,得出完整项目集的排名。
- 离散选择(Discrete Choice)
- 原理 :离散选择使用从有限选项集中的选择来推导偏好和定义偏好的效用函数。受访者会看到一组选项的描述,并被要求选择一个。
- 调查设计要求 :调查中呈现的决策设计应反映实际市场中的决策。在药品市场研究中,通常意味着收集患者案例,并针对每个收集的患者案例引出治疗决策。

以下是联合分析和离散选择的特点对比表格:
| 方法 | 原理 | 调查方式 | 优势 | 不足 |
| ---- | ---- | ---- | ---- | ---- |
| 联合分析 | 直接引出偏好 | 独立评估属性,综合得出排名 | 所需受访者少,调查时间短 | 更具推测性,不基于行为理论 |
| 离散选择 | 通过选择行为推导偏好 | 呈现选项,选择其一 | 基于实际选择行为 | 对调查设计要求高 |

以下是数据收集与调查设计方法的流程图:

graph TD;
    A[数据收集与调查设计] --> B[联合分析];
    A --> C[离散选择];
    B --> B1[原理];
    B --> B2[调查流程];
    B --> B3[Max - Diff 练习];
    C --> C1[原理];
    C --> C2[调查设计要求];

综上所述,在选择模型的研究中,不同的选择模型有各自的特点和适用场景,在样本选择上需要综合考虑利益相关者、样本大小、子群体样本以及设计复杂性等因素,而在数据收集和调查设计方面,联合分析和离散选择等方法各有优劣。研究者需要根据具体的研究目标和市场情况,合理选择模型、确定样本和设计调查,以获得准确有效的研究结果。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值