41、离散选择分析:方法、设计与应用

离散选择分析:方法、设计与应用

1. 离散选择分析概述

离散选择分析在可用数据的情况下可用于实际市场决策。它虽然需要更大的样本量和更长的调查时间,但能为联合分析提供更可靠、更具解释性的结果。

2. 分配法

在离散选择模型中,分配法可作为因变量的衡量方式,替代在选择任务中选择单一选项。受访者需说明未来 10 或 20 次市场决策的预期选择,或一段时间内选择的分布比例。在这种情况下,模型的估计需要推断分配所代表的实际决策数量。该值决定了选择的方差,即同一受访者反复被问相同分配问题时回答的变化程度。此值由分析人员决定,给每个任务赋予大于 20 的权重常导致过拟合,直观的选择是用响应选项的数量作为每次分配所代表的决策数量。

分配法并非理想的引出方法,但常是必要的。市场利益相关者很少以这种方式做决策,市场决策更多是离散呈现的。例如,医生会独立决定每个患者的治疗方案,而非批量分配患者到不同治疗方案。分配法可能因多样化偏差等行为现象导致与重复离散选择不同的结果。不过,向医生提供足够信息以反映其在市场中的决策方式往往不可行,因为医生在缺乏患者足够详细信息时无法选择产品,收集患者病例及相关决策会大幅增加调查的长度和成本。使用分配法,医生可考虑整个患者群体以及适合每个治疗方案的患者比例,减轻在调查工具中呈现或收集患者细节的需求。

3. 混合方法

研究人员可结合联合分析和离散选择方法,在联合分析的后勤简单性和离散选择的理论严谨性之间取得平衡。典型方法是用联合分析构建效用度量,该度量综合多个产品、患者或医生属性的影响,并将其对效用的贡献表示为单一值。这个综合度量成为离散选择模型中的自变量,通过减少参数数量简化离散选择模型,从而减少所需的受访者数量和选择任务数量。综合效用度量通常是李克特式量表评分乘以属性重要性的总和,也可通过其他方式推导,如全轮廓或部分轮廓最大差异练习的预测偏好。

4. 选择任务数量

每个受访者能完成的选择任务数量取决于任务的复杂程度。一般而言,单个受访者预计最多能完成 8 个复杂任务,或多达 20 个简单任务,但由于调查长度的预算限制,超过 20 个任务的情况很少见。

5. 高效设计

在离散选择分析中,分析人员可通过调查工具的设计控制部分自变量的分布。旨在最小化选择模型参数估计误差的调查设计能提高精度,用更少的数据纳入更高的复杂性,良好的实验设计能确保选择模型的识别。

5.1 属性和水平

创建实验设计的第一步是确定选择模型的参数,这些参数列表称为属性,属性的测试值为水平。一些属性是药品的临床特性,如疗效、安全性或给药方式,水平则是这些属性的值,如肿瘤治疗中疗效属性的无进展生存期可能为 7、8 或 9 个月。受访者、医生、患者病例或市场情况的描述符也可能是属性。选择模型能够评估的完整属性集和水平范围定义了离散选择实验的领域。了解领域、选择模型形式和选择练习类型可确定在该领域估计选择模型的数据要求,实验设计则创建一个数据收集过程,确保收集的数据矩阵 X 满足这些要求。

数据矩阵中的参数可分为三类:
- 由调查设计决定的参数:研究人员可直接选择,是调查向受访者呈现的情况和选项描述的属性,实验设计重点关注这些参数。
- 由样本设计决定的参数:是受访者或从受访者收集的患者病例的属性,研究人员有一定控制能力,可对样本进行分层以确保每个值有一定数量的观察值,若调查设计在受访者间有差异,可在这些参数的值内平衡调查版本,但样本收集的可行性和成本严重限制了对数据矩阵在这些参数上的操作程度。
- 无法控制的受访者层面效应:虽无法控制,但在实验设计中应考虑其影响。

此外,还需考虑数据矩阵中未包含的变量,遗漏变量会影响结果质量,实验设计应构建以减轻遗漏变量偏差的影响。

5.2 设计效率度量

评估设计最常用的度量是 D - 效率,它与费舍尔信息矩阵的行列式成正比。由于参数估计概率分布的协方差与逆费舍尔信息矩阵成正比,D - 效率是自然的优化目标。

费舍尔信息矩阵根据数据矩阵 X 计算,且取决于选择模型的形式。X 是一个 m x n 矩阵,其中 m 是模型参数的数量,n 是选择的数量。对于线性模型,费舍尔信息矩阵为:$\frac{X^TX}{\sigma^2}$,当分量向量正交时,该矩阵的行列式最大。

优化线性模型的设计或从优化的线性模型设计开始修改,可简化实验设计过程。能在线性情况下识别模型的设计也能识别多项逻辑模型。

5.3 设计优化

寻找最大化 D - 效率的设计问题等同于寻找与所有属性和水平组合相关的数据矩阵的最大体积子矩阵,这是一个 NP 难题,对于大多数设计,绝对优化在计算上不可行。可通过结合已知最优设计的查找表和启发式搜索算法(如模拟退火或费多罗夫交换算法)找到足够优化的实验设计。

对于中等规模的实验领域,可在整个设计空间进行启发式搜索;对于较大领域,可从包含所需设计空间的超集的已知最优设计开始,去除所需设计空间外的元素,将结果作为启发式优化算法的搜索空间;对于非常大的领域,可划分设计空间,为子空间找到足够优化的设计并组合,以减少计算时间。对于某些费舍尔信息矩阵的配置,组合子空间的优化解可产生最优或接近最优的结果,这种方法还能使模型参数的误差具有更理想的结构。

5.4 分块

分块是定义实验设计的一组或子集,使子集中的 D - 效率最大化,相当于在设计中添加一个对 D - 效率影响最小的分类预测变量。分块最常见的用途是减轻受访者属性或受访者特定效应导致的缺失变量偏差,确保其他参数的估计尽可能独立于缺失变量。

以下是一个简单的 mermaid 流程图,展示实验设计的主要步骤:

graph LR
    A[确定属性和水平] --> B[构建数据矩阵]
    B --> C[评估设计效率(D - 效率)]
    C --> D{是否需要优化?}
    D -- 是 --> E[设计优化]
    D -- 否 --> F[分块处理]
    E --> F
    F --> G[进行实验]
6. 估计方法
6.1 最大似然和梯度下降

多项逻辑(MNL)、嵌套逻辑和有序逻辑模型通常采用梯度下降算法来最大化对数似然进行估计。对于概率单位和有序概率单位模型,采用类似方法,但由于似然函数没有封闭形式,需要通过模拟或数值方法近似积分及其梯度,这对概率单位模型的复杂性,特别是响应选项数量和效用函数误差协方差矩阵中非零项的数量,施加了实际限制。

6.2 期望最大化(EM)算法

对于混合模型,最常用的估计方法是 EM 算法。首先将每个受访者初始分配到一个类别,对每个类别的数据拟合选择模型(期望步骤),然后计算每个受访者属于每个类别的概率(最大化步骤),再根据类别成员概率对响应进行加权,为每个类别拟合选择模型,重复该过程直到收敛。

EM 算法收敛性较差,通常需要多次迭代才能收敛,且收敛到局部而非全局最优解。因此,应使用不同的初始类别分配重复该过程,并使用最佳最终结果作为估计值。

6.3 分层贝叶斯方法

随机效应 MNL 模型通常采用分层贝叶斯估计,通过马尔可夫链蒙特卡罗方法对模型参数的后验分布进行采样。该方法需要为分布 $g(\alpha)$ 选择先验。当 $g(\alpha)$ 为多元正态分布时,均值的先验为独立同分布的正态分布,协方差的先验为逆 Wishart 分布。常见的选择是均值的先验为均值为 0、方差为 1 的正态分布,协方差的先验为尺度为 I、自由度等于模型参数数量加 2 的逆 Wishart 分布。如果更明智地设置先验,利用决策过程的现有信息,可改进模型并减少估计所需的数据量。

这种估计方法产生参数估计后验分布的样本,而非参数的点估计。理论上正确的预测计算方法是取所有采样模型预测的平均值,但这在计算上很困难,更常见的方法是取每个参数的后验估计的均值(或中位数)作为点估计。模型可通过后验参数估计定义的 $g(\alpha)$ 进行估计,也可使用 $g(\alpha)$ 的经验估计,即样本中观察到的 $g(\alpha)$ 抽样的后验估计,后者对 $g(\alpha)$ 的错误指定更稳健,不过当总体中模型参数的分布通过 $g(\alpha)$ 的选择准确分布时,前者更准确。

7. 模型选择
7.1 统计标准

为评估离散选择模型的拟合度,开发了多种统计度量:
- 对数似然 :是给定拟合模型下观察数据的概率的对数,对数似然值越大表示模型拟合越好,但不同模型或数据集之间的值不可比。
- 伪 $R^2$ 统计量 :由 McFadden 提出,基于似然定义为 $Pseudo - R^2 = 1 - \frac{LL_M}{LL_0}$,其中 $LL_M$ 是拟合模型的对数似然,$LL_0$ 是仅含截距模型的对数似然。该值最小值为 0,通常小于普通最小二乘(OLS)的 $R^2$,伪 $R^2$ 大于 0.2 表示模型拟合良好。
- 似然比检验 :用于比较两个模型,检验统计量是两个模型对数似然的比值 $\frac{LL_M}{LL_0}$,其中 $LL_M$ 是提出模型的对数似然,$LL_0$ 是零模型的对数似然,该统计量服从自由度等于提出模型自由度减去零模型自由度的卡方分布。
- Akaike 信息准则(AIC)和贝叶斯信息准则(BIC) :本质上是对模型复杂度进行惩罚的对数似然统计量,计算公式分别为 $BIC = \ln(n)k - 2LL$ 和 $AIC = 2k - 2LL$,其中 $k$ 是模型中的参数数量,$n$ 是样本大小,$LL$ 是对数似然。两个统计量的值越低,模型越优,BIC 对复杂模型的惩罚比 AIC 更大,两者都被广泛使用。

统计度量 公式 含义
对数似然 观察数据在拟合模型下概率的对数 值越大,模型拟合越好
伪 $R^2$ $Pseudo - R^2 = 1 - \frac{LL_M}{LL_0}$ 衡量模型拟合度,大于 0.2 拟合良好
似然比检验 $\frac{LL_M}{LL_0}$ 比较两个模型,统计量服从卡方分布
AIC $AIC = 2k - 2LL$ 对模型复杂度惩罚,值越低越优
BIC $BIC = \ln(n)k - 2LL$ 对模型复杂度惩罚,比 AIC 更严格
7.2 迭代和估计约束

选择模型通常可通过迭代模型选择方法(如前向或后向包含)进行改进。当某些部分价值已知对效用有正或负贡献时,手动完成该过程有益。从效用函数中移除无或几乎无影响、或估计贡献不合理的属性,可改善其他部分价值的估计。

最大似然估计的模型不易对部分价值的估计施加约束,通常在事后通过迭代移除部分价值或将不同属性水平视为单一水平来完成。

贝叶斯方法在这方面提供了更大的灵活性:
- 修改先验 :对于效用贡献必须为正的参数,使用对数正态先验可强制执行此约束,对于随机效应 MNL,假设个体水平的部分价值服从对数正态分布。
- 在 MCMC 算法中约束参数估计 :可通过重新采样受限抽样或绑定错误排序的值,但此方法需谨慎使用,因为采样值与 $g(\alpha)$ 的提议分布不一致常导致估计结果平坦。可在评估 $g(\alpha)$ 时使用无约束估计,在计算对数似然时使用受限估计,这可视为使用一种特殊的非线性效用函数。
- 简单绑定估计后错误排序的值 :在实践中表现出人意料地好,但在统计上难以证明合理性。

8. 敏感性分析和属性重要性

离散选择模型不仅能提供决策预测,还可用于分析决策的驱动因素,通过模型对属性的敏感性和属性重要性来描述驱动因素的特性。
- 模型敏感性 :是每个属性变化时预测决策的变化幅度。对于 MNL 和概率单位模型,部分价值能很好地体现;当模型没有单一参数定义每个属性对效用的贡献时,更通用的度量是属性两个值之间决策概率的变化。由于模型的非线性性质,该度量在模型领域内会有所变化,通常选择最可能的属性水平组合作为基准情况,在此点评估每个属性变化时的概率变化,也可报告模型领域内变化的平均值。
- 属性重要性 :是属性相对于其他建模属性对决策的影响,通常表示为每个属性敏感性范围的归一化值,即每个属性最偏好和最不偏好水平之间的选择概率差异除以所有属性此类差异的总和。与敏感性类似,该度量在模型领域内可能变化,通常报告基准情况的重要性。

综上所述,离散选择分析在生物制药等行业的市场细分和选择模型中具有重要应用,随着可用数据集的不断增大,这些方法也将不断发展以适应新的需求。

离散选择分析:方法、设计与应用

9. 实际应用案例说明

为了更好地理解离散选择分析在实际中的应用,我们以生物制药行业为例,具体阐述上述方法和概念是如何发挥作用的。

假设一家制药公司正在研发一种新的抗癌药物,需要了解医生和患者对药物不同属性的偏好,以便制定合理的市场策略。

9.1 确定属性和水平

首先,研究团队确定了药物的几个关键属性及其水平:
- 疗效 :无进展生存期(PFS)分别为 7 个月、8 个月、9 个月。
- 安全性 :分为低风险、中风险、高风险。
- 给药方式 :口服、注射。

这些属性和水平构成了实验的基本框架,明确了研究的范围。

9.2 设计调查方案

根据确定的属性和水平,设计了离散选择实验的调查方案。考虑到医生和患者的时间和精力,每个受访者被分配了 10 个简单的选择任务。调查采用分配法,让医生和患者说明未来一段时间内对不同药物属性组合的选择倾向。

例如,医生可能会被问到:“在接下来的 20 个患者治疗决策中,您认为有多少患者适合使用 PFS 为 8 个月、安全性为低风险、口服给药的药物?”

9.3 数据收集与分析

通过调查收集到大量的数据后,开始进行分析。
- 模型估计 :采用多项逻辑(MNL)模型,使用最大似然和梯度下降算法进行参数估计。由于数据量较大,经过多次迭代后,模型收敛到一个相对稳定的结果。
- 模型选择 :使用统计标准评估不同模型的拟合度。比较了对数似然、伪 $R^2$、AIC 和 BIC 等指标,最终选择了一个拟合度较好且复杂度适中的模型。
- 敏感性分析和属性重要性 :分析模型对各个属性的敏感性和属性的重要性。结果发现,疗效属性对医生和患者的决策影响最大,其次是安全性,给药方式的影响相对较小。

根据这些分析结果,制药公司可以针对性地优化药物的研发方向和市场推广策略。例如,加大对提高疗效的研发投入,突出药物的安全性优势等。

10. 注意事项和常见问题

在进行离散选择分析时,有一些注意事项和常见问题需要特别关注。

10.1 样本量问题

离散选择分析通常需要较大的样本量才能保证结果的可靠性。样本量过小可能导致模型估计不准确,无法准确反映市场的真实情况。在确定样本量时,需要考虑实验的复杂度、属性和水平的数量等因素。

10.2 调查设计的合理性

调查设计直接影响到数据的质量和分析结果的有效性。在设计调查时,要确保属性和水平的选择合理,避免出现过于复杂或不合理的组合。同时,要注意调查问题的表述清晰易懂,避免给受访者造成误解。

10.3 模型的适用性

不同的模型适用于不同的情况,在选择模型时要根据研究的目的和数据的特点进行合理选择。例如,MNL 模型适用于独立选择的情况,而嵌套逻辑模型则更适合处理具有层次结构的选择问题。

10.4 遗漏变量偏差

数据矩阵中遗漏重要变量可能会导致结果出现偏差。在实验设计阶段,要尽可能全面地考虑可能影响决策的因素,避免遗漏关键变量。如果发现存在遗漏变量的可能性,可以通过分块等方法来减轻偏差的影响。

以下是一个总结注意事项的表格:
| 注意事项 | 具体说明 |
| ---- | ---- |
| 样本量问题 | 需足够大以保证结果可靠,考虑实验复杂度等因素确定 |
| 调查设计合理性 | 属性和水平选择合理,问题表述清晰 |
| 模型适用性 | 根据研究目的和数据特点选择合适模型 |
| 遗漏变量偏差 | 设计阶段全面考虑因素,可通过分块减轻影响 |

11. 未来发展趋势

随着科技的不断进步和数据量的持续增长,离散选择分析在未来将呈现出以下发展趋势:

11.1 与大数据和人工智能的结合

随着大数据技术的发展,可用于分析的数据量将越来越大。离散选择分析可以与大数据技术相结合,挖掘更多有价值的信息。同时,人工智能算法如深度学习等也可以应用于离散选择分析中,提高模型的预测精度和效率。

11.2 多学科交叉应用

离散选择分析将与更多学科进行交叉应用,如心理学、社会学等。通过结合不同学科的理论和方法,可以更深入地理解决策的心理和社会机制,为决策提供更全面的支持。

11.3 个性化分析的加强

未来,离散选择分析将更加注重个性化分析。根据不同个体的特征和偏好,为其提供个性化的决策建议,提高决策的针对性和有效性。

以下是一个 mermaid 流程图,展示离散选择分析未来发展的主要趋势:

graph LR
    A[离散选择分析] --> B[与大数据和人工智能结合]
    A --> C[多学科交叉应用]
    A --> D[个性化分析加强]
    B --> E[挖掘更多信息,提高精度效率]
    C --> F[深入理解决策机制]
    D --> G[提供个性化决策建议]
12. 总结

离散选择分析是一种强大的工具,可用于分析市场决策的驱动因素,为企业和决策者提供有价值的信息。通过合理选择方法、设计实验、估计模型和进行分析,可以准确了解消费者和决策者对不同属性的偏好,从而制定出更有效的市场策略。

在实际应用中,要注意样本量、调查设计、模型选择和遗漏变量偏差等问题,确保分析结果的可靠性和有效性。随着科技的发展,离散选择分析将不断与其他技术和学科融合,为决策提供更全面、更精准的支持。同时,加强个性化分析将成为未来的重要发展方向,满足不同个体的需求。

总之,离散选择分析在市场细分和选择模型领域具有广阔的应用前景,值得企业和研究人员深入探索和应用。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值