38、市场调研中的细分方法与数据处理

市场调研中的细分方法与数据处理

在市场调研中,尤其是制药市场研究,为了深入了解不同群体的需求和行为,常常需要进行市场细分。这涉及到多个关键步骤,包括选择合适的调查问题类型、定义样本、准备数据以及进行细分估计等。

1. 调查问题类型

在市场调研中,有多种类型的调查问题可用于收集数据,以下是一些常见的类型:
- 李克特式项目(Likert Type Items) :这是一种非常流行的用于捕捉态度的调查问题类型。它要求受访者对一个陈述以沿着数字连续体的定量答案形式做出回应。最常见的回应量表是同意程度,但也会使用其他量表。李克特项目通常有5、7、9或11个回应选项。例如,一个七点李克特项目可能如下所示:
| 强烈不同意 | [1] | [2] | [3] | 既不同意也不反对 | [4] | [5] | [6] | 强烈同意 | [7] |
| — | — | — | — | — | — | — | — | — | — |
| 我经常在同事之前尝试新药物 | O | O | O | O | O | O | O | | |

一个精心设计的李克特项目通常有一个中立的中点,并且在两侧有相等数量的积极和消极回应选项。在量表上放置适当的语言锚点至关重要,以确保为受访者提供适当的上下文。这种类型的项目常用于多项目组,以收集对代表相似主题或主题的多个项目的回应。然而,其一个潜在缺点是受访者可能会对许多项目给出相同的评分。
- 排序项目(Ranking Items) :排序项目要求受访者在一个连续体上对一组选项从最重要到最不重要进行排序。这个连续体可以是可取性、重要性或与被调查的产品或市场相关的任何因素。这类项目常用于确定不同潜在细分市场对哪些产品特征或产品更感兴趣或不感兴趣。例如:
请根据重要性对以下产品特征进行排序,1表示最重要,4表示最不重要:
- 最小副作用
- 每日两次给药(BID)
- 提高疗效
- 成本

排序项目可以帮助按细分市场定义不同的未满足需求,但它不能揭示被排序的每个选项之间的相对距离,只提供优先级和吸引力的顺序。排序项目的一个常见变体是点分配项目,受访者被要求在选项之间分配100分,给最重要的选项分配最高分,给最不重要的选项分配最低分,并通常会有禁止给任何两个选项分配相同分数的说明,以消除平局。
- 强制选择方法(Forced - Choice Approaches) :强制选择项目与排序项目类似,但受访者不是对选项进行排序,而是从列表中选择一个最重要或最有吸引力的项目。虽然这类项目提供的信息比排序项目少,但可以将调查分成不同的部分,以保持受访者的参与度。
- 其他方法
- 自由回答项目(Free Response Items) :受访者通常被要求输入数字回应,例如“您的患者中有多少百分比接受产品X?”和“您目前服用多少种药物?”
- 多选方法(Select All That Apply) :向受访者呈现一个列表,并要求他们选择与自己相关的每个选项,常用于量化并发疾病、先前治疗或任何可以用封闭列表表示的内容。
- 开放式/自由文本问题 :不太适合用于细分,因为需要对文本回应进行重新编码才能进行分析。
- 现代编程衍生方法 :例如,排序或强制选择项目可以编程为拖放练习,使调查更具交互性,减少受访者完成调查的乏味感。

2. 定义样本

样本框架的开发是细分过程中的重要一步,需要仔细考虑。在制药市场研究中,样本通常按医生专业或患者类型进行分层。
- 医疗保健专业人员研究(HCP Research)
- 确定样本框架时,首先要考虑哪些专业定义了感兴趣的市场,这些专业必须在最终样本中得到体现。对于不太常见的疾病,如多发性硬化症,可能只需要神经科医生;对于更广泛的疾病,如糖尿病,可能涉及多个专业,如家庭医生、内科医生、内分泌科医生、护士从业者、医师助理等。
- 在单一专业的情况下,样本大小可能由愿意参与研究的医生数量决定。样本可以按处方十分位数、患者数量或其他代表市场生产力的指标进行分层。十分位数将处方医生群体分为十个组,每个组开具产品的10%。较高的十分位数包含开具更多处方的较少医生,较低的十分位数包含开具相对较少处方的更多医生。
- 通常有一个识别市场中活跃医生的源列表。如果没有可用列表,则十分位数通常不可用,案例可以根据自我报告的指标(如每月患者数量)进行加权。以下是一个专业市场中按十分位数划分的医生典型分布表:
| 十分位数 | N | 百分比 (%) |
| — | — | — |
| 10 | 171 | 2.0 |
| 9 | 299 | 3.5 |
| 8 | 393 | 4.6 |
| 7 | 487 | 5.7 |
| 6 | 589 | 6.9 |
| 5 | 717 | 8.4 |
| 4 | 871 | 10.2 |
| 3 | 1076 | 12.6 |
| 2 | 1409 | 16.5 |
| 1 | 2527 | 29.6 |
| 总计 | 8537 | 100 |

由于预算、时间或回应限制,在这样的专业细分中,样本很难超过300。因此,通常会将层合并为更易于管理的组。以下是一个单一专业样本的假设样本和案例权重表:
| 十分位数 | N | 百分比 (%) | 自加权样本 | 实际样本 (n) | 实际百分比 (%) | 权重 |
| — | — | — | — | — | — | — |
| 7 - 10 | 1349 | 15.8 | 48 | 41 | 13.7 | 1.156 |
| 3 - 6 | 3253 | 38.1 | 114 | 105 | 35.0 | 1.089 |
| 1 - 2 | 3936 | 46.1 | 138 | 154 | 51.3 | 0.898 |
| 总计 | 8537 | 100 | 300 | 300 | 100 |

在多专业细分的情况下,通常采用类似的方法,但权重通常通过专业x十分位数的多层设计来计算。以下是一个两个专业的500名医生的假设样本和加权方法表:
| 专业 | 十分位数 | N | 百分比 (%) | 自加权样本 | 实际样本 (n) | 实际百分比 (%) | 权重 |
| — | — | — | — | — | — | — | — |
| OB/GYN | 7 - 10 | 3644 | 6.3 | 31 | 35 | 7.0 | 0.895 |
| OB/GYN | 3 - 6 | 6069 | 10.4 | 52 | 47 | 9.4 | 1.110 |
| OB/GYN | 1 - 2 | 10654 | 18.3 | 92 | 100 | 20.0 | 0.916 |
| PCP | 7 - 10 | 5509 | 9.5 | 47 | 53 | 10.6 | 0.894 |
| PCP | 3 - 6 | 16070 | 27.6 | 138 | 117 | 23.4 | 1.181 |
| PCP | 1 - 2 | 16214 | 27.9 | 140 | 148 | 29.6 | 0.942 |
| 总计 | 58160 | 100 | 500 | 500 | 100 |

  • 患者/护理人员研究(Patient/Caregiver Research) :对患者进行细分时,疾病严重程度和先前治疗等多种因素可能决定样本框架的开发。可以从流行病学数据中了解市场在这些潜在层方面的构成,然后以确保市场代表性的方式开发样本。与医生样本一样,最终样本中与市场的偏差通过计算案例权重来纠正。以下是一个按先前治疗分层的假设患者样本和案例权重表:
    | 先前治疗 | 百分比 (流行病学数据) (%) | 自加权样本 | 实际样本 (n) | 实际百分比 (%) | 权重 |
    | — | — | — | — | — | — |
    | 无 | 26.5 | 106 | 95 | 23.8 | 1.116 |
    | 1次 | 41.4 | 166 | 187 | 46.8 | 0.886 |
    | 2次及以上 | 32.1 | 128 | 118 | 29.5 | 1.088 |
    | 总计 | 100 | 400 | 400 | 100 |
3. 数据准备

数据收集完成后,需要采取几个步骤来确保选择合适的子集进行细分。在一次45分钟的在线调查中,会收集并存储数百个变量在数据库中,但并非所有这些变量都能成为强大的潜在基础变量,即实际用于创建细分的一组指标。所有收集的变量将用于从候选解决方案中描述细分特征,但识别基础子集至关重要。对于大多数细分工作,一组好的基础变量通常有40到70个独特的指标。
在制药市场细分中,通常有一个治疗和/或诊断(新的或其他的)是工作的重点。为确保选择正确的基础变量进行分析,以便相对于感兴趣的产品对所得细分进行优先级排序,需要进行以下步骤:
- 关键驱动因素/回归分析(Key Driver/Regression Analyses) :一个好的细分工具会提供被研究产品的产品概况,随后会有一系列类似“您有多大可能性向您的患者开这种产品的处方?”或“您有多大可能性向您的医生请求这种产品?”的问题。这些直接的行动呼吁问题非常适合作为回归型模型中的因变量,以揭示其他哪些调查项目与期望的特定产品行为高度相关。在关键驱动因素分析中,目标是找出一组能够预测相对于感兴趣产品的意图的调查项目。必须考虑和处理独立测量之间的多重共线性和虚假关系等常见陷阱。识别这一关键驱动因素子集可以分离出一组重要的潜在基础变量,这些项目将在后续步骤中进一步审查。
- 因子分析模型(Factor Analytic Models) :识别基础变量的下一步是将调查项目组织成相似的主题或领域。一个好的细分在其基础变量集中应包含代表多个不同领域的变量。因子分析和主成分分析都是将调查数据组织成较小的潜在结构集的合适工具。因子分析不是细分算法,而是帮助分析师理解和组织大量潜在基础变量的工具。因此,在选择基础变量时,集合中不应过度代表某一个或某些主题。
- 分布分析(Distributional Analyses) :一旦确定了关键驱动因素并将调查项目组织成因子,下一步是查看所有候选基础变量的响应分布。最有效的方法是查看所有潜在基础变量的直方图。在检查这些分布时,识别那些暗示意见范围的分布至关重要。多峰和均匀分布是最有吸引力的,因为它们表明响应不限于量表的一个点或一端。相反,单峰和高度偏斜的分布不是基础变量的好候选者,因为大多数响应相似,因此不能从这些测量中暗示子组或细分。虽然具有这些分布的变量不适合用于创建细分,但它们有助于揭示“普遍真理”,即无论细分成员身份如何都相似且一致的态度或信念。

以下是市场调研细分流程的mermaid流程图:

graph LR
    A[选择调查问题类型] --> B[定义样本]
    B --> C[数据准备]
    C --> D[细分估计]
    A --> E1[李克特式项目]
    A --> E2[排序项目]
    A --> E3[强制选择方法]
    A --> E4[其他方法]
    B --> F1[医疗保健专业人员研究]
    B --> F2[患者/护理人员研究]
    C --> G1[关键驱动因素/回归分析]
    C --> G2[因子分析模型]
    C --> G3[分布分析]
    D --> H1[K - 均值]
    D --> H2[CHAID]
    D --> H3[潜在类别模型]

通过以上步骤,可以有效地进行市场调研的细分工作,为制药市场研究等领域提供有价值的信息。

市场调研中的细分方法与数据处理(下半部分)

4. 细分估计

在确定了基础变量集之后,有多种聚类方法可用于从数据中导出细分。以下详细介绍几种更常见的方法。

4.1 K - 均值(K - Means)

K - 均值是一种依赖于迭代改进以得出最终结果的算法。在这种方法中,需要向算法提供预先指定的细分数量 K,每个细分由 K 个质心之一来定义。质心的初始值可以由分析师提供或随机生成。该算法通过在两个步骤之间迭代进行:
1. 第一步 :将案例分配到由最近质心定义的细分中,通常是通过最小化两者之间的欧几里得距离的平方。
2. 第二步 :通过推导分配给每个聚类质心的所有数据的均值来重新计算质心。

算法会继续重复这些步骤,直到达到终止标准。终止标准可以是允许的总迭代次数,或者是在前一步中没有受访者改变细分。K - 均值方法不需要因变量来收敛,只需要一组在多维空间中根据与聚类中心的接近程度进行细分的变量。

该方法的概念如图所示:

graph LR
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
    A(初始质心):::process --> B(分配案例到最近质心):::process
    B --> C(重新计算质心):::process
    C --> D{是否达到终止标准?}:::process
    D -- 否 --> B
    D -- 是 --> E(最终细分结果):::process

如果指定了足够的迭代次数,算法将收敛,但结果可能是局部最优而不是全局最优。因此,建议在基础变量集上多次运行该算法,使用不同的初始起始值。此外,由于 K 是由分析师指定的,应该对每个选定的 K 值进行多次尝试,以找到合适的解决方案。同时,K - 均值方法对分析中使用的基础变量的尺度非常敏感,因此建议要么将分析限制在具有相似尺度的变量上,要么在分析之前对基础变量集进行标准化。

4.2 CHAID

CHI - 平方自动交互检测(CHAID)与 K - 均值在几个方面有所不同。K - 均值是一种描述性方法,不区分自变量和因变量,而 CHAID 包含一个因变量,细分的创建基于该因变量。此外,因变量和自变量通常都是分类性质的。这并不意味着在调查中以区间或比率尺度收集的测量不能被视为基础变量,CHAID 分析的第一步是对这些变量进行分类,使其适合纳入分析。

CHAID 是一种“树构建”方法,它发现并利用变量之间的交互效应。在估计的初始阶段,算法会在自变量中搜索可以合并在一起的同质类别。这些类别被确定为在自变量和因变量之间的 χ²(对于分类因变量)或 F 检验(对于连续因变量)分析中具有高 p 值的类别。在合并自变量类别之后,该方法会为每个自变量类别与因变量创建所有可能的交叉表。由于进行了大量的统计测试,会计算 Bonferroni 调整后的 p 值。选择调整后 p 值最低的自变量,然后使用合并过程中建议的组将数据划分为子组。该过程会重复进行,直到没有自变量具有显著的 p 值。

使用 CHAID 作为唯一的细分方法时需要仔细考虑,重要的是要平衡树的复杂性。小树可能易于解释,但可能无法产生有用的结果;大而复杂的树可能会产生许多难以解释且对营销应用无用的细分。然而,CHAID 可以是识别在其他细分方法中可能有用的基础变量的有用工具。

与 CHAID 相关的一种细分方法是分类与回归树(CART),它也可以纳入分类和连续自变量。

以下是CHAID分析步骤的mermaid流程图:

graph LR
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
    A(数据收集):::process --> B(变量分类):::process
    B --> C(搜索同质类别):::process
    C --> D(合并类别):::process
    D --> E(创建交叉表):::process
    E --> F(计算调整p值):::process
    F --> G(选择最低p值变量):::process
    G --> H(划分数据):::process
    H --> I{是否有显著p值?}:::process
    I -- 是 --> C
    I -- 否 --> J(最终细分结果):::process
4.3 潜在类别模型(Latent Class Models)

潜在类别分析(LCA)方法在市场研究中非常流行,被认为是“聚类和细分的主要统计方法”。在这种方法中,样本中的数据被假定由两个或更多个同质细分的成员混合而成,比例未知,比例用 π 表示,且 π > 0,∑π = 1。LCA 可以揭示这种比例关系,从而提供样本中细分的相对大小。

对于连续变量的 LCA 模型为:
$f(y_i|\phi) = \sum_{s = 1}^{S} \pi_s f_s(y_i|\theta_s)$

在这个表示中,$y_i$ 是受访者在一组观察到的基础变量上的得分,S 是细分的数量,$\pi_s$ 是属于细分 s 的先验概率。$y_i$ 的分布被假定为给定模型参数向量 $\theta_s$ 的细分特定 $f_s(y_i|\theta_s)$ 的混合。密度函数 $f_s(y_i|\theta_s)$ 可以是指数分布族中的任何一种,无论是离散的(如二项式、泊松)还是连续的(如正态、狄利克雷)。给定 $\phi = (\pi, \theta)$,似然函数为:
$L(y_i, \phi) = \prod_{i = 1}^{I} f(y_i|\phi)$

似然函数可以使用牛顿 - 拉夫森方法或期望最大化(EM)算法进行最大化。在得到 $\phi$ 的估计值后,可以计算受访者 i 来自细分 s 的后验概率 $p_{is}$:
$p_{is} = \frac{\pi_s f_s(y_i|\theta_s)}{\sum_{s = 1}^{S} \pi_s f_s(y_i|\theta_s)}$

这些概率 $p_{is}$ 用于将受访者概率性地分类到细分中。

市场研究目的开发的调查工具几乎总是在多个测量尺度上收集数据,LCA 可以适应这些混合测量数据。对于混合 $y$ 的 LCA 模型为:
$f(y_i|\theta) = \sum_{s = 1}^{S} \pi_s \prod_{v = 1}^{V} f_s(y_{iv}|\theta_{vs})$

在这种情况下,基础变量 $y_i$ 的每个输入 $y_{iv}$ 的适当单变量分布函数可以不同。例如,如果 $y_{iv}$ 是连续的,单变量正态或对数正态是合适的选择;对于其他测量尺度,二项式、泊松或多项分布是不错的选择。

如果需要一个因变量,潜在类别回归(LCR)技术是一个有吸引力的替代方案。LCR 方法也假设比例之和 π 等于 1。

5. 总结

市场调研中的细分工作是一个复杂但重要的过程,它涉及到多个关键步骤,包括选择合适的调查问题类型、定义样本、准备数据以及进行细分估计。以下是整个过程的总结表格:
| 步骤 | 具体内容 |
| — | — |
| 选择调查问题类型 | 包括李克特式项目、排序项目、强制选择方法、自由回答项目、多选方法等 |
| 定义样本 | 按医生专业或患者类型分层,考虑专业、疾病严重程度、先前治疗等因素,通过计算案例权重纠正样本偏差 |
| 数据准备 | 包括关键驱动因素/回归分析、因子分析模型、分布分析,确定合适的基础变量子集 |
| 细分估计 | 可采用 K - 均值、CHAID、潜在类别模型等聚类方法 |

通过遵循这些步骤并使用适当的方法,可以有效地进行市场细分,为市场研究和决策提供有价值的信息。同时,在每个步骤中都需要注意各种潜在的问题和挑战,如多重共线性、树的复杂性等,以确保细分结果的准确性和实用性。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值