营销模型中寻找最佳变量的方法与GenIQ模型应用
1 引言
在模型中寻找最佳变量子集是一项极具挑战性的任务。现有的变量选择方法众多,但都存在不足。它们既无法创建新变量以增强原始变量的预测能力,也未采用能满足营销模型特定需求的标准。本文将介绍GenIQ模型,它运用遗传建模方法为营销模型寻找最佳变量,尤其能满足营销模型最大化累积提升(Cum Lift)的特定要求。
2 背景
寻找定义最佳模型的最佳变量子集问题已得到广泛研究。现有方法基于理论、搜索启发式和经验法则,各自采用独特标准构建最佳模型。选择标准可分为两类:一类基于经典假设检验标准,另一类涉及残差平方和。不同标准通常会产生不同的变量子集,这些子集之间的共同变量数量不一定多,且子集大小差异较大。
变量选择的本质是考察某些子集,并选择能使适当标准最大化或最小化的子集。有两个明显的子集:最佳单变量和完整变量集。问题在于选择一个比这两个极端更好的中间子集,即如何从完整变量集中找出必要变量,同时删除无关变量(不影响因变量的变量)和冗余变量(对因变量无额外贡献的变量)。
以下是五种广泛使用的变量选择方法:
1.
前向选择(FS)
:该方法逐步向模型中添加变量,直到没有剩余变量能对因变量产生显著贡献。初始模型中没有变量,对每个变量计算检验统计量(TS),以衡量其对模型的贡献。TS值最大且大于预设值C的变量被添加到模型中,然后重新计算剩余变量的TS值,重复评估过程,直到没有剩余变量的TS值大于C。一旦变量被添加到模型中,就会保留在模型中。
2.
后向消除(BE)
:此方法从包含所有变量的模型开始,逐个删除变量,直到所有剩余变量都对因变量有显著贡献。在每一步,删除对模型贡献最小(即TS值小于C且最小)的变量,直到模型中所有变量的TS值都大于C。
3.
逐步选择(SW)
:这是对FS方法的改进,不同之处在于模型中已有的变量不一定会保留。与FS一样,SW每次向模型中添加一个TS值大于C的变量,但添加变量后,会检查模型中已有的所有变量,删除TS值不大于C的变量。
4.
R平方(R - sq)
:该方法根据适当的TS值找到多个不同大小的变量子集,这些子集能最好地预测因变量。对于连续因变量,TS是常用的R平方值,即(多元)决定系数,用于衡量多元回归模型对因变量“解释”方差的比例;对于二元因变量,TS是理论上正确但不太为人所知的得分统计量。R - sq会找到最佳的单变量模型、双变量模型等,但由于TS值常常相近,很难明确哪一个子集是最佳的。例如,TS值在小数点后第三位四舍五入后可能相等。R - sq会生成多个不同大小的子集,使建模者可以使用非统计方法选择子集。
5.
经验法则选择前k个变量(Top - k)
:该方法根据变量与因变量的关联程度对变量进行排名,关联程度通过相关系数r衡量。变量按其绝对r值从大到小排序,排名前k的变量被视为最佳子集。如果包含前k个变量的统计模型表明每个变量都具有统计显著性,则这k个变量的集合被宣布为最佳子集;如果有任何变量不具有统计显著性,则将该变量移除,并用下一个排名的变量替换,然后重新评估,重复此过程。
这些方法的TS统计量使用情况如下表所示:
|方法|连续因变量TS|二元因变量TS|
| ---- | ---- | ---- |
|前向选择(FS)|F统计量|G统计量|
|后向消除(BE)|F统计量|G统计量|
|逐步选择(SW)|F统计量|G统计量|
|R平方(R - sq)|R平方|得分统计量|
|经验法则选择前k个变量(Top - k)|相关系数r|相关系数r|
3 变量选择方法的弱点
尽管上述方法能构建出合理的模型,但每种方法都有其基于选择标准的特定缺点。不过,有两个共同的弱点值得关注。
首先,这些方法的选择标准未明确针对营销模型的特定需求,即最大化累积提升(Cum Lift)。
其次,这些方法无法识别数据中的结构。它们在不深入挖掘数据的情况下找到最佳变量子集,而深入挖掘数据对于发现重要变量或结构是必要的。因此,不具备数据挖掘能力的变量选择方法无法生成增强的最佳子集。例如,对于完整变量集X1, X2, …, X10,现有变量选择方法只能找到原始变量的最佳组合(如X1, X3, X7, X10),但无法在需要时自动转换变量(如将X1转换为log X1)以增加其信息含量(预测能力),也无法生成原始变量的重新表达式(如X3/X7),即使构造的变量比原始组成变量组合具有更强的预测能力。也就是说,当前的变量选择方法无法找到需要包含转换和重新表达变量的增强最佳子集,这显然限制了建模者构建最佳模型的能力。
具体而言,这些方法无法识别以下类型的结构:
1.
具有理想形状的转换变量
:变量选择程序应具备在必要时转换单个变量以诱导对称分布的能力。对称是单个变量的理想形状,因为统计测量的基础——均值和方差是基于对称分布的。偏态分布会导致均值、方差和相关统计量(如相关系数)的估计不准确,基于偏态分布的分析结果通常值得怀疑。对称分布有助于解释变量在分析中的影响,而偏态分布由于大部分观测值集中在分布的一端,难以进行分析。
2.
使用简单算术函数从原始变量构造的变量
:变量选择方法应能够构造原始变量的简单重新表达式。和、差、比或积变量可能比原始变量本身提供更多信息。例如,在分析汽车发动机效率时,行驶里程和燃油使用量(加仑)是两个重要变量,但众所周知,每加仑英里数这个比值变量是评估发动机性能的最佳变量。
3.
使用一组函数(如算术、三角函数或布尔函数)从原始变量构造的变量
:变量选择方法应能够使用数学函数构造复杂的重新表达式,以捕捉数据中的复杂关系,并可能比原始变量本身提供更多信息。在数据仓库和互联网时代,大数据包含数十万到数百万个个体记录和数百到数千个变量是很常见的。由众多个体产生的许多变量之间的关系肯定是复杂的,超出了简单的直线模式。发现这些关系的数学表达式虽然在没有理论指导的情况下很困难,但应该是高性能变量选择方法的标志。例如,对于直角三角形三边长度这三个变量之间的著名关系,强大的变量选择程序应能够识别出即使存在测量误差时,斜边(对角线)是另外两条边平方和的平方根。
综上所述,这些弱点表明,营销模型的高性能变量选择方法应找到能使累积提升标准最大化的最佳变量子集。接下来将重新介绍GenIQ模型,将其作为营销模型的高性能变量选择技术。
4 营销建模的目标
营销人员通常试图通过针对最佳客户或潜在客户来提高其营销活动、促销等的效果。他们使用模型来识别可能对营销努力做出响应或产生利润的个体。模型为每个个体提供响应概率估计和对利润贡献的估计。虽然这些估计的精度很重要,但模型的性能通常在汇总层面通过十分位数分析来衡量。
营销人员将累积提升(Cum Lift)定义为衡量模型性能的相关指标。基于模型对个体的选择,营销人员创建一个“提升”列表,以获得比随机选择个体更优的效果。响应累积提升是一个指标,用于衡量基于模型选择的预期响应数量比随机选择(无模型)的预期响应数量多多少。类似地,利润累积提升衡量基于模型选择的预期利润比随机选择的预期利润多多少。累积提升的概念和在十分位数分析中构建它的步骤在相关章节有介绍。
显然,一个在十分位数分析中,上十分位数(前四个十分位数)产生更多响应或利润的模型比上十分位数产生较少响应或利润的模型更好。这就是GenIQ模型的设计动机,它专门针对营销人员的目标,即最大化营销努力的响应和利润。GenIQ模型使用遗传方法明确优化期望标准:最大化上十分位数。因此,GenIQ模型使回归建模者能够以现有方法无法实现的方式构建响应和利润模型。
GenIQ响应和利润模型在理论上优于使用替代技术构建的响应和利润模型,因为其适应度函数的明确性质。适应度函数旨在尽可能多地将响应者或利润填充到上十分位数,即最大化响应/利润累积提升。由于其适应度标准的明确性质和模型进化方式,GenIQ模型为营销模型提供了高性能的变量选择能力。下一节将通过实例说明GenIQ变量选择过程。
5 GenIQ变量选择
5.1 示例背景
为了说明GenIQ模型的变量选择过程,我们以一个响应模型为例。假设Cataloguer ABC需要为最近的邮件营销活动构建一个响应模型,该活动的响应率为3.54%。除了响应(RESPONSE)因变量外,还有九个候选预测变量,这些变量的测量是在邮件营销活动之前进行的:
1. AGE_Y:是否知道客户年龄(1 = 知道;0 = 不知道)
2. OWN_TEL:家庭中是否有电话(1 = 是;0 = 否)
3. AVG_ORDE:平均订单金额
4. DOLLAR_2:过去两年内的消费金额
5. PROD_TYP:购买的不同产品数量
6. LSTORD_M:自上次订单以来的月数
7. FSTORD_M:自首次订单以来的月数
8. RFM_CELL:近期/频率/金额单元格(1 = 最佳到5 = 最差)
9. PROMOTION:客户收到的促销次数
为了初步了解这些变量的信息含量(预测能力),进行了相关分析,得到每个候选预测变量与RESPONSE的相关系数,如下表所示:
|排名|变量|相关系数(r)|
| ---- | ---- | ---- |
|Top|DOLLAR_2|0.11|
|2|RFM_CELL|-0.10|
|3|PROD_TYP|0.08|
|4|LSTORD_M|-0.07|
|5|AGE_Y|0.04|
|6|PROMOTION|0.03|
|7|AVG_ORDE|0.02|
|8|OWN_TEL|0.10|
|9|FSTORD_M|0.01|
从表中可以看出,按关联强度大小降序排列的前四个变量是DOLLAR_2、RFM_CELL、PROD_TYP和LSTORD_M。
5.2 五种变量选择方法的应用
对这九个原始变量使用五种逻辑回归分析(与RESPONSE相关),对应前面介绍的五种变量选择方法,得到的最佳子集如下表所示:
|方法|DOLLAR_2|RFM_CELL|LSTORD_M|AGE_Y|AVG_ORDE|
| ---- | ---- | ---- | ---- | ---- | ---- |
|FS|x|x|x|x| |
|BE|x|x|x|x| |
|SW|x|x|x|x| |
|R - sq|x| |x| |x|
|Top - 4|x| |x| |x|
|频率|5|4|5|4|2|
令人惊讶的是,前向、后向和SW方法产生了相同的子集(DOLLAR_2, RFM_CELL, LSTORD_M, AGE_Y)。由于这些方法产生的子集大小为4,因此将R - sq和Top - k方法的子集大小也设置为4,以便进行公平比较。R - sq和Top - 4方法产生了不同的最佳子集,都包含DOLLAR_2和LSTORD_M。从“频率”行可以看出,最常用的变量是DOLLAR_2和LSTORD_M。
下表展示了这五种逻辑回归模型在累积提升方面的验证性能:
|十分位数|FS|BE|SW|R - sq|Top - 4|AVG|
| ---- | ---- | ---- | ---- | ---- | ---- | ---- |
|Top|256|256|256|239|252|252|
|2|204|204|204|198|202|202|
|3|174|174|174|178|172|174|
|4|156|156|156|157|154|156|
|5|144|144|144|145|142|144|
|6|132|132|132|131|130|131|
|7|124|124|124|123|121|123|
|8|115|115|115|114|113|114|
|9|107|107|107|107|107|107|
|Bottom|100|100|100|100|100|100|
在十分位数层面评估模型性能如下:
1. 在最高十分位数,R - sq方法产生的模型性能最差,累积提升为239,而其他模型的累积提升为252 - 256。
2. 在第二十分位数,R - sq方法产生的模型性能最差,累积提升为198,而其他模型的累积提升为202 - 204。
3. 在第三十分位数,R - sq方法产生的模型性能最佳,累积提升为178,而其他模型的累积提升为172 - 174。
为了便于比较这五种基于统计的变量选择方法和GenIQ模型,使用AVG作为这五种方法的模型验证性能的单一衡量标准,即每个十分位数上五种方法累积提升的平均值。
5.3 GenIQ建模
5.3.1 参数设置
运行GenIQ模型时,需要理解遗传方法和控制遗传模型运行的参数,设置如下:
1.
种群大小
:3,000个模型
2.
代数
:250代
3.
复制的种群百分比
:10%
4.
用于交叉的种群百分比
:80%
5.
用于变异的种群百分比
:10%
GenIQ变量集由九个候选预测变量组成,GenIQ函数集选择了算术函数(加法、减法、乘法和除法)、一些布尔运算符(与、或、异或、大于/小于)和对数函数(Ln)。对数函数有助于对称化通常偏态的美元金额变量,如DOLLAR_2,预计DOLLAR_2将成为用对数函数定义的遗传进化结构的一部分。当然,RESPONSE是因变量。
5.3.2 模型进化过程
经过250代的复制、交叉和变异,根据适应度比例选择(PTF)进化了750,000(250×3,000)个模型。每个模型根据其解决“将响应者填充到上十分位数”问题的能力进行评估。上十分位数中有更多响应者的好模型更有可能为下一代模型做出贡献,而上十分位数中响应者较少的差模型则不太可能为下一代模型做出贡献。因此,最后一代由3,000个高性能模型组成,每个模型都有一个适应度值,表明该模型解决问题的能力。通常,前18个最大的适应度值定义了一组18个“最佳”模型,它们具有等效的性能(将几乎相同数量的响应者填充到上十分位数)。
5.3.3 最佳子集确定
一个最佳模型定义的变量集与另一个最佳模型定义的变量集有共同的变量,这些共同变量可以考虑作为最佳子集。变量在最佳模型集中的平均出现次数提供了确定最佳子集的衡量标准。GenIQ选择的原始变量最佳子集由平均出现次数大于0.75的变量组成,这些变量反映了在最大化十分位数标准下对必要变量的真实确定。
下表显示了九个变量在18个最佳模型集中的平均出现次数:
|变量|平均出现次数|
| ---- | ---- |
|DOLLAR_2|1.43|
|RFM_CELL|1.37|
|PROD_TYP|1.22|
|AGE_Y|1.11|
|LSTORD_M|0.84|
|PROMOTION|0.67|
|AVG_ORDE|0.37|
|OWN_TEL|0.11|
因此,GenIQ选择的最佳子集由五个变量组成:DOLLAR_2, RFM_CELL, PROD_TYP, AGE_Y和LSTORD_M。这个基于遗传的最佳子集与基于统计的最佳子集有四个变量相同(DOLLAR_2, RFM_CELL, LSTORD_M和AGE_Y)。与基于统计的方法不同,GenIQ认为PROD_TYP有价值,并将其包含在最佳子集中。从下表的“频率”行可以看出,最常用的变量仍然是DOLLAR_2和LSTORD_M。
|方法|DOLLAR_2|RFM_CELL|LSTORD_M|AGE_Y|AVG_ORDE|PROD_TYP|
| ---- | ---- | ---- | ---- | ---- | ---- | ---- |
|FS|x|x|x|x| | |
|BE|x|x|x|x| | |
|SW|x|x|x|x| | |
|R - sq|x| |x| |x| |
|Top - 4|x| |x| |x| |
|GenIQ|x|x|x|x| |x|
|频率|6|5|6|5|2|1|
此时,可以通过比较使用每个子集的逻辑回归模型(LRM)来评估基于遗传和基于统计的最佳子集的预测能力。但在识别GenIQ进化的结构后,我们将进行更有意义的比较。
5.4 GenIQ结构识别
GenIQ模型通过适应度比例选择(自然选择)、交叉(有性重组)和变异来进化结构,就像自然界中结构是自然选择、有性重组和变异的结果一样。GenIQ适应度导致结构的进化,这些结构是相对于最大化十分位数的标准进化而来的。重要的结构通常可以在最佳模型中找到,特别是具有四个最大适应度值的模型。
在这个示例中,GenIQ进化出了几个结构,即GenIQ构造的变量。具有最大适应度值的GenIQ模型揭示了五个新变量,NEW_VAR1到NEW_VAR5,其余三个最佳模型中还发现了额外的结构:NEW_VAR6到NEW_VAR8、NEW_VAR9和NEW_VAR10。具体如下:
1. NEW_VAR1 = DOLLAR_2/AGE_Y;如果Age_Y = 0,则NEW_VAR1 = 1
2. NEW_VAR2 = (DOLLAR_2)
NEW_VAR1
3. NEW_VAR3 = NEW_VAR2/LSTORD_M;如果LSTORD_M = 0,则NEW_VAR3 = 1
4. NEW_VAR4 = Ln(NEW_VAR3);如果NEW_VAR3 > 0,则NEW_VAR4 = 1
5. NEW_VAR5 = RFM_CELL/PROD_TYP;如果PROD_TYP = 0,则NEW_VAR5 = 1
6. NEW_VAR6 = RFM_CELL/DOLLAR_2;如果DOLLAR_2 = 0,则NEW_VAR6 = 1
7. NEW_VAR7 = PROD_TYP/NEW_VAR6;如果NEW_VAR6 = 0,则NEW_VAR7 = 1
8. NEW_VAR8 = NEW_VAR7
PROD_TYP
9. NEW_VAR9 = (AGE_Y/DOLLAR_2) - (RFM_CELL/DOLLAR_2);如果DOLLAR_2 = 0,则NEW_VAR9 = 1
10. NEW_VAR10 = 1 如果AGE_Y >= RFM_CELL;否则 = 0
为了了解新的GenIQ构造变量的预测能力,对9个原始变量和10个新变量与RESPONSE进行了相关分析,结果如下表所示:
|排名|变量|相关系数(r)|
| ---- | ---- | ---- |
|Top|NEW_VAR7|0.16|
|2|NEW_VAR5|0.15|
|3|NEW_VAR8|0.12|
|4|NEW_VAR1|0.12|
|5|DOLLAR_2|0.11|
|6|RFM_CELL|-0.10|
|7|NEW_VAR10|0.10|
|8|NEW_VAR4|0.10|
|9|PROD_TYP|0.08|
|10|LSTORD_M|-0.07|
|11|NEW_VAR2|0.07|
|12|NEW_VAR3|0.06|
|13|NEW_VAR9|0.05|
|14|AGE_Y|0.04|
|15|PROMOTION|0.03|
|16|NEW_VAR6|-0.02|
|17|AVG_ORDE|0.02|
|18|OWN_TEL|0.01|
|19|FSTORD_M|0.01|
可以看出,一些新变量与RESPONSE的关联比原始变量更强:
1. NEW_VAR7、NEW_VAR5、NEW_VAR8和NEW_VAR1与RESPONSE的关联比最佳原始变量DOLLAR_2更强。
2. NEW_VAR10和NEW_VAR4的关联强度介于第二和第三最佳原始变量RFM_CELL和PROD_TYP之间。
3. NEW_VAR2和NEW_VAR3的重要性排在最后两个原始预测变量AGE_Y和PROMOTION之前。
5.5 GenIQ变量选择
GenIQ构造的变量加上GenIQ选择的变量可以被视为一个增强的最佳子集,它反映了在最大化十分位数标准下对必要变量的真实确定。对于这个示例数据,增强集由15个变量组成:DOLLAR_2、RFM_CELL、PROD_TYP、AGE_Y、LSTORD_M和NEW_VAR1到NEW_VAR10。通过比较使用基于遗传的最佳子集和基于统计的最佳子集的逻辑回归模型(LRM)来评估增强最佳集的预测能力。
使用增强最佳集,对应五种变量选择方法进行了五次逻辑回归分析,得到的基于遗传的最佳子集如下表所示:
|方法|DOLLAR_2|RFM_CELL|PROD_TYP|AGE_Y|LSTORD_M|NEW_VAR1|NEW_VAR4|NEW_VAR5|
| ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- |
|FS|x| |x| |x|x| |x|
|BE| |x|x| |x| |x|x|
|SW|x| |x| |x| |x|x|
|R - sq| | |x| |x|x|x|x|
|Top - 4|x| | | |x| |x|x|
|频率|1|1|3|1|4|2|3|5|
可以看出,New_VAR5是“最重要”的变量,因为它被所有五种方法选中(“频率”行等于5);LSTORD_M是“第二重要”的变量,被四种方法选中(“频率”行等于4);RFM_CELL和AGE_Y是“最不重要”的变量,仅被一种方法选中(“频率”行等于1)。
为了评估基于遗传的最佳子集相对于基于统计的最佳子集在预测能力上的提升,定义AVG - g为五种方法在每个十分位数上模型验证性能的平均衡量标准。比较AVG - g和AVG(基于统计集的平均模型性能)表明,GenIQ变量选择技术在预测能力上有显著提升,百分比提升范围从第四十分位数的令人印象深刻的6.4%到第九十分位数的轻微0.7%,前四个十分位数的平均百分比提升为3.9%。
| 十分位数 | FS | BE | SW | R - sq | Top - 4 | AVG - g | AVG | 增益 |
|---|---|---|---|---|---|---|---|---|
| Top | 265 | 260 | 262 | 265 | 267 | 264 | 252 | 4.8% |
| 2 | 206 | 204 | 204 | 206 | 204 | 205 | 202 | 1.2% |
| 3 | 180 | 180 | 180 | 178 | 180 | 180 | 174 | 3.0% |
| 4 | 166 | 167 | 167 | 163 | 166 | 166 | 156 | 6.4% |
| 5 | 148 | 149 | 149 | 146 | 149 | 148 | 144 | 3.1% |
| 6 | 135 | 137 | 137 | 134 | 136 | 136 | 131 | 3.3% |
| 7 | 124 | 125 | 125 | 123 | 125 | 124 | 123 | 1.0% |
| 8 | 116 | 117 | 117 | 116 | 117 | 117 | 114 | 1.9% |
| 9 | 108 | 108 | 108 | 107 | 108 | 108 | 107 | 0.7% |
| Bottom | 100 | 100 | 100 | 100 | 100 | 100 | 100 | 0.0% |
这个示例展示了GenIQ变量选择技术相对于当前基于统计的变量选择方法的强大能力。GenIQ变量选择是一种具有数据挖掘能力的营销模型高性能方法,它的重要意义在于找到能使累积提升标准最大化的最佳变量子集。
6 GenIQ模型作为逻辑回归模型的非线性替代方案
GenIQ模型为本质上线性的逻辑回归模型(LRM)提供了一种非线性替代方案。LRM是对潜在非线性响应函数的线性近似,而该响应函数通常是嘈杂的、多峰的且不连续的。LRM与GenIQ增强的最佳变量子集相结合,提供了一种由GenIQ模型基于遗传的机器学习改进传统统计的无敌组合。然而,这种混合的GenIQ - LRM模型仍然只是对潜在非线性响应函数的线性近似。GenIQ模型本身(由其整个结构树定义)是一个非线性的超级结构,有很大的可能性在混合GenIQ - LRM模型的基础上进一步改进,当然也能超越LRM。由于响应函数的非线性程度未知,最佳方法是将GenIQ模型与混合GenIQ - LRM模型进行比较。如果确定改进是稳定且显著的,则应使用GenIQ模型。
继续之前的示例,GenIQ模型的累积提升情况如下表所示:
|十分位数|AVG - g(混合模型)|AVG(LRM)|GenIQ|GenIQ相对混合模型增益|GenIQ相对LRM增益|
| ---- | ---- | ---- | ---- | ---- | ---- |
|Top|264|252|283|7.1%|12.2%|
|2|205|202|214|4.4%|5.6%|
|3|180|174|187|3.9%|7.0%|
|4|166|156|171|2.9%|9.5%|
|5|148|144|152|2.8%|5.9%|
|6|136|131|139|2.5%|5.9%|
|7|124|123|127|2.2%|3.2%|
|8|117|114|118|1.3%|3.3%|
|9|108|107|109|1.2%|1.9%|
|Bottom|100|100|100|0.0%|0.0%|
从表中可以看出,GenIQ模型相对于混合GenIQ - LRM模型(AVG - g)的性能有显著提升,百分比增益从最高十分位数的7.1%到第九十分位数的1.2%不等。对于最具可操作性的前四个十分位数,平均百分比增益为4.6%。与LRM(AVG)相比,前四个十分位数的平均百分比增益为8.6%,其中最高十分位数的增益高达12.2%。
需要注意的是,由于没有一个单一的GenIQ模型能够在所有上十分位数都提供增益,因此需要一组四个单独的GenIQ模型来获得报告的十分位数性能水平。产生前四个十分位数的GenIQ模型分别如图30.1、30.5、30.6和30.7所示,产生第五到最后十分位数的GenIQ模型如图30.8所示。
当响应函数是非线性的、有噪声、多峰且不连续时,需要一组GenIQ模型。GenIQ能够生成许多具有期望性能增益的模型,这反映了GenIQ范式的灵活性。它允许对数据进行自适应智能建模,以考虑明显非线性响应函数的变化。
这个示例展示了GenIQ模型作为LRM的非线性替代方案的强大能力。GenIQ提供了一个两步的响应建模过程:首先,构建最佳的混合GenIQ - LRM模型;其次,选择最佳的GenIQ模型。如果GenIQ模型相对于混合模型有稳定且显著的改进,则GenIQ模型是首选的响应模型。
同样,GenIQ模型在寻找利润模型的结构方面也同样有效。因此,GenIQ模型是普通最小二乘法(OLS)回归模型的非线性替代方案,它有可能在OLS和混合GenIQ - OLS模型的基础上提供稳定且显著的改进。
7 总结
在探讨了五种流行的基于统计的变量选择方法的基础上,我们指出了这些方法的两个共同弱点。这些弱点阻碍了它们满足营销模型期望要求的能力,即既无法识别数据结构,也不能明确最大化累积提升标准。
我们介绍了GenIQ模型,它是一种基于遗传的营销模型变量选择方法。GenIQ响应和利润模型在理论上优于使用逻辑和普通回归模型构建的响应和利润模型,因为其适应度函数的性质。GenIQ适应度函数明确地试图将尽可能多的响应或利润填充到上十分位数。而标准统计方法只是隐式地最大化累积提升,因为它们的适应度函数只是作为最大化累积提升的替代。
通过一个响应模型示例,我们展示了GenIQ模型作为一种具有数据挖掘能力的高性能变量选择方法,能够找到重要结构以最大化累积提升标准。从九个候选预测变量开始,基于统计的变量选择方法在定义其最佳子集时确定了五个预测变量。GenIQ也确定了五个预测变量,其中四个与基于统计的最佳子集相同。此外,GenIQ进化出了10个结构(新变量),其中4个与响应的关联比最佳原始预测变量更强,2个新变量的关联强度介于第二和第三最佳原始预测变量之间。因此,GenIQ创建了一个包含15个变量的增强最佳子集。
GenIQ变量选择方法优于基于统计的变量选择方法。我们使用增强最佳子集为五种基于统计的变量选择方法构建了LRM,并将其“平均”性能(AVG - g)与使用原始九个变量的五种基于统计方法的LRM平均性能(AVG)进行了比较。AVG - g和AVG的比较表明,预测能力有显著提升,百分比增益从令人印象深刻的6.4%到轻微的0.7%不等,前四个最具可操作性的十分位数的平均百分比增益为3.9%。
最后,我们提出GenIQ模型本身作为标准回归模型的非线性替代方案。LRM与GenIQ增强的最佳变量子集相结合,提供了一种由机器学习改进传统统计的组合。然而,这种混合的GenIQ - LRM模型仍然只是对潜在非线性响应函数的线性近似。GenIQ模型本身是一个非线性超级结构,有很大的可能性在混合GenIQ - LRM模型的基础上进一步改进。对于响应示例,一组GenIQ模型在混合GenIQ - LRM模型的性能基础上有显著改进,百分比增益从令人印象深刻的7.1%到可观的1.2%不等,前四个最具可操作性的十分位数的平均百分比增益为4.6%。
以下是对整个过程的一个简单流程图:
graph LR
A[开始:九个候选预测变量] --> B[基于统计方法选择变量]
A --> C[GenIQ模型选择变量]
B --> D[构建基于统计的LRM]
C --> E[GenIQ进化新变量]
E --> F[形成增强最佳子集]
F --> G[基于增强子集构建LRM]
D --> H[评估基于统计的LRM性能]
G --> I[评估基于GenIQ的LRM性能]
H --> J[比较性能]
I --> J
J --> K[选择最佳模型(LRM或GenIQ)]
综上所述,GenIQ模型在营销模型的变量选择和建模方面具有明显的优势,能够为营销人员提供更有效的工具来提高营销活动的效果。
超级会员免费看
11

被折叠的 条评论
为什么被折叠?



