20、回归建模：艺术、科学与诗意的交融-优快云博客

本文链接：https://blog.youkuaiyun.com/tensor9flow/article/details/152122367

回归建模：艺术、科学与诗意的交融

1. 回归建模的多元内涵

回归建模常被认为融合了艺术与科学。艺术体现为通过经验积累获得的技能，而科学则是对事实或原理的精确应用。实际上，回归建模还涉及具体诗歌元素，诗人意图通过符号图形模式（如回归方程）而非传统文字排列来传达。为展示这一回归三部曲，我们引入机器学习技术 GenIQ，它是统计回归模型的替代方案。

1.1 莎士比亚式模型诗

有一首莎士比亚式的模型诗《是否将数据拟合到模型》，提出了一个关键问题：是忍受将数据强行拟合到预设模型的痛苦，还是摒弃这种传统方式，让数据定义模型？在当今大数据时代，将大数据拟合到预设的小框架模型中，会产生解释性存疑、结果不可靠的扭曲模型。而 GenIQ 模型作为机器学习的替代回归模型，是一种无假设、自由形式的模型，旨在最大化累积提升统计量，即优化十分位数表。

1.2 传统回归模型解读

对于回归建模者来说，日常预测连续结果（如利润）常用普通最小二乘法（OLS）回归模型，预测二元结果（如是/否响应）则常用逻辑回归模型（LRM）。这些模型的核心是适应度函数，用于量化解决方案（预测）的最优性。

OLS 回归模型的适应度函数是均方误差（MSE），通过微积分进行最小化。微积分可追溯到古希腊时期，18 世纪末在欧洲取得重大进展，莱布尼茨和牛顿被认为独立“发明”了微积分。1805 年 3 月 6 日，最小二乘法诞生，OLS 回归模型至今已流行 207 年。其基础由 1795 年 18 岁的卡尔·弗里德里希·高斯奠定，但他直到 1809 年才发表该方法。1822 年，高斯证明了最小二乘法在回归分析中的最优性，即高斯 - 马尔可夫定理。而“最小二乘法”这一术语由阿德里安·玛丽·勒让德于 1805 年提出。

LRM 的适应度函数是似然函数，通过微积分（即最大似然法）进行最大化。逻辑函数起源于 19 世纪，由比利时数学家韦尔热斯特发明，用于描述人口增长。1920 年，珀尔和里德重新发现了该函数，尤尔使其术语“逻辑”得以保留，伯克森将其引入统计学。最初，伯克森的 LRM 未被广泛接受，直到 20 世纪 60 年代，意识形态争论平息后才获得认可。

1.3 GenIQ 模型介绍

GenIQ 模型于 1994 年被提出，其建模范式是“让数据定义模型”，与传统统计建模范式“将数据拟合到模型”完全相反。GenIQ 模型具有以下特点：
1. 自动挖掘新变量 ：在原始变量中挖掘新变量。
2. 进行变量选择 ：从新变量和原始变量中选出最佳子集。
3. 指定模型以优化十分位数表 ：通过遗传编程（GP）方法优化十分位数表，使计算机自动填充上十分位数，以最大化累积提升。十分位数表最初被称为“收益图”，最早可追溯到 20 世纪 50 年代初的直邮业务，如今已成为衡量模型性能的通用指标。

然而，GenIQ 模型尚未成为日常回归模型，主要有两个原因：
1. 意外的方程形式 ：GenIQ 输出是解析树和计算机程序代码，与传统回归模型方程形式不同，让建模者感到困惑。例如，对于勾股定理，GenIQ 计算机代码如下：

x1 = height;
    x2 = x1*x1;
        x3 = length;
            x4 = x3*x3;
    x5 = x2 + x3;
x6 = SQRT(x5);
diagonal = x6;

解释难度较大 ：GenIQ 的解析树和计算机代码对于未知模型或解决方案来说理解起来有一定难度。不过，对于一些已知解决方案（如勾股定理），GenIQ 树并不难理解。

GenIQ 树和计算机代码代表了 GenIQ 模型的特点。它不仅能自动指定模型，还能自动挖掘新变量。例如，在勾股定理的例子中，产生了四个新变量：new_var1 = (height × height)；new_var2 = (length × length)；new_var3 = (new_var1 + new_var2)；new_var4 = SQRT(new_var3)。将这些新变量添加到原始数据集构建统计回归模型，可得到混合统计 - 机器学习模型，为建模者提供必要的信心。

对于回归建模者来说，可解释性主要依赖于回归系数。但标准的回归系数解释方法常导致对回归模型的错误解释。GenIQ 作为非统计机器学习方法，虽无系数，但通过对每个预测变量与因变量关系的排名，提供了重要预测变量的独特选择，并通过分析十分位数表回答了预测变量对因变量的影响问题。

尽管 GenIQ 模型实施简单，但由于上述两个问题，目前尚未广泛应用。不过，随着数据规模的增长，GenIQ 模型将成为更合适的选择，因为它能适应各种规模的数据，让数据定义模型，而传统的 OLS 和 LRM 模型在大数据环境下表现不佳。

2. 遗传与统计回归模型对比

2.1 传统与新兴范式对比

统计 OLS 回归和 LR 模型分别是预测和分类的常用技术。OLS 回归方法于 1805 年由勒让德首次发表，LR 模型于 1944 年由伯克森开发。虽然旧事物不一定无用，新事物也不一定更好，但传统统计回归范式“将数据拟合到模型”是在小数据环境下发展和测试的，在大数据时代已显乏力。而新的机器学习遗传范式“让数据定义模型”在大数据环境下更有效，遗传模型的表现优于传统统计回归模型。

2.2 模型适应度函数

任何预测模型的核心都是适应度函数，也称为目标函数。OLS 回归的适应度函数是均方误差，易于理解，即实际观测值与预测观测值误差的平方平均值。LR 模型的适应度函数是似然函数，对于不熟悉数理统计的人来说较抽象，可结合分类表理解，主要衡量正确分类个体的总数。这些统计回归模型的方程通过微积分获得。

2.3 提出 GenIQ 模型

为支持上述观点，我们引入 GenIQ 模型作为遗传 LR 模型，替代传统统计 LR 模型。同时，持续数十年的“如果没有显著性检验会怎样”的辩论，也对统计回归范式的有效性提出了质疑。传统建模方式要求建模者在零假设下预先指定未知的真实模型，这显然不合适。若假设检验拒绝模型，建模者需反复尝试，这可能导致发现变量间的虚假关系。因此，GenIQ 模型作为新的选择应运而生。

2.4 GenIQ 模型特点

GenIQ 模型是一种灵活的、适用于任何规模数据的方法，遵循“让数据定义模型”的范式，具有以下特点：
1. 挖掘新变量 ：在原始变量中挖掘新变量。
2. 变量选择 ：从新变量和原始变量中选出最佳子集。
3. 优化十分位数表 ：以十分位数表为适应度函数，通过遗传编程（GP）方法进行优化，使计算机自动填充上十分位数，以最大化累积提升。十分位数表适用于多个行业的模型构建，如直销、数据库或电话营销、营销组合优化、商业智能、客户关系管理等，正逐渐成为衡量模型预测性能的通用指标。

2.5 填充上十分位数示例

为了说明“填充上十分位数”的概念，我们来看十分位数表的构建步骤：
1. 应用模型 ：将模型应用于文件（对文件进行评分）。
2. 排序：按降序对评分后的文件进行排序。
3. 分组：将排序后的文件分成 10 个相等的组。
4. 计算：计算累积提升。
5. 评估：评估模型性能，最佳模型应能识别出上十分位数中的最多响应。

例如，在一个包含 100 个个体、40 个响应者的 RESPONSE 模型中，如果所有 40 个响应都在上十分位数中，则表示这是一个完美模型。但实际上，完美模型很难实现，因此我们将目标设定为最大化上十分位数中的响应。

下面是一个示例十分位数表，展示了如何读取 RESPONSE 模型的预测性能。该表基于一个包含 46,170 个个体、2,104 个响应者的样本进行验证：
| 十分位数 | 客户数量 | 响应数量 | 累积响应率 | 累积提升 | 十分位数响应率 |
| — | — | — | — | — | — |
| 顶部 | 4,617 | 865 | 18.7% | 411 | 18.7% |
| 2 | 4,617 | 382 | 13.5% | 296 | 8.3% |
| 3 | 4,617 | 290 | 9.0% | 198 | 6.3% |
| 4 | 4,617 | 128 | 7.6% | 167 | 2.8% |
| 5 | 4,617 | 97 | 6.7% | 146 | 2.1% |
| 6 | 4,617 | 81 | 5.9% | 130 | 1.8% |
| 7 | 4,617 | 79 | 5.4% | 118 | 1.7% |
| 8 | 4,617 | 72 | 5.0% | 109 | 1.6% |
| 9 | 4,617 | 67 | 4.6% | 100 | 1.5% |
| 底部 | 4,617 | 43 | 0.9% | - | 0.9% |
| 总计 | 46,170 | 2,104 | - | - | - |

从表中可以看出，顶部十分位数的累积提升为 411，表示使用该模型针对顶部十分位数进行目标营销，可获得不使用模型时 4.11 倍的响应者。

2.6 遗传编程发展历程

与使用微积分求解模型方程的统计回归模型不同，GenIQ 模型使用遗传编程（GP）。GP 的发展历程如下：
1. 1954 年，GP 起源于尼尔斯·阿尔·巴里塞利首次使用的进化算法，并应用于进化模拟。
2. 20 世纪 60 年代和 70 年代初，进化算法被广泛认为是一种可行的优化方法。
3. 20 世纪 70 年代，约翰·霍兰德对 GP 产生了重要影响。
4. 1985 年，尼克尔·L·克莱默首次提出“基于树”的 GP。
5. 1992 年，约翰·R·科扎对 GP 进行了大幅扩展，并将其应用于各种复杂的优化和搜索问题。
6. 20 世纪 90 年代，由于当时 CPU 计算能力有限，GP 主要用于解决相对简单的问题。
7. 近年来，随着 GP 技术的改进和 CPU 计算能力的指数级增长，GP 取得了许多出色的成果。
8. 1994 年，GenIQ 模型作为科扎 - GP 机器学习替代模型被引入。

统计学家对 OLS 和 LR 模型的数学统计解决方案深信不疑，但对 GP 缺乏了解。尽管 GP 方法本身并不难理解，但由于统计学家缺乏对其原理和程序的正式接触，目前 GenIQ 模型的接受度不高。不过，我们希望统计建模者能够逐渐接受 GP 的可靠性，并认可遗传与统计回归模型的比较。

2.7 GenIQ 模型目标与特点

GenIQ 模型的操作目标是找到一组函数（如算术、三角函数）和变量，使方程（GenIQ 模型）最大化上十分位数中的响应。GP 用于确定这些函数和变量。

有人可能会认为 GenIQ 模型需要选择变量和函数，会给建模者带来额外负担。但实际上，统计回归模型在建模前的探索性数据分析（EDA）中也需要选择函数，如对数变换、倒数变换等。而 GP 的进化过程使得 EDA 不再必要，这是 GP 和 GenIQ 的一个显著特点。GP 仅需进行数据预处理，消除不可能或不合理的值。

2.8 GenIQ 模型工作原理

为了说明 GenIQ 模型的工作原理，我们使用一个小数据集进行示例。假设有 10 个客户（5 个响应者和 5 个非响应者），以及两个预测变量 X1 和 X2，因变量是 RESPONSE。目标是构建一个模型，最大化上四个十分位数。

我们构建了两个 RESPONSE 模型：统计 LR 模型和遗传 LR 模型（GenIQ）。结果显示，GenIQ 模型识别出四个响应者中的三个，上四个十分位数的响应率为 75%；而 LRM 模型识别出两个响应者，响应率为 50%。

GenIQ 模型的方程为：GenIQ = 20 + 40 (X1 + X2)
LRM 模型的方程为：LRM = .20 – .03 X1 + .03*X2

GenIQ 模型作为基于 GP 的模型，还会以解析树的形式直观展示其方程。从解析树中可以看出，GenIQ 挖掘了新变量 X1 + X2，这是变量选择的结果，同时解析树也指定了模型。

此外，GenIQ 模型在建模过程中会产生约 5 到 10 个等效模型。建模者可以根据具体目标和期望特征选择合适的模型。例如，有些模型在上四个十分位数中表现较好，有些则在整个十分位数表中表现出色。而且，GenIQ 提供的等效模型并非虚假数据挖掘，不存在反复尝试变量选择直到满足目标的情况。

下面是一个 GenIQ 模型最大化整个十分位数表的示例：

x1 = XX2;
x2 = 3;
x2 = x2 + x3;
x2 = XX2;
x2 = x3 – x2;
x2 = x2 + x3;
x1 = Cos(x1);
GenlQvar = x1;
If x1 NE 0 Ten x1 = x2/x1; Else x1 = 1;
If x1 NE 0 Ten x1 = x2/x1; Else x1 = 1;
x3 = XX2;
x3 = XX2;
x3 = XX1;

该模型选择了加法、减法、除法和余弦函数，以及两个原始变量 XX1 和 XX2 和数字 3。通过对 GenIQvar 进行评分和排序，数据集显示 RESPONSE 变量实现了完美排序，即 5 个 R（响应者）后跟着 5 个 N（非响应者），这相当于最大化了十分位数表。此示例也凸显了统计回归建模的弱点，即统计建模通常只提供一个模型，除非进行虚假的数据挖掘和变量选择，而遗传建模则提供多个不同十分位数表现的模型。

综上所述，传统统计回归范式在大数据时代已显不足，而新的机器学习遗传范式“让数据定义模型”更具优势。GenIQ 模型作为遗传 LR 模型的代表，具有挖掘新变量、变量选择和优化十分位数表等特点，在性能上优于传统统计回归模型。尽管目前 GenIQ 模型的接受度不高，但随着数据规模的不断增长和统计学家对 GP 认识的加深，它有望成为未来回归建模的主流方法。

3. GenIQ 模型与传统模型的性能差异

3.1 小数据集示例对比

在前面的小数据集示例中，我们已经看到了 GenIQ 模型和统计 LR 模型在预测性能上的差异。为了更清晰地展示这种差异，我们可以用表格形式呈现两个模型的具体表现：
| 模型 | 上四个十分位数响应者识别数量 | 上四个十分位数响应率 |
| — | — | — |
| GenIQ 模型 | 3 | 75% |
| 统计 LR 模型 | 2 | 50% |

从这个表格中可以直观地看出，GenIQ 模型在小数据集上的表现优于统计 LR 模型，能够更准确地识别出响应者，提高了上十分位数的响应率。

3.2 大数据环境下的优势

在大数据环境下，传统的 OLS 和 LR 模型的局限性更加明显。这些模型是在小数据环境下开发和测试的，其线性性质无法捕捉大数据的复杂结构。而 GenIQ 模型具有灵活性、无假设和非参数的特点，能够适应大数据的规模和复杂性，让数据定义模型。

为了更形象地展示 GenIQ 模型在大数据环境下的优势，我们可以用 mermaid 格式的流程图来表示数据处理过程：

graph LR
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;

    A[大数据集]:::process --> B[GenIQ 模型处理]:::process
    B --> C[挖掘新变量]:::process
    C --> D[变量选择]:::process
    D --> E[指定模型优化十分位数表]:::process
    E --> F[输出预测结果]:::process

    G[大数据集]:::process --> H[传统统计模型处理]:::process
    H --> I[预设模型]:::process
    I --> J[拟合数据到预设模型]:::process
    J --> K[可能出现拟合不佳情况]:::process
    K --> L[多次尝试调整模型]:::process
    L --> M[输出预测结果（可能不准确）]:::process

从这个流程图可以看出，GenIQ 模型能够自动挖掘新变量、进行变量选择和指定模型，适应大数据的特点。而传统统计模型需要预设模型，在大数据环境下可能出现拟合不佳的情况，需要多次尝试调整模型，增加了时间和成本，并且预测结果可能不准确。

4. GenIQ 模型的应用场景与前景

4.1 适用的行业领域

GenIQ 模型以十分位数表为适应度函数，适用于多个行业的模型构建，以下是一些具体的应用场景：
1. 直销、数据库或电话营销 ：通过优化十分位数表，能够更准确地识别出最有可能响应的客户，提高营销效率和效果。
2. 营销组合优化 ：帮助企业确定最佳的营销组合，提高营销资源的利用效率，实现利润最大化。
3. 商业智能 ：为企业提供更准确的数据分析和预测，支持决策制定。
4. 客户关系管理（CRM） ：更好地了解客户需求和行为，提高客户满意度和忠诚度。
5. 网络或电子邮件广播 ：精准地向目标客户发送信息，提高信息传播的效果。

4.2 未来发展前景

随着数据规模的不断增长和数据复杂性的增加，传统统计回归模型的局限性将越来越明显。而 GenIQ 模型作为一种新的机器学习方法，具有适应大数据的优势，未来有望在更多领域得到应用。

同时，随着统计学家对遗传编程（GP）原理和程序的了解加深，GenIQ 模型的接受度也将逐渐提高。我们可以期待 GenIQ 模型在回归建模领域发挥更大的作用，成为未来回归建模的主流方法。

4.3 面临的挑战与解决方案

尽管 GenIQ 模型具有很多优势，但目前也面临一些挑战，例如输出形式不被熟悉、解释难度较大等。为了克服这些挑战，可以采取以下措施：
1. 加强培训和教育 ：对统计建模者进行遗传编程和 GenIQ 模型的培训，提高他们对新方法的认识和理解。
2. 开发可视化工具 ：开发更直观的可视化工具，帮助建模者更好地理解 GenIQ 模型的解析树和计算机代码。
3. 建立案例库 ：建立 GenIQ 模型的成功案例库，展示其在不同领域的应用效果，增强建模者对该模型的信心。

5. 总结

回归建模不仅仅是艺术与科学的结合，还包含了具体诗歌的元素。GenIQ 模型作为一种新的机器学习方法，为回归建模带来了新的思路和方法。与传统的统计回归模型相比，GenIQ 模型具有以下优势：
1. 让数据定义模型 ：适应大数据的规模和复杂性，避免了预设模型的局限性。
2. 自动挖掘新变量和进行变量选择 ：能够发现数据中的潜在信息，提高模型的预测性能。
3. 优化十分位数表 ：以十分位数表为适应度函数，适用于多个行业的模型构建，提高营销效率和效果。

尽管目前 GenIQ 模型的接受度不高，但随着数据规模的增长和统计学家对遗传编程的认识加深，它有望成为未来回归建模的主流方法。我们应该积极探索和应用 GenIQ 模型，充分发挥其在回归建模中的优势，为各行业的数据分析和决策提供更准确的支持。