机器学习在经济学中的应用与挑战
1. 机器学习基础原理
在机器学习中,输入层的参数传递到下一层时,会涉及一系列计算。其中,$x^{[l - 1]}$ 代表上一层的输入参数,$b^{[l]}$ 是当前层每个节点相关的偏置项,$W^{[l]}$ 表示当前层与上一层所有连接的权重矩阵,$g^{[l]}$ 是激活函数,可选择 ReLU、Sigmoid 或 Tanh 等,$a^{[l]}$ 是节点的输出。
接下来,会基于计算得到的输出和真实输出计算损失函数。在反向传播过程中,采用梯度下降方法,通过小幅度调整 $W$ 和 $B$ 的值来最小化损失函数。前向传播和反向传播步骤会不断迭代,直到损失函数收敛到全局最小值。
2. 其他机器学习模型类别
2.1 无监督模型
- 聚类 :这类模型使用基于距离的机制,识别属性位置相似的数据点群组。在市场营销和客户分析问题中,聚类模型有重要应用。在经济分析里,对于目标选择场景也非常有用,例如根据项目规模、位置和期限等各种项目属性,为公私合营(PPP)模式的基础设施项目进行目标选择。
- 异常检测 :这是另一种广泛使用的无监督模型,利用数据分组和阈值标准,捕捉数据集中的意外模式或异常数据点。传统统计学中,单变量异常检测是识别列中异常值的常用技术,但机器学习提供了更先进的方法来捕捉多变量异常,如基于聚类的异常检测、隔离森林和自编码器。
2.2 矩阵分解
矩阵分解在矩阵代数中是一种备受追捧的技术。机器学习专家发现它在解决许多具有挑战性的问题时非常有用,例如填充数据集中的缺失值,或使用矩阵分解和重构构建推荐引擎。这些技术依赖于矩阵分解方法,将原始的 $m n$ 矩阵转换为两个不同大小的矩阵,分别为 $m k$ 和 $k*n$。每个矩阵都是原始矩阵行和列的原型表示,在处理经济学中的横截面数据时非常有用。
3. 机器学习在经济学中的适用性
3.1 引入示例
以政府面临消费放缓的情况为例。过去 3 - 4 个季度,家庭消费下降,政府面临两个关键问题:一是消费放缓的原因是什么;二是应采取什么政策措施来促进消费。经济学家收集近期宏观经济数据进行分析,得出家庭储蓄减少导致消费放缓的结论。基于多次咨询和经济学原理,政府决定降低个人所得税,以增加可支配收入和家庭储蓄。然而,这是否能达到预期效果,政府是否有无限资源长期维持低所得税或零所得税,这些都是需要考虑的问题。这就引出了机器学习在经济分析中的应用。
3.2 机器学习应用的两大领域
经济计量学和传统经济分析方法能够提供因果关系和推断,衡量各种因素对结果的影响,但缺乏预测近似或目标选择的能力。机器学习在经济数据分析中有两个更广泛的应用领域:因果分析和预测近似。
| 分析类型 | 因果推断 | 预测近似 |
|---|---|---|
| 目标 | 识别因素对结果的正负影响 | 预测近似结果,如类别、值或概率 |
| 关注重点 | 确定协变量对结果的相对影响 | 期望协变量的相对和绝对影响 |
| 特征要求 | 不一定要包含所有可能的特征 | 预测中要包含最多的协变量和混杂变量 |
| 拟合优度关注 | 非重点 | 很重要,影响预测准确性 |
| 优化目标 | 最小化权重近似中的偏差 | 迭代优化以最小化模型偏差和方差 |
| 模型解释性 | 非常重要 | 根据分析目的,可在一定程度上保持 |
4. 经济分析中的挑战与机器学习的优势
4.1 传统经济建模技术的挑战
- 建模时无法考虑大量特征。
- 建模选项有限,过度依赖回归技术。
- 难以处理数据中的非线性关系以实现更好的预测。
- 在减少模型的“偏差”和“方差”问题上存在局限性。
- 需要太多手动干预来根据数据和目标定制模型。
4.2 机器学习的优势
4.2.1 处理多变量能力
新的机器学习技术能够一次性处理数十甚至数百个变量。例如,回归树和回归森林等技术可以进行数据的多变量分析,轻松地为因果解释和预测提供结果。决策树方法基于信息增益(即熵的变化)的概念,对变量进行分析,以确定在准确预测目标连续变量方面具有最大分割能力的变量。通过装袋机制组合多个回归树,形成回归森林模型。这类模型的可解释性较差,但在处理“偏差”和“方差”类型的错误方面,优于回归树和线性回归模型。
4.2.2 模型选择多样性
传统经济学在处理时间序列、横截面数据和面板数据时,过度依赖线性回归、Logit、ARIMA、ANOVA 等回归技术。而机器学习领域提供了广泛的模型选择,可根据分析目的用于各种经济任务。
4.2.3 处理非线性数据
经济学家在处理数据中的非线性关系时面临困难。传统计量经济学中有一些方法可以处理非线性数据,例如通过对数变换和幂函数等数学变换将非线性问题转化为线性结构。但回归函数在处理因果参考和预测问题时存在局限性,并且在拟合函数时难以处理“偏差”和“方差”问题。机器学习提供了创新的方法来解决这些错误。
4.2.4 减少偏差和方差
- 减少偏差 :机器学习提供了多种建模选项来减少偏差。一方面,模型具有灵活性,能够衡量拟合函数的形状并适应数据的复杂性,如支持向量机和深度学习模型。支持向量机算法提供易于配置的核参数,可以处理线性、Sigmoid、高斯、多项式等多种核函数;深度学习方法可以通过调整隐藏层的数量和层内的神经元数量来处理高度复杂的问题。另一方面,提升方法专门设计用于缓解模型中的偏差问题,如梯度提升使用梯度技术对先前弱学习器的错误进行建模,并以加法方式将学习到的函数添加到整体模型中。
- 减少方差 :除了上述方法在一定程度上控制方差问题外,还有其他技术可用于处理导致“方差误差”的模型过拟合问题,如正则化技术和基于装袋建议构建的集成模型。正则化技术在原始损失函数中添加额外的惩罚项,以约束特征权重,避免其过高或集中在少数几个自变量上。常见的正则化方法有 L1 正则化(Lasso 回归)和 L2 正则化(Ridge 回归)。
4.2.5 自动化复杂手动活动
机器学习算法是预先编写的方法,只需最少的手动干预即可使用和定制。无论数据和算法如何,通过更改参数设置就可以实现对机器学习模型的定制。机器学习领域的进一步发展引入了自动化机器学习的概念,使模型选择和微调的人工干预几乎为零。
graph LR
A[传统经济建模挑战] --> B[处理多变量能力不足]
A --> C[模型选择有限]
A --> D[处理非线性数据困难]
A --> E[偏差和方差问题]
A --> F[手动干预过多]
B --> G[机器学习新方法]
C --> G
D --> G
E --> G
F --> G
G --> H[提升分析效率和效果]
5. 利用机器学习进行经济分析的主要关注点
5.1 复杂机器学习模型的解释力
这是限制经济学家在多项经济研究中应用机器学习模型的最大障碍,尤其是在因果参考领域。经济学家的主要目标之一是区分相关性和因果关系,因为他们的建议会导致大规模的政策制定,影响个人、社会、企业和公司。机器学习为解决因果问题提供了一种替代方法,但需要与传统计量经济学方法结合使用。
目前,机器学习提供了一些易于解释的模型,如逻辑回归和决策树,也具备一定能力解释更复杂的模型,如装袋、提升和神经网络模型。在机器学习中,特征重要性和因果解释在两个层面进行处理:
1.
模型层面(全局解释)
:提供协变量在分类或预测因变量时的总体贡献或分割能力。
2.
预测层面(局部解释)
:为每个数据点的预测提供决策路径。
像“Shapley”这样的先进技术,基于博弈论的类比并建立在回归概念之上,即使对于神经网络等高度复杂的模型,也能提供深入的解释。结合模型的部分解释和经济学原理的理论理解,研究人员可以利用机器学习方法解决广泛的政策问题,包括因果推断。
5.2 模型优化的控制
大量的经济分析工作是逐步进行的,原因有两个:一是计量经济学模型在进行全面分析时存在局限性;二是经济学家需要在模型形成的每个阶段进行推断。机器学习很好地解决了第一个问题,但在满足第二个期望方面有所不足。这是因为机器学习模型的训练过程高度自动化,几乎不需要手动干预。
不过,在机器学习领域,这个问题可以在一定程度上得到解决。虽然机器学习模型自动进行训练过程,但用户仍可以控制模型的配置。例如,训练决策树模型时,用户需要提供一系列输入,如标准、分割策略、最大深度、最小叶样本等。不同的输入值组合会产生不同的树结构,经济学家可以通过实验和比较这些不同组合的结果,在一定程度上得出中间推断。
5.3 处理有限的实验数据
在当今世界,数据是任何商业或经济分析的核心。由于经济研究的深远影响和经济指标之间的复杂相互依赖关系,经济研究依赖于理论假设、已证实的假设和明确的证据。许多经济分析是基于实验数据、调查点或在受控环境中收集的数据进行的。这些数据集不仅数量有限,而且与通过系统或用户行为收集的数据具有不同的特征。
| 数据类型 | 特点 | 经济分析中的挑战 |
|---|---|---|
| 实验数据 | 数量有限、特征与系统收集数据不同 | 难以基于少量数据构建准确模型 |
| 系统收集数据 | 如交易、生产数据 | 数据量大,但可能存在噪声和复杂性 |
6. 总结与展望
机器学习在经济学中的应用具有巨大潜力,但也面临一些挑战。通过利用机器学习的优势,如处理多变量、选择多样化模型、处理非线性数据、减少偏差和方差以及自动化复杂手动活动等,可以提高经济分析的效率和效果。然而,复杂模型的解释力、模型优化的控制以及处理有限实验数据等问题仍然需要进一步解决。
未来,随着机器学习技术的不断发展和完善,以及与传统经济学方法的更好结合,有望在经济分析中发挥更大的作用。例如,更先进的解释技术可能会提高复杂模型的可解释性,自动化机器学习可能会进一步减少人工干预,从而使经济学家能够更高效地进行经济分析和政策制定。
graph LR
A[机器学习在经济学应用] --> B[优势体现]
A --> C[面临挑战]
B --> B1[处理多变量]
B --> B2[模型选择多样]
B --> B3[处理非线性数据]
B --> B4[减少偏差方差]
B --> B5[自动化活动]
C --> C1[模型解释力不足]
C --> C2[模型优化控制难]
C --> C3[处理有限数据难]
B --> D[提升经济分析效果]
C --> E[需进一步解决问题]
E --> F[技术发展与结合]
F --> G[发挥更大作用]
总之,机器学习为经济学带来了新的机遇和挑战,我们需要不断探索和创新,以充分发挥其在经济领域的价值。
机器学习在经济学中的应用与挑战解析
超级会员免费看
6908

被折叠的 条评论
为什么被折叠?



