基于多层混合MTL结构提高股市预测的准确性，MAE最低可达0.45，R²高达0.98

“Boosting the Accuracy of Stock Market Prediction via Multi-Layer Hybrid MTL Structure”

股票市场预测对投资者和企业至关重要，但由于数据复杂性，传统统计模型（如ARMA、ARIMA、GARCH）表现有限，传统方法忽视了股票间的关系。

本文提出了一种新型的多层混合多任务学习框架，旨在提高股票市场预测的效率。实验结果显示，本模型在预测性能上优于其他竞争网络，MAE最低为1.078，MAPE最低为0.012，R²最高为0.98。

论文地址：https://arxiv.org/pdf/2501.09760

摘要

本文提出了一种新型的多层混合多任务学习框架，旨在提高股票市场预测的效率。该框架结合了Transformer编码器、双向门控循环单元（BiGRU）和Kolmogorov-Arnold网络（KAN）。实验结果显示，该模型在预测性能上优于其他竞争网络，MAE最低为1.078，MAPE最低为0.012，R²最高为0.98。

简介

股票市场预测对投资者和企业至关重要，但由于数据复杂性，传统统计模型（如ARMA、ARIMA、GARCH）表现有限。机器学习技术在股票预测中优于传统方法，深度学习（如卷积神经网络、递归神经网络）展现出更强的学习能力。

传统方法忽视了股票间的关系，整合空间维度可提升预测准确性，图神经网络（GNN）已被应用于此。Transformer模型通过注意力机制捕捉复杂关系，但在处理长序列和高维数据时存在局限。KAN（知识增强网络）通过边函数参数替代传统权重，提升非线性函数的近似能力。集成学习在金融预测中显示出显著优势，本文提出的算法可作为集成学习框架的一部分。

本文提出的多层混合多任务学习框架结合Transformer编码器、BiGRU和KAN，旨在提高股票市场预测的效率和准确性。

相关工作

股票市场趋势预测对学术界和实践者具有重要意义。预测方法包括传统统计方法和先进的机器学习模型。传统方法曾主导领域，但机器学习算法（如神经网络和深度学习）逐渐兴起。混合模型结合传统与现代技术，提供更高的准确性和鲁棒性。

传统方法

传统股票市场预测方法包括时间序列模型和隐马尔可夫模型（HMM）。Devi等人首次使用ARIMA模型预测未来市场趋势，Khanderwal认为ARIMA适合短期预测。Marisetty等人使用GARCH模型分析五大金融指数的波动性，认为GARCH是波动性预测的优选。Gupta等人提出基于HMM的最大后验估计器，预测次日股票值，表现优于ARIMA和ANN模型。Su等人将HMM从离散形式扩展到连续形式，用于股票价格趋势预测。

传统统计方法线性特性限制了在股价剧烈波动情况下的预测性能。Mattera等人引入动态网络自回归条件异方差（ARCH）模型，提升高维输入数据的股票预测准确性。

机器学习方法

机器学习，尤其是神经网络模型，在股票价格预测中表现出最高准确性。Vijh et al. 使用人工神经网络和随机森林预测五家公司次日收盘价。深度学习在处理复杂非线性数据方面优于传统方法。LSTM单输入模型在股票指数预测中优于机器学习模型。多变量深度学习能更好地预测股市波动。Tang et al. 提出的基于小波变换的LSTM模型，使用多维数据输入，准确率达到72.19%。Deep et al. 提出的多因子分析模型结合技术分析、基本面分析、机器学习和情感分析，表现优于单因子模型。

混合方法

混合学习模型通过结合多种预测方法提高预测准确性，减少过拟合问题。2001年首次提出集成模型，Abraham等人构建了基于神经模糊逻辑和人工神经网络的早期混合模型，显示出良好的预测和趋势预测效果。Shah等人探讨了多种股票价格预测方法，认为结合统计和机器学习技术的混合方法更有效。Shui-Ling等人提出了新型的ARIMA-RNN混合模型，解决了单一模型的波动性和神经网络的过拟合问题。Zhang等人提出的ARIMA-CNN-LSTM模型在股票指数预测中表现出优越的准确性和鲁棒性。Tian等人开发的多层双向LSTM-BO-LightGBM模型在股票价格波动预测中显示出更好的近似和泛化能力。Lv等人提出的CEEMDAN-DAE-LSTM混合模型通过引入特征提取模块DAE，提升了对波动性股票指数的预测能力。

研究表明，集成学习模型在复杂动态数据集中的预测准确性提升显著，强调了继续发展混合模型的必要性以应对市场变化和技术进步。

方法

问题定义

本方法目标是开发一个映射函数 f(A)，用于股票价格预测。输入 A 包含多个特征 x m，输出为预测值 f(A)。预测值应尽量接近实际值。

多层混合MTL结构概览

本框架整合多维金融数据，提升预测准确性，输入包括开盘价、收盘价、最低价、最高价、交易量和交易金额。结构包含Transformer编码器、KAN层和BiGRU层，能够高效处理高维数据，捕捉输入特征间的关系。KAN层优化学习过程，提取有意义的表示，BiGRU层捕捉金融时间序列的长期依赖性，考虑过去和未来的上下文。

模型通过多任务学习生成交易量和交易金额的预测，利用共享的潜在表示提升股票预测性能。整体目标是提供稳健准确的预测，解决金融市场的复杂性。

Transformer编码器层

Transformer编码器层包含两个子层：多头自注意力机制和全连接前馈网络，均配有残差连接和层归一化。多头注意力机制通过并行计算多个独立的注意力机制，输入向量X被转换为查询（Q）、键（K）和值（V）向量。

每个头独立计算注意力权重，使用缩放点积注意力机制，最终输出为加权值向量的和。所有头的输出被拼接并通过线性变换生成最终输出。使用4个注意力头提高预测准确性，增强模型捕捉复杂模式的能力。

前馈层由两个线性变换和ReLU激活函数组成，增强模型的非线性特征捕捉能力。Add/Normalize层结合层归一化和残差连接，减轻梯度消失或爆炸问题。

Detailed KAN层

Li等人扩展了Kolmogorov-Arnold定理在机器学习中的应用，构建了KAN神经网络架构。KAN的激活函数位于边缘而非节点，允许学习自适应非线性函数，且可设置细粒度节点以提高逼近精度。KAN在处理平滑和非线性函数方面具有显著优势，实验表明其收敛速度更快，尤其在高维情况下优于MLP。KAN用单变量函数参数替代传统权重参数，每个节点直接汇总这些函数的输出，无需非线性变换。KAN适用于时间序列预测，预测精度较传统MLP有所提升。

Detailed BiGRU层

BIGRU模型是一种基于双向GRU的多变量时间序列预测方法，能够捕捉时间序列数据中的双向依赖和多变量间的交互。模型由两个GRU网络组成：一个从前向后处理数据，另一个从后向前处理数据。最终的隐藏状态通过拼接两个方向的隐藏状态得到。隐藏状态经过全连接层后输出结果，使用Softmax激活函数。

实验

实验设置

进行了两种实验以评估所提方法的有效性：与多种先进方法比较，以及使用五种已建立模型（KAN、Transformer、BiGRU、KAN-BiGRU、Transformer-KAN）进行消融实验。

实验旨在全面评估所提模型在股票价格预测中的预测性能和鲁棒性。输入特征包括开盘价、收盘价、最高价、最低价，目标是准确预测多个未来时间步的每个目标特征值。

评估指标

采用四个指标评估模型性能：平均绝对误差（MAE）、均方根误差（RMSE）、平均绝对百分比误差（MAPE）和决定系数（R²）。

MAE：衡量预测值与真实值的平均绝对差，越小表示模型预测能力越强。

RMSE：将误差恢复到原数据单位，便于理解。

MAPE：相对误差度量，适用于不同数据集的模型性能比较，越低表示预测准确性越高。

R²：衡量自变量可预测的方差比例，反映模型对输入数据的拟合程度。

结果

本方法在0-50和120-200时间步区间内与真实值高度一致，误差低于其他方法。其他方法在这些区间常常滞后或偏离，无法准确捕捉整体趋势和变化拐点。在识别局部高低点（如40-60和170-200时间步）方面，提出的方法表现出明显优势，能有效抵御噪声干扰。模型在高频波动区域表现出良好的鲁棒性，能够有效过滤噪声，使预测曲线更平滑，接近真实值。

本方法在RMSE上为39.820，比Hemajothi等人降低17.2%，显示出更强的鲁棒性，能有效处理大幅波动和减少异常值影响。R²达到0.977，分别比Gao等人和Hemajothi等人提高4.2%和3.1%，表明模型在捕捉短期变化和长期趋势方面表现优越。虽然MAE和MAPE也有所改善，但RMSE和R²的提升更为关键，验证了该方法在误差控制和趋势检测上的卓越性能，适合复杂、噪声和非线性时间序列预测。

消融分析

多层混合MTL结构在股票市场预测中表现出显著的预测准确性和稳定性，优于KAN、Transformer、BiGRU等模型。在高频波动区域，其他模型的预测结果受噪声干扰明显，而本方法曲线更平滑，与真实值高度一致。

本方法在关键拐点（如50-70和170-200时间步）捕捉上表现出强敏感性和准确性，其他模型存在预测滞后或过拟合。在趋势恢复区间（如150-250时间步），其他模型的预测曲线波动较大，而本方法有效过滤噪声，保持稳定。

本方法在RMSE（21.004，较最佳Transformer-BiGRU低39.7%）和R²（0.968）上显著优于其他模型，验证了其在复杂数据环境中的鲁棒性和趋势捕捉能力。尽管Transformer编码器和KAN层的复杂性提高了时间复杂度，但本模型在推理效率上有显著改善。交叉验证结果显示，平均测试R²为0.9831，确保了结果的可靠性。

总结

本文提出了多层混合多任务学习（MTL）结构，解决股价预测中的高波动性、复杂性和动态性问题。框架集成了增强型Transformer编码器用于特征提取，BiGRU捕捉长期时间依赖，KAN提升学习过程。

实验结果显示，该学习网络在MAE上最低可达0.45，R²高达0.98，表现出强大的鲁棒性和预测准确性。结果验证了利用互补学习技术捕捉复杂关系并提升预测性能的有效性。该框架为未来股市预测研究和应用提供了有前景的方法。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述