机器学习分类模型与半自动化聊天机器人生成技术
一、机器学习分类模型在台湾股市的应用
1.1 相关指标介绍
在机器学习的分类模型评估中,有几个重要的指标:
- 特异性(Specificity) :也称为真负率(TNR),表示真正为负的数据被正确预测的比例,公式为:$Specificity = \frac{TN}{TN + FP}$ 。
- 流行率(Prevalence) :代表所有数据中真正为正的比例,公式为:$Prevalence = \frac{TP + FN}{TP + FP + TN + FN}$ 。
- 准确率(Accuracy) :表示所有数据中被正确预测的比例,公式为:$Accuracy = \frac{TP + TN}{TP + FP + TN + FN}$ 。
1.2 实证研究
以台湾指数期货为研究对象,样本期从2018年1月1日至2022年7月30日,共1116个交易日数据。台湾指数期货上涨611天,下跌505天。样本期内价格波动较大,从图表可看出,2020年台湾指数期货价格从约11000点跌至约8300点,后反弹至约18000点。
预测目标为台湾股票期货涨跌标签,有四个特征,分别是台湾股票交易量标签、三大法人标签、纳斯达克收盘价标签、纳斯达克交易量标签,数据来源于CMoney投资支持系统数据库。
1.3 模型性能评估
使用随机森林、逻辑回归和支持向量机三种机器学习模型,输入不同特征到模型中,根据混淆矩阵计算出六个评估指标,结果如