机器学习与情感分析技术研究
在机器学习和自然语言处理领域,数据平衡和情感分析是两个重要的研究方向。下面将分别介绍数据平衡分类算法以及西班牙语短文本情感分析的相关内容。
数据平衡分类算法研究
在处理机器学习训练数据时,数据不平衡是一个常见的问题,可能会导致模型出现欠拟合或过拟合的情况。为了解决这个问题,研究人员应用了多种采样技术,并结合不同的分类算法进行实验。
- SCUT算法处理与分类器实现
- SCUT算法应用 :使用SCUT算法对数据进行处理后,数据集实现了完全平衡,避免了欠拟合或过拟合问题。处理后的平衡数据类如图所示。
- 分类器实现 :实现了基于多层感知器(MLP)、CART和随机森林的分类器。MLP的超参数设置为学习率0.01,隐藏层由8个神经元组成,使用Sigmoid激活函数,根据损失函数的下降确定最佳迭代次数为250次。CART和随机森林模型在分裂选择时使用熵准则,随机森林模型使用64个估计器。
- 不同采样技术下分类算法的性能
- 测试阶段性能 :通过不同采样技术(SCUT、随机过采样、SMOTE、随机欠采样、Tomek链接)结合分类算法(MLP、CART、随机森林)进行测试,结果如下表所示。
|采样技术|分类算法|准确率|灵敏度|特异性|精度|
| ---- | ---- | ---- | ---- | ---- | -
- 测试阶段性能 :通过不同采样技术(SCUT、随机过采样、SMOTE、随机欠采样、Tomek链接)结合分类算法(MLP、CART、随机森林)进行测试,结果如下表所示。
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



