机器学习算法对比与文本预处理框架在情感分析中的应用
1. 机器学习算法对比
1.1 Spark框架
Spark是一个用于大数据处理的开源框架,对集群计算非常有用。其应用程序编程接口基于弹性分布式数据库(RDD)构建,RDD有助于将只读数据分布在不同集群上,并具备容错能力。MLlib是Spark的分布式机器学习库。在一些机器学习算法(如逻辑回归和k - 均值聚类)中,数据重用很常见,因为这些算法本质上是迭代的,并使用优化技术,所以RDD在这些算法上能高效工作。有研究表明,Spark比Hadoop更快。例如,曾有人使用Spark平台的MLlib来预测歌曲的年份,结果显示随机森林的准确率更高,但线性回归在计算性能方面更出色,且使用多个节点时,计算时间大幅减少。
1.2 比较标准
比较不同机器学习技术有多个标准,如准确率、精确率、召回率、计算复杂度等。这里主要关注准确率和计算性能两个标准。
- 准确率 :是指所有预测中正确预测的百分比,计算公式为:
[
Accuracy = \frac{Number\ of\ correct\ predictions}{Total\ number\ of\ predictions\ made}
]
- 计算时间 :指算法得出结果所需的总时间,包括构建模型的时间(训练时间)和对测试数据进行预测的时间。
1.3 实验框架
-
数据集描述 :使用了五个健康数据集进行实验,这些数据集从Kaggle和UCI机器学习
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



