大数据范式下改进分类器的开发:生物启发式软计算方法
1 引言
大数据计算需要先进的技术或方法,以解决在不丢失信息的情况下提取有价值信息的计算时间问题。通常,机器学习(ML)算法被用于从大量数据中学习和发现有用信息。结合大数据的不同特征,可通过粒度计算和粗糙集处理大数据的粒度层面问题。对于动态大数据,如在线社交数据,已开发出使用模糊集对原始情感进行建模并结合分类概率的方法。模糊分类和基于模糊规则的分类系统是大数据分析中新兴的软计算算法。
此外,大数据具有高度偏态性,使用某些集成分类器可改善机器学习和融合过程。每个基础分类器都用预处理后的数据集进行训练,随着数据趋近随机值,预处理数据集和相应的分类器也会不同,这有助于处理大数据交互和移动中的随机欠采样和过采样问题。
分类是根据已知类别成员的训练数据集,确定新观察属于哪一组类别的问题。分类器的主要考虑因素包括空间分解粒度、最近邻数量和维度。虽然可以使用进化算法的探索能力进行特征选择,但它们缺乏处理大数据集所需的可扩展性。
传统的MapReduce模型已被改进为支持开发准确且可扩展的应用程序的新兴原型。在大数据环境下,我们研究了几种应用于不平衡数据集的监督技术,如成本敏感随机森林(RF - BDCS)、随机过采样与随机森林(ROS + RF - BD)以及结合MapReduce ROS的Apache Spark支持向量机(ROS + SVM - BD)。
然而,分类问题的多样性需要计算智能。分类问题的一个突出特点是一类的示例数量明显多于另一类,这通常会导致计算成本增加。在大多数情况下,不平衡类问题与二元分类相关,但多类问题较少出现且更具挑战性。
标准学习算法通常假设训练集是平衡的
超级会员免费看
订阅专栏 解锁全文
2454

被折叠的 条评论
为什么被折叠?



