27、基于集成学习和Spark的大规模虚拟筛选及TEL系统追踪系统研究-优快云博客

本文链接：https://blog.youkuaiyun.com/linux/article/details/153720552

基于集成学习和Spark的大规模虚拟筛选及TEL系统追踪系统研究

1. 基于Spark的集成学习方法

在大规模虚拟筛选过程中，为了提升性能，提出了一种基于集成学习范式和Apache Spark的新方法。
- 架构基础 ：该方法基于Spark的主从架构，使用独立集群管理器获取集群资源，并以HDFS作为存储系统。其中，主节点充当HDFS的NameNode，每个工作节点充当HDFS的DataNode。
- 操作步骤 ：
1. 创建SparkContext ：通过“new SparkContext (conf)”实例创建SparkContext，“conf”是通过“new SparkConf().setAppName().set(“parameters”)”创建的SparkConf实例，用于存储配置参数，如工作节点上执行器使用的核心数和内存大小。
2. 加载数据集 ：使用“sc.textFile(“hdfs:// …”)”方法将数据集从HDFS加载到RDD，Spark会将输入数据分割成块或分区，数据分区分布在集群的工作节点上并保存在DataNode，NameNode仅包含每个DataNode上数据集的元数据。然后在每个工作节点上处理数据集，为每个分区启动一个任务。
3. 提交应用 ：使用Apache Maven创建包含所有依赖项的JAR文件，通过命令行“bin>spark - submit –master spark://master URL –class Main_class / p