需求场景如下:
有一份xml文件存储着中图分类号-----> 教育部分类号的映射关系
部分如下图所示
现在需要解析这份xml文件,并根据对应的映射关系,将DF中的中图分类号映射为相应的教育部分类号
1:spark解析xml文件
maven中导入spark-xml对应的依赖
<dependency>
<groupId>com.databricks</groupId>
<artifactId>spark-xml_2.11</artifactId>
<version>0.5.0</version>
</dependency>
具体使用方法参考官方文档 :https://github.com/databricks/spark-xml
2:解析xml文件,并将结果保存入Map中作为参数
val mapClasscode1 =spark.read.