通过ES-Hadoop将HDFS中的数据写入Elasticsearch_通过es-hadoop将数据导入到es-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_46396563/article/details/109449125

本文详细介绍了如何通过ES-Hadoop工具，结合MapReduce任务，将HDFS中的JSON数据写入阿里云Elasticsearch集群。首先，需要上传ES-Hadoop JAR包至HDFS，然后配置Maven工程的pom依赖，接着编写并运行MapReduce任务，最后验证数据是否成功写入Elasticsearch。整个过程涉及创建Elasticsearch实例、设置自动创建索引、准备测试数据、上传JAR包、配置依赖、编写Java代码并运行MapReduce任务。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

ES-Hadoop是Elasticsearch推出的专门用于对接Hadoop生态的工具，可以让数据在Elasticsearch和Hadoop之间双向移动，无缝衔接Elasticsearch与Hadoop服务，充分使用Elasticsearch的快速搜索及Hadoop批处理能力，实现交互式数据处理。对于一些较复杂的分析任务，需要通过MapReduce任务读取HDFS上的JSON文件，写入Elasticsearch集群。本文介绍如何通过ES-Hadoop，借助MapReduce任务向Elasticsearch写入数据。

阿里云Elasticsearch兼容开源Elasticsearch的功能，以及Security、Machine Learning、Graph、APM等商业功能，致力于数据分析、数据搜索等场景服务。支持5.5.3、6.3.2、6.7.0、6.8.0和7.4.0等版本，并提供了商业插件X-Pack服务。在开源Elasticsearch的基础上提供企业级权限管控、安全监控告警、自动报表生成等功能。本文使用阿里云Elasticsearch为您演示，单击此处即可免费试用。

操作流程

准备工作

创建同一专有网络下的阿里云Elasticsearch和E-MapReduce（以下简称EMR）实例、开启Elasticsearch实例的自动创建索引功能、准备测试数据和Java环境。
[步骤一：上传ES-Hadoop JAR包至HDFS](#步骤一：上传ES-Hadoop JAR包至HDFS)

下载ES-Hadoop安装包，并上传至EMR Master节点的HDFS目录下。
步骤二：配置pom依赖

创建Java Maven工程，并配置pom依赖。
步骤三：编写并运行MapReduce任务

编写MapReduce写数据到Elasticsearch的Java代码，并打成Jar包上传至EMR集群，最后运行代码完成写数据任务。
步骤四：验证结果

在Elasticsearch的Kibana控制台上，查看通过MapReduce写入的数据。

准备工作

创建阿里云Elasticsearch实例，并开启自动创建索引功能。

具体操作步骤请参见创建阿里云Elasticsearch实例和开启自动创建索引。本文以6.7.0版本的实例为例。

注意在生产环境中，建议关闭自动创建索引功能，提前创建好索引和Mapping。由于本文仅用于测试，因此开启了自动创建索引功能。
创建与Elasticsearch实例在同一专有网络下的EMR实例。

实例配置如下：