合并 hdfs 文件

最新推荐文章于 2025-06-25 00:05:00 发布

原创最新推荐文章于 2025-06-25 00:05:00 发布 · 2.5k 阅读

0 ·

CC 4.0 BY-SA版权

Hadoop 同时被 2 个专栏收录

13 篇文章

订阅专栏

Sqoop

10 篇文章

订阅专栏

待研究，只做保存

将HDFS中不同目录下面的数据合在一起，并存放在指定的目录中，示例如：

sqoop merge –new-data /test/p1/person –onto /test/p2/person –target-dir /test/merged –jar-file /opt/data/sqoop/person/Person.jar –class-name Person –merge-key id

其中，–class-name 所指定的 class 名是对应于 Person.jar 中的 Person 类，而 Person.jar 是通过 Codegen 生成的

`--new-data <path>`	Hdfs中存放数据的一个目录，该目录中的数据是希望在合并后能优先保留的，原则上一般是存放越新数据的目录就对应这个参数。
`--onto <path>`	Hdfs中存放数据的一个目录，该目录中的数据是希望在合并后能被更新数据替换掉的，原则上一般是存放越旧数据的目录就对应这个参数。
`--merge-key <col>`	合并键，一般是主键ID
`--jar-file <file>`	合并时引入的jar包，该jar包是通过Codegen工具生成的jar包
`--class-name <class>`	对应的表名或对象名，该class类是包含在jar包中的。
`--target-dir <path>`	合并后的数据在HDFS里的存放目录