
数据集成工具专栏。
文章平均质量分 91
记录学习到的有关数据集成工具的知识和犯下的错误以及解决方式。
啊帅和和。
大数据小白,逐渐进阶。
展开
-
Flume简介与使用
目录Flume简介什么是FlumeFlume的几种连接方式Flume的使用测试flume(监控一个目录,并将记录打印到控制台)监控目录下的文件到HDFSFlume官网记录:exec数据源中的command参数可以写一条任意运行的Linux中的命令Flume简介什么是Flumeflume主要做的是日志采集,是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统Flume 运行的核心是 Agent。Flume以agent为最小的独立运行单位。一个agent就是一个JVM。它是一个完整的数据收集原创 2021-10-22 21:54:46 · 370 阅读 · 0 评论 -
DataX的简单使用
目录DataX简介DataX是什么DataX可以支持哪些数据源之间的同步DataX如何使用举例mysqlTomysql举例mysqlTohdfs合并hdfs不同分区数据的一种方式举例mysqlTohbaseDataX简介DataX是什么DataX是阿里开发的一款离线的数据同步平台,实现异构数据源之间高效的数据同步功能在不使用这个工具之前,我们做数据之间的同步需要使用sqoop或者写到本地,或者写Java代码完成,做的事情是一个框架到一个框架,大概是这样的样式,其中的读取、转化、传输都需要Java代码原创 2021-10-21 22:58:13 · 1932 阅读 · 0 评论 -
sqoop的简单使用
目录import传统关系型数据到导入到HDFS注意事项传统关系型数据到导入到HIVE提升关系型数据库导入到HIVE的执行效率传统关系型数据到导入到HBASEexportsqoop是一种数据集成工具,主要负责异构数据源的互相导入,也就是可以将关系型数据库的数据(比如MySQL的数据)导入HDFS中,或者从HDFS中导入到关系型数据库中但是不能自己导入自己,也就是说,不能自己从MySQL导入到MySQL,不能从HDFS导入到HDFSimport从传统关系型数据库导入到HDFS、HIVE、HBASE原创 2021-10-19 22:05:03 · 974 阅读 · 0 评论