数据从kafka到hive(1)

随着公司接口服务日志量达到亿级,原有的日志同步方式面临效率挑战。本文提出通过Kafka进行日志数据中转,采用LinkedIn的Camus工具,将数据从Kafka高效地导入到HDFS,再通过shell脚本加载到Hive,实现数据ETL过程的优化。测试结果显示,Camus能在2分钟内处理5GB数据,具备良好的扩展性。

背景

公司的系统是一个对外提供服务的接口,每一次调用日志都需要保存到hive中,以便后期做数据分析。每天的调用量在亿级,日志数据量100G以上,在量级还没有这么大的时候,采取的办法比较原始:直接通过log4j打印到日志文件,然后通过抽数工具同步到hive中,每天凌晨同步前一天的数据。随着量级增大,日志文件越来越大,每天抽数就要抽好几个小时,而且偶尔还由于网络问题等原因失败。

方案

日志数据不能直接发送给hive,这样耦合度太强了。既然说到去耦合,肯定是采用消息管道了,kafka由于其与大数据结合的紧密程度,成为不二选择。所以初步方案是先将日志发送到kafka,再通过其他工具从kafka读到hive表中,在遇到峰值时,即便kafka挂了,也不会影响接口服务。
下一步就是如何将数据从kafka读到hive中,kafka的东家LinkedIn给出了解决方案:camus(https://github.com/linkedin/camus)和gobblin(https://github.com/linkedin/gobblin)。camus在2015年已经停止维护了,gobblin是后续产品,camus功能是是gobblin的一个子集,通过执行mapreduce任务实现从kafka读取数据到HDFS,而gobblin是一个通用的数据提取框架,可以将各种来源的数据同步到HDFS上,包括数据库、FTP、KAFKA等。因为只需要同步kafka数据,所以我们采用了实现相对简单的camus。在测试过程中,同步一个小时的数据(5G以上),大概需要2分钟左右,即便日志量翻10倍,也是可以接受的,当然,抽数时间也不会随数据量增大而线性增长。
只差最后一步了,camus只能把数据读到HDFS,从HDFS到hive是通过shell脚本实现的,shell脚本执行load命令直接将数据搬到hive中。

实施

下载camus代码后,直接用mave

使用Flink 1.17.1的Java API实现从KafkaHive数据传输,可按以下步骤进行: ### 1. 环境准备 需确保Kafka集群、Hive Metastore正常运行,同时准备好Flink 1.17.1环境。对于Flink集成Hive Metastore,可参考EMR官方文档给出的脚本(以EMR 6.15 (Flink 1.17.1)版本为例): ```bash sudo -u flink cp /usr/lib/hive/lib/antlr-runtime-3.5.2.jar /usr/lib/flink/lib sudo -u flink cp /usr/lib/hive/lib/hive-exec-3.1.3*.jar /usr/lib/flink/lib sudo -u flink cp /usr/lib/hive/lib/libfb303-0.9.3.jar /usr/lib/flink/lib sudo -u flink cp /usr/lib/flink/opt/flink-connector-hive_2.12-1.17.1-amzn-1.jar /usr/lib/flink/lib ``` 此脚本将Hive相关的JAR包复制到Flink的lib目录下,以保证Flink能与Hive进行交互[^5]。 ### 2. 添加Maven依赖 在项目的`pom.xml`文件中添加Flink、KafkaHive相关的依赖: ```xml <dependencies> <!-- Flink核心依赖 --> <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-java</artifactId> <version>1.17.1</version> </dependency> <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-streaming-java_2.12</artifactId> <version>1.17.1</version> </dependency> <!-- Flink Kafka连接器 --> <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-connector-kafka_2.12</artifactId> <version>1.17.1</version> </dependency> <!-- Flink Hive连接器 --> <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-connector-hive_2.12</artifactId> <version>1.17.1</version> </dependency> <!-- Hive Metastore依赖 --> <dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-metastore</artifactId> <version>3.1.3</version> </dependency> </dependencies> ``` ### 3. Java代码实现 以下是一个使用Flink 1.17.1的Java API从Kafka读取数据并写入Hive的示例代码: ```java import org.apache.flink.api.common.serialization.SimpleStringSchema; import org.apache.flink.streaming.api.datastream.DataStream; import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment; import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer; import org.apache.flink.table.api.Table; import org.apache.flink.table.api.bridge.java.StreamTableEnvironment; import org.apache.flink.table.catalog.hive.HiveCatalog; import java.util.Properties; public class KafkaToHive { public static void main(String[] args) throws Exception { // 创建流执行环境 StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); StreamTableEnvironment tableEnv = StreamTableEnvironment.create(env); // 配置Kafka连接属性 Properties kafkaProps = new Properties(); kafkaProps.setProperty("bootstrap.servers", "localhost:9092"); kafkaProps.setProperty("group.id", "flink-kafka-consumer"); // 创建Kafka数据源 FlinkKafkaConsumer<String> kafkaConsumer = new FlinkKafkaConsumer<>("your-kafka-topic", new SimpleStringSchema(), kafkaProps); DataStream<String> kafkaStream = env.addSource(kafkaConsumer); // 注册Hive Catalog String catalogName = "myhive"; String defaultDatabase = "default"; String hiveConfDir = "/path/to/hive/conf"; HiveCatalog hiveCatalog = new HiveCatalog(catalogName, defaultDatabase, hiveConfDir); tableEnv.registerCatalog(catalogName, hiveCatalog); tableEnv.useCatalog(catalogName); // 将Kafka数据流转换为表 Table kafkaTable = tableEnv.fromDataStream(kafkaStream); // 定义Hive表的DDL语句 String createHiveTableDDL = "CREATE TABLE IF NOT EXISTS your_hive_table (" + "message STRING" + ") STORED AS PARQUET"; tableEnv.executeSql(createHiveTableDDL); // 将Kafka表的数据插入到Hive表中 String insertSql = "INSERT INTO your_hive_table SELECT * FROM " + kafkaTable; tableEnv.executeSql(insertSql); // 执行Flink作业 env.execute("Kafka to Hive"); } } ``` ### 4. 代码解释 - **环境创建**:创建Flink的流执行环境和表执行环境。 - **Kafka连接**:配置Kafka连接属性,创建Kafka数据源。 - **Hive集成**:注册Hive Catalog,使用Hive Catalog。 - **数据转换**:将Kafka数据流转换为表。 - **Hive表创建**:使用DDL语句在Hive中创建表。 - **数据插入**:将Kafka表的数据插入到Hive表中。 - **作业执行**:执行Flink作业。 ### 5. 注意事项 - 要根据实际情况修改Kafka的`bootstrap.servers`、`group.id`和`topic`。 - 要根据实际情况修改Hive的配置文件路径`hiveConfDir`。 - 要根据实际情况修改Hive表的表名和字段名。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值