BulkLoad方式从Hive往Phoenix加载海量数据

最新推荐文章于 2024-06-18 16:10:07 发布

IT源哥

最新推荐文章于 2024-06-18 16:10:07 发布

阅读量1.6k

点赞数

CC 4.0 BY-SA版权

分类专栏：源哥讲互联网技术大数据、微服务、SaaS、CRM、在线客服、呼叫中心技术文章标签： hive hadoop big data phoenix BuldLoad

本文链接：https://blog.youkuaiyun.com/sunlen/article/details/122244454

源哥讲互联网技术同时被 2 个专栏收录

58 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

大数据、微服务、SaaS、CRM、在线客服、呼叫中心技术

37 篇文章 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

在面临向Phoenix导入30亿条数据的挑战时，普通的插入方式效率低下且可能影响现网服务。通过尝试将Hive数据导出为CSV和JSON，最终选择了JSON格式。在Hive中创建外部表关联JSON文件，然后通过Hive的INSERT OVERWRITE和COUNT操作预估数据量。在执行Phoenix的JSONBulkLoad时遇到了jar包不匹配、跨集群HDFS路径识别和执行超时等问题，通过调整jar包、配置文件和后台执行解决了问题。然而，实时写入数据与BulkLoad冲突导致导入失败，停止实时写入后BulkLoad成功完成。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这边在初始化Phoenix表数据的时候，遇到一个难题，就是需要往Phoenix里面初始化30亿的数据，而采用普通方式往phoenix插入数据，执行实在太慢，而且对现网phoenix会造成压力，导致现网phoenix的正常服务出现问题。

实际在处理过程中，发现了很多坑，和走了很多弯路。

下面详细讲一下解决方法和实现代码。

先说一下我的原始数据，原始数据是保持在MySQL里面的，采用分库分表的方式存储，HIVE也保存了一份离线数据。

刚开始想把HIVE数据导出成csv格式，然后再导入phoenix。

后来发现，导致成csv格式会有特殊字符问题，如果包含逗号等特殊字符，会导致整个异常。

最后决定导出成json格式。代码如下：

object AllCrmStatsToJson {

  def main(args: Array[String]): Unit = {
    val env = args(0)
    val idc = args(1)
    System.setProperty("env", env)
    System.setProperty("idc", idc)

    // 设置hive.metastore.uris
    val hiveMetastoreUris = "********