《我今年写过的最高效的大数据开发程序 --FlinkSinkToHbaseES》项目实战

置顶 500佰

已于 2025-01-29 23:04:09 修改

阅读量1.9k

点赞数 58

分类专栏：项目实战文章标签：大数据 java flink 云计算

于 2025-01-26 10:37:58 首次发布

本文链接：https://blog.youkuaiyun.com/m0_57874805/article/details/145366199

版权

项目实战专栏收录该内容

9 篇文章

订阅专栏

#闲聊 #个人大数据真实业务场景分享 #鱼友

这是一个真实的大数据业务案例，集群：华为大数据（能说这个不）

数据写入效率：约300万条 /2mins

Flink流式任务已上线某行内运行：当前正常

接下来说一下配置过程和业务需求，及程序亮点

业务场景：

大数据类：sink Elasticsearch 、sink HBase

业务组件：Flink、Hive、HDFS、HBase、ElasticSearch

场景：将Hive数据写出到HBase +ElasticSearch，业务侧使用ElasticSearch检索数据，真实数据是存在了HBase中，那么业务侧查询的数据其实就是HBase中的数据，ElasticSearch在这个过程中发挥的作用是倒排索引，构建HBase的二级索引，最终秒级查询HBase中的数据，对接BI展示报表

业务构图：

hive卸数文件 --> hbase数据 --> ES索引（包含检索字段） 如图：

对比常规业务亮点：

常规此类业务程序是串行的：通过MapReducer通过bulkLoad程序写入数据到HBase，通过Scan hbase表生成json文件再通过bulk写入ES
我的程序是并行：可支持同时Sink两端数据写出，1.sink Elasticsearch 2.sink HBase，两侧同时入数，并发写出，而非串行
计算引擎对比：常规是MapReducer类型，我的是Flink流式计算
改造：多次测试写入ES效率不是很高，后续这里我做了改进
技术框架更为新颖

数据写入效率提升：

写入效率取决于数据总条数/每条数据大小
当前我在公司测试出的效率：约300万条 /2mins

配置过程：

运行任务示例：

1.per-job流式运行：
flink run -t yarn-per-job -p 10 -ytm 2048 -ys 1 -yt ssl/ -Dyarn.ship-files="/opt/client/Flink/flink/conf" --class com.mrs.bigdata.flink.sink.SinkToHbaseES /opt/client/Flink/flink/FlinkSink.jar --sourceParallelism 10 --tableName 'default:no_epd_bnk_fin_prd' --confDir /opt/client/HBase/hbase/conf/ --hdfsFilePath /tmp/2022/ --hbasePropFile /tmp/2022/hbaseConfDir/no_epd_bnk_fin_prd.properties --esConfFile /tmp/2022/esConfDir/no_epd_bnk_fin_prd_mapping.properties

2.Flink客户端与YARN分离模式运行： flink run -d xx
  批量任务的话，就采用这种运行方式

配置文件(都为hdfs文件，需上传)：

Hbase：

/opt/client/Flink/flink/conf/hbaseConfDir/no_epd_bnk_fin_prd.properies

hbase_info=HBASE_ROW_KEY,c#cloumn1,c#cloumn2,c#cloumn3,c#cloumn4,c#cloumn5,c#cloumn6,c#cloumn7,c#cloumn8,c#cloumn9,c#cloumn10,c#cloumn11,c#cloumn12

/opt/client/Flink/flink/conf/esConfDir/no_epd_bnk_fin_prd_mapping.properties

#认证相关配置：
#对应自己创建的机机用户名
Principal = userName
#manager上下载对应机机用户名的krb5.conf 和user.keytab ,需要放在linux环境Flink客户端下的conf/目录
Krb5.conf = /opt/client/Flink/flink/conf/krb5.conf
User.keytab = /opt/client/Flink/flink/conf/user.keytab


#ES配置：
#配置自己环境ES服务的 host
ES.esServerHost = ip1:24100,ip3:24100,ip2:24100
#配置最大重试超时时间
ES.MaxRetryTimeoutMillis = 300000
#配置客户端和服务器建立连接的超时时间
ES.ConnectTimeout = 5000
#配置客户端从服务器读取数据的超时时间
ES.SocketTimeout = 60000
#是否是安全模式
ES.isSecureMode = true
#自定义的ES索引的type，要与配置文件mapping.json中的对应
ES.type = doc
#建立ES索引依赖的json文件路径
ES.mapping.json = conf/esConfDir/no_epd_bnk_fin_prd_mapping.json
#ES的索引keys 数字代表key在hdfs columns中的顺序,顺序严格一致
ES.mapping = HBASE_ROW_KEY,1#client_no,2#branch_no,3#fin_name
ES.indexName = hcqs.xx_fin_prd

2./opt/client/Flink/flink/conf/esConfDir/no_epd_bnk_fin_prd_mapping.json

示例：

{
    "settings": {
        "number_of_shards": 3,
        "number_of_replicas": 1
    },
    "mappings": {
        "properties": {
            "client_no": {
                "type": "keyword"
            },
            "branch_no": {
                "type": "keyword"
            },
            "fin_name": {
                "type": "keyword"
            }
        }
    }
}

20241229调整：