
大数据
文章平均质量分 68
小三你妹
这个作者很懒,什么都没留下…
展开
-
Flink-cdc写入hudi并使用hive和spark-sql查询(基于flink1.13.5和hudi0.10.0,flink-cdc2.1.1)
一、环境准备flink1.13.5flink-cdc 2.1.1hudi-0.10.0spark-3.1.2、hadoop-2.6.5、hive-1.1.0(cdh5.16版本)jar包:hudi-spark3-bundle_2.12-0.10.0.jarhudi-flink-bundle_2.11-0.10.0.jarflink-sql-connector-mysql-cdc-2.1.1.jar二、flink-cdc写入hudi1、mysql建表语句creat原创 2021-12-26 13:59:59 · 2695 阅读 · 1 评论 -
flink sql-client.sh 提交到yarn
下载flink安装包解压cd 到安装目录执行一下命令启动集群./bin/start-cluster.sh之后执行启动sql-client命令:./bin/sql-client.sh embedded默认情况下,这个sql-client上面所跑的任务,会提交到flink的standalone集群上,如果你没有bin/start-cluster.sh启动standalon集群,那么sql-client进程可以启动起来,但是在实际执行sql的时候,会连接拒绝的错误。如果想.原创 2021-12-25 20:53:45 · 4077 阅读 · 0 评论 -
sparkStreaming 中使用累加器遇到的坑
最近使用sparkstreaming是有个场景需要统计入mysql的数据量,因此考虑使用累加器;按照官网使用如下方式: JavaStreamingContext jssc = new JavaStreamingContext (conf, Durations.seconds(3)); LongAccumulator BroadbandArrearsAll = jssc.sparkContext().sc().longAccumulator("BroadbandArrearsAll");然后原创 2020-06-05 12:48:57 · 945 阅读 · 0 评论 -
flink oom的gc分析
原创 2020-05-21 15:36:47 · 1095 阅读 · 0 评论 -
spark整合hbase 和hive
spark集成HBASE,查询Hbase映射的hive表(cdh5.10.2)如果要查询hbase映射成hive的表则需要放入集群的hbase-site.xml文件到spark的 ./conf目录下; 同时复制hbase的相关jar包到./lib下面需要的包列表hbase-protocol-1.2.0-cdh5.10.2.jarhbase-client-1.2.0-cdh5.10.2.ja...原创 2018-12-20 15:37:26 · 685 阅读 · 0 评论 -
kafka 常用命令示例
./kafka-run-class.sh kafka.tools.GetOffsetShell --broker-list hrs005:9092 --topic metrics./kafka-run-class.sh kafka.tools.DumpLogSegments --files /data4/hyrendata/kafka-logs/metrics-0/00000000000...原创 2018-12-20 15:42:55 · 404 阅读 · 0 评论 -
CDH安装额外组件操作手册
举例Phoenix安装(其他组件类似)一、基本介绍Phoenix是一个开源的HBASE SQL层。它不仅可以使用标准的JDBC API替代HBASE client API创建表,插入和查询HBASE,也支持二级索引、事务以及多种SQL层优化Phoenix通过以下方式实现了比你自己手写的方式相同或者可能是更好的性能(更不用说可以少写了很多代码): 编译你的SQL查询为原生HBase的...原创 2018-12-20 15:48:07 · 1916 阅读 · 0 评论 -
hive和spark相关参数列表
("hive.exec.script.wrapper", (Object)null, ""), ("hive.exec.plan", "", ""), ("hive.plan.serialization.format", "kryo", "Query plan format serialization between client a原创 2018-12-21 13:12:30 · 3326 阅读 · 0 评论 -
spark 脚本
#cat /etc/init.d/spark-thriftserver.sh#!/bin/bash# descriptions: This script is using to satrt|stop spark-thriftserverpid=`netstat -tunlp | grep 32500| awk '{print $NF}'|awk -F "/" '{print $1}'`...原创 2018-12-21 16:10:02 · 288 阅读 · 0 评论