
大数据
文章平均质量分 51
赵白菜
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Clickhouse集群通过jdbc连接
CK集群jdbc连接方式jdbc url的定义jdbc url的解析获取到连接连接后执行操作 jdbc url的定义 多个地址使用逗号隔开 String jdbcUrl = "jdbc:clickhouse://{ip1:port},{ip2:port},..." jdbc url的解析获取到连接 不管是官方的驱动包 import ru.yandex.clickhouse.BalancedClickhouseDataSource; 还是官方支持的第三方包 import com.github.housep原创 2021-09-29 15:56:46 · 7715 阅读 · 3 评论 -
Flink踩坑记录01
1.报错信息 Caused by: org.apache.flink.runtime.JobException: Recovery is suppressed by NoRestartBackoffTimeStrategy 2.原因分析 代码中写的是从socket读取数据 final DataStreamSource<String> inputStream = env.socketTextStream("localhost", 9999); //启动代码之前需要先将socket启动起来 但原创 2021-04-23 11:14:51 · 1640 阅读 · 1 评论 -
Flink05---Flink中任务是怎么分配的?
1.相关Flink术语 任何一个大数据框架都离不开大数据的一些专业术语,Flink也不例外,但每个框架也有自己的特点,独特的技术,使得Flink中也会有些自己术语,不先了解清楚的话很难对其原理和过程理解透彻。 并行度:一个特定算子的子任务的个数被称之为其并行度。 //给sum算子设置并行度 sum().setParallelism(2); 插槽(slot):Flink中定义的处理资源单元,存在于TaskManager里面,插槽的数量限制了TaskManager能执行的任务数量,也可说成是线程数。 s原创 2021-03-23 12:07:45 · 1191 阅读 · 2 评论 -
Flink04---Flink是怎么运行任务的
1.Flink框架拥有的组件 JobManager(作业管理器) 申请资源、提交任务 TaskManager(任务管理器) 提供资源、执行任务 ResourceManager(资源管理器) 请求资源,分配资源 Dispacher(分发器) 接收任务,分配任务 2.JobManager 1.作用:控制一个应用程序执行的主进程,其中应用程序有作业图(JobGraph)、逻辑数据流图(logical dataflow graph)和打包了所有的类、库。 2.工作:将JobGraph转换成执行图、向资源管理器请原创 2021-03-22 12:21:52 · 284 阅读 · 0 评论 -
Flink03---Flink中怎么提交任务
1.提交任务的两种方式 1.Flink web ui(下面详细介绍) 2.命令行 在Flink安装的根目录下执行 ./bin/flink run -c 包名.主类名 -p 并行度参数 jar包路径 程序参数 测试例子: ./bin/flink run -c com.scau.zcw.streamWordCount -p 3 /opt/jarhome/Flink01-1.0-SNAPSHOT.jar --host localhost --port 7777 此时对应的取消任务的方式为 //列举出当前的任务原创 2021-03-22 11:10:34 · 529 阅读 · 0 评论 -
Flink02---IDEA实操workcount
1.Maven的pom.xml文件引入依赖 <dependencies> <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-java</artifactId> <version>1.10.1</version> </dep原创 2021-03-21 00:58:37 · 374 阅读 · 1 评论 -
Flink01---什么是Flink
特别说明,本博主Flink文章部分内容来自于尚硅谷的Flink系列视频,在此感谢BILIBILI学习平台和尚硅谷官方。 1.Flink官网地址 http://flink.apache.org 2.Flink简介 Apache Flink是一个框架和分布式处理引擎(用于数据计算而非存储框架),用于对无界和有界数据流(流数据,数据是源源不断地产生)进行状态计算。快速、灵巧,出身于德国柏林。 2.Flink可实现低延迟(毫秒级响应)、高吞吐(处理数据量大,分布式环境支持)和结果的准确性及良好的容错性(通过对原创 2021-03-20 21:24:07 · 228 阅读 · 3 评论