
大数据
文章平均质量分 65
大数据相关知识
TC龙门阵
这个作者很懒,什么都没留下…
展开
-
clickhouse sql(一)
注意事项:分布式引擎不支持 alter drop partiion;’ '和null同意成空,clickhouse 并将空看成特殊的值。clickhouse 将空字符串和null,看成特殊的值‘’intersect distinct 取交集,并去重。类似laterl view 写法。intersect 直接取交集。–对null 和 ‘’不过滤。except 取差值。原创 2023-03-08 18:10:51 · 631 阅读 · 0 评论 -
centos修改静态ip地址
liunx 静态ip修改原创 2022-09-08 21:47:59 · 631 阅读 · 0 评论 -
hive安装
hive 单独节点安装,遇到问题记录原创 2022-09-04 17:44:30 · 931 阅读 · 0 评论 -
flink算子(四)
TableApidataset 和datastream 与tableAPI和sql之间的转换注意原创 2021-01-02 18:25:20 · 260 阅读 · 0 评论 -
flink状态和容错(三)
目录state容错算子容错续跑task异常作业逻辑不变CP/SP策略bugfix升级续跑SP策略source容错续跑sink 容错续跑stateflink 支持有状态的流,存储历史的状态信息。状态分类keystate keyBy/groupBy/PartitonBy 后,每个key都有属于自己的一个stateoperatorstate-flink source connector 的实现会用operatorState 来记录source 数据读取的offset三种状态存储方式机使用场景f原创 2020-10-24 11:54:27 · 2574 阅读 · 4 评论 -
flink window 算子和dataset 算子相关(二)
目录基本概念datastreamdataset基本概念状态流每条流过的数据和前面的数据有关系无状态流类时Storm就是无状态的计算框架,每一条消息来了以后和前后都没有关系,一条是一条宽依赖父RDD的每个分区都回最多被子类的一个RDD所使用窄依赖父RDD的每个分区会被多个子类的RDD分区所使用dataset 和datastream 区别1.keyBy = groupBy() 根据key的hash值进行分组聚合datastreamspark streaming 中不管有没有数据,都是原创 2020-10-20 17:39:20 · 357 阅读 · 0 评论 -
flink 架构介绍和flink作业部署方式及优化方向参数(一)
目录flink 和spark 的比较flink 架构通信netty部署模式参数优化并行度设置优化方向flink 和spark 的比较flinkfink 支持轻量级分布式快照snapshot 实现容错支持带丰富事件、时间的窗口window 状态操作:time,session.count,data-driven程序自动优化,避免特定情况下shuffle,排序等代价操作,中间结果自动缓存优化flink taskslot 中对内存进行隔离,cpu是共享的。自动反压,不需要配置spark流计算是基原创 2020-10-17 17:17:22 · 671 阅读 · 0 评论