
大数据
文章平均质量分 52
luohaifang
这个作者很懒,什么都没留下…
展开
-
flink run -C 与 -c
简直无语,来看下官方解释,喵的就不能写清楚一点咩???-C可用来添加外部依赖jar包,如自己开发的工具jar包,一个个添加,不能是目录-c指定main()所在的类正确用法flink run -d \ -C "file:///DSJ/flink-1.11.1/ep/xxxx1.jar" \ -C "file:///DSJ/flink-1.11.1/ep/xxxx2.jar" \ -C "file:///DSJ/flink-1.11.1/ep/xxxx3.jar" \ -C "fi原创 2021-02-04 16:01:20 · 3290 阅读 · 2 评论 -
spark去重优化
在spark的任务中,用的较多的去重方法是dataframe的distinct,笔者在测试中发现这种方法其实很次的,尤其是在大量数据的去重的过程中。测试数据的数据结构如下,主要是userid,其他字段随意。userid:String, column1:String数据大小方法一,使用dataframe的distinct去重:df.selectExpr($"userid").distinct()这种方法是最简单而且个人认为效率是最次的,当时测试了16260037条数据,对用户id去重,其实去原创 2020-11-19 18:02:05 · 3531 阅读 · 6 评论 -
toAppendStream doesn‘t support consuming update and delete changes which is produced by node XXX
bug如下:Exception in thread "main" org.apache.flink.table.api.TableException: toAppendStream doesn't support consuming update and delete changes which is produced by node Join(joinType=[LeftOuterJoin], where=[(leftxxx = rightxxx)], select=[xxx, xxx, xxx,原创 2020-11-11 10:20:45 · 3252 阅读 · 0 评论 -
scala数据结构笔记
scala数据结构笔记coalesce与repartitionclose和stopcoalesce与repartition先看源码 def coalesce(numPartitions: Int): Dataset[T] = withTypedPlan { Repartition(numPartitions, shuffle = false, logicalPlan) } def repartition(numPartitions: Int): Dataset[T] = withT原创 2020-08-05 11:47:04 · 307 阅读 · 0 评论 -
spark、flink笔记整理
spark、flink笔记整理spark架构组成提交到yarn提交到clusterspark架构组成提交到yarn提交到cluster原创 2020-08-03 14:10:34 · 182 阅读 · 0 评论 -
kafka、hive、mysql、redis、hbase架构笔记
kafka架构笔记介绍设计特点主题和日志生产者消费者名词介绍kafka是一个分布式流平台。设计①可跨越多个数据中心作为集群运行②将记录流存储在topic中③每个记录由一个键、一个值、一个时间戳组成特点①允许应用程序发布的记录流到多个topic②应用程序可订阅多个topic,并处理他们③应用程序可充当流处理器,消费数据并生产数据到topic④生产者、消费者可重复使用⑤管理和检查topic主题和日志①每个topic可以有0、1、n个消费者去消费他②topic的每个分区都是一个有序原创 2020-07-29 09:46:03 · 912 阅读 · 0 评论 -
yarn HA配置整理
yarn HA配置整理yarn-site.xmlyarn-site.xml<configuration><!-- 启动yarn的高可用 --><property> <name>yarn.resourcemanager.ha.enabled</name> <value>true</value></property><!-- yarn集群的名称 --><propert原创 2020-07-24 17:12:42 · 185 阅读 · 0 评论 -
hdfs HA配置整理
hdfs HA配置整理core-site.xmlhdfs-site.xmlhdfs启动三台机器,每台机器1G内存,1个核,20G硬盘配置有点菜,将就着练习用吧core-site.xml<configuration><property> <name>fs.defaultFS</name> <value>hdfs://my-xiaohai</value></property><propert原创 2020-07-24 17:03:20 · 238 阅读 · 0 评论 -
hdfs、yarn、zk架构笔记整理
hdfs架构笔记整理介绍目标角色数据备份元数据持久性通讯协议健壮性数据结构易用性空间回收介绍hadoop是一个分布式文件系统,运行在多台机器上,具有高容错性,可运行在廉价的机器上(hdfs用java构建,支持java的机器)。目标1、故障检测和快速自动恢复是HDFS的核心架构目标2、为批处理而设计,适合高吞吐的数据访问,而不是低延迟的小文件访问,适合处理大型文件3、保持数据一致性,文件一旦被创建、写入和关闭,除了追加和截断外,不应该去更新他,即一写多读4、hdfs为应用程序提供接口,让计算更接原创 2020-07-24 16:17:33 · 472 阅读 · 0 评论 -
使用IUC(insight user console)进行数据可视化和分析
对数据源csv文件进行数据可视化和分析工作点击浏览器进入ICU登录平台,地址为http://localhost:8080/insight/Home创建数据源选择数据源文件的类型和路径以及编码点击next,然后finish,就创建完成,再点击创建分析式报表,进行数据可视化选择已打开的文件,就能找到刚才自己创建的了,选择OK,即可进入可视化操作界面在数据源没有出错的情况下,在...原创 2019-05-28 14:01:34 · 2116 阅读 · 6 评论