
大数据
文章平均质量分 70
小迷糊同学
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
flink on k8s(Flink1.15.0 on Native Kubernetes)
实验环境macOS x86-64minikube准备工作安装minikube下载安装curl -LO https://storage.googleapis.com/minikube/releases/latest/minikube-darwin-amd64sudo install minikube-darwin-amd64 /usr/local/bin/minikubeminikube start --driver=hyperkit或minikube startmini原创 2022-05-29 22:45:39 · 1509 阅读 · 0 评论 -
scala中Array,List,Tuple的差别
Array通常是先确定长度后赋值,而List和Tuple在声明时赋值 Array取单个元素的效率比List读取单个元素的效率高 List声明不要new关键字,而Tuple声明无论有无new都可以 Array使用new关键字调用主构造器,不用new则调用对象的apply方法,当使用混合类型时,Array和List会将元素类型转化为Any类型,而Tuple则保留每个元素的初始值类型 访问方式不同,Array和List下标从0开始,且使用小括号;而Tuple的下标从1开始,使用点加下划线的方式访问..原创 2021-02-07 10:22:18 · 427 阅读 · 0 评论 -
flink计算实时流中的中位数
需求:求1s内的中位数sink -> es思路1:窗口1s,对数据进行分组计算每组数据的总数计算窗口内所有数据的总数根据窗口内所有数据的总数找到中位数的位置根据中位数的位置找到中位数senv // 源数据切割,封装成Stat对象 Stat(elapsedTime,num) .flatMap() // 按照Stat(elapsedTime,num)的elapsedTime进行分组 .keyBy() // 分组窗口(滚动窗口1s) .window() //原创 2020-12-31 17:04:31 · 1342 阅读 · 0 评论 -
Flink WaterMark机制
导读Flink 为实时计算提供了三种时间,即事件时间(event time)、摄入时间(ingestion time)和处理时间(processing time)。遇到的问题:假设在一个5秒的Tumble窗口,有一个EventTime是 11秒的数据,在第16秒时候到来了。图示第11秒的数据,在16秒到来了,如下图:该如何处理迟到数据什么是WatermarkWatermark的关键点:目的:处理EventTime 窗口计算 本质:时间戳 生成方式:Punctuated和Per原创 2020-12-20 16:44:22 · 340 阅读 · 0 评论 -
记录一次kafka -> flink无数据的坑
kafka 到 flink ,在flink TM的Logs中:INFO org.apache.kafka.Clients.consumer.internals.AbstractCoordinator - Marking the coordinator ip:port (id : XXX rack: XXX) dead for group XXX原因分析:无法找到ip解决方案:配置hosts问题,将yarn节点ip与kafka节点ip配到hosts中即可。...原创 2020-12-18 17:33:25 · 884 阅读 · 4 评论 -
idea中Scala自动勾选Specify type
Ctrl+Alt+V自动生成变量后,Specify type选项勾选之后会显示出变量的类型,默认是没有勾选的。为了方便设置为自动勾选,点击Settings,在Type Annotations选项卡里,勾选Local definition选项。然后再下一次的Specify type选项就自动勾选上了!...原创 2020-11-13 10:10:46 · 1506 阅读 · 2 评论 -
Flink保证数据不丢失不重复、状态一致性
如图:奇数和偶数分流分别计算概念计算结果要保证准确。 一条数据不应该丢失,也不应该重复计算。 遇到故障时可以恢复状态,恢复以后的重新计算结果应该也是完全正确的。状态一致性分类(级别) AT-MOST-ONCE(最多一次) 当任务故障时,最简单的做法是什么都不干,既不恢复丢失的状态,也不重播丢失的数据。即最多处理一次事件。 AT-LEAST-ONCE(至少一次) (不能保证数据不被重复处理) 在大多数真实应用场景,我们希望不丢事件。但是有些事件还可能被处理多次。...原创 2020-11-05 15:14:52 · 5861 阅读 · 1 评论 -
hive避免进行MapReduce过程的几种情形
question:hive一般情况下,会触发MapReduce任务进行查询,那么什么情况下可以不必使用MapReduce进行查询呢?answer:在本地模式下,hive可以避免进行MapReduce(查询速度相对而言更快)。例如:1、select * from emp(表名);2、只过滤字段(列)的select语句:对于where语句中过滤条件只是区分字段(列)这种情况,无论是否使用limit语句限制输出记录条数,也是无需MapReduce过程的select * from原创 2020-08-05 09:57:48 · 1191 阅读 · 0 评论 -
Apache Flink 1.11.0 新功能解读
来源|Apache Flink 官方博客翻译| 高赟(云骞)Apache Flink 社区很荣幸的宣布 Flink 1.11.0 版本正式发布!超过 200 名贡献者参与了 Flink 1.11.0 的开发,提交了超过 1300 个修复或优化。这些修改极大的提高了 Flink 的可用性,并且增强了各个 API 栈的功能。其中一些比较重要的修改包括: 核心引擎部分引入了非对齐的 Checkpoint 机制。这一机制是对 Flink 容错机制的一个重要改进,它可以提高严重反压作业的 Chec...原创 2020-08-04 17:48:30 · 500 阅读 · 2 评论 -
Hive中浮点数比较踩过的坑
疑问案例:查询员工表中薪水的减免税超过0.2(20%)的数据:select name, salary, deductions from employees where deductions > 0.2;查询结果:John 100000.0 0.2Mary 80000.0 0.2Tom 200000.0 0.3Fred 150000.0 0.3为什么deductions = 0.2 的记录也被输出了?原因:浮点数float和double在比较的过程中,存在float转原创 2020-08-04 11:45:17 · 2111 阅读 · 0 评论 -
flink1.11.0基于java代码实现Application模式的踩坑总结
一、SubmitJobApplicationMode1、将core-site.xml,flink-conf.yaml,hdfs-site.xml,mapred-site.xml,yarn-site.xml放到resources目录下2、无法读取到本地的conf文件org.apache.hadoop.conf.Configuration conf = new org.apache.conf.Configuration();conf.set("fs.hdfs.impl","org.apache.原创 2020-08-04 11:33:42 · 1825 阅读 · 14 评论 -
flink1.11中Application 模式提交任务 yarn报错
flink1.11中Application模式提交任务到yarn时,提示报错信息:java.lang.RuntimeException:Couldn’t deploy Yarn session clusterThe YARN application unexpectedly switched to state FAILED during deployment.解决办法:错误原因:虚拟内存超过限制处理方式:yarn-site.xml中注释以下内容:<property>原创 2020-08-03 10:51:55 · 4934 阅读 · 1 评论 -
CDH和confluence端口号冲突的一个坑
安装CDH的节点(CM)上安装confluence,会发现CM的Host Monoitor异常。查看日志发现该节点的端口号8091占用冲突。解决办法:修改CDH或者confluence的端口号。比如将CDH HostMonitor的端口号修改为18091.异常解决...原创 2020-08-01 15:32:06 · 779 阅读 · 0 评论 -
No FileSystem for scheme “hdfs“ 的解决办法
在linux端通过命令:java -cp xxxxxx.jar [applicationClassName] [args]调试Hadoop,报错:No FileSystem for scheme "hdfs"解决办法:将集群的Hadoop/conf/core-site.xml拷贝到你工程的根目录下,也就是src下。打开此文件,在最后添加以下代码:<property><name>fs.hdfs.impl</name&g...原创 2020-08-01 15:01:43 · 18568 阅读 · 7 评论 -
kafka通过timestamp找到offset消费数据
kafka通过timestamp找到offset消费数据package com.offsetandtimestamp;import org.apache.kafka.clients.consumer.ConsumerRecord;import org.apache.kafka.clients.consumer.ConsumerRecords;import org.apache.kafka.clients.consumer.KafkaConsumer;import org.apache.kaf原创 2020-08-01 15:00:26 · 1306 阅读 · 0 评论 -
kafka常用命令
1.启动命令:kafka-server-start.sh config/server.properties2.查看topic:bin/kafka-topics.sh --zookeeper node2:2181 --list3.创建Topic(XXX为topic的名字):bin/kafka-topics.sh --create --zookeeper node2:2181 node3:2181 node4:2181 --rep...原创 2020-08-01 14:59:38 · 254 阅读 · 0 评论 -
Flink集群无法关闭
一、问题描述:Flink运行一段时间后,通过命令:bin/stop-cluster.sh无法正常关闭,提示:No taskexecutor daemon to stop on host xxx.No standalonesession daemon to stop on host xxx.二、flink集群部署模式:standalone三、排查:jps查看进程发现:flink进程启动,8081端口可以正常访问。查看FLINK_HOME/bin/目录的config.s原创 2020-08-01 14:58:46 · 3737 阅读 · 3 评论 -
Flink1.11中Application模式java代码启动遇到的一些问题以及解决方案
Flink1.11通过java代码方式运行Application模式遇到的问题及解决方案:1.flink-yarn_2.11-1.11.0.jar与maven导入jar包冲突pom找到对应的dependency进行exclusion即可<dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-yarn_${scala.binary.version}<原创 2020-08-01 14:57:34 · 675 阅读 · 2 评论 -
CDH添加Hue服务时连接数据库报错
CDH添加Hue服务时连接数据库报错:Unexpected error. Unable to verify databases connection.1.问题2.查看CDH服务节点日志/opt/module/cloudera-manager/cm-5.16.1/log/cloudera-scm-servertail -n 10 cloudera-scm-server.log3.问题原因因为我们的mysql是重新安装的,服务器重新安装mysql的同时,会删除系统..原创 2020-08-01 14:56:34 · 672 阅读 · 0 评论