
大数据
文章平均质量分 82
spark、scala等
小蜗牛666
改变世界or被世界改变
展开
-
sql练习
我有两张表,一张是用户和卡的IDMapping表(客户ID,卡号),另一张是客户近一个月的消费明细表(卡号,交易金额,交易时间等),现在需要取出最近3笔消费都大于500的客户,给到业务发送短信,请问sql怎么写?先把大于消费500的客户筛选出来,然后按照用户分组(group by),最后count(*)>=3,是这个意思吗?select uid, rank over(parition by uid, order shijina desc ) num from xxxx wher原创 2021-06-07 15:50:33 · 373 阅读 · 0 评论 -
Redis详解 - SpringBoot整合Redis,RedisTemplate和注解两种方式的使用
本文主要讲 Redis 的使用,如何与 SpringBoot 项目整合,如何使用注解方式和 RedisTemplate 方式实现缓存。最后会给一个用 Redis 实现分布式锁,用在秒杀系统中的案例。 更多 Redis 的实际运用场景请关注开源项目 coderiver 项目地址:h...转载 2021-05-10 15:34:18 · 378 阅读 · 0 评论 -
Kudu+Impala介绍
转自:http://www.360doc.com/content/18/0913/16/59691344_786386910.shtml Kudu+Impala介绍 概述 Kudu和Impala均是Cloudera贡献给Apache基金会的顶级项目。Kudu作为底层存储,在支持高并发低延迟kv查询的同时,还保持良好的Scan性能,该特性使得其理论上能够同时兼顾OLTP类和OLAP类查询。Impala作为老牌的...转载 2021-05-10 15:27:03 · 624 阅读 · 0 评论 -
spark动态资源调度
背景一般在使用Spark的的时候通过 spark-submit.sh 配置 num-executors 显示的指定executor的个数。然后AppMaster会向资源调度框架如yarn申请资源,每个executor在yarn中以Container的形式存在。无论executor是否执行任务,都会占用相应的资源,直到应用结束后释放。很显然要是有一种方式,可以动态的申请executor,不用的时候释放掉,那么集群的资源利用率会更高。其实Flink就是这样做的,在Flink中资源都是以slot来动态申请,但是也转载 2021-04-09 16:29:24 · 1059 阅读 · 0 评论 -
各大厂大数据实践
大厂大数据架构https://mp.weixin.qq.com/s?__biz=MzA5MTc0NTMwNQ%3D%3D&chksm=887dc9e5bf0a40f38f398a7b2e621f6b3cf0c9a7b00891d019b4c4ed3a3436e8bf12b24a89b0&idx=1&mid=2650723475&scene=21&sn=2e3cef8d192783bea42b29d1f1f066b8#wechat_redirect数据中台概念ht原创 2020-12-23 18:17:53 · 162 阅读 · 0 评论 -
redis面试题带答案
文章目录 概述什么是RedisRedis有哪些优缺点为什么要用 Redis /为什么要用缓存为什么要用 Redis 而不用 map/guava 做缓存?Redis为什么这么快 数据类型Redis有哪些数据类型Redis的应用场景 持久化什么是Redis持久化?Re...转载 2020-12-23 17:58:57 · 1602 阅读 · 0 评论 -
2020年 ZooKeeper 最新面试题都在这里(附答案)
先来看看题目 ZooKeeper 是什么? ZooKeeper 提供了什么? Zookeeper 文件系统 Zookeeper 怎么保证主从节点的状态同步? 四种类型的数据节点 Znode Zookeeper Watcher 机制 -- 数据变更通知 客户端注册 Watcher 实现 服务端处理 Watcher 实现 客户端回调...转载 2020-12-23 17:53:59 · 691 阅读 · 0 评论 -
Kafka面试知识点深度剖析
Kafka面试知识点深度剖析 过往记忆 2020-09-09 09:00:00 163 ...转载 2020-12-23 17:49:43 · 219 阅读 · 0 评论 -
大数据面试题带答案
版本更新时间更新内容v1.02020-07-01新建v1.12020-07-18朋友面试大数据工程师提供的关于架构及数仓方面的题目(智云健康)v1.22020-08-08朋友面试数据专家提供的数据驱动,spark及flink方面面试题(华为,阿里,小影,拼便宜)v1.32020-08-22朋友面试数据开发提供的关于hive及数仓方面的题目(美团)v1.42020-09-06老徐提供蚂蚁阿里微店面试题(数仓方向...转载 2020-12-23 17:04:58 · 1755 阅读 · 0 评论 -
kafka数据的顺序问题
Kafka如何保证消息的顺序性https://blog.youkuaiyun.com/qianshangding0708/article/details/103360193https://www.cnblogs.com/sunsky303/p/9511839.htmlKafka 自定义指定消息partition策略规则及DefaultPartitioner源码分析https://www.cnblogs.com/jakaBlog/p/11956940.html...原创 2020-12-15 15:24:12 · 354 阅读 · 0 评论 -
flink 的用途
flink 的用途 Flink为流处理器开辟了新的用武之地,它使流处理架构变得完整。它的一大优势便是,使应用程序的构建过程符合自然规律。为了了解Flink的用途及用法,我们来看一看令它具有多用途的几个核心特点,特别是它如何保障数据的正确性。 1 不同类型的正确性,Flink如何正确地进行流处理...转载 2020-12-18 16:40:07 · 2567 阅读 · 2 评论 -
yarn任务执行慢
之前执行一个spark作业,设置的的executor-memory为4G,num-executors为5 ,executor-cores为6之后,查看saprkui界面中的executors只有两个executor加一个driver, 之后考虑可能是内存不够,设置的的executor-memory为2G,num-executors为6 ,executor-cores为4,查看saprkui界面中的executors有三个executor加一个driver, 快了十分钟 看看yarn中的资源情况看看原创 2020-12-18 11:00:13 · 1322 阅读 · 1 评论 -
spark算子总结
RDD创建操作1)从集合创建RDDparallelizemakeRDD2)从外部存储创建RDDtextFile从hdfs文件创建从本地文件创建从其他HDFS文件格式创建hadoopFilesequenceFileobjectFilenewAPIHadoopFile从Hadoop接口API创建hadoopRDDnewAPIHadoopRDD比如:从HBase创建RDDRDD基本转换操作:1)map、flatMap、distinct2)coalesce、repartitio原创 2020-12-18 09:34:20 · 130 阅读 · 0 评论 -
实时需求功能开发,两表实时增量同步——datax
现在需要mysql几张表实时同步到一个地方,考虑到增量、性能问题,做出以下重要文档。 某几张表实时同步 实时需求开发 一、技术组件调研 1.sqoop方式 无法实时 2.flume方式。 可以参考文章: https://blog.youkuaiyun.com/wzy0623/article/details/73650053 方案优缺点 &n...转载 2020-12-17 17:48:07 · 2758 阅读 · 0 评论