- 博客(16)
- 资源 (2)
- 收藏
- 关注
原创 selectdb 使用 遇到的问题
建议先判断再使用 (case when locate('-', value1) > 0 then split_part(value1,'-',1) else aend)函数代码先判断 字符串中是否包含分隔符字段,若不包含,hive 函数返回原字符串,sdb则会返回 null。not in 会过滤空值 not in会认为null是一个具体的值,需要被排除。selectdb 建立时间类型分区,表需要提前创建。split hive 与 sdb 区别。动态提前创建12个分区。
2025-02-28 17:10:51
158
原创 FLINK 总结
如上图展示的这样的一个流程。它其实是一个概念:就是能够返回持续变化表的某一时刻数据内 容的视图,持续变化表也就是 Changingtable,可以是一个实时的 Changelog 的数据,也可以是放在外部 存储上的一个物化的维表。进行比较,选择较小的Watermark,即 Min(input1Watermark,intput2Watermark),与算子当前的Watermark比较,如果大于算子当前的 Watermark,则更新算子的Watermark为新的Watermark,并发送给下游,
2023-07-16 18:02:25
112
原创 SPARK
候就不需要将某一方的全部数据都加载到内存进行计算了,只需要取一部分就能知道是否有相等的(比 如按升序排列,某个值明显比它大了,后面肯定就不会有相等的,就不用继续比较了,节省了时间和内 存),也就是在进行等值比较的时候即用即丢的。的复用,这时如果能够对曾经计算的过程产生的数据进行 复用,就可以极大地提升效率。把数据放在内存中,虽然是最快速的,但是也是最不可靠的。,使用上述的两种方法加载到内存的时候对于内存的压力都非常大 时,因此在。过程中,不需要进行数据的排序操作,也就节省掉了这部分的性能开销。
2023-07-12 10:41:01
113
原创 HBase
HBase是一种KV数据库主要用来存储非结构化和半结构化的松散数据,运行于HDFS文件系统之上,它。HBase的目标是处理非常庞大的表,可以通过水平扩展的方式,利用廉价计算机集群处理由超过10亿行 数据和数百万列元素组成的数据表。
2023-07-07 17:47:22
190
原创 FLUME
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统优点 实时性,事务,存储到任何服务器,负载均衡,缺点 配置繁琐Flume的Agent组件包括 Source、Channel和SinkAgentAgent是一个JVM进程,它以事件的形式将数据从源头送至目的。Agent主要有3个部分组成,Source、Channel、Sink。Source。
2023-07-05 13:41:39
78
原创 HIVE问题与答案
它提供了一种SQL(结构化查询语言)方言,可以查询存储在Hadoop分布式文件系统(HDFS)中的数据或其他和Hadoop集成的文件系统。
2023-07-04 17:28:07
891
原创 ZOOKEEPER
ZooKeeper 提供了分布式数据发布/订阅功能,一个典型的发布/订阅模型系统定义了一种一对多的订阅 关系,能让多个订阅者同时监听某一个主题对象,当这个主题对象自身状态变化时,会通知所有订阅 者,使他们能够做出相应的处理。ZooKeeper 中,引入了 Watch 机制来实现这种分布式的通知功能。ZooKeeper 允许客户端向服务端注册一个 Watch 监听,当服务端的一些事件触发了这个 Watch ,那么就 会向指定客户端发送一个事件通知,来实现分布式的通知功能。
2023-06-30 17:20:37
253
原创 HADOOP小问题总结与答案
每个输入分片一个hdfs块会让一个map任务来处理map处理结束, 传输进环形缓冲区,环形缓冲区100m(大小可调整),数据进入会进行排序,数据达到环形缓冲区阈值80%(可调整),会溢出文件到本地磁盘,在写入磁盘之前,线程首先根据reduce任务的数目将数据划分为相同数目的分区,使用hash进行分区排序,如果程序有Combiner操作,将排序好的结果在进行操作。map阶段:然后进行Map过程,Map会并行读取文本,对读取的单词进行单词分割,并且每个词以键值 对形式生成。
2023-06-30 09:15:51
203
原创 ---------------------------------
有时候看着自己在浩荡的芦苇荡中,周遭有的比自己高大,有的芦絮比自己茂盛,有时候觉得自己很不起眼,有时候不知道往左飘还是往右飘……旁边的湖水总是倒映自己年轻时,天上的白云星星遥不可及~~~心里有了方向就可以依偎自己选择的风播种希望,
2023-04-17 15:26:16
94
原创 py爬虫
数据获取 的方式企业生产的用户数据 大型互联网数据 公司 有海量数据 数据管理咨询公司 数据采集团队 市场调研 政府第三方 提供公开数据 第三方数据平台购买数据 爬虫 爬特定数据网页 三大特征1.统一资源定位符2.html3.http/https 传输 HTML爬虫数据思路确定需要的url地址 通过 Http/https 获取对应的HTML 页面...
2018-11-18 13:44:55
829
原创 MySQL 笔记
数据库名词 2数据库连接 2数据库操作 3创建数据库 3删除数据库 3选择数据库 3数据库数据类型 3数据库对表操作 5创建表 5删除数据库 6插入数据 6查询数据 6Where字句 7BINARY 关键字 7Updata查询 7Delete语句 8删除语句 执行的速度上 drop>truncate>delete 8L...
2018-11-18 13:42:46
293
转载 linux 笔记
Linux笔记自己整理出来的 就当是个纪念Linux 的系统启动 2Linux系统有7个运行级别(runlevel): 2Linux关机 2目录结构与作用 3Linux 忘记密码解决方法 3Linux文件基本属性 3Linux 文件与目录管理 4Linux 文件内容查看 5Linux连接概念 5Linux系统用户账号的管理 6Linux系统用...
2018-11-18 13:41:52
309
原创 hashmap 笔记
并允许使用null值和null键。此类不保证映射的顺序,特别是它不保证该顺序恒久不变。HashMap实际上是一个“链表散列”的数据结构,即数组和链表的结构,但是在jdk1.8里 加入了红黑树的实现,当链表的长度大于8时,转换为红黑树的结构。 java中HashMap采用了链地址法。链地址法,简单来说,就是数组加链表的结合。在每个数组元素上都一个链表结构,当数据被Hash后,得到数组...
2018-11-06 10:16:02
220
原创 hadoop 笔记
hadoop 2hadoop是大数据生态圈的核心 2分布式 2集群 2MR的框架层面理解 2MR具体的工作流程 2求词频最高单词是 2xxxWritable是怎么回事 3MR的键值规则 3topN问题 3MR的分区机制 4键值的互换 5什么是计数器 5优化map 到reduce 大数据的时候 5表连接 6倒排索引 7GroupCom...
2018-11-06 10:13:43
237
DolphinScheduler(apache-dolphinscheduler-2.0.6-bin.tar.gz)(已安装过)
2022-07-18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人