AnGe9798-优快云博客

原创 selectdb 使用遇到的问题

建议先判断再使用 (case when locate('-', value1) > 0 then split_part(value1,'-',1) else aend)函数代码先判断字符串中是否包含分隔符字段，若不包含，hive 函数返回原字符串，sdb则会返回 null。not in 会过滤空值 not in会认为null是一个具体的值，需要被排除。selectdb 建立时间类型分区，表需要提前创建。split hive 与 sdb 区别。动态提前创建12个分区。

2025-02-28 17:10:51 214

原创 FLINK 总结

如上图展示的这样的一个流程。它其实是一个概念：就是能够返回持续变化表的某一时刻数据内容的视图，持续变化表也就是 Changingtable，可以是一个实时的 Changelog 的数据，也可以是放在外部存储上的一个物化的维表。进行比较，选择较小的Watermark，即 Min(input1Watermark,intput2Watermark)，与算子当前的Watermark比较，如果大于算子当前的 Watermark，则更新算子的Watermark为新的Watermark，并发送给下游，

2023-07-16 18:02:25 205

原创 SPARK

候就不需要将某一方的全部数据都加载到内存进行计算了，只需要取一部分就能知道是否有相等的（比如按升序排列，某个值明显比它大了，后面肯定就不会有相等的，就不用继续比较了，节省了时间和内存），也就是在进行等值比较的时候即用即丢的。的复用，这时如果能够对曾经计算的过程产生的数据进行复用，就可以极大地提升效率。把数据放在内存中，虽然是最快速的，但是也是最不可靠的。，使用上述的两种方法加载到内存的时候对于内存的压力都非常大时，因此在。过程中，不需要进行数据的排序操作，也就节省掉了这部分的性能开销。

2023-07-12 10:41:01 180

原创 HBase

HBase是一种KV数据库主要用来存储非结构化和半结构化的松散数据，运行于HDFS文件系统之上，它。HBase的目标是处理非常庞大的表，可以通过水平扩展的方式，利用廉价计算机集群处理由超过10亿行数据和数百万列元素组成的数据表。

2023-07-07 17:47:22 331

原创 Kafka

是一种分布式，高吞吐量的分布式发布订阅系统，相当于是数据物流中转站，可以做数据临时存储。

2023-07-07 13:31:21 223

原创 FLUME

Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统优点实时性，事务，存储到任何服务器，负载均衡，缺点配置繁琐Flume的Agent组件包括 Source、Channel和SinkAgentAgent是一个JVM进程，它以事件的形式将数据从源头送至目的。Agent主要有3个部分组成，Source、Channel、Sink。Source。

2023-07-05 13:41:39 106

原创 HIVE问题与答案

它提供了一种SQL(结构化查询语言)方言，可以查询存储在Hadoop分布式文件系统（HDFS）中的数据或其他和Hadoop集成的文件系统。

2023-07-04 17:28:07 980

原创 ZOOKEEPER

ZooKeeper 提供了分布式数据发布/订阅功能，一个典型的发布/订阅模型系统定义了一种一对多的订阅关系，能让多个订阅者同时监听某一个主题对象，当这个主题对象自身状态变化时，会通知所有订阅者，使他们能够做出相应的处理。ZooKeeper 中，引入了 Watch 机制来实现这种分布式的通知功能。ZooKeeper 允许客户端向服务端注册一个 Watch 监听，当服务端的一些事件触发了这个 Watch ，那么就会向指定客户端发送一个事件通知，来实现分布式的通知功能。

2023-06-30 17:20:37 357

原创 HADOOP小问题总结与答案

每个输入分片一个hdfs块会让一个map任务来处理map处理结束，传输进环形缓冲区，环形缓冲区100m(大小可调整)，数据进入会进行排序，数据达到环形缓冲区阈值80%(可调整)，会溢出文件到本地磁盘，在写入磁盘之前，线程首先根据reduce任务的数目将数据划分为相同数目的分区，使用hash进行分区排序，如果程序有Combiner操作，将排序好的结果在进行操作。map阶段：然后进行Map过程，Map会并行读取文本，对读取的单词进行单词分割，并且每个词以键值对形式生成。

2023-06-30 09:15:51 243

原创 ---------------------------------

有时候看着自己在浩荡的芦苇荡中，周遭有的比自己高大，有的芦絮比自己茂盛，有时候觉得自己很不起眼，有时候不知道往左飘还是往右飘……旁边的湖水总是倒映自己年轻时，天上的白云星星遥不可及~~~心里有了方向就可以依偎自己选择的风播种希望，

2023-04-17 15:26:16 134

原创 Flink日记

Flink

2022-07-19 17:30:58 600

原创 py爬虫

数据获取的方式企业生产的用户数据大型互联网数据公司有海量数据数据管理咨询公司数据采集团队市场调研政府第三方提供公开数据第三方数据平台购买数据爬虫爬特定数据网页三大特征1.统一资源定位符2.html3.http/https 传输 HTML爬虫数据思路确定需要的url地址通过 Http/https 获取对应的HTML 页面...

2018-11-18 13:44:55 865

原创 MySQL 笔记

数据库名词 2数据库连接 2数据库操作 3创建数据库 3删除数据库 3选择数据库 3数据库数据类型 3数据库对表操作 5创建表 5删除数据库 6插入数据 6查询数据 6Where字句 7BINARY 关键字 7Updata查询 7Delete语句 8删除语句执行的速度上 drop>truncate>delete 8L...

2018-11-18 13:42:46 355

转载 linux 笔记

Linux笔记自己整理出来的就当是个纪念Linux 的系统启动 2Linux系统有7个运行级别(runlevel)： 2Linux关机 2目录结构与作用 3Linux 忘记密码解决方法 3Linux文件基本属性 3Linux 文件与目录管理 4Linux 文件内容查看 5Linux连接概念 5Linux系统用户账号的管理 6Linux系统用...

2018-11-18 13:41:52 427

原创 hashmap 笔记

并允许使用null值和null键。此类不保证映射的顺序，特别是它不保证该顺序恒久不变。HashMap实际上是一个“链表散列”的数据结构，即数组和链表的结构，但是在jdk1.8里加入了红黑树的实现，当链表的长度大于8时，转换为红黑树的结构。 java中HashMap采用了链地址法。链地址法，简单来说，就是数组加链表的结合。在每个数组元素上都一个链表结构，当数据被Hash后，得到数组...

2018-11-06 10:16:02 256

原创 hadoop 笔记

hadoop 2hadoop是大数据生态圈的核心 2分布式 2集群 2MR的框架层面理解 2MR具体的工作流程 2求词频最高单词是 2xxxWritable是怎么回事 3MR的键值规则 3topN问题 3MR的分区机制 4键值的互换 5什么是计数器 5优化map 到reduce 大数据的时候 5表连接 6倒排索引 7GroupCom...

2018-11-06 10:13:43 302

教务管理系统的设计与实现

教务管理系统的设计与实现教务管理系统的设计与实现教务管理系统的设计与实现教务管理系统的设计与实现教务管理系统的设计与实现教务管理系统的设计与实现

2017-12-07

DolphinScheduler（apache-dolphinscheduler-2.0.6-bin.tar.gz）(已安装过)

关于DolphinScheduler Apache DolphinScheduler是一个分布式易扩展的可视化DAG工作流任务调度开源系统。解决数据研发ETL 错综复杂的依赖关系，不能直观监控任务健康状态等问题。DolphinScheduler以DAG流式的方式将Task组装起来，可实时监控任务的运行状态，同时支持重试、从指定节点恢复失败、暂停及Kill任务等操作简单易用 DAG监控界面，所有流程定义都是可视化，通过拖拽任务定制DAG，通过API方式与第三方系统对接, 一键部署高可靠性去中心化的多Master和多Worker, 自身支持HA功能, 采用任务队列来避免过载，不会造成机器卡死丰富的使用场景支持暂停恢复操作.支持多租户，更好的应对大数据的使用场景. 支持更多的任务类型，如 spark, hive, mr, python, sub_process, shell 高扩展性支持自定义任务类型，调度器使用分布式调度，调度能力随集群线性增长，Master和Worker支持动态上下线

2022-07-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人