大数据侠客
这个作者很懒,什么都没留下…
展开
-
大数据常见问题解决
解决方法:Serializable the class;解决方法:mvn install:install-file -Dfile=spark-assembly-1.6.2-hadoop2.6.0.jar -DgroupId=org.apache.repack -DartifactId=spark-assembly-1.6.2-hadoop2.6.0 -Dversion=2.6 -Dpackaging=jar。原创 2024-03-28 17:12:52 · 468 阅读 · 0 评论 -
CDH平台断电事故
2023年12月1日,一次偶然的半分钟断电,通电后发现集群无法正常启动。原创 2024-03-11 15:24:46 · 137 阅读 · 0 评论 -
图数据库NebulaGraph
一、图数据库选型1.1 什么是知识图谱知识图谱本质上是语义网络,即一个由节点和边组成的有向图结构知识库。其中,图的节点代表现实世界中存在的"实体",图的边则代表实体之间的"关系"。知识图谱可以有效、直观地表达实体之间的关系。1.2 关系型数据库 or 图数据库?1.3 图数据库的选择选型主要考虑以下 5 点:(A) 项目开源,暂不考虑需付费的图数据库;(B) 分布式架构设计,具备良好的可扩展性;© 毫秒级的多跳查询延迟;(D) 支持千亿量级点边存储;(E) 具备批量从数仓导入数据的能力。原创 2024-02-27 13:38:23 · 149 阅读 · 0 评论 -
RestCloud安装、使用调研
而不是基于DAG这种简单的有向无环图的数据流程处理逻辑,得益于我们在工作流上面集累的优势我们不但可以做DAG这种简单的依赖任务处理还可以做复杂的多层任务调度能力,企业可以把数据处理任务分为原子层、逻辑组合层、调度层等方式来组合企业的复杂任务调度需求,可以把一个复杂的数据集成流程拆分成多个可复用的子任务来进行调度。众所周知,数据源管理是数据平台的较为核心的功能,传统的方式都是以单一的数据源为主,但是随着业务的逐步发展,已经很难于去满足。不单单像传统的监控方式,仅仅以插件的方式去获取任务的异常。原创 2024-02-27 13:36:32 · 289 阅读 · 0 评论 -
Presto介绍、原理、安装、使用
支持标准的 ANSI SQL 语法:在大数据环境下提供交互式的 SQL 查询能力,提供统一的 SQL 接口进行查询,允许用户使用熟悉的 SQL 语言进行复杂的数据查询和分析。6.Coordinator从分发的Task之后,就会一直持续不断的从Single Stage中的Task获取计算结果,并将计算结果缓存到Buffer中,直到所有的计算结束。支持跨多数据源的查询:通过 Connector 接口可以支持许多不同数据源,让用户可以在单个查询中使用来自多个数据源的数据,提供一致的视图。原创 2024-02-27 13:34:50 · 282 阅读 · 0 评论 -
Doris介绍、原理、安装、使用
Apache Doris 是一个基于 MPP 架构的高性能、实时的分析型数据库,以极速易用的特点被人们所熟知,仅需亚秒级响应时间即可返回海量数据下的查询结果,不仅可以支持高并发的点查询场景,也能支持高吞吐的复杂分析场景。基于此,Apache Doris 能够较好的满足报表分析、即席查询、统一数仓构建、数据湖联邦查询加速等使用场景,用户可以在此之上构建用户行为分析、AB 实验平台、日志检索分析、用户画像分析、订单分析等应用。MPP-分布式并行结构化数据库架构。原创 2024-02-27 11:58:09 · 138 阅读 · 0 评论 -
Seatunnel原理、安装、使用调研
Apache SeaTunnel 是一个分布式、高性能、易扩展、用于海量数据(离线&实时)同步和转化的数据集成平台,每天可稳定高效地同步数百亿数据,并具有 已用于生产近100家公司。SeaTunnel 官网: https://seatunnel.apache.org/原创 2024-02-27 11:37:14 · 315 阅读 · 0 评论 -
Hive常用函数
lateral view首先为原始表的每行调用UDTF,UTDF会把一行拆分成一或者多行,lateral view再把结果组合,产生一个支持别名表的虚拟表。lead(col,n,DEFAULT) : 统计往后n行的col值,n可选,默认为1,DEFAULT当往下第n行为NULL时候,取默认值,如不指定,则为NULL。lag(col,n,DEFAULT) : 统计往前n行的col值,n可选,默认为1,DEFAULT当往上第n行为NULL时候,取默认值,如不指定,则为NULL。注意:n必须为int类型。原创 2024-02-26 17:45:27 · 63 阅读 · 2 评论 -
hive常用命令
原因:由hive的事务管理器出发,锁的原理是 一张表简称A表,我们对A表做查询操作的时候,就会获取到 A表的S锁(共享锁), 如果对A表做alter 等其他操作就会获取A表的X锁(排他锁) 如果A表同时拥有S锁和X锁,A表就会死锁。hive3.x之后,可以直接通过load方式导入hdfs上的文件完成动态分区,并且不需要做任何属性设置,动态分区会根据最后一个字段来进行分区。hive3.x版本之后,可以直接向分桶表load数据即可,不需要通过insert…select语句像分桶表插入数据的方式进行分桶。原创 2024-02-26 16:37:11 · 272 阅读 · 2 评论 -
Hive SQL 优化
在SQL中需要重复使用某张表、某部分数据(子查询)的情况,通常会选择通过with as语法,但是这种优化与子查询的数据结果的大小有关,超过某个特定的大小则不建议使用此方法,可以直接新建一个临时表。c. 一般情况下,两张表进行join,on连接的字段都具有唯一性或者是表的主键,不会有大量的70%的重复值,这样写的时候,是否也观察一下是不是自己用来连接的字段是错的。b. 提前了解要进行join表的字段的值的分布,如果与大量null或者无意义的值,要对于的null的值进行剔除,然后再join操作或者聚合操作。原创 2024-02-26 15:43:15 · 380 阅读 · 2 评论