
大数据工具
文章平均质量分 84
000X000
愿意放弃自由来换取保障的人,其最终既得不到自由,也得不到保障
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
数据分析报告概述
数据分析报告概述原创 2022-04-11 16:43:42 · 660 阅读 · 0 评论 -
Pycharm连接远程服务器 导入远程包时本地显示红色解决方法
使用pycharm工具 进行数据开发任务时,由于使用远程服务器进行开发的,代码在远程服务器上执行,导入远程服务器代码时,在本地数据脚本显示标准为红色,import XXX 显示红色问题。原创 2023-10-27 15:04:58 · 2849 阅读 · 6 评论 -
Apache Doris 成为 Apache 顶级项目
Apache Doris 成为 Apache 顶级项目原创 2022-06-23 14:51:07 · 369 阅读 · 0 评论 -
Window下各个Hadoop版本开发环境配置及所需winutils.exe(含最高Hadoop3.0.3版本)
代码下载:https://github.com/lyy289065406/hadoop-for-winx64网盘下载:链接:https://pan.baidu.com/s/1f2OeLJ4hHhvL--bQf8rGyw提取码: 5hzrhadoop-for-winx64由于hadoop部署在win上比unix麻烦得多,特意部署好这个版本,下载后稍微配置环境变量就可运行(基于Hadoop3.0.3版本)注:若检出/提交时提示warning: LF will be replaced by CRLF,则执..原创 2020-07-09 10:53:46 · 3033 阅读 · 0 评论 -
大数据生态圈完整知识体系
大数据生态圈完整知识体系原创 2022-08-16 13:19:47 · 1049 阅读 · 1 评论 -
kafka入门:简介、使用场景、设计原理、主要配置及集群搭建
一、入门 1、简介 Kafka is a distributed,partitioned,replicated commit logservice。它提供了类似于JMS的特性,但是在设计实现上完全不同,此外它并不是JMS规范的实现。kafka对消息保存时根据Topic进行归类,发送消息者成为Producer,消息接受者成为Consumer,此外kafka集群有多个kafka实例...原创 2019-03-19 11:17:05 · 204 阅读 · 0 评论 -
数据治理-数据质量监控
数据治理-数据质量监控原创 2023-09-16 19:36:04 · 1019 阅读 · 0 评论 -
HBase 架构简介
HBase 是一个基于 Java、开源的、非关系型的、面向列存储的分布式可扩展的大数据存储数据库。HBase 的集群主要由 HMater 和 RegionServer 两种角色组成,底层以 HDFS 作为存储设施,集群由 Zookeeper 协助管理。其架构如下图所示:图 1 HBase 架构图简单介绍一下 HBase 中相关组件的作用:HMasterHMast...原创 2019-05-10 16:34:45 · 291 阅读 · 0 评论 -
Hive复制分区表结构以及表数据
目录1、创建一张表,即将要被复制的表old_table:2、向old_table中添加数据,新建文本文件data.txt,向其中添加三行数据,建表时的分隔符为逗号,所以我们用逗号分隔:3、使用load命令向表中添加数据:4、复制该表结构到新表,即new_table:5、然后将使用命令hadoop fs -cp旧表数据复制到新表的hdfs目录下:6、使用命令 MSCK ...原创 2019-05-30 14:56:09 · 1781 阅读 · 0 评论 -
Hive性能优化全面解析
问题导读:1、Hive表设计层面优化有哪些内容?2、语法和参数层面如何进行优化?3、如何进行Join、Group By 、Order By 、COUNT DISTINCT优化?4、Hive架构层面如何优化?在工作中使用hive比较多,也写了很多HiveQL。这里从三个方面对 Hive 常用的一些性能优化进行了总结。一、表设计层面优化利用分区表优化分区表 是在某一个或者几个维度上对数据进行分...原创 2019-07-23 09:19:42 · 498 阅读 · 0 评论 -
实时ETL解决方案总结
问题导读1.实时ETL可以选择哪些架构部件?2.实时ETL有哪些实现方法?3.实时ETL有哪些难点?1、简述在架构实时ETL时的可以选择的架构部件。答:在建立数据仓库时,ETL通常都采用批处理的方式,一般来说是每天的夜间进行跑批。随着数据仓库技术的逐步成熟,企业对数据仓库的时间延迟有了更高的要求,也就出现了目前常说的实时ETL(Real-Time ETL)。实时ETL是数据仓库领域里比较新的一...原创 2019-11-18 09:22:53 · 3098 阅读 · 1 评论 -
Spark2内存管理详解
问题如下:1.Spark 中堆内内存是如何进行规划的?2.Spark 对堆内内存的管理的具体流程是怎样的?3.Spark 能否完全避免内存溢出(OOM, Out of Memory)的异常?4.Spark 堆外内存是如何进行规划的它有哪些优势?5.如何通过MemoryManager接口管理内存?6.静态内存是如何分配的?7.堆内内存大小的计算方式是什么?8.统一内存...原创 2019-04-23 21:03:49 · 247 阅读 · 0 评论 -
NumPy图解操作详解
NumPy图解操作详解原创 2022-05-16 09:10:19 · 940 阅读 · 0 评论 -
FlinkCDC 达梦数据库实时同步
FlinkCDC 达梦数据库基于日志解析的实时同步程序,支持JAVA程序和SQL。原创 2024-12-09 09:16:03 · 4311 阅读 · 51 评论 -
数据库连接工具Chat2DB介绍
数据库连接工具Chat2DB介绍原创 2023-09-16 19:23:06 · 2170 阅读 · 0 评论 -
Flink CDC-2.3版本概述
Flink CDC-2.3版本概述原创 2022-12-05 10:13:40 · 3304 阅读 · 0 评论 -
数据治理之数据质量
数据治理之数据质量原创 2022-07-08 11:54:51 · 2466 阅读 · 0 评论 -
大数据常用采集工具
1、FlumeFlume作为Hadoop的组件,是由Cloudera专门研发的分布式日志收集系统。尤其近几年随着Flume的不断完善,用户在开发过程中使用的便利性得到很大的改善,Flume现已成为Apache Top项目之一。Flume提供了从Console(控制台)、RPC(Thrift-RPC)、Text(文件)、Tail(UNIX Tail)、Syslog、Exec(命令执行)等数据源上收集数据的能力。Flume采用了多Master的方式。为了保证配置数据的一致性,Flume引入了ZooK原创 2022-03-16 10:49:35 · 1704 阅读 · 0 评论 -
Pandas之DataFrame详解
二维数据,Series容器,既有行索引,又有列索引1. 创建DataFrame1.1 通过list 创建DataFrame需要指定 data,index 行,columns 列指定data和index/columns是list类型或者 np.arangedf1 = pd.DataFrame(data=[[1, 2, 3], [11, 12, 13]], index=['r_1', 'r_2'], columns=['A', 'B', 'C'])df2 = pd.Da...原创 2021-04-09 14:53:10 · 6659 阅读 · 1 评论 -
CDH6.3.2之Kerberos安全认证
问题导读:1、Kerberos认证原理是什么?2、Kerberos如何部署?3、CDH集群如何启用Kerberos?4、如何在Kerberos安全环境使用HFDS?01 PARTKerberos简介 Kerberos是一种计算机网络授权协议,用来在非安全网络中,对个人通信以安全的手段进行身份认证。这个词又指麻省理工学院为这个协议开发的一套计算机软件。软件设计上采用客户端/服务器结构,并且能够进行相互认证,即客户端和服务器端均可对对方进行身份认证。可以用于防止窃听、防止重放攻击、...原创 2020-11-12 14:55:21 · 2311 阅读 · 3 评论 -
大数据基础
1、HDFS:1.HDFS为什么不适合存储大量小文件?答:1.大量文件的元数据占用NameNode大量内存空间 2.磁盘寻道时间超过读取时间-------------------------------------------------------------------------------------------------------------------------------------------------------------------------2.HDF...原创 2020-10-10 14:26:02 · 303 阅读 · 1 评论 -
全球大数据工具汇总简介
1、 Talend Open Studio 是第一家针对的数据集成工具市场的ETL(数据的提取Extract、传输Transform、载入Load)开源软件供应商。Talend的下载量已超过200万人次,其开源软件提供了数据整合功能。其用户包括美国国际集团(AIG)、康卡斯特、电子港湾、通用电气、三星、Ticketmaster和韦里逊等企业组织。 2、DYSON 探...原创 2019-05-29 21:06:05 · 568 阅读 · 0 评论