自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 Hive内置UDF函数详解

Hive内置的UDF函数包括数学函数、字符串函数、日期函数等,这些函数可以直接在Hive中使用,无需额外安装或配置。Hive内置了一些常用的日期函数,如year、month、day、hour、minute、second等。Hive内置了一些常用的字符串函数,如concat、substring、length、trim等。Hive内置的UDF函数可以方便地扩展Hive的功能,满足不同的业务需求。Hive内置了一些常用的数学函数,如abs、ceil、floor、round等。

2023-05-10 19:56:02 464

原创 大数据之Hive详细介绍

Hive的查询语言HiveQL类似于SQL语言,支持SELECT、FROM、WHERE、GROUP BY、ORDER BY等关键字,同时也支持JOIN、UNION、SUBQUERY等高级语法。Hive的优点包括易于学习和使用、处理大规模数据、可扩展性强、支持多种数据源等,缺点包括查询速度较慢、不支持实时查询和事务等。Hive的数据模型是基于表的,每个表都有一个定义表结构的元数据,包括表名、列名、数据类型、分区等信息。Hive内置了许多常用的函数,如数学函数、字符串函数、日期函数等。

2023-05-10 19:51:17 450

原创 Spark之RDD详细介绍

RDD是Spark中最基本的数据结构,具有分布式、不可变性、弹性容错性和惰性计算等特点,支持转换操作和行动操作,还支持缓存机制,是Spark进行分布式计算的核心。

2023-05-08 20:11:11 688

原创 DolphinScheduler的详细介绍以及使用

DolphinScheduler支持多种任务类型,包括Hadoop、Spark、Flink、Hive、Python、Shell等,同时还提供了丰富的调度策略和监控功能,可以满足各种复杂的调度需求。多种任务类型:DolphinScheduler支持多种任务类型,包括Hadoop、Spark、Flink、Hive、Python、Shell等,可以满足各种数据处理需求。丰富的调度策略:DolphinScheduler提供了多种调度策略,包括定时调度、依赖调度、手动调度等,可以满足各种复杂的调度需求。

2023-05-05 16:24:47 1258

原创 大数据面试中关于hadoop常见的问题及答案

hadoop面试题

2023-04-28 16:27:44 457

原创 大数据面试之Linux命令详解

Linux常见命令

2023-04-28 16:24:41 77

原创 大数据之azkaban介绍及安装部署

用户可以通过Web界面来定义工作流,包括任务之间的依赖关系、任务的执行顺序和执行条件等。执行服务器会根据工作流的定义,自动调度任务的执行,并将执行结果返回给用户。SLA监控可以帮助用户监控任务的执行时间,如果任务执行时间超过了预设的时间,系统会自动发送警报。总的来说,Azkaban是一个非常实用的工作流调度系统,它可以帮助用户简化Hadoop作业的管理和调度,提高工作效率。在数据库中创建一个新的数据库,并创建相应的表。Azkaban执行器是用来执行任务的,需要在每个执行任务的机器上启动。

2023-04-27 20:03:22 540

原创 大数据之Kafka介绍及使用

Kafka最初是由LinkedIn开发的,用于处理其海量的实时数据流,现在已经成为了许多公司的首选解决方案。

2023-04-27 16:51:12 336

原创 大数据之数据采集框架Flume

Flume是一个分布式的、可靠的、高可用的大数据采集系统,它可以将数据从不同的数据源(如Web服务器、日志文件、消息队列等)采集到Hadoop等大数据处理平台中进行处理和分析。

2023-04-26 20:02:37 1057

原创 Hadoop之YARN详解

YARN(Yet Another Resource Negotiator)是Hadoop的一个重要组成部分,它是Hadoop 2.0中的一个新的资源管理器,用于管理Hadoop集群中的资源和任务。YARN是Hadoop的一个重要组成部分,它可以支持多种计算框架,提供更灵活的资源管理和任务调度机制,更好地利用集群中的资源,使得Hadoop可以更好地满足大规模数据处理的需求。更好的资源利用率:YARN可以更好地利用集群中的资源,避免了资源浪费和资源争用的问题。

2023-04-25 20:05:41 613

原创 Hadoop之MapReduce详解

每个节点都会执行相同的Reduce函数,将相同键值的数据进行合并和计算。Map阶段:将每个小块的数据分配给不同的计算机节点进行处理。配置MapReduce作业:配置MapReduce作业的参数,包括输入文件、输出文件、Map函数和Reduce函数等。Shuffle阶段:将Map函数的输出结果按照键值进行排序,并将相同键值的数据合并在一起。编写Reduce函数:编写Reduce函数,将相同键值的数据进行合并和计算。输入数据的切分:将输入数据切分成小块,每个小块的大小通常为64MB。

2023-04-25 19:54:23 469 1

原创 大数据之HDFS详解

HDFS是Hadoop生态系统中的一个重要组件,它是为了解决大规模数据存储和处理问题而设计的。HDFS的架构由NameNode和DataNode组成,它提供了与标准文件系统类似的操作,并且可以与Hadoop MapReduce和其他Hadoop生态系统中的工具一起使用。HDFS(Hadoop Distributed File System)是Hadoop生态系统中的一个分布式文件系统,它是为了解决大规模数据存储和处理问题而设计的。HDFS的使用可以分为两个部分:文件系统操作和数据处理。

2023-04-25 19:44:48 423 1

原创 大数据之Hadoop简介

Hadoop最初是由Apache软件基金会开发的,它的核心是Hadoop Distributed File System(HDFS)和MapReduce计算模型。总之,Hadoop是一个强大的分布式计算框架,它可以处理大规模数据集并提供高可靠性、高可扩展性和高效性能。Hadoop的使用需要一定的技术水平,但是它可以帮助企业处理大数据,提高数据分析的效率和准确性。运行MapReduce程序:将编写好的MapReduce程序提交到YARN中运行,YARN会为程序分配资源并在集群中运行程序。

2023-04-25 19:43:00 928 1

原创 Clickhouse安装部署及简单使用

clickhouse安装部署

2023-04-25 19:34:57 833 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除