- 博客(14)
- 收藏
- 关注
原创 Hive内置UDF函数详解
Hive内置的UDF函数包括数学函数、字符串函数、日期函数等,这些函数可以直接在Hive中使用,无需额外安装或配置。Hive内置了一些常用的日期函数,如year、month、day、hour、minute、second等。Hive内置了一些常用的字符串函数,如concat、substring、length、trim等。Hive内置的UDF函数可以方便地扩展Hive的功能,满足不同的业务需求。Hive内置了一些常用的数学函数,如abs、ceil、floor、round等。
2023-05-10 19:56:02
464
原创 大数据之Hive详细介绍
Hive的查询语言HiveQL类似于SQL语言,支持SELECT、FROM、WHERE、GROUP BY、ORDER BY等关键字,同时也支持JOIN、UNION、SUBQUERY等高级语法。Hive的优点包括易于学习和使用、处理大规模数据、可扩展性强、支持多种数据源等,缺点包括查询速度较慢、不支持实时查询和事务等。Hive的数据模型是基于表的,每个表都有一个定义表结构的元数据,包括表名、列名、数据类型、分区等信息。Hive内置了许多常用的函数,如数学函数、字符串函数、日期函数等。
2023-05-10 19:51:17
450
原创 Spark之RDD详细介绍
RDD是Spark中最基本的数据结构,具有分布式、不可变性、弹性容错性和惰性计算等特点,支持转换操作和行动操作,还支持缓存机制,是Spark进行分布式计算的核心。
2023-05-08 20:11:11
688
原创 DolphinScheduler的详细介绍以及使用
DolphinScheduler支持多种任务类型,包括Hadoop、Spark、Flink、Hive、Python、Shell等,同时还提供了丰富的调度策略和监控功能,可以满足各种复杂的调度需求。多种任务类型:DolphinScheduler支持多种任务类型,包括Hadoop、Spark、Flink、Hive、Python、Shell等,可以满足各种数据处理需求。丰富的调度策略:DolphinScheduler提供了多种调度策略,包括定时调度、依赖调度、手动调度等,可以满足各种复杂的调度需求。
2023-05-05 16:24:47
1258
原创 大数据之azkaban介绍及安装部署
用户可以通过Web界面来定义工作流,包括任务之间的依赖关系、任务的执行顺序和执行条件等。执行服务器会根据工作流的定义,自动调度任务的执行,并将执行结果返回给用户。SLA监控可以帮助用户监控任务的执行时间,如果任务执行时间超过了预设的时间,系统会自动发送警报。总的来说,Azkaban是一个非常实用的工作流调度系统,它可以帮助用户简化Hadoop作业的管理和调度,提高工作效率。在数据库中创建一个新的数据库,并创建相应的表。Azkaban执行器是用来执行任务的,需要在每个执行任务的机器上启动。
2023-04-27 20:03:22
540
原创 大数据之数据采集框架Flume
Flume是一个分布式的、可靠的、高可用的大数据采集系统,它可以将数据从不同的数据源(如Web服务器、日志文件、消息队列等)采集到Hadoop等大数据处理平台中进行处理和分析。
2023-04-26 20:02:37
1057
原创 Hadoop之YARN详解
YARN(Yet Another Resource Negotiator)是Hadoop的一个重要组成部分,它是Hadoop 2.0中的一个新的资源管理器,用于管理Hadoop集群中的资源和任务。YARN是Hadoop的一个重要组成部分,它可以支持多种计算框架,提供更灵活的资源管理和任务调度机制,更好地利用集群中的资源,使得Hadoop可以更好地满足大规模数据处理的需求。更好的资源利用率:YARN可以更好地利用集群中的资源,避免了资源浪费和资源争用的问题。
2023-04-25 20:05:41
613
原创 Hadoop之MapReduce详解
每个节点都会执行相同的Reduce函数,将相同键值的数据进行合并和计算。Map阶段:将每个小块的数据分配给不同的计算机节点进行处理。配置MapReduce作业:配置MapReduce作业的参数,包括输入文件、输出文件、Map函数和Reduce函数等。Shuffle阶段:将Map函数的输出结果按照键值进行排序,并将相同键值的数据合并在一起。编写Reduce函数:编写Reduce函数,将相同键值的数据进行合并和计算。输入数据的切分:将输入数据切分成小块,每个小块的大小通常为64MB。
2023-04-25 19:54:23
469
1
原创 大数据之HDFS详解
HDFS是Hadoop生态系统中的一个重要组件,它是为了解决大规模数据存储和处理问题而设计的。HDFS的架构由NameNode和DataNode组成,它提供了与标准文件系统类似的操作,并且可以与Hadoop MapReduce和其他Hadoop生态系统中的工具一起使用。HDFS(Hadoop Distributed File System)是Hadoop生态系统中的一个分布式文件系统,它是为了解决大规模数据存储和处理问题而设计的。HDFS的使用可以分为两个部分:文件系统操作和数据处理。
2023-04-25 19:44:48
423
1
原创 大数据之Hadoop简介
Hadoop最初是由Apache软件基金会开发的,它的核心是Hadoop Distributed File System(HDFS)和MapReduce计算模型。总之,Hadoop是一个强大的分布式计算框架,它可以处理大规模数据集并提供高可靠性、高可扩展性和高效性能。Hadoop的使用需要一定的技术水平,但是它可以帮助企业处理大数据,提高数据分析的效率和准确性。运行MapReduce程序:将编写好的MapReduce程序提交到YARN中运行,YARN会为程序分配资源并在集群中运行程序。
2023-04-25 19:43:00
928
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人