- 博客(14)
- 收藏
- 关注
原创 Spark SQL整合Hive
Hive可以将SQL语句转化为MapReduce(或Apache Spark、Apache Tez)任务执行,大大降低了Hadoop的使用门槛,减少了开发MapReduce程序的时间成本。与Hive不同的是,Hive的执行引擎为MapReduce,而Spark SQL的执行引擎为Spark RDD。 在IDEA中编写Spark SQL操作Hive的应用程序,然后将编写好的应用程序打包为JAR,提交到Spark集群中运行,即可对Hive进行数据的读写与分析。打包程序,然后提交到Spark集群。
2024-06-19 09:00:00
655
原创 Spark SQL基础
Spark SQL是一个用于结构化数据处理的Spark组件。所谓结构化数据,是指具有Schema信息的数据,例如JSON、Parquet、Avro、CSV格式的数据。与基础的Spark RDD API不同,Spark SQL提供了对结构化数据的查询和计算接口。将SQL查询与Spark应用程序无缝组合 Spark SQL允许使用SQL或熟悉的API在Spark程序中查询结构化数据。
2024-06-18 07:30:00
977
原创 Spark RDD的创建
Spark提供了一种对数据的核心抽象,称为弹性分布式数据集(Resilient Distributed Dataset,简称RDD)。这个数据集的全部或部分可以缓存在内存中,并且可以在多次计算时重用。RDD其实就是一个分布在多个节点上的数据集合。 RDD的弹性主要是指:当内存不够时,数据可以持久化到磁盘,并且RDD具有高效的容错能力。 分布式数据集是指:一个数据集存储在不同的节点上,每个节点存储数据集的一部分。
2024-06-17 18:45:00
421
原创 Spark RDD算子
reduceByKey()算子的作用对象是元素为(key,value)形式(Scala元组)的RDD,使用该算子可以将key相同的元素聚集到一起,最终把所有key相同的元素合并成一个元素。 rightOuterJoin()算子的使用方法与leftOuterJoin()算子相反,其与数据库的右外连接类似,以右边的RDD为基准(例如rdd1.rightOuterJoin(rdd2),以rdd2为基准),右边RDD的记录一定会存在。Spark会将RDD中的每个元素传入该函数的参数中。
2024-06-17 09:56:03
2256
原创 Spark概述
可以看到,在数据计算层,作为Hadoop核心组成的MapReduce可以结合Hive通过类SQL的方式进行数据的离线计算(当然也可以编写独立的MapReduce应用程序进行计算);而Spark既可以做离线计算(Spark SQL),又可以做实时计算(Spark Streaming),它们底层都使用的是Spark的核心(Spark Core)。
2024-06-15 07:00:00
660
原创 Scala安装
Scala是一种将面向对象和函数式编程结合在一起的高级语言,旨在以简洁、优雅和类型安全的方式表达通用编程模式。Scala功能强大,不仅可以编写简单脚本,还可以构建大型系统。Scala运行于Java平台,Scala程序会通过JVM被编译成class字节码文件,然后在操作系统上运行。其运行时候的性能通常与Java程序不分上下,并且Scala代码可以调用Java方法、继承Java类、实现Java接口等,几乎所有Scala代码都大量使用了Java类库。
2024-06-14 10:29:18
337
原创 HBase部署与基本操作
HBase 是一个面向列式存储的分布式数据库,HBase 底层存储基于 HDFS 实现,集群的管理基于 ZooKeeper 实现。
2024-06-13 19:30:00
1725
原创 ZooKeeper下载安装与基本操作
进入/export/software目录下,将tar包解压到/export/servers目录下。ZooKeeper服务器是用Java创建的,它运行在JVM之上。需要安装JDK 7或更高版本。zookeeper启动成功。standalone代表zk没有搭建集群,现在是单节点。将下载的ZooKeeper放到/export/software目录下。修改存储目录:dataDir=/export/data/zkdata。进入到conf目录拷贝一个zoo_sample.cfg并完成配置。
2024-06-13 11:38:09
313
原创 电商日志分析项目(三)
为什么要ETL:没有必要解析出所有数据,只需要解析出有价值的字段即可。本项目中需要解析出:ip、url、pageId(topicId对应的页面Id)、country、province、city。
2024-06-12 10:26:45
278
原创 电商日志分析项目(一)
根据电商日志文件,分析:统计页面浏览量(每行记录就是一次浏览)统计各个省份的浏览量 (需要解析IP)日志的ETL操作(ETL:数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程)为什么要ETL:没有必要解析出所有数据,只需要解析出有价值的字段即可。本项目中需要解析出:ip、url、pageId(topicId对应的页面Id)、country、province、city。
2024-06-12 10:10:16
350
原创 实训日记2-手机流量统计优化
需求: 统计每个手机号上行流量和、下行流量和、总流量和(上行流量和+下行流量和),并且:将统计结果按照手机号的前缀进行区分,并输出到不同的输出文件中去。13* ==> …15* ==> …其中,access.log数据文件。
2024-06-05 16:38:16
366
原创 手机流量统计项目
统计每个手机号上行流量和、下行流量和、总流量和(上行流量和+下行流量和),并且:将统计结果按照手机号的前缀进行区分,并输出到不同的输出文件中去。13* ==> …15* ==> …其中,access.log数据文件。
2024-06-04 22:27:47
685
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人