Pilgrim979-优快云博客

原创 Spark SQL整合Hive

Hive可以将SQL语句转化为MapReduce（或Apache Spark、Apache Tez）任务执行，大大降低了Hadoop的使用门槛，减少了开发MapReduce程序的时间成本。与Hive不同的是，Hive的执行引擎为MapReduce，而Spark SQL的执行引擎为Spark RDD。在IDEA中编写Spark SQL操作Hive的应用程序，然后将编写好的应用程序打包为JAR，提交到Spark集群中运行，即可对Hive进行数据的读写与分析。打包程序，然后提交到Spark集群。

2024-06-19 09:00:00 655

原创 Spark SQL基础

Spark SQL是一个用于结构化数据处理的Spark组件。所谓结构化数据，是指具有Schema信息的数据，例如JSON、Parquet、Avro、CSV格式的数据。与基础的Spark RDD API不同，Spark SQL提供了对结构化数据的查询和计算接口。将SQL查询与Spark应用程序无缝组合 Spark SQL允许使用SQL或熟悉的API在Spark程序中查询结构化数据。

2024-06-18 07:30:00 977

原创 Spark RDD的创建

Spark提供了一种对数据的核心抽象，称为弹性分布式数据集（Resilient Distributed Dataset，简称RDD）。这个数据集的全部或部分可以缓存在内存中，并且可以在多次计算时重用。RDD其实就是一个分布在多个节点上的数据集合。 RDD的弹性主要是指：当内存不够时，数据可以持久化到磁盘，并且RDD具有高效的容错能力。分布式数据集是指：一个数据集存储在不同的节点上，每个节点存储数据集的一部分。

2024-06-17 18:45:00 421

原创 Spark RDD算子

reduceByKey()算子的作用对象是元素为(key,value)形式（Scala元组）的RDD，使用该算子可以将key相同的元素聚集到一起，最终把所有key相同的元素合并成一个元素。 rightOuterJoin()算子的使用方法与leftOuterJoin()算子相反，其与数据库的右外连接类似，以右边的RDD为基准（例如rdd1.rightOuterJoin(rdd2)，以rdd2为基准），右边RDD的记录一定会存在。Spark会将RDD中的每个元素传入该函数的参数中。

2024-06-17 09:56:03 2256

原创 Spark概述

可以看到，在数据计算层，作为Hadoop核心组成的MapReduce可以结合Hive通过类SQL的方式进行数据的离线计算（当然也可以编写独立的MapReduce应用程序进行计算）；而Spark既可以做离线计算（Spark SQL），又可以做实时计算（Spark Streaming），它们底层都使用的是Spark的核心（Spark Core）。

2024-06-15 07:00:00 660

原创 Scala安装

Scala是一种将面向对象和函数式编程结合在一起的高级语言，旨在以简洁、优雅和类型安全的方式表达通用编程模式。Scala功能强大，不仅可以编写简单脚本，还可以构建大型系统。Scala运行于Java平台，Scala程序会通过JVM被编译成class字节码文件，然后在操作系统上运行。其运行时候的性能通常与Java程序不分上下，并且Scala代码可以调用Java方法、继承Java类、实现Java接口等，几乎所有Scala代码都大量使用了Java类库。

2024-06-14 10:29:18 337

原创 HBase部署与基本操作

HBase 是一个面向列式存储的分布式数据库，HBase 底层存储基于 HDFS 实现，集群的管理基于 ZooKeeper 实现。

2024-06-13 19:30:00 1725

原创 ZooKeeper下载安装与基本操作

进入/export/software目录下，将tar包解压到/export/servers目录下。ZooKeeper服务器是用Java创建的，它运行在JVM之上。需要安装JDK 7或更高版本。zookeeper启动成功。standalone代表zk没有搭建集群，现在是单节点。将下载的ZooKeeper放到/export/software目录下。修改存储目录：dataDir=/export/data/zkdata。进入到conf目录拷贝一个zoo_sample.cfg并完成配置。

2024-06-13 11:38:09 313

原创 Hive配置

hive部署

2024-06-13 10:30:00 3150

原创电商日志分析项目(三)

为什么要ETL：没有必要解析出所有数据，只需要解析出有价值的字段即可。本项目中需要解析出：ip、url、pageId（topicId对应的页面Id）、country、province、city。

2024-06-12 10:26:45 278

原创电商日志分析项目(二)

【代码】电商日志分析项目(二)

2024-06-12 10:17:25 393

原创电商日志分析项目(一)

根据电商日志文件，分析：统计页面浏览量（每行记录就是一次浏览）统计各个省份的浏览量（需要解析IP）日志的ETL操作（ETL：数据从来源端经过抽取（Extract）、转换（Transform）、加载（Load）至目的端的过程）为什么要ETL：没有必要解析出所有数据，只需要解析出有价值的字段即可。本项目中需要解析出：ip、url、pageId（topicId对应的页面Id）、country、province、city。

2024-06-12 10:10:16 350

原创实训日记2-手机流量统计优化

需求：统计每个手机号上行流量和、下行流量和、总流量和（上行流量和+下行流量和）,并且：将统计结果按照手机号的前缀进行区分，并输出到不同的输出文件中去。13* ==> …15* ==> …其中，access.log数据文件。

2024-06-05 16:38:16 366

原创手机流量统计项目

统计每个手机号上行流量和、下行流量和、总流量和（上行流量和+下行流量和）,并且：将统计结果按照手机号的前缀进行区分，并输出到不同的输出文件中去。13* ==> …15* ==> …其中，access.log数据文件。

2024-06-04 22:27:47 685 1

weixin_62982569的博客