
SparkSQL
子清.
这个作者很懒,什么都没留下…
展开
-
练习:Spark数据分析
文章目录1. 项目需求用例1:数据清洗用例2:用户留存分析用例3:活跃用户分析数据集下载:https://wwa.lanzous.com/iPrPVijmtle1. 项目需求使用Spark完成下列日志分析项目需求:日志数据清洗用户留存分析活跃用户分析活跃用户地域信息分析用户浏览深度分析用例1:数据清洗读入日志文件并转化为RDD[Row]类型按照Tab切割数据过滤掉字段数量少于8个的对数据进行清洗按照第一列和第二列对数据进行去重过滤掉状态码非200过滤掉e原创 2020-11-19 18:57:55 · 460 阅读 · 1 评论 -
SparkSQL项目练习
文章目录1 准备数据2 需求:各区域热门商品Top32.1 需求简介2.2 思路分析2.3 代码实现1 准备数据本文所需的数据我们这次Spark-sql操作所有的数据均来自 Hive,首先在Hive中创建表,并导入数据。一共有3张表: 1张用户行为表,1张城市表,1 张产品表CREATE TABLE `user_visit_action`( `date` string, `user_id` bigint, `session_id` string, `page_id` bigint,原创 2020-11-18 19:00:19 · 761 阅读 · 0 评论 -
Spark SQL详解入门!
文章目录第1章 Spark SQL概述1.1 什么是Spark SQL1.2 Spark SQL的特点1.2.1 易整合1.2.2 统一的数据访问方式1.2.3 兼容Hive1.2.4 标准的数据连接1.3 什么是DataFrame1.4 什么是DataSet第2章 Spark SQL编程2.1 SparkSession新的起始点2.2 DataFrame2.2.1 创建DataFrame2.2.2 SQL风格语法2.2.3 DSL风格语法2.2.4 RDD转换为DataFrame2.2.5 DataFra原创 2020-11-17 23:18:44 · 2862 阅读 · 0 评论