
大数据
文章平均质量分 76
NeilNiu
日拱一卒无有尽,功不唐捐终入海!
展开
-
计算即时订单比例-首单使用开窗函数row_number()
首先需要从数据集中拿出每个用户的首单,一般都是使用排序开窗函数进行操作。然后计算即时订单的比例,只需要从拿出的首单数据中分别计算两个指标,再相除即可,注意需求中需要保留两位小数,所以可以使用 decimal 类型来展示最终的结果。请从配送信息表(delivery_info)中求出每个用户的首单(用户的第一个订单)中即时订单的比例,保留两位小数,以小数形式显示。请从配送信息表(delivery_info)中求出每个用户的首单(用户的第一个订单)中即时订单的比例,保留两位小数,以小数形式显示。原创 2023-09-13 00:06:15 · 535 阅读 · 2 评论 -
实战大数据项目
存储日志数据集(HDFS)数据仓库构建(Hive)数据分区表构建数据预处理 (Spark计算引擎)-使用Zeppelin进行写SQL订单指标分析Sqoop数据导出到传统数据库(Mysql)Superset数据可视化项目架构架构方案:1、基于Hadoop的HDFS(数据存储)文件系统来存储数据2、为了方便进行数据分析,将这些日志文件的数据映射为一张一张的表,所以,我们 基于Hive(数据仓库工具)来构建数据仓库,所有的数据,都会在Hive下进行管理,提高数据处理的性能。原创 2023-04-13 22:33:43 · 4515 阅读 · 1 评论 -
Zeppelin框架及Hive查询操作
Apache Zeppelin是一款基于Web交互式框架,支持多种语言,Scala、SparkSQL、Markdown,SQL、Shell、Python等。可以使用Zeppelin链接SparkSQL。Zeppelin提供数据分析、数据可视化。打开浏览器 访问,xxxx:8090。Zeppelin安装和使用。一键启动集群中所有的组件。原创 2023-04-10 22:32:57 · 1111 阅读 · 0 评论 -
Hive概论、架构和基本操作
Apache Spark是一个快速的,多用途的集群计算系统,相对于Hadoop MapReduce将中间结果保存在磁盘中,Spark使用了内存保存中间结果,能在数据尚未写入硬盘时在内存中进行计算,同时Spark提供SQL支持。Hive是建立在Hadoop上的数据仓库基础架构,它提供了一系列的工具,可以存储、查询、分析存储在分布式存储系统中的大规模数据集。Hive定义了简单的类SQL查询语言,通过底层的计算引擎,将SQL转为具体的计算任务进行执行。它将计算分为两个阶段,分别为Map和Reduce。原创 2023-04-04 22:23:10 · 1343 阅读 · 9 评论 -
数据仓库概论
数据仓库,英文名称Data Warehouse,可简写为DW和DWH,数据仓库顾名思义,是一个很大的数据存储集合,出于企业的分析性报告和决策支持目的而创建,它为企业提供一定的BI(商业智能)能力,指导业务流程改进、监视时间、成本、质量以及控制。数据库:数据库是面向交易的处理系统,它是针对具体业务在数据库联机的日常操作,通常对记录进行查询、修改。数据仓库的输入方式各种各样的数据源,最终的输出用于企业的数据分析、数据挖掘、数据报表等方向。数据库是面向事务的设计,数据仓库是面向主题设计的。数据库和数据仓库区别。原创 2023-03-30 22:47:45 · 303 阅读 · 0 评论 -
HDFS概述
HDFS文件系统可存储超大文件,时效性稍差HDFS具有硬件故障检测和自动快速恢复功能HDFS为数据存储提供很强的扩展能力HDFS存储一般为一次写入,多次读取,只支持追加写入,不支持随机修改HDFS可在普通机器上运行HDFS采用的Master/Slave架构一个HDFS集群有两个重要的角色,分别是NameNode 和DataNodeHDFS的四个基本组件:HDFS Client、NameNode、DataNode、和SecondaryNameNode1、Client就是客户端文件切分,文件上传HDFS的时候,原创 2023-03-29 22:52:56 · 717 阅读 · 0 评论 -
Hadoop框架概论
集群:集群是指一组独立的计算机系统构成的一多处理器系统,它们之间通过网络实现进程间的通信,让若干台计算机联合起来工作(服务),可以是并行的,也可以是做备份的。其中重点的包括:Kafka、Spark、Flink、Hive、HBase、Zookeeper、Yarn、HDFS、MapReduce、集群模式主要用于生产环境部署,会使用N台主机组成一个Hadoop集群,这种部署模式下,主节点和从节点会分开部署在不同的机器上。开源社区版:指由Apache软件基金会维护的版本,是官方维护的版本体系,版本丰富,兼容性差。原创 2023-03-28 20:16:43 · 660 阅读 · 0 评论 -
大数据简介
大数据概论和职业规划Linux服务器系统Hadoop概论HDFS分布式文件系统Hive数据仓库SparSQL指令Zepplin框架Sqoop框架Superset数据可视化大数据数仓实战-didi出行大数据概念大数据特点大数据应用场景大数据分析业务步骤大数据职业规划大数据学习路线。原创 2023-03-21 22:31:19 · 562 阅读 · 0 评论