
大数据
文章平均质量分 74
九月的梦
记录一些自己学习时做的笔记,有的也是从网上看到自己整理出来的,如有不对欢迎各位大佬指导!
展开
-
Hive基础
Hive学习笔记一.了解什么是HIVE二.Hive架构三.Hive优缺点及与数据库比较四.Hive数据类型五.Hive常见属性配置六.Hive基本命令及Hive库操作七.Hive表操作八.管理表(内部表)与外部表九.分区表操作一.了解什么是HIVE学习HIVE之前,我们先来了解下什么是Hive。Hive:是由Facebook开源用于解决海量结构化日志的数据统计,后捐献给Apache软件基金会。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类似SQL查询功能。原创 2021-05-15 17:12:09 · 801 阅读 · 0 评论 -
大数据----Hadoop、Hive、Spark 之间关系
大数据大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆,各有各的用处,互相之间又有重合。你可以用汤锅直接当碗吃饭喝汤,你可以用小刀或者刨子去皮。但是每个工具有自己的特性,虽然奇怪的组合也能工作,但是未必是最佳选择。大数据,首先你要能存的下大数据传统的文件系统是单机的,不能横跨不同的机器。HDFS(Hadoop Distributed FileSystem)的设计本质上是为了大量的数据能横跨转载 2021-02-18 22:30:47 · 921 阅读 · 0 评论 -
大数据-----数据采集
大数据之数据采集大数据体系一般分为:数据采集、数据计算、数据服务、以及数据应用几大层次。在数据采集层,主要分为 日志采集 和 数据源数据同步。日志采集根据产品的类型 又有可以分为:浏览器页面 的日志采集客户端 的日志采集浏览器页面采集:主要是收集页面的 浏览日志(PV/UV等) 和 交互操作日志(操作事件)。这些日志的采集,一般是在页面上植入标准的统计JS代码来进执行。但这个植入代码的过程,可以在页面功能开发阶段由开发同学手动写入,也可以在项目运行的时候,由服务器在相应页面请求的时候动转载 2021-02-16 17:39:29 · 3102 阅读 · 1 评论 -
大数据------维度表,事实表
维度表维度表:相当于存放数据的属性,就是你对数据分析时所用的量,比如分析产品销售情况,可以选择按商品类型,销售区域等等来分析。这样按…来分析就构成了一个维度。另外每个维度还可以有子维度(称为属性),例如类别可以有子类型,产品名等属性。一般把能够分类的属性单独列出来,成为维度表,在事实表中维护事实与维度的引用关系。维度表就是存放了具有独立属性呵呵层次结构的数据,一般由维度编码和对应的维度说明组成。事实表事实表:联系事实与维度表的数字度量值和键,事实数据表包含描述业务内特定事件的数据。是数据聚合后依据原创 2021-02-16 17:20:57 · 3240 阅读 · 0 评论 -
大数据----什么是大数据?
什么是大数据?在互联网技术发展到至今阶段,大量日常,工作等事务产生的数据都已经信息化,人类产生的数据量相比以前有了爆炸式的增长,以前传统的数据处理技术已经无法胜任,需求催生技术,一套用来处理海量数据的技术应运而生,这就是大数据技术。换个角度说,大数据是:有海量的数据有海量的数据进行挖掘的需求,有对海量数据进行挖掘的工具(Hadoop、spark等)大数据在现实生活中的具体应用数据处理测最典型应用:公司的产品运营情况分析电商推荐系统:基于海量的浏览行为,购物行为数据,进行大量的模型的运算,得出各原创 2021-02-11 00:04:08 · 1103 阅读 · 0 评论