
大数据
大数据
anniewhite
学习是最好的投资
展开
-
Apache Hive—命令行&参数配置方式
目录Hive参数配置Hive命令行Hive参数配置方式配置文件命令行参数参数声明Hive参数配置Hive命令行输入$HIVE_HOME/bin/hive -H或者-help可以显示帮助选项。说明:1、-i 初始化HQL文件。2、-e 从命令行执行指定的HQL3、-f 执行HQL脚本4、-v 输出执行的HQL语句到控制台5、-p connect to Hive Server o...原创 2020-04-05 11:27:51 · 236 阅读 · 0 评论 -
Apache Hive—join操作
目录Hive joinjoin实操和数据准备join实验inner join:内连接left join:左关联(左外关联),以左表为准。right join:右关联(右外关联),以右表为准。full outer join:全关联(全外关联)hive中的特别joincorss join(##慎用)Hive joinHive中除了支持和传统数据库中一样的内关联、左关联、右关联、全关联,还支持LEF...原创 2020-04-05 10:46:31 · 213 阅读 · 0 评论 -
Apache Hive—DML Select
目录Select分桶、排序等查询Select基本的Select操作语法结构:SELECT [ALL | DISTINCT] select_expr, select_expr, ...FROM table_referenceJOIN table_other ON expr[WHERE where_condition][GROUP BY col_list [HAVING conditi...原创 2020-04-05 09:16:07 · 127 阅读 · 0 评论 -
Apache Hive—DML导出数据
目录导出表数据查询结果导出到文件系统实操导出表数据语法结构INSERT OVERWRITE [LOCAL] DIRECTORY directory1 SELECT … FROM …multiple inserts:FROM from statementINSERT OVERWRITE [LOCAL] DIRECTORY directory1 select_statement1INSE...原创 2020-04-05 08:21:11 · 109 阅读 · 0 评论 -
Apache Hive——DML Load装载数据
目录Apache Hive——DML操作LoadApache Hive——DML操作Load在将数据加载到表中时,Hive不会进行任何转换。加载操作是将数据文件移动到与Hive表对应的位置的纯复制/移动操作。语法结构:LOAD DATA [LOCAL] INPATH ‘filepath’ [OVERWRITE] INTO TABLE tablename [PARTITION(partco...原创 2020-04-04 21:26:27 · 238 阅读 · 0 评论 -
Hive安装部署-几种交互方式
目录Hive安装部署Hive安装部署Hive几种使用方式:Hive交互shell bin/hiveHive JDBC服务(参考java jdbc连接mysql)hive启动为一个服务器,来对外提供服务bin/hiveserver2可以看到RunJar这个hive服务器的进程nohup bin/hiveserver2 1>/var/log/hiveserver.log 2...原创 2020-04-04 20:20:38 · 180 阅读 · 0 评论 -
Hive安装部署-内置derby版以及缺陷&mysql版安装
目录Hive安装部署hive安装手册yum在线安装mysqlHive安装部署Hive安装前需要安装好JDK和Hadoop。配置好环境变量。根据元数据存储的介质不同,分为下面两个版本,其中derby属于内嵌模式。实际生产环境中则使用mysql来进行元数据的存储。内置derby版:解压hive安装包bin/hive启动即可使用缺点:不同路径启动hive,每一个hive拥有一套自己的元数据...原创 2020-04-04 20:04:44 · 370 阅读 · 0 评论 -
Hive与RDBMS区别
目录Hive与传统数据库对比Hive数据模型Hive与传统数据库对比hive用于海量数据的离线数据分析hive具有sql数据库的外表,但应用场景完全不同,hive只适合用来做批量数据统计分析。更直观的对比请看下面这幅图:Hive数据模型Hive中所有的数据都存储在HDFS中,没有专门的数据存储格式。...原创 2020-04-04 17:54:33 · 554 阅读 · 0 评论 -
Hive架构&组件
目录课程计划课程计划原创 2020-04-04 17:45:52 · 909 阅读 · 0 评论 -
Apache Hive介绍&Hive实现思路模拟
目录Hive简介什么是Hive为什么使用HiveHive简介什么是HiveHive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射 为一张数据库表,并提供类SQL(Hive SQL 或者 HQL)查询功能。本质是将SQL转换为MapReduce程序。主要用途:用来做离线数据分析,比直接用MapReduce开发效率更高。为什么使用Hive直接使用Hadoop MapR...原创 2020-04-04 17:27:31 · 223 阅读 · 1 评论 -
数据仓库-数据仓库元数据管理
目录数据仓库元数据管理数据仓库元数据管理元数据(Meta Data),主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及ETL的任务运行状态。一般会通过元数据资料库(Metadata Repository)来统一地存储和管理元数据,其主要目的是使数据仓库的设计、部署、操作和管理能达成协同和一致。元数据是数据仓库管理系统的重要组成部分,元数据管理是企业级数据仓库中的关键...原创 2020-04-04 15:47:16 · 855 阅读 · 0 评论 -
数据仓库-数据仓库的分层架构
目录数据仓库分层架构数据仓库分层架构按照数据流入流出的过程,数据仓库架构可分为三层——源数据、数据仓库、数据应用。数据仓库的数据来源于不同的源数据,并提供多样的数据应用,数据自下而上流入数据仓库后向上层开放应用,而数据仓库只是中间集成化数据管理的一个平台。源数据层(ODS):此层数据无任何更改,直接沿用外围系统数据结构和数据,不对外开放;为临时存储层,是接口数据的临时存储区域,为后一步...原创 2020-04-04 15:29:42 · 1219 阅读 · 0 评论 -
数据仓库-数据仓库主要特征
目录2. 数据仓库的主要特征2.1 数据仓库的主要特征2.1 面向主题2.2 集成性2.3 非易失性(不可更新性)2.4 时变性2. 数据仓库的主要特征2.1 数据仓库的主要特征数据仓库是面向主题的(Subject-Oriented)、集成的(Integrated)、非易失的(Non-Volatile)和时变的(Time-Variant)数据集合,用以支持管理决策。2.1 面向主题传统数...原创 2020-04-04 15:06:04 · 4628 阅读 · 0 评论 -
数据仓库-基本概念&和数据库区别
目录数据仓库1. 数据仓库的基本概念2. 数据仓库的主要特征3. 数据仓库与数据库区别4. 数据仓库分层架构5. 数据仓库元数据管理数据仓库1. 数据仓库的基本概念数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。**数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。**它处于分析性报告和决策支持目的而创建。数据仓库...原创 2020-04-04 12:24:41 · 1034 阅读 · 0 评论 -
数据管理-数据质量检测
目录数据质量检测完整性一致性准确性及时性数据质量检测数据质量是保证数据应用的基础,它的评估标准主要包括四个方面:完整性、一致性、准确性、及时性。评估数据是否达到预期设定的质量要求,就可以通过这四个方面来进行判断。完整性完整性指的是数据信息是否存在缺失的状况,数据缺失的情况可能是整个数据记录缺失,也可能是数据中某个字段信息的记录缺失。不完整数据的价值就会大大降低,也是数据质量最为基础的一项评...原创 2020-04-04 11:51:05 · 5732 阅读 · 0 评论 -
数据管理-文件管理规范示例
目录文件管理规范接口新增数据文件接口控制校验文件接口表结构文件文件管理规范为了更快速,更准确,更规范的进行数据文件管理,企业一般都会去制定相应的管理规范。从而使各方面都按照这个规范去进行文件的存储、读取。规范着重于文件命名规则,以及一些校验性文件的描述。例子:FTP服务进行跨部门文件共享的相关规范。以数据库数据文件导出至ftp文件服务器共享为例,目录下会存在以下3种格式文件。仅供参考。接口...原创 2020-04-04 11:03:03 · 760 阅读 · 0 评论 -
数据管理-文件管理服务&跨部门文件管理规范
目录数据文件管理FTP文件服务NFS文件服务Samba文件服务文件管理规范数据质量检测数据文件管理随着技术和业务的发展壮大,企业中产生的数据种类越来越多,数据量也越来越大。如何对数据进行有效的组织、存储、管理、检索、维护,将会显得越来越重要。在企业内部很多时候还涉及数据的跨部门存储于调用。因此,进行数据的管理就显得特别重要,也越来越受到企业的重视。数据一般会以文件的形式存在,比如文本文件、...原创 2020-04-04 09:52:04 · 675 阅读 · 0 评论 -
数据分析系统不同数据来源
目录课程计划多彩缤纷数据源业务系统数据爬虫数据课程计划多彩缤纷数据源1.1 业务系统数据1.2 爬虫数据数据的管理数据仓库Apache HiveHive基本操作Hive参数配置Hive函数多彩缤纷数据源典型的数据分析系统,要分析的数据种类其实是比较丰富的。依据来源可大体分为以下几个部分:图:数据分析系统数据来源一家公司只要去提供服务,不管是PC网站,H5页面,还是...原创 2020-04-04 09:05:55 · 1756 阅读 · 0 评论