
大数据
文章平均质量分 59
zjlamp
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hive编程指南-学习笔记(一) 数据类型和分隔符
一、Hive概述 Hive定义了类似SQL的查询语言——HiveQL,用户编写HiveQL语句运行MapReduce任务,查询存储在Hadoop集群中的数据。 HiveQL与MySQL最接近,但还是有显著性差异的。Hive不支持行级插入、更新操作和删除操作。Hive不支持事务。HiveQL并不符合ANSI SQL标准。 HiveQL实现词频统计算法(Word Count): CRE...原创 2018-10-05 14:52:57 · 944 阅读 · 0 评论 -
Hive编程指南-学习笔记(二) 数据定义
一、数据库 1、创建数据库:CREATE DATABASE hive; 如果已经存在,会抛出异常,下面的语句不抛出异常:CREATE DATABASE IF NOT EXISTS hive; 数据库的默认位置是hdfs上:/user/hive/warehouse,修改默认位置:CREATE DATABASE financial LOCATION '/my/preferred';(访问目录:/...原创 2018-10-05 16:12:37 · 434 阅读 · 0 评论 -
Hive编程指南-学习笔记(三) 数据操作
一、向管理表中装载数据 Hive没有行级别的数据插入、更新和删除操作,往表中装载数据的唯一途径就是使用一种“大量”的数据装载操作。 LOAD:向表中装载数据 (1)把目录‘/usr/local/data’下的数据文件中的数据装载进usr表,并覆盖原有数据:LOAD DATA LOCAL INPATH ‘/usr/local/data’ OVERWRITE INTO TABLE usr; (...原创 2018-10-05 17:46:43 · 550 阅读 · 0 评论 -
Hive编程指南-学习笔记(五) 查询内置函数
1、数学函数 2、聚合函数 可以通过设置属性值来提高聚合的性能,需要更多的内存。 SET hive.map.aggr=true; 3、表生成函数 表生成函数,与聚合函数的过程相反,将单列扩展成多列或者多行。 举例: hive> SELECT explode(subordinates) AS sub FROM employees; #使用表生成函数时,...原创 2018-10-05 20:06:15 · 301 阅读 · 0 评论 -
Hive编程指南-学习笔记(四) 查询
一、SELECT ... FROM ...语句 CREATE TABLE employees( name STRING, salary FLOAT, subordinates ARRAY<STRING>, deductions MAP<STRING,FLOAT>, address STRUCT<street:STRIN...原创 2018-10-05 22:33:00 · 446 阅读 · 0 评论 -
《大数据技术原理与应用》笔记
一、大数据概述 大数据的特征(4V): 1、Volume,数据量大 2、Variety,数据类型多 大数据由结构化和非结构化数据组成: 10%的结构化数据,存储在数据库中; 90%的非结构化数据,与人类信息密切相关。 3、Velocity,处理速度快 4、Value,价值密度低 大数据的关键技术: 1、分布式存储 分布式数据库 分布式文件系统 2、分布式处理 分布...原创 2018-11-25 12:06:59 · 15005 阅读 · 2 评论