- 博客(3)
- 收藏
- 关注
原创 大数据实验六Hive
一.Hive定义1.hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类sql查询功能。Hive 没有专门的数据存储格式,也没有为数据建立索引,用户可以很自由的组织hive中的表,只要在创建表示告知hive数据中的列分隔符和行分隔符,它就可以解析数据。hive所有的数据都存储于HDFS中,它的本质是将SQL转换为MapReduce程序完成查询。...
2019-05-30 19:50:18
1270
原创 大数据实验报告七 Spark
一.Spark是什么?Spark,是一种通用并行分布式大数据计算框架,2009年由加州大学的伯克利分校的AMP实验室开发,它是当前大数据领域最活跃的开源项目之一,它基于MapReduce算法的分布式计算,拥有MapReduce的所有的优点。它将操作过程的中间结果放于内存中,所以不需要读写HDFS,能更好的适用于数据挖掘和机器学习的迭代算法。Spark被称为快数据,它于Hadoop的传统计算...
2019-05-27 22:30:21
5237
原创 大数据应用技术学习日志
一.学习内容:这是学期第一堂课,对本学期的大数据应用进行了简介,主要是说明了大数据的概念,并列举了一些实例。大数据(big data),我们用常规额工具是不好统计的,或者说我们在一定的时间范围内是处理不了的,它是庞大的,海量的一种数据集合。同事它也是一种有用的信息资产,它很多样化。我们知道的比如说淘宝的网购消费记录,把这些数据处理好了是非常有意义的。因而大数据里面的数据处理是非常关键的。...
2019-05-20 17:16:22
428
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人