
大数据
周杰伦今天喝奶茶了吗
喜欢周杰伦,也喜欢优快云博客,这使我快乐!
展开
-
数据库关系运算——除运算
书上给“除运算”的定义是: 设关系R除以关系S的结果为关系T,则T包含所有在R但不在S中的属性及其值,且T的元组与S的元组的所有组合都在R中。我对此不是很理解。 直到看到这样的解读,方才恍然大悟: ...原创 2018-07-02 22:29:05 · 47427 阅读 · 23 评论 -
初识Hadoop两大核心:HDFS和MapReduce
一、Hadoop是什么?Hadoop是一个能够对大量数据进行分布式处理的软件框架,实现了Google的MapReduce编程模型和框架,能够把应用程序分割成许多的小的工作单元,并把这些单元放到任何集群节点上执行。在MapReduce中,一个准备提交执行的应用程序称为“作业(job)”,而从一个作业划分出 得、运行于各个计算节点的工作单元称为“任务(task)”。此外,Hadoop提供的分布式文件...转载 2019-04-15 20:24:06 · 2081 阅读 · 0 评论 -
什么是MapReduce?(内含习题)
什么是MapReduce?MapReduce最早是由Google公司研究提出的一种面向大规模数据处理的并行计算模型和方法。2004年,开源项目Lucene(搜索索引程序库)和Nutch(搜索引擎)的创始人Doug Cutting发现MapReduce正是其所需要的解决大规模Web数据处理的重要技术,因而模仿Google MapReduce,基于Java设计开发了一个称为Hadoop的开源M...原创 2019-04-15 20:48:03 · 11635 阅读 · 0 评论 -
什么是HDFS?(内含习题)
HDFS: 全称 Hadoop Distributed File System ,即:Hadoop分布式文件系统HDFS的特性:HDFS有着高容错性(fault-tolerant)的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HD...原创 2019-04-15 21:50:10 · 4952 阅读 · 0 评论 -
什么是HBase?(内含习题)
HBase,全称Hadoop Database ,是一个分布式的、面向列的开源数据库。HBase的特性:HBase是Apache的Hadoop项目的子项目。HBase有三个主要组成部分:客户端库,主服务器和区域服务器。区域服务器可以按要求添加或删除。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式...原创 2019-04-15 22:27:47 · 4283 阅读 · 0 评论 -
关于Hadoop的经典习题
以下哪一项不属于Hadoop可以运行的模式___C___。A.单机(本地)模式B.伪分布式模式C.互联模式D. 分布式模式Hadoop的作者是下面哪一位__B____。A.Martin FowlerB.Doug cuttingC.Kent BeckD.Grace HopperDoug Cutting所创立的项目的名称都受到其家人的启发,以下项目不...原创 2019-04-16 11:00:08 · 5765 阅读 · 0 评论 -
什么是Hive?(内含习题)
主要特性:hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。Hive 的最佳使用场合是大数据集的批处理作业,例如,网络日志分析。Hive 中所有的数据都存储在 HDFS 中,Hive 中包含以下数据模型:表(Table),外部表(External Table),分区...原创 2019-04-16 11:36:59 · 2914 阅读 · 0 评论 -
零基础R语言快速安装使用
两个下载的网址:https://cran.r-project.org/bin/windows/base/https://www.rstudio.com/products/rstudio/download/#download分别下载R语言和R语言编译器RStudio下载完成后,安装即可~...原创 2019-05-18 17:08:44 · 378 阅读 · 3 评论