大数据
文章平均质量分 63
大数据
csj50
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hadoop基础之《(11)—整合HBase+Phoenix+Hive—安装Hive》
Hive是由Facebook开源,基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。(1)在Hadoop中我们用MapReduce程序实现的,需要些Mapper、Reducer和Driver三个类,并实现对应逻辑,相对繁琐。(2)Hive分析数据底层的实现是MapReduce(也可配置为Spack或者Tez)。(2)如果通过Hive SQL实现,一行就搞定了,简单方便,容易理解。(1)Hive中每张表的数据存储在HDFS。(8)如果是查询语句,返回计算结果。原创 2023-02-08 14:31:57 · 1539 阅读 · 0 评论 -
Hadoop基础之《(10)—整合HBase+Phoenix+Hive—安装Phoenix》
官方给的解释为:在Client和HBase之间放一个Phoenix中间层不会减慢速度,因为用户编写的数据处理代码和Phoenix编写的没有区别,不仅如此Phoenix对于用户输入的SQL同样会有大量的优化手段(就像Hive自带sql优化器一样)。1、phoenix需要匹配hbase版本,hbase版本为2.5.2。2、复制server包并拷贝到各个节点的hbase/lib。2、为什么使用Phoenix。当前安装版本为5.1.3。一、Phoenix简介。1、Phoenix定义。5、连接Phoenix。原创 2023-02-08 13:38:18 · 1491 阅读 · 0 评论 -
Hadoop基础之《(9)—整合HBase+Phoenix+Hive—安装HBase》
数据行具有可排序的键和任意数量的列。该表存储稀疏,因此如果用户喜欢,同一表中的行可以具有疯狂变化的列。(4)最终理解HBase数据模型的关键在于稀疏、分布式、多维、排序的映射。Apache HBase是以HDFS为数据存储的,一种分布式、可扩展的NoSQL数据库(非关系型,以k,v的形式存储数据)。Bigtable是一个稀疏的、分布式的、持久的多维排序map(代码里的hashmap是单维的,并且一定是有序的)。映射中的每个值都是一个未解释的字节数组。HBase可以认为是以HDFS为存储的数据库。原创 2023-02-03 16:44:59 · 1322 阅读 · 0 评论 -
Hadoop基础之《(8)—yarn dr.who用户漏洞被挖矿》
dr.who用户执行了很多application,服务器被挖矿。因为yarn的8088端口REST API没有做权限控制,允许任意用户通过API创建任务。5、服务器上在/var/tmp/下就写入了11112222_test_11112222文件。1、检查/tmp和/var/tmp目录,删除异常文件。2、检查crontab -l,删除可疑脚本。2、构建json文件。原创 2023-01-31 15:49:10 · 1039 阅读 · 0 评论 -
Hadoop基础之《(7)—Hadoop三种运行模式》
在wcinput下建立一个word.txt,输入一些单词。数据存储在HDFS,同时多台服务器工作。单机运行就是直接执行hadoop命令。一、hadoop有三种运行模式。数据存储在linux本地,不用。数据存储在HDFS,测试用。1、例子-统计单词数量。原创 2023-01-30 17:00:27 · 4303 阅读 · 0 评论 -
Hadoop基础之《(6)—Hadoop单机伪集群安装》
配置JAVA_HOME,yum安装openjdk的路径在/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.362.b08-1.el7_9.x86_64。(3)指定副本数量,在分布式文件系统中,数据通常会被冗余的存储多份,以保证可靠性和安全性,但是这里用的是伪分布式模式,节点只有一个,也有就只有一个副本。在/appserver/hadoop/hadoop-3.3.4/etc/hadoop/下建立slaves,配置节点的主机名或IP地址。1、修改hadoop-env.sh。原创 2023-01-30 13:35:25 · 666 阅读 · 0 评论 -
Hadoop基础之《(5)—MapReduce概述》
MapReduce将计算过程分为两个阶段:Map和Reduce。2、Reduce阶段对map结果进行汇总。1、Map阶段并行处理输入数据。一、什么是MapReduce。原创 2023-01-27 15:26:26 · 635 阅读 · 0 评论 -
Hadoop基础之《(4)—Yarn概述》
YARN(Yet Another Resource Negotiator),简称YARN,另一种资源协调者,是Hadoop的资源管理器。(2)ApplicationMaster向ResourceManager申请资源,说我这个任务需要1G内存1个CPU。(3)ResourceManager会分配对应的节点来运行任务。容器,相当于一台独立的服务器,里面封装了任务运行所需要的资源,如内存、CPU、磁盘、网络等。整个集群资源(内存、CPU等)的管理者。管理单个节点服务器的CPU、内存等。原创 2023-01-27 15:18:37 · 776 阅读 · 0 评论 -
Hadoop基础之《(3)—HDFS概述》
存储文件的元数据,如文件名、文件目录结构、文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。HDFS(Hadoop Distributed File System),简称HDFS,是一个分布式文件系统。3、Secondary NameNode(简称2NN)在本地文件系统存储文件块数据,以及块数据的校验和。nameNode相当于mysql里的索引。每隔一段时间对NameNode元数据备份。1、NameNode(简称NN)2、DataNode(简称DN)原创 2023-01-27 14:58:21 · 159 阅读 · 0 评论 -
Hadoop基础之《(2)—Hadoop概述》
3、广义上来说,Hadoop通常是指一个更广泛的概念—Hadoop生态圈。1、Hadoop是一个由Apache基金会所开发的分布式系统基础架构。2、主要解决,海量数据的存储和海量数据的分析计算问题。一、Hadoop是什么。原创 2023-01-27 14:02:16 · 535 阅读 · 0 评论 -
Hadoop基础之《(1)—大数据基本概念》
1、Spark本身也是一个计算框架,它和Hadoop的MapReduce对比。不同点是Spark是一个基于内存的计算,MapReduce是基于磁盘的计算,Spark速度会比Hadoop快2-3倍。2、Spark也有Spark SQL的这个模块,让用户在Spark的API上面去写SQL。Hive的执行引擎,会把SQL语句翻译成一个MapReduce的任务去执行。1、Hadoop大数据框架,处理分布式环境下数据存储和计算。3、Hadoop的MapReduce处理计算。2、Hadoop的HDFS处理存储。原创 2023-01-23 15:57:36 · 1457 阅读 · 0 评论
分享