
大数据
但愿不秃头的靠谱7
这个作者很懒,什么都没留下…
展开
-
【Hadoop】Hive的特点架构及启动方式
什么是Hive?Hive是基于Hadoop的一个数据仓库工具(离线),可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。避免了直接写MapReduce延迟比较高,适用于对实时性要求不高的场景处理大数据有优势效率低,调优困难架构启动方式前提:先启动hdfs和yarn1. 方式一:使用本地的metastore,直接通过hive命令启动在hive-site.xml文件中配置使用本地mysql数据库存储metastore <property> &l原创 2020-09-15 10:51:59 · 309 阅读 · 0 评论 -
【Hadoop】CRC校验
https://blog.youkuaiyun.com/weixin_44388193/article/details/102863673原创 2020-09-07 15:24:32 · 287 阅读 · 0 评论 -
【Hadoop】Error&Solution (2)
问题描述:配置loongoop环境,配置完hbase,启动hbase 时,出现警告:原因:仔细看是因为JDK1.8做了变动,不再支持某个配置,所以去相应的文件中注释掉就可以了解决方法:修改 hbase/conf/hbase-env.sh,注释掉下面两行,再重启hbase,即可反思:太急躁,遇到报错不仔细看,靠百度解决下次遇到同样的问题还是不熟悉。配置文件中有不止一个HBASE_MASTER_OPTS和HBASE_REGIONSERVER_OPTS,太急躁会弄错问题描述:...原创 2020-08-31 15:32:03 · 179 阅读 · 0 评论 -
【Hadoop】Spark基础知识、配置及特点等学习
SparkSpark与MapReduce的区别Spark把运算中数据放到内存中,迭代计算效率会更高;MR的中间结果需要落地磁盘,所以大量的磁盘IO操作(瓶颈),会影响性能Spark采用RDD实现高容错。RDD(Resillient Distributed Dataset)即弹性数据集,分布式存在在集群节点内存中。Spark提供transformation和action两大类多功能API,另外还设计流式处理,机器学习,图计算。Spark框架生态更加丰富,可以根据不同场景调优;MR计算框架相对简单,原创 2020-08-19 16:02:35 · 198 阅读 · 0 评论 -
【Hadoop】视图、分区与索引
加粗 斜体 标题 删除线 无序 有序 待办 引用 代码块 BashCC++C#CLikeCSSGoHandlebarsJavaJavaScriptKotlinMarkupObjective-CPerlPHPShellPythonRubySQLSwiftVB.NetYAMLErlangScalaClojureCobolCoffeeScriptCommonLispHtm原创 2020-08-19 16:02:17 · 597 阅读 · 0 评论 -
【Hadoop】Spark集群搭建学习
https://blog.youkuaiyun.com/qq_42246689/article/details/86253396一、Spark基本框架结构Spark集群由一下部分组成:Cluster Manager:集群管理器,主要负责资源的分配与管理。他将各个worker上的内存、CPU等资源分配给应用程序,但不对Executor的资源分配负责。目前,Standalone、YARN、Mesos、K8S、EC2等都可以作为Spark的集群管理器。Master: Spark集群的主节点Worker: Spar原创 2020-08-18 09:34:03 · 142 阅读 · 0 评论 -
【Hadoop】Hive命令
hive语句区分大小写hive> show tables;假设有一个描述学生的文件student.txt,文件里面的内容如下:zhangsan,14,165cuihua,13,160wangwu,15,168现在我们要把这些数据存放在hive中。和RDBMS一样,Hive把数据组织成表。我们使用CREATE TABLE语言为学生的数据新建一个表:创建表CREATE TABLE students(name STRING,age INT,stature INT)ROW FORMAT DE原创 2020-08-12 11:04:17 · 264 阅读 · 0 评论 -
【Hadoop】Hive基础
初识Hive一、什么是HiveHive是构建在hadoop之上的数据仓库。不是用来增删改查的那种数据库,那是数据库。1)数据计算是MapReduce2)数据存储是HDFS二、 认识HiveHive 是基于 Hadoop 构建的一套数据仓库分析系统,它提供了丰富的 SQL 查询方式来分析存储在 Hadoop 分布式文件系统中的数据, 可以*将结构化的数据文件映射为一张数据库表*,并提供完整的 SQL 查询功能,可以将 SQL 语句转换为 MapReduce 任务进行运行,通过自己的 SQL原创 2020-08-11 14:25:39 · 217 阅读 · 0 评论 -
【Hadoop】HBase目录结构
https://blog.youkuaiyun.com/L_15156024189/article/details/83444255原创 2020-08-06 18:42:18 · 216 阅读 · 0 评论 -
【Hadoop】HBase基础、数据结构及架构
关系型数据库:存储结构直观反映实体关系,内部采用库表结构,适合保存长期稳定数据,典型的有:mysql sqlserver非关系型数据库(Nosql):数据全部由键值对(key/value)组成,一般都采用内存缓存方式存在,可以更加快速的读取数据。适合追求速度和可扩展性、业务多变的应用场景。一、概要HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。适合海量数据(如20PB)的秒级简单查询的数据库。HBase是一种列式存储的数据库,也是一种NOSQ原创 2020-08-06 17:33:37 · 244 阅读 · 0 评论 -
【Hadoop】HBase自带性能测试工具
PerformanceEvaluation该工具是hbase自带的性能压测工具,基本原理是用多线程模拟多用户同时访问集群的情况。命令为:hbase org.apache.hadoop.hbase.PerformanceEvaluation可以简写为 hbase pe直接在linux shell里输入命令,可以看到用法介绍options:(搭配例子一起学习更好理解)nomapred hbase pe默认使用mapreduce读写扫描数据,如果使用多线程/客户端并发来代替mapreduce原创 2020-08-06 15:19:09 · 1191 阅读 · 0 评论 -
【Hadoop】HBase集群搭建及基本操作
集群搭建https://blog.51cto.com/14048416/2342814https://blog.youkuaiyun.com/gongxifacai_believe/article/details/81151090原创 2020-08-05 16:09:45 · 155 阅读 · 0 评论 -
【Hadoop】Error&Solution
问题描述: 启动hadoop集群start-all.sh,无报错。jps查看,master上只有DataNode没有NameNode解决方法: 查看NameNode日志($HADOOP_HOME/logs/hadoop-root-namenode-master.log),发现报错信息:原因:namenode元数据被破坏,需要修复解决:恢复一下namenodehadoop namenode -recover一路选择c,一般就OK了问题描述: 启动hdfs,jps查看无DataNode解..原创 2020-08-05 14:40:31 · 300 阅读 · 0 评论 -
【Hadoop】Zookeeper集群搭建和命令
集群搭建参考 https://www.cnblogs.com/Dcl-Snow/p/11274807.html基本命令https://blog.youkuaiyun.com/dandandeshangni/article/details/80558383补充修改/创建节点,若数据包含空格,可用双引号括住内容,即可操作成功zk中 watcher是一次性的,触发后立即销毁...原创 2020-08-03 17:53:38 · 144 阅读 · 0 评论 -
【Hadoop】Zookeeper基础初探
分布式的、开源的,应用程序协调服务,是Hadoop和Hbase的重要组件提供通用的分布式锁服务,用以协调分布式应用zookeeper=文件系统+监听通知机制应用场景担任生产者和服务消费者的注册中心分布式应用配置管理统一命名服务状态同步服务集群管理容错:宕掉节点个数必须小于剩下的。用2n-1台和2n台效果一样重要基础概念Session指Zookeeper服务器与客户端会话,客户端与服务器连接使用TCP协议。客户端能够通过心跳检测与服务器保持有效的会话,也能够向Zookeep原创 2020-07-30 18:29:53 · 515 阅读 · 0 评论 -
【Hadoop】管理集群相关命令
查看hdfs节点的状态:在master上使用 hadoop dfsadmin -report重启挂掉的节点在挂掉的机器上sbin/hadoop-daemon.sh start datanode //启动数据节点原创 2020-07-30 15:25:11 · 155 阅读 · 0 评论 -
【Hadoop】Yarn框架学习
学习了两天,对整体框架、运行机制、组件的功能和关系有了大概了解(框架图和机制图手绘在笔记本上)。详细的通信过程通读了一遍,很细碎繁琐,一时间很难记住,日后有需要再做补充。时间不宽裕,在此不进行完整记录阐述,仅记录部分要点。参考文章《hadoop之yarn详解》 https://www.cnblogs.com/zsql/p/11648894.html本文仅作博主学习记录使用每个应用程序有一个ApplicationMaster,每个任务对应一个container.ApplicationMaster监原创 2020-07-29 14:17:05 · 415 阅读 · 0 评论 -
【Hadoop】从wordcount看MapReduce的工作机制
MapReduce的工作机制物理实体参与MapReduce作业执行涉及4个独立的实体:客户端(client):编写mapreduce程序,配置job,提交job,这就是程序员完成的工作;JobTracker:初始化job,分配job,与TaskTracker通信,协调整个作业的执行;TaskTracker:保持与JobTracker的通信(定时发送心跳),在分配的数据片段上执行Map或Reduce任务,TaskTracker和JobTracker的不同有个很重要的方面,就是在执行任务时候Tas原创 2020-07-28 18:12:08 · 210 阅读 · 0 评论 -
【Hadoop】HDFS文件系统命令学习
格式调用文件系统的Shell命令为: /bin/hadoop fs <args>命令参数为URL路径,HDFS目录表示为hdfs://namenode:namenodeport/parent/child (在core-site.xml里配置了默认值,可以简写为/parent/child),本地文件系统为file://大多数FS Shell命令的行为和对应的Unix Shell命令类似,出错信息会输出到stderr,其他信息输出到stdout。1、put上传(一个或多个)文件(夹)到H.原创 2020-07-28 14:31:57 · 291 阅读 · 0 评论 -
【Hadoop】搭建HDFS集群和YARN集群
Hadoop的两个部分:YARN集群(MapReduce2)——管理调度任务资源HDFS——分布式文件系统,解决海量数据存储安装步骤环境预处理设置节点的hostname:修改 /etc/sysconfig/network,并执行命令使修改立即生效:hostname 节点名设置节点间免密登录一、安装jdk二、安装Hadoop2.7.2直接解压安装包,放到/usr/local/hadoop目录下三、修改Hadoop配置文件hadoop配置文件都在hadoop-2.7.原创 2020-07-24 15:33:44 · 588 阅读 · 0 评论