
大数据技术
文章平均质量分 52
介绍大数据相关组件底层原理例如HDFS、MR、HIVE、HBASE、 KAFKA、FLUME、STORM已经SPARK(SPARK SQL 、SPARK STREAMING)以及对应的搭建CDH、AMBARI、CONFLUENT搭建分析还会涉及到对应的Linux系统命令等
适合不合适
My God grant me the serenity to accept the things I cannot change,The courage to change the things I can,And the wisdom to know the difference
立个flag,励志从事IT行业。做好手艺人的事情。
展开
-
集群和分布式介绍
1、集群(一变多):一个服务处理,变为多个服务处理(一个tomcat处理所有请求,变为多个tomcat处理所有请求)2、分布式(拆分为多个流程):一个服务处理全部流程,变为多个服务分布处理其中一部分的流程(一个tomcat处理a+b+c,变为tomcat1处理a+tomcat2处理b+tomcat3处理c)3、集群分布式:将集群和分布式进行组合处理(tomcat1和tomcat2处理a+tomcat3和omcat4处理b+tomcat5和tomcat6处理c)...原创 2021-08-29 21:46:18 · 176 阅读 · 0 评论 -
大数据高可靠和高可用的区别
高可靠定义(HA,HADOOP中主要是硬件的高可靠):硬件都是不可靠的,都有可能损坏(硬件的可靠性)。高可用定义:主要是针对系统(或者叫服务)----->指系统经过专门的设计,从而减少停工的时间,而保持服务的高度可用性。--高可用定义应用于《百度百科》高可靠:主要要解决的问题是,数据丢失,HADOOP的冗余副本策略。高可用:主要解决的是单点故障,例如HADOOP中的namenode节点如果它们宕机就会导致整个HADOOP集群不能用因此使用ZK解决。另外还有HIVE服务采用的热备的方式。.原创 2021-08-11 09:12:37 · 3038 阅读 · 0 评论 -
Linux 常用命令/以及常用配置文件
一、常用命令1、SCP 将文件发送到另一台服务器scp :server copy(服务器复制)例(发送文件):scp di_dsa.put root@192.168.200.199:/tmpdi_dsa.put:本地文件 对方的用户@对方IP:/路径例(发送文件夹):文件夹的话需要加-rscp -r 文件夹对方的用户@对方IP:/路径2、tar -zxzf 压缩文件 解压文件例: tar -zxzf aaa.tar.gz将 aaa.tae.gz3、rm -r.原创 2021-10-27 20:56:47 · 1044 阅读 · 0 评论 -
大数据---YARN
YARN框架:资源管理器,为各类应用程序进行资源管理和调度一、MR1---没有集成yarn框架,只包含mapreduce主从架构:NN:jobtracker节点(作业)--->管理所有的作业的子任务并汇总DN:TaskTracker节点(任务)流程:1、client(客户端)提交一个jar到集群中2、jobtracker拿到client提交的jar,根据拿到的jar要处理的来源,在哪些DN主机上,将jar发送到各个带有块信息的tasktracker节点(DN主机)上3、原创 2021-07-19 22:42:07 · 120 阅读 · 0 评论 -
Spark on hive 与 Hive on spark 的区别
读了百度上的一些关于Spark on hive 与 Hive on Spark 的区别的文章,感觉理解太复杂,自己总结一下Spark on Hive :数据源是:hive Spark 获取hive中的数据,然后进行SparkSQL的操作 (hive只是作为一个spark的数据源)。Hvie on Spark :(数据源是hive本身) Hvie 将自己的MapReduce计算...原创 2019-08-20 09:37:03 · 5108 阅读 · 4 评论 -
Hadoop、HDFS 、MR 、HIVE等通俗理解
目录 Hadoop HIVE HBASE KAFKA FLUME STORM SCALA SPARK Hadoop HDFS MapReduceHDSF:分布式文件系统简单理解就是存储文件的系统,就像百度云盘一样的东西。我们搭建好HDFS就相当于自己做了一个百度云盘,就可以将我们自己的一些文件上传到自己的HDFS中。MapReduce:分布式...原创 2019-07-08 17:56:00 · 3752 阅读 · 2 评论 -
大数据组件----HDFS架构介绍
HDFS简介 1、HDFS来源于Google的GFS,是分布式文件存储系统。2、解决了低成本存储大数据量的文件的问题(块),以及防止数据丢失(hdfs的副本)的问题3、什么是分布式?多个计算机节点协同完成一个任务(以hdfs读取一个文件为例:当客户端要读取一个文件时,要多个节点同时读取这个文件的块信息进行组装,将组装好的文件返回给客户端) HDFS架构以及各个节点的作用...原创 2019-07-24 19:02:06 · 538 阅读 · 0 评论 -
大数据组件---Hive
Hive 简介 以下的请深刻理解,如果理解不清楚请别看下一部分!1、Hive可以将结构化数据文件映射为一张数据库的表(这一句必须要理解),是一个数据仓库工具()结构化的数据 -------> 数据库的表就是将 txt文件中的类容当成数据库的一张表进行操作数据仓库工具------>这个需要实际的项目经验接触就可以理解了当前可以不用理解。相信前面的你已经理解...原创 2019-07-11 10:23:47 · 588 阅读 · 0 评论 -
大数据组件---HBASE
HBASE简介 1、Hbase是一个非关系型分布式数据库(NoSQL)--BigTable(参考的是谷歌)2、高可靠(采用主从架构,使用zookeeper管理)、高性能(分布式并行处理)、面向列、可伸缩(可新增子节点)3、采用HDFS作为文件存储系统(也可以采用其它的文件存储系统,没集成MR计算的功能)4、Hbase擅长查询数据(这里的查询是指将指定的数据按数据库的格式拿出显示...原创 2019-07-16 21:41:10 · 239 阅读 · 0 评论 -
(统计单词数)mapreduce函数理解
一、隐藏的过程:1、读取hdfs上的一个file文件的块文件2、将块文件进行分片split3、读取split(分片)文件中的一行内容4、将一行内容转换为key-value的形式(key:为偏移量(即多少行,我的理解),value:为一行的内容)5、将key-value输入到自己的map函数中二、进入自己写的map函数:--自己的map函数作用是:1、读入一个key-......原创 2019-03-26 10:29:59 · 641 阅读 · 1 评论 -
hadoop集群运行MR jar 包 报错 running in uber mode : false
一、问题描述:mr 编写正常 打好jar包后运行jar。眼看 map 0% reduce 0% 然后就结束了也没有啥错误和异常唯一个报错 :running in uber mode : false二、解决办法:加上这一句话:在构造job类中加上:System.setProperty("HADOOP_USER_NAME", "root");原因:操作HDFS文件系统权限问题,具...原创 2019-03-26 15:04:59 · 14301 阅读 · 4 评论 -
shell 脚本 处理文件最后一行换行符处理/删除最后一行空数据
最近写脚本处理文本文件最后一行换行符的数据做简单总结1、将文件file.txt最后一行有换行符的数据追加到一个临时文件temp.txt中(这里可以直接处理掉最后一行的换行符,只把内容追加 到temp.txt文件中)tail -n1 file.txt | tr -d '\n' >> temp.txt #此处要注意两个文件的路径,最好跟上文件的绝对路径2、将原文件fi...原创 2019-08-28 15:33:04 · 8448 阅读 · 1 评论