
BIG_DATD
有关大数据的相关知识
xl132598798
尝试过才有资格说喜欢与否!!!!!
github博客地址:https://xlxlll.github.io/
欢迎大家多多关注!多多点赞!!
展开
-
Hadoop可视化神器-Hue安装、编译、运行
下载安装CDH版本: http://archive.cloudera.com/cdh5/官网:http://gethue.com/tar -zxf hue-3.9.0-cdh5.15.0.tar.gz -C /opt/modules/编译下载解压之后要进行编译之后才能用,且当前网络环境要能访问外网。安装各种依赖包$ sudo yum install ant asciidoc cy...原创 2020-04-17 17:40:51 · 701 阅读 · 0 评论 -
HBase架构组成AND读写总结(1)
文章目录HBase架构组成HBase的读写底层实现过程官网链接请戳:HBaseArchitecture Overview推荐图书:《HBase权威指南》HBase架构组成HBase采用Master/Slave架构搭建集群,它隶属于Hadoop生态系统,由一下类型节点组成:HMaster节点、HRegionServer节点、ZooKeeper集群,而在底层,将数据存储于HDFS中,因而涉及到NameNode、DataNode等ZooKeeper实现HMaster的高可用;记录原创 2020-06-09 23:00:59 · 151 阅读 · 0 评论 -
深入理解MapReduce作业的运行机制
MapReduce不仅是Hadoop的重要部分,也是许多计算框架发展的重要思想,深入MapReduce的运行机制,也有利于学习掌握其他框架原创 2020-05-04 15:31:05 · 503 阅读 · 0 评论 -
面试必备——设计模式之单例模式
单例模式是面试时经常被问到的设计模式之一,由该模式,还可以将话题延伸至线程安全上,要学会将所学知识串起来,在面试时,将面试官的注意力转移到你的擅长领域。原创 2020-04-27 21:57:45 · 227 阅读 · 0 评论 -
设计模式之UML类图该怎么画
关于可维护、可复用、可扩展、灵活性好的理解:生活中:印刷术和活字印刷,当需要对某些内容修改时,印刷术只要有一丁点变化,就需要重头再来;而活字印刷只需要进行部分修改即可。可维护:只更改要更改的内容;可复用:之前的内容并非用完就无用,后面仍可使用;可扩展:若要新增内容,只需在原来内容的基础上增加新内容即可;灵活性:内容可以稍作修改既可以满足要求。封装、继承、多态把程序的耦合度降低,使用设计...原创 2020-04-27 21:42:56 · 2148 阅读 · 0 评论 -
大数据实战项目(3)-离线处理及实时处理部分
离线数据处理MySQL+HiveMySQL一方面用来存储Hive的元数据,另一方面存储离线分析的结果。1)MySQL的安装2)Hive的安装#hive-log4j.properties#日志目录需要提前创建property.hive.log.dir = /opt/modules/hive-2.1.0/logs#修改hive-env.sh配置文件#Set HADOOP_HOME t...原创 2020-04-26 13:01:02 · 3165 阅读 · 0 评论 -
大数据实战项目(1)-项目简介、开发技术、工具、架构等
项目目标完成大数据项目的架构设计,安装部署,架构继承与开发,用户可视化交互设计完成实时在线数据分析完成离线数据分析具体功能捕获用户浏览日志信息(TB)实时分析前N名流量最高的新闻话题实时统计当前线上已曝光的新闻话题统计哪个时段用户浏览量最高报表展示工具、技术、语言开发工具VMware WorkstationCentOS 6.4Xshell 6FileZill...原创 2020-04-26 12:48:48 · 2855 阅读 · 0 评论 -
大数据实战项目(2)-数据采集、处理、分发流程所涉及到的框架及配置
文章目录Linux环境准备常规设置项目配置ZooKeeper分布式集群部署Hadoop HA架构与部署HBase分布式集群部署Kafka分布式集群部署Flume数据采集准备Flume+HBase+Kafka集成及测试Linux环境准备总共使用了3台虚拟机,先配置好1台,然后采用VMware Workstation克隆出另外两台,有两台给2G的内存,1台给1G。常规设置1)设置ip地址 可以...原创 2020-04-26 00:08:40 · 2884 阅读 · 0 评论 -
Hadoop 2.6.0源码下载及IntelliJ IDEA导入
文章目录1.Hadoop官网下载源码文件2.IntelliJ IDEA导入解压好的源码文件1.Hadoop官网下载源码文件按照以步骤下载即可。2.IntelliJ IDEA导入解压好的源码文件但是使用默认的maven仓库,可能不会加载成功,反正我是,所以需要在导入IntelliJ IDEA时,提前对maven进行配置,配置过程请阅读,Maven下载、安装、配置及使用阿里镜像+ IDE...原创 2020-04-24 07:41:57 · 760 阅读 · 0 评论 -
Maven下载、安装、配置及使用阿里镜像+ IDEA 新建maven工程
文章目录Maven开发环境搭建下载安装配置环境变量修改setting.xml-修改为阿里源IntelliJ IDEA 进行maven配置IntelliJ IDEA中新建maven项目Maven开发环境搭建下载安装打开官网:下载地址,在Previous Releases处点击archives进入版本下载页面。配置环境变量下载并解压,配置环境变量新增M2_HOME,并修改Path,cmd...原创 2020-04-24 07:34:40 · 434 阅读 · 0 评论 -
mysql CREATE TABLE时,你看到的单引号并不是你看到的单引号
在mysql中创建一张新的表时,使用CREATE TABLE命令,需要表名、表字段名,定义每个表字段。通用的语法是CREATE TABLE table_name(column_name column_type);请看仔细那个单引号!!!!!!创建 MySql 的表时,表名和字段名外面的符号` 不是单引号,而是英文输入法状态下的反单引号,也就是键盘左上角 esc 按键下面的那一个 ~ 按键。...原创 2020-04-23 11:38:04 · 1463 阅读 · 0 评论 -
idea + spark 报错:object apache is not a member of package org
在idea中运行Scala程序时,出现如下错误:出现上述错误的原因是未导入Spark 相关jar包,如下图所示添加下载好的相关jar包即可。原创 2020-04-22 23:02:50 · 18953 阅读 · 3 评论 -
spark学习、下载、编译、安装、运行
学习网站:官网学习,纯英文需要耐心寻找databricks,关注其中的Blog源码,相关配置文件参考Apache Spark™是用于大规模数据处理的统一分析引擎。下载官网-download。编译编译方式Maven编译SBT编译打包编译make-distribution.sh选择Maven方式编译。spark的编译对maven,java版本有要求,下载并解...原创 2020-04-21 22:10:09 · 232 阅读 · 0 评论 -
Spark总结之RDD创建、特性、算子
RDD(resilient dastributed dataset)RDD:弹性分布式数据集。所谓“弹性”,可以自动进行内存和磁盘的切换;具有高效容错、任务失败充实等特点;一个RDD可进行多个分区;RDD分区之间存在依赖关系,分为“宽依赖”和“窄依赖”,前者是指一个父RDD分区被多个子RDD分区所使用,后者是指一个父RDD分区最多被一个子RDD分区多使用2大创建:Parallelized...原创 2020-04-21 21:54:12 · 206 阅读 · 0 评论 -
Hue集成HDFS、YARN、Hive、MySql、HBase的相关配置
官网教程与HDFS集成修改hadoop中core-site.xml配置文件(集群中所有机器都需要配置)#core-site.xml<property> <name>hadoop.proxyuser.hue.hosts</name> <value>*</value></property><p...原创 2020-04-18 15:08:13 · 323 阅读 · 0 评论 -
HDFS集群无法启动DataNode节点
问题描述: 执行./start-dfs.sh之后,使用jps查询进程时,发现dataNode并未启动;执行./stop-dfs.sh之后,发现:no datanode to stop分析过程: 当使用hdfs namenode -format格式化namenode时,会重新生成集群的相关信息,特别是clusterID,每次刷新都会产生一个新 的clusterID;但是该操作却不会影响Da...原创 2020-04-16 23:36:57 · 913 阅读 · 0 评论 -
Hive与HBase整合过程
整合后的使用场景:通过Hive把数据加载到HBase中,数据源可以是文件也可以是Hive中的表。通过整合,让HBase支持JOIN、GROUP等SQL查询语法。通过整合,不仅可完成HBase的数据实时查询,也可以使用Hive查询HBase中的数据完成复杂的数据分析。Hive和HBase整合的实现是利用两者本身对外的API接口互相通信完成的,其具体工作是交由Hive的lib目录下的hiv...原创 2020-04-16 23:29:19 · 243 阅读 · 0 评论 -
NTP设置集群内机器时间同步
为什么要时间同步? 如果集群中时间相差很大,会出现很多无法解决的问题;几乎所有的集群软件,工作的一个前提条件就是时间是同步的;而业务系统中,常常会记录时间戳,如果集群不同步,这些记录就是脏数据。相关知识:#查看或设置当前系统的时间date# 按照指定格式显示日期时间date '+%Y-%m-%d %H:%M:%S' #手工临时同步系统时间ntpdate#作为守护进程,按照一定的...原创 2020-04-15 15:55:34 · 551 阅读 · 0 评论