YJYjhd-优快云博客

原创 Scala入门---基础知识---实战

1.scala的介绍： scala 是一门多范式的编程语言,即面向对象也是函数式编程面向对象:万物皆对象封装实例对象类继承函数式编程: 面向过程函数当成编程 2.scala语言和Java语言对比相同点: 1）.java和scala可以无缝混编,它们都是基于jvm 2）.二者可以相互调用不同点: 1）.类型自动推断,并如果写类型化,是写在变量名的后面 2）.val var...

2019-07-05 19:43:07 326

原创 Hive安装手册

1.上传tar包 2.解压 tar -zxvf hive-1.2.1.tar.gz 3.安装mysql数据库推荐yum 在线安装（运行脚本安装） 4.配置hive （a）配置HIVE_HOME环境变量 vi conf/hive-env.sh 配置其中的$hadoop_home （b）配置元数据库信息 vi hive-site.xml 添加如下内容： <con...

2019-06-19 21:22:53 342

原创大数据（十一）Zookeeper_4_技能

连接指定的Zookeeper ./zkCli.sh -server ip:port Zookeeper命令操作 ls /:列出“/”下面的其它的节点 create -e /name1 xiaozhang 创建临时节点，用quit命令退出或结束，会话节点消失 create -s /name2 xiaowang 创建顺序节点 creae -e -s /name3 xiaol...

2019-06-18 21:34:09 238

package com.bw.HDFS; import java.io.BufferedInputStream; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.InputStream; import org.apache.hadoop.conf...

2019-06-14 21:16:23 232

原创大数据MapReduce工作原理+源码

MapReduce是什么？ 1、首先让我们来重温一下 hadoop 的四大组件： HDFS：分布式存储系统 MapReduce：分布式计算系统 YARN：hadoop 的资源调度系统 Common：以上三大组件的底层支撑组件，主要提供基础工具包和 RPC 框架等 MapReduce 是一个分布式运算程序的编程框架，是用户开发“基于 Hadoop 的数据分析应用” 的核心框架 MapRed...

2019-06-14 21:08:50 495

原创大数据知识搭建

开发环境eclipse搭建： 1、搭建外部客户端： 1.1 配置jdk的环境变量 1.2 配置hadoop的环境变量变量名：HADOOP_HOME 路径：修改Path %HADOOP_HOME%\bin 1.3 修改系统用户名在系统变量中新建HADOOP_USER_NAME 值为root 2、配置eclipse环境 2.1在eclips...

2019-06-13 21:06:16 206

原创 HDFS伪分布式搭建步骤和完全分布式配置

------配置免密登录 ① ssh-keygen -t rsa ② ssh-copy-id -i ~/.ssh/id_rsa.pub root@node01 1、上传文件 ftp 使用命令rz----- 注：首先下载---yum install lrzsz -y 2、解压 tar -zxvf jdk1.8.0_121 3、配置环境变量 export JAVA_HOME...

2019-06-12 21:52:27 315

原创 HDFS Client NameNode DataNode SecondaryNamenode

HDFS HDFS 采用Master/Slave的架构来存储数据，该架构主要由四个部分组成 HDFS Client NameNode DataNode SecondaryNameNode HDFS体系结构 HDFS体系结构 HDFS Client 文件切分，文件上传 HDFS 的时候，Client 将文件切分成一个一个的Block，然后进行存储与 NameNode 交互，获取文件的位置信息与...

2019-06-12 08:26:40 395

原创 SecondaryNamenode----持久化

硬盘：内存大，便宜，却慢内存：内存小，贵，却快元数据：描述数据的数据 Namenode掌握一批元数据------为了保证元数据的安全—将内存中的数据存放到磁盘中 —持久化：当我们的集群因断电等特殊原因产生问题的时候，问题解决，重新开机，会去磁盘上读取元数据，恢复到断电前的状态 Namenode不能持久化的原因：Namenode本身工作已经很多，有可能在持久化的过程中宕机 Secondar...

2019-06-11 22:31:58 217

原创大数据入门的基础知识

大数据定义：短时间快速大量产生多种多样的有价值的信息（个人理解）大数据5V特性大量（volume）高速（velocity）多样（variety）低价值密度（value）真实性(veracity) 为了解决数量过大的问题 ①垂直扩展（加大内存量） ②横向扩展（一台连一台）简单廉价的服务器或者pc端就可以谷歌三大论文 1、GFS ----------...

2019-06-10 21:05:11 678

原创 linux的基本运算及变量操作

变量本地 name=god 局部 local—只能应用于函数环境 export 位置 $#----获取参数 $*----获取某一个位置的参数（$1 $2.....） $@---等同于$ * $?------输出上一条指令的执行状态 $BASHPID----打印当前进程的实际id $$ 运算符 let: $((算术表达式)) c=$(($a+...

2019-06-10 15:21:59 412

原创 linux脚本生成一个100以内的随机数，提示用户猜数字并将随即生成的数字显示

随机数的生成

2019-06-09 21:30:21 8619

YJYjhd的博客