- 博客(12)
- 收藏
- 关注
原创 Scala入门---基础知识---实战
1.scala的介绍: scala 是一门多范式的编程语言,即面向对象也是函数式编程 面向对象:万物皆对象 封装 实例对象 类 继承 函数式编程: 面向过程 函数当成编程 2.scala语言和Java语言对比 相同点: 1).java和scala可以无缝混编,它们都是基于jvm 2).二者可以相互调用 不同点: 1).类型自动推断,并如果写类型化,是写在变量名的后面 2).val var...
2019-07-05 19:43:07
326
原创 Hive安装手册
1.上传tar包 2.解压 tar -zxvf hive-1.2.1.tar.gz 3.安装mysql数据库 推荐yum 在线安装(运行脚本安装) 4.配置hive (a)配置HIVE_HOME环境变量 vi conf/hive-env.sh 配置其中的$hadoop_home (b)配置元数据库信息 vi hive-site.xml 添加如下内容: <con...
2019-06-19 21:22:53
342
原创 大数据(十一)Zookeeper_4_技能
连接指定的Zookeeper ./zkCli.sh -server ip:port Zookeeper命令操作 ls /:列出“/”下面的其它的节点 create -e /name1 xiaozhang 创建临时节点,用quit命令退出或结束,会话节点消失 create -s /name2 xiaowang 创建顺序节点 creae -e -s /name3 xiaol...
2019-06-18 21:34:09
238
原创 大数据(六) HDFS的API
package com.bw.HDFS; import java.io.BufferedInputStream; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.InputStream; import org.apache.hadoop.conf...
2019-06-14 21:16:23
232
原创 大数据MapReduce工作原理+源码
MapReduce是什么? 1、首先让我们来重温一下 hadoop 的四大组件: HDFS:分布式存储系统 MapReduce:分布式计算系统 YARN:hadoop 的资源调度系统 Common:以上三大组件的底层支撑组件,主要提供基础工具包和 RPC 框架等 MapReduce 是一个分布式运算程序的编程框架,是用户开发“基于 Hadoop 的数据分析应用” 的核心框架 MapRed...
2019-06-14 21:08:50
495
原创 大数据知识搭建
开发环境eclipse搭建: 1、搭建外部客户端: 1.1 配置jdk的环境变量 1.2 配置hadoop的环境变量 变量名:HADOOP_HOME 路径: 修改Path %HADOOP_HOME%\bin 1.3 修改系统用户名 在系统变量中新建HADOOP_USER_NAME 值为root 2、配置eclipse环境 2.1在eclips...
2019-06-13 21:06:16
206
原创 HDFS伪分布式搭建步骤和完全分布式配置
------配置免密登录 ① ssh-keygen -t rsa ② ssh-copy-id -i ~/.ssh/id_rsa.pub root@node01 1、上传文件 ftp 使用命令rz----- 注:首先下载---yum install lrzsz -y 2、解压 tar -zxvf jdk1.8.0_121 3、配置环境变量 export JAVA_HOME...
2019-06-12 21:52:27
315
原创 HDFS Client NameNode DataNode SecondaryNamenode
HDFS HDFS 采用Master/Slave的架构来存储数据,该架构主要由四个部分组成 HDFS Client NameNode DataNode SecondaryNameNode HDFS体系结构 HDFS体系结构 HDFS Client 文件切分,文件上传 HDFS 的时候,Client 将文件切分成 一个一个的Block,然后进行存储 与 NameNode 交互,获取文件的位置信息 与...
2019-06-12 08:26:40
395
原创 SecondaryNamenode----持久化
硬盘:内存大,便宜,却慢 内存:内存小,贵,却快 元数据:描述数据的数据 Namenode掌握一批元数据------为了保证元数据的安全—将内存中的数据存放到磁盘中 —持久化: 当我们的集群因断电等特殊原因产生问题的时候,问题解决,重新开机,会去磁盘上 读取元数据,恢复到断电前的状态 Namenode不能持久化的原因:Namenode本身工作已经很多,有可能在持久化的过程中宕机 Secondar...
2019-06-11 22:31:58
217
原创 大数据入门的基础知识
大数据 定义:短时间快速大量产生多种多样的有价值的信息 (个人理解) 大数据5V特性 大量(volume) 高速(velocity) 多样(variety) 低价值密度(value) 真实性(veracity) 为了解决数量过大的问题 ①垂直扩展 (加大内存量) ②横向扩展 (一台连一台) 简单廉价的服务器或者pc端 就可以 谷歌三大论文 1、GFS ----------...
2019-06-10 21:05:11
678
原创 linux的基本运算及变量操作
变量 本地 name=god 局部 local—只能应用于函数 环境 export 位置 $#----获取参数 $*----获取某一个位置的参数($1 $2.....) $@---等同于$ * $?------输出上一条指令的执行状态 $BASHPID----打印当前进程的实际id $$ 运算符 let: $((算术表达式)) c=$(($a+...
2019-06-10 15:21:59
412
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅