- 博客(10)
- 收藏
- 关注
原创 应届生必看-------------走进scala语言基础
1.为什么要学习scala 因为我们之前学的hadoop生态圈都是处理离线计算的 spark是一个在线计算的框架它的底层是scala语言实现所以得先了解scala语言 scala语言的优点 1. 在线计算 2. 基于Java语言,开发效率高,运行效率快 2.scala语言的介绍 scala语言是一门多范式的编程语言,即面向对象也是函数式编程 面向对象:万物皆对象、封装、实例对象、类、继承 函数式...
2019-07-05 20:32:07
289
1
原创 hive的分区表和分桶表的初步认识
静态分区表 单分区 必须在表定义时指定对应partition字段 单分区建表语句 上传数据 双分区 双分区创建语句 增加分区 alter table fei add partition(dt=10,hour=40); 也就是说添加分区的时候不能直接添加,而是需要将原来的分区也要包含其中,完成相应的排序 删除分区 alter table tablename drop partition (se...
2019-06-20 21:17:41
357
原创 hive数据库的讲解、安装及简单命令的操作
走进hive数据库(数据仓库工具) hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能, 可以将sql语句转换为MapReduce任务进行运行,优点是学习成本低,可以通过类sql语句快速实现简单的MapReduce统计, 不必开发专门的MapReduce应用,十分适合数据仓库的统计分析; 注意:Hive其实就是对Hdfs和MapRe...
2019-06-19 21:44:06
426
原创 zookeeper的集群搭建和概念以及操作zookeeperApi
zookeeper的介绍 ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。 简单来说:分布式协调服务 zookeeper集群搭建 上传zookeeper包(官网上都有) 解压: tar -xf z...
2019-06-18 21:36:53
198
转载 MapRedcue的初始和工作原理和eclipse代码实现
MapReduce的认识 MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算,概念“Map(映射)”和“Reduce (归约)”,是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性,它极大地方便了编程人员在不会分布式并行编程地情况下,将自己的程序运行在分布式系统上,当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,...
2019-06-16 16:46:11
437
原创 配置Hadopp的伪分布集群操作和完全分布式操作
首先配置Hadopp集群操作之前得先配置jdk,因为Hadoop依赖于java 一 jdk的安装 https://download.youkuaiyun.com/download/qq_36698956/10731785 官网下载 使用命令rz把压缩包导到linux系统中,rz命令得下载 -----yum install lrsz -y 或者使用工具xftp6也行 解压 tar -zxv...
2019-06-12 20:54:32
421
1
原创 SecondaryNamenode二次节点持久化
SecondaryNamenode SecondaryNamenode是一个二次节点,相当于公司的副总 主节点掌握一批元数据 为了保证数据的安全—将内存中的数据存放在磁盘中 在此介绍下 硬盘 内存大 便宜 还慢 内存 内存小 贵 还快 问题 当我们的集群因断电等特殊原因使得一些数据丢失怎么解决 首先说下为什么主节点不能做持久化的原因 可以做:需求小、占用内存小、不影响计算xia...
2019-06-11 20:53:23
262
原创 Hadoop的介绍以及大数据的理解
什么是Hadoop Apache Hadoop软件库是一个框架,允许使用简单的编程模型跨计算机集群分布式处理大型数据集。它旨在从单个服务器扩展到数千台计算机,每台计算机都提供本地计算和存储。该库本身不是依靠硬件来提供高可用性,而是设计用于检测和处理应用层的故障,从而在计算机集群之上提供高可用性服务,每个计算机都可能容易出现故障。 在这更要说明一下hadoop更是一个生态圈和spark一样; Had...
2019-06-10 20:36:59
451
1
原创 shell脚本笔记
shell脚本 变量 本地变量就是 变量属性=变量值 注意等号两边不能有空格 局部变量 local----------只能应用于函数 环境变量 export用它修饰的 特殊变量 $$ 获取进程的id $# 获取参数 $* 获取某一个位置的参数($1,$2) $? 输出上一条指令的执行状态 $BASHPID 打印当前进程的实行Id 位置变...
2019-06-10 15:00:10
155
1
原创 elasticsearch高亮查询
package com.zhangxiangzhou.cms.redis; import java.util.ArrayList; import java.util.List; import org.elasticsearch.action.search.SearchResponse; import org.elasticsearch.index.query.QueryBuilder; impor...
2019-06-10 09:31:23
2417
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人