自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 应届生必看-------------走进scala语言基础

1.为什么要学习scala 因为我们之前学的hadoop生态圈都是处理离线计算的 spark是一个在线计算的框架它的底层是scala语言实现所以得先了解scala语言 scala语言的优点 1. 在线计算 2. 基于Java语言,开发效率高,运行效率快 2.scala语言的介绍 scala语言是一门多范式的编程语言,即面向对象也是函数式编程 面向对象:万物皆对象、封装、实例对象、类、继承 函数式...

2019-07-05 20:32:07 289 1

原创 hive的分区表和分桶表的初步认识

静态分区表 单分区 必须在表定义时指定对应partition字段 单分区建表语句 上传数据 双分区 双分区创建语句 增加分区 alter table fei add partition(dt=10,hour=40); 也就是说添加分区的时候不能直接添加,而是需要将原来的分区也要包含其中,完成相应的排序 删除分区 alter table tablename drop partition (se...

2019-06-20 21:17:41 357

原创 hive数据库的讲解、安装及简单命令的操作

走进hive数据库(数据仓库工具) hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能, 可以将sql语句转换为MapReduce任务进行运行,优点是学习成本低,可以通过类sql语句快速实现简单的MapReduce统计, 不必开发专门的MapReduce应用,十分适合数据仓库的统计分析; 注意:Hive其实就是对Hdfs和MapRe...

2019-06-19 21:44:06 426

原创 zookeeper的集群搭建和概念以及操作zookeeperApi

zookeeper的介绍 ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。 简单来说:分布式协调服务 zookeeper集群搭建 上传zookeeper包(官网上都有) 解压: tar -xf z...

2019-06-18 21:36:53 198

转载 MapRedcue的初始和工作原理和eclipse代码实现

MapReduce的认识 MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算,概念“Map(映射)”和“Reduce (归约)”,是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性,它极大地方便了编程人员在不会分布式并行编程地情况下,将自己的程序运行在分布式系统上,当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,...

2019-06-16 16:46:11 437

原创 配置Hadopp的伪分布集群操作和完全分布式操作

首先配置Hadopp集群操作之前得先配置jdk,因为Hadoop依赖于java 一 jdk的安装 https://download.youkuaiyun.com/download/qq_36698956/10731785 官网下载 使用命令rz把压缩包导到linux系统中,rz命令得下载 -----yum install lrsz -y 或者使用工具xftp6也行 解压 tar -zxv...

2019-06-12 20:54:32 421 1

原创 SecondaryNamenode二次节点持久化

SecondaryNamenode SecondaryNamenode是一个二次节点,相当于公司的副总 主节点掌握一批元数据 为了保证数据的安全—将内存中的数据存放在磁盘中 在此介绍下 硬盘 内存大 便宜 还慢 内存 内存小 贵 还快 问题 当我们的集群因断电等特殊原因使得一些数据丢失怎么解决 首先说下为什么主节点不能做持久化的原因 可以做:需求小、占用内存小、不影响计算xia...

2019-06-11 20:53:23 262

原创 Hadoop的介绍以及大数据的理解

什么是Hadoop Apache Hadoop软件库是一个框架,允许使用简单的编程模型跨计算机集群分布式处理大型数据集。它旨在从单个服务器扩展到数千台计算机,每台计算机都提供本地计算和存储。该库本身不是依靠硬件来提供高可用性,而是设计用于检测和处理应用层的故障,从而在计算机集群之上提供高可用性服务,每个计算机都可能容易出现故障。 在这更要说明一下hadoop更是一个生态圈和spark一样; Had...

2019-06-10 20:36:59 451 1

原创 shell脚本笔记

shell脚本 变量 本地变量就是 变量属性=变量值 注意等号两边不能有空格 局部变量 local----------只能应用于函数 环境变量 export用它修饰的 特殊变量 $$ 获取进程的id      $# 获取参数      $* 获取某一个位置的参数($1,$2)      $? 输出上一条指令的执行状态      $BASHPID 打印当前进程的实行Id 位置变...

2019-06-10 15:00:10 155 1

原创 elasticsearch高亮查询

package com.zhangxiangzhou.cms.redis; import java.util.ArrayList; import java.util.List; import org.elasticsearch.action.search.SearchResponse; import org.elasticsearch.index.query.QueryBuilder; impor...

2019-06-10 09:31:23 2417 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除