自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 收藏
  • 关注

原创 菜鸟先飞之sqoop环境搭建以及jar包依赖

文件准备下载到本地 sqoop-1.4.6-cdh5.14.2.tar.gz 拖入安装目录并解压 tar -zxfsqoop-1.4.6-cdh5.14.2.tar 解压文件重命名 mvsqoop-1.4.6 sqoop 配置环境变量 vi /etc/profile export SQOOP_HOME=/opt/install/sqoop export PATH=$SQOOP_HOME/bin:$PATH 切换至配置文件目录 cd /opt/install/sqoop/conf...

2020-09-03 15:06:33 1803

原创 菜鸟先飞之初识Hive、安装教程及常见问题

一、初识Hive 1、什么是Hive? Hive是基于Haddop的数据仓库工具,可以将结构化的数据文件映射为一张数据库表并提供SQL查询功能,可以将SQL语句转换 MapReduce任务运行。 Hive提供了一系列的工具,可以给用来数据提取转换加载(ETL)是一种存储、查询和分析存储在Hadoop中的大规模数据的机制 2、Hive发展历史及版本 2007年8月 – 始于Facebook 2013年5月 – 0.11 Stinger Phase 1 ORC HiveServer2 20.

2020-07-08 00:37:41 1601

原创 菜鸟先飞之Hadoop安装秘籍

2020-06-24 Hadoop秘籍 配置VirtualBox 新建一个虚拟机 ps:步骤可参照我之前博客 一、安装准备 jdk-8u221-linux-x64.tar hadoop-2.6.0-cdh5.14.2.tar.gz ps:如何配置jdk可参照我之前的博客jdk安装配置这里就不一一赘述了 话不多说我们直接开始 切换至software 文件目录: cd /software 将准备好的文件拖入software 目录下 将文件解压至 opt目录下:tar -zxf hadoop-2.6.0-cdh5

2020-06-24 13:55:04 500

原创 菜鸟先飞之Linux-ELK集群的搭建

2020-06-19 Linux ELK集群的搭建 1.复制虚拟机 准备好三个虚拟机(复制两个)

2020-06-21 11:18:35 434

原创 菜鸟先飞之Linux 安装 Jdk、Tomcat、MySQL和SVN

yum 命令: 搜索命令 :yum search 命令 下载并安装:yum install -y 应用名 卸载:yum remove 应用名 rpm命令:需要先有rpm 包 安装:rpm -ivh 安装包 卸载:rpm -e 应用[--nodeps] 查看:rpm -qa | grep -i 应用名(-i 为忽略大小写) 安装jdk(tar.gz包)步骤 (1)上传 jdk的安装包 (2)tar -zxf jdk-8u221-linux-x64.tar.gz -C /opt/目标目录(解压安..

2020-06-17 23:48:57 426

原创 菜鸟先飞之初识Linux操作系统

2020-06-16 Linux 操作系统 服务器基本要求: 稳定 安全 灵活性高 常见操作系统中 windows 和 apple 操作系统是闭源的; 安卓操作系统是开源的; Linux操纵系统是闭源的; 常见的企业级操作系统;Windows Server、unix、Linux Linux操作系统简介 第一版 1969年AT&T在贝尔实验室实现 1983年Richard Stallman发起了GNU计划来推进开放源代码的发展 1991芬兰大学生Linux Torvalds在GPL条例下发布了Li

2020-06-17 08:34:50 599 1

原创 菜鸟先飞之Kafka安装配置和一些基本操作

准备好安装包:kafka_2.11-2.0.0.tgz # 拖入本地并解压tar -zxf kafka_2.11-0.11.0.2.tgz # 改名mv kafka_2.11-0.11.0.2 kafka # 切换至kafka配置文件目录cd /opt/soft/kafka/config # 修改配置文件server.properties(消费者配置)vi server.properties # 若是集群则需要修改 broker.id=0 # 允许kafka可以删除topic delete.to

2020-08-18 20:10:34 273

原创 菜鸟先飞之Python、Jupyter Notebook、Anaconda安装以及代码自动补全插件配置

一、安装准备 文件准备 1、Anaconda3-2020.07-Linux-x86_64.sh 2、Python-3.7.2.tar.xz 3、Python-3.8.5.gz 将三个文件拖入soft目录 先将Python-3.8.5.gz 解压到 当前目录 :tar -zxf Python-3.8.5.tar.xz 给解压后的文件夹改个名:mv Python-3.8.5 Python 安装相应的编译工具 yum -y groupinstall "Development tools" .

2020-08-10 20:20:13 808

原创 菜鸟先飞之spark安装配置

接受了诸多软件的的毒打,想必spark算是简单的配置了,话不多说,让我们随便戳戳! 一、安装准备 1、首先检查是否安装了 jdk, 和版本是否符合要求。 2、准备 spark-2.2.0-bin-hadoop2.7.tgz 安装文件 3、将文件拖入专门安装软件的soft文件夹(这个可以随意) 4、解压文件::tar -zxfspark-2.2.0-bin-hadoop2.7.tgz 5、给文件改个名好吧:mvzxfspark-2.2.0-bin-hadoop2.7 spark ...

2020-08-03 12:06:45 348

原创 菜鸟先飞之Hadoop数据模型

一、Hadoop常用数据模型(文件存储格式) 1、Text:文本文件通常采用CSV、JSON等固度长度的纯文本格式 优点: (1)、便于与其他应用程序(生成或读取分隔文件)或脚本进行数据交换 (2)、易读性好,便于理解 缺点: (1)、数据存储量非常庞大 (2)、查询效率不高 (3)、不支持块压缩 2、SequenceFile: (1)SequenceFile按行存储二进制键值对数据,HDFS自带 1)二进制文件直接将<Key,Value>序列化到文件中 2)...

2020-07-23 16:34:59 582

原创 菜鸟先飞之Hive与Hbase

一、Hive与Hbase的集成 1.1Hbase与Hive的对比 1、Hive (1)数据仓库 Hive 的本质其实就相当于将 HDFS 中已经存储的文件在 Mysql 中做了一个双射关系,以方便使用 HQL 去管理查询。 (2)用于数据分析、清洗 Hive适用于离线的数据分析和清洗,延迟较高 (3)基于HDFS、MapReduce Hive 存储的数据依旧在 DataNode 上,编写的 HQL 语句终将是转换为MapReduce 代码执行。 2、Hbase (1)数据库是一种面向列存

2020-07-21 19:39:09 561

原创 菜鸟先飞之Hbase进阶之路

Hbase是一个基于HDFS的面向列的分布式数据库,源于Google的bigTable论文。 如果需要实时地随机访问超大规模数据集,使用Hbase是一个更好的选择。 Hbase同样是采用Master/Slaves的主从服务器结构,它是由一个HMaster服务器和多个HReginServer服务器构成,而所有服务器都是通过Zookeeper协调并处理各服务器运行期间可能遇到的错误。 HBase采用Master/Slave架构 1)HMaster 2)RegionServer 3)Zookee..

2020-07-21 02:12:19 400

原创 菜鸟先飞之Zeppelin安装配置

一、安装准备 文件准备:zeppelin-0.8.1-bin-all.tgz 准备一台虚拟机 ps:搭建了Hive环境,且能正常运行的虚拟机 具体操作详见https://blog.youkuaiyun.com/wangbenguixin/article/details/107192191 切换至soft文件夹:cd /opt/soft 将文件拖入opt下的soft文件夹 解压文件夹至当前目录:tar -zxfzeppelin-0.8.1-bin-all.tgz 二、配置Zepplin ...

2020-07-12 18:19:21 509

原创 菜鸟先飞之MySQL常用日期和时间函数

(1)CURDATE()、CURRENT_DATE() 将当前日期按照"YYYY-MM-DD"格式返回 SELECT CURDATE(); (2)CURRENT_TIMESTAMP()、LOCALTIME()、NOW()、SYSDATE() 这四个函数作用相同,返回当前日期和时间值,格式为"YYYY_MM-DD HH:MM:SS" SELECT NOW(); (3)UNIX_TIMESTAMP() 返回一个格林尼治标准时间1970-01-01 00:00:00到现在的秒数 ..

2020-07-06 00:46:53 414

原创 菜鸟先飞之MySQL常用字符串函数

(1)CHAR_LENGTH(str) 计算字符串字符个数 SELECT CHAR_LENGTH('hello'); (2)CONCAT(s1,s2,...) 返回连接参数产生的字符串,一个或多个待拼接的内容,任意一个为NULL则返回值为NULL (3)CONCAT_WS(x,s1,s2,...) 返回多个字符串拼接之后的字符串,每个字符串之间有一个x SELECT CONCAT_WS('x','a','b','c'); (4)INSERT(s1,x,len,s...

2020-07-05 21:01:49 350

原创 菜鸟先飞之MySQL常用数学函数

(1)ABS(x) 返回x的绝对值 SELECT ABS(-10); (2)PI() 返回圆周率π,默认显示6位小数 SELECT PI(); (3)SQRT(x) 返回非负数的x的二次方根 SELECT SQRT(2); (4)MOD(x,y) 返回x除以y后的余数 SELECT MOD(2,4); (5)CEIL(x)、CEILING(x) 返回不小于x的最小整数 SELECT CEIL(2); (6)FLOOR(x) 返回不大于x的最大整数 SEL

2020-07-05 20:21:49 392

原创 菜鸟先飞之Mapreduce(二)——combiner类、Partitioner

combiner类 combiner是用来优化Mapreduce的,它可以提高Mapreduce的运行效率。在MapReduce作业运行过程中,通常每一个Map都会产生大量的本地输出,Combiner的作用就是在Map端对输出结果先做一次合并,以减少传输到Reduce端的数据量。 在上一个博客里我们使用MapReduce实现了词频统计,接下来,我们使用combiner进行下优化 1、新建一个WCCombiner类,代码直接复制WCReduce,中的代码就行,原因呢,很简单,因为combiner只有在数

2020-07-05 12:27:24 429

原创 菜鸟先飞之MapReduce(包含词频统计等实例及我踩过的惊雷)

MapReduce是一个分布式计算框架 起源于Google 它将大型数据操作作业分解为可以跨服务器集群并执行单个任务 适用于大规模数据处理场景 每个节点处理存储在该节点的数据 每个job包含Map和Reduce两部分 分而治之 简化并行计算的编程模型 构建抽象模型:Map和Reduce 开发人员专注于实现Mapper 和Reducer 函数 隐藏系统层细节 优点: 易于编程:实现接口就能完成一个分布式计算框架 可扩展性强 高容错性 高吞吐量:处理的数...

2020-07-02 07:41:45 936

原创 菜鸟先飞之Hadoop分布式文件系统HDFS(一)

一、了解HDFS HDFS,即分布式文件系统,是指文件系统管理的物理资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。它允许将一个文件通过网络在多台主机上以多副本的方式进行存储,实际上是通过网络来访问文件,而用户和程序看起来却像是访问本地的文件系统一样。 HDFS优点: 高容错性:HDFS上传的文件会自动保存多个副本,一个副本丢失,HDFS的副本机制会自动复制其他机器上的副本 适合大数据处理 流式数据访问:文件一旦写入,就不能修改只能增加,提高I/O性能 可构建在廉价...

2020-07-01 06:44:52 507

原创 菜鸟先飞之Hadoop 秘籍(三)Zookeeper 、Hive、Hbase、Docker、MySQL

一、安装准备 hadoop-2.6.0-cdh5.14.2.tar.gz hadoop-native-64-2.6.0.tar hbase-1.2.0-cdh5.14.2.tar.gz hive-1.1.0-cdh5.14.2.tar.gz MySQL-client-5.6.46-1.el7.x86_64.rpm MySQL-server-5.6.46-1.el7.x86_64.rpm zookeeper-3.4.6.tar.gz jdk-8u221-linux-x64.tar.gz m.

2020-06-29 00:16:31 711 1

原创 菜鸟先飞之Elasticsearch应用

2020-06-23 连接上集群后现在我们来使用 ELASTICSEARCH进行学习 -ES数据模型 Index:索引,由多个Document组成 Type:索引类型,6.x中仅支持一个,以后将逐渐被移除 Document:文档,由多个Field组成 Field:字段,包括字段名与字段值 -文档元数据: _index:索引名 _type:索引类型 _id:文档编号 _version:文档版本号用于并发控制 _score:在搜索结果中的评分 集群连接完毕后,打开浏览器输入:master的IP地址进行连接 先按

2020-06-24 07:22:04 444

原创 菜鸟先飞之JAVA之数组(包含冒泡排序、插入排序、二分法)

一、数组 在内存空间划出一串连续的空间(数组是一个变量,存储相同数据类型的一组数据) 数组基本要素: 1、标识符 :驼峰命名规则——>数组名 2、数组元素 ——>值 3、元素下标:从0开始,数组中的每个元素都可以通过下标来访问 4、元素类型:数组中所有元素数据类型相同——>类型(Object[]//最大的数据类型) 5、数组长度(0~长度-1 ——为元素下标)数组名.length(数组长度固定不变,避免数组越界) 二、使用数组的步骤 1、声明数组(就是在内存空间划出一层房

2020-06-22 03:09:49 413

原创 菜鸟先飞之JAVA选择结构与循环结构简述

一、选择结构 1、普通的选择结构 可以处理单一或组合条件的情况 public class Xue2{ public static void main(String[] args) { String name="张三"; //控制台分别输入张三和张浩得成绩 Scanner input=new Scanner(System.in); System.out.println("请输入张三的java...

2020-06-21 21:53:19 386

原创 菜鸟先飞之ELK安装配置

ES安装前的准备(elk安装包版本要求一致) 准备五个jar包 一个zip压缩包 1、elasticsearch-6.2.2.tar.gz 2、elasticsearch-head-master.zip 3、kibana-6.2.2-linux-x86_64.tar.gz 4、logstash-6.2.2.tar.gz 5、node-v8.9.1-linux-x64.tar.gz 6、jdk-8u221-linux-x64.tar cd /返回家目录 mkdir software ..

2020-06-19 02:01:19 439

原创 菜鸟先飞之依赖注入

Loc与Aop 继配置过了Spring环境之后,我们来了解下依赖注入 一、关于构造注入 1、即set注入:前提是实体类中必须存在set方法(即所谓的依赖,否则 报红,无法给属性赋值); <bean id="user1" name="user2" class="cn.kgc.kb07.entity.User"> <property name="userName" value="王老七"/> </bean> 注意值得注意的是:实体类的实现了带参方法后,无参构造不再默认提供

2020-06-16 08:31:59 440

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除