年纪轻轻却聪明绝顶-优快云博客

原创菜鸟先飞之sqoop环境搭建以及jar包依赖

文件准备下载到本地sqoop-1.4.6-cdh5.14.2.tar.gz拖入安装目录并解压tar -zxfsqoop-1.4.6-cdh5.14.2.tar解压文件重命名mvsqoop-1.4.6 sqoop配置环境变量vi /etc/profileexport SQOOP_HOME=/opt/install/sqoopexport PATH=$SQOOP_HOME/bin:$PATH切换至配置文件目录cd /opt/install/sqoop/conf...

2020-09-03 15:06:33 1803

原创菜鸟先飞之初识Hive、安装教程及常见问题

一、初识Hive1、什么是Hive?Hive是基于Haddop的数据仓库工具，可以将结构化的数据文件映射为一张数据库表并提供SQL查询功能，可以将SQL语句转换MapReduce任务运行。Hive提供了一系列的工具，可以给用来数据提取转换加载（ETL）是一种存储、查询和分析存储在Hadoop中的大规模数据的机制2、Hive发展历史及版本2007年8月 – 始于Facebook2013年5月 – 0.11 Stinger Phase 1 ORC HiveServer220.

2020-07-08 00:37:41 1601

原创菜鸟先飞之Hadoop安装秘籍

2020-06-24 Hadoop秘籍配置VirtualBox新建一个虚拟机ps：步骤可参照我之前博客一、安装准备jdk-8u221-linux-x64.tarhadoop-2.6.0-cdh5.14.2.tar.gzps:如何配置jdk可参照我之前的博客jdk安装配置这里就不一一赘述了话不多说我们直接开始切换至software 文件目录： cd /software将准备好的文件拖入software 目录下将文件解压至 opt目录下：tar -zxf hadoop-2.6.0-cdh5

2020-06-24 13:55:04 500

原创菜鸟先飞之Linux-ELK集群的搭建

2020-06-19 Linux ELK集群的搭建1.复制虚拟机准备好三个虚拟机（复制两个）

2020-06-21 11:18:35 434

原创菜鸟先飞之Linux 安装 Jdk、Tomcat、MySQL和SVN

yum 命令：搜索命令：yum search 命令下载并安装：yum install -y 应用名卸载：yum remove 应用名rpm命令：需要先有rpm 包安装：rpm -ivh 安装包卸载：rpm -e 应用[--nodeps]查看：rpm -qa | grep -i 应用名（-i 为忽略大小写）安装jdk(tar.gz包)步骤（1）上传 jdk的安装包（2）tar -zxf jdk-8u221-linux-x64.tar.gz -C /opt/目标目录(解压安..

2020-06-17 23:48:57 427

原创菜鸟先飞之初识Linux操作系统

2020-06-16 Linux 操作系统服务器基本要求：稳定安全灵活性高常见操作系统中 windows 和 apple 操作系统是闭源的；安卓操作系统是开源的；Linux操纵系统是闭源的；常见的企业级操作系统;Windows Server、unix、LinuxLinux操作系统简介第一版 1969年AT&T在贝尔实验室实现1983年Richard Stallman发起了GNU计划来推进开放源代码的发展1991芬兰大学生Linux Torvalds在GPL条例下发布了Li

2020-06-17 08:34:50 599 1

原创菜鸟先飞之Kafka安装配置和一些基本操作

准备好安装包：kafka_2.11-2.0.0.tgz# 拖入本地并解压tar -zxf kafka_2.11-0.11.0.2.tgz# 改名mv kafka_2.11-0.11.0.2 kafka# 切换至kafka配置文件目录cd /opt/soft/kafka/config# 修改配置文件server.properties(消费者配置)vi server.properties# 若是集群则需要修改broker.id=0# 允许kafka可以删除topicdelete.to

2020-08-18 20:10:34 273

原创菜鸟先飞之Python、Jupyter Notebook、Anaconda安装以及代码自动补全插件配置

一、安装准备文件准备1、Anaconda3-2020.07-Linux-x86_64.sh2、Python-3.7.2.tar.xz3、Python-3.8.5.gz将三个文件拖入soft目录先将Python-3.8.5.gz 解压到当前目录：tar -zxf Python-3.8.5.tar.xz 给解压后的文件夹改个名：mv Python-3.8.5 Python安装相应的编译工具yum -y groupinstall "Development tools".

2020-08-10 20:20:13 808

原创菜鸟先飞之spark安装配置

接受了诸多软件的的毒打，想必spark算是简单的配置了，话不多说，让我们随便戳戳！一、安装准备1、首先检查是否安装了 jdk, 和版本是否符合要求。2、准备 spark-2.2.0-bin-hadoop2.7.tgz 安装文件3、将文件拖入专门安装软件的soft文件夹（这个可以随意）4、解压文件::tar -zxfspark-2.2.0-bin-hadoop2.7.tgz5、给文件改个名好吧：mvzxfspark-2.2.0-bin-hadoop2.7 spark...

2020-08-03 12:06:45 348

原创菜鸟先飞之Hadoop数据模型

一、Hadoop常用数据模型（文件存储格式）1、Text：文本文件通常采用CSV、JSON等固度长度的纯文本格式优点：（1）、便于与其他应用程序（生成或读取分隔文件）或脚本进行数据交换（2）、易读性好，便于理解缺点：（1）、数据存储量非常庞大（2）、查询效率不高（3）、不支持块压缩2、SequenceFile：（1）SequenceFile按行存储二进制键值对数据，HDFS自带 1）二进制文件直接将<Key,Value>序列化到文件中 2）...

2020-07-23 16:34:59 582

原创菜鸟先飞之Hive与Hbase

一、Hive与Hbase的集成1.1Hbase与Hive的对比1、Hive（1）数据仓库Hive 的本质其实就相当于将 HDFS 中已经存储的文件在 Mysql 中做了一个双射关系，以方便使用 HQL 去管理查询。（2）用于数据分析、清洗Hive适用于离线的数据分析和清洗，延迟较高（3）基于HDFS、MapReduceHive 存储的数据依旧在 DataNode 上，编写的 HQL 语句终将是转换为MapReduce 代码执行。2、Hbase（1）数据库是一种面向列存

2020-07-21 19:39:09 561

原创菜鸟先飞之Hbase进阶之路

Hbase是一个基于HDFS的面向列的分布式数据库，源于Google的bigTable论文。如果需要实时地随机访问超大规模数据集，使用Hbase是一个更好的选择。Hbase同样是采用Master/Slaves的主从服务器结构，它是由一个HMaster服务器和多个HReginServer服务器构成，而所有服务器都是通过Zookeeper协调并处理各服务器运行期间可能遇到的错误。HBase采用Master/Slave架构1）HMaster2）RegionServer3）Zookee..

2020-07-21 02:12:19 400

原创菜鸟先飞之Zeppelin安装配置

一、安装准备文件准备：zeppelin-0.8.1-bin-all.tgz准备一台虚拟机ps:搭建了Hive环境，且能正常运行的虚拟机具体操作详见https://blog.youkuaiyun.com/wangbenguixin/article/details/107192191切换至soft文件夹：cd /opt/soft将文件拖入opt下的soft文件夹解压文件夹至当前目录：tar -zxfzeppelin-0.8.1-bin-all.tgz二、配置Zepplin...

2020-07-12 18:19:21 509

原创菜鸟先飞之MySQL常用日期和时间函数

（1）CURDATE()、CURRENT_DATE()将当前日期按照"YYYY-MM-DD"格式返回SELECT CURDATE();（2）CURRENT_TIMESTAMP()、LOCALTIME()、NOW()、SYSDATE()这四个函数作用相同，返回当前日期和时间值，格式为"YYYY_MM-DD HH:MM:SS"SELECT NOW();（3）UNIX_TIMESTAMP()返回一个格林尼治标准时间1970-01-01 00:00:00到现在的秒数..

2020-07-06 00:46:53 414

原创菜鸟先飞之MySQL常用字符串函数

（1）CHAR_LENGTH(str)计算字符串字符个数SELECT CHAR_LENGTH('hello');（2）CONCAT(s1,s2，...)返回连接参数产生的字符串，一个或多个待拼接的内容，任意一个为NULL则返回值为NULL（3）CONCAT_WS(x,s1,s2,...)返回多个字符串拼接之后的字符串，每个字符串之间有一个xSELECT CONCAT_WS('x','a','b','c');（4）INSERT(s1,x,len,s...

2020-07-05 21:01:49 350

原创菜鸟先飞之MySQL常用数学函数

（1）ABS(x)返回x的绝对值SELECT ABS(-10);（2）PI()返回圆周率π，默认显示6位小数SELECT PI();（3）SQRT(x)返回非负数的x的二次方根SELECT SQRT(2);（4）MOD(x,y)返回x除以y后的余数SELECT MOD(2,4);（5）CEIL(x)、CEILING(x)返回不小于x的最小整数SELECT CEIL(2);（6）FLOOR(x)返回不大于x的最大整数SEL

2020-07-05 20:21:49 392

原创菜鸟先飞之Mapreduce（二）——combiner类、Partitioner

combiner类combiner是用来优化Mapreduce的，它可以提高Mapreduce的运行效率。在MapReduce作业运行过程中，通常每一个Map都会产生大量的本地输出，Combiner的作用就是在Map端对输出结果先做一次合并，以减少传输到Reduce端的数据量。在上一个博客里我们使用MapReduce实现了词频统计，接下来，我们使用combiner进行下优化1、新建一个WCCombiner类，代码直接复制WCReduce,中的代码就行，原因呢，很简单，因为combiner只有在数

2020-07-05 12:27:24 429

原创菜鸟先飞之MapReduce(包含词频统计等实例及我踩过的惊雷)

MapReduce是一个分布式计算框架起源于Google它将大型数据操作作业分解为可以跨服务器集群并执行单个任务适用于大规模数据处理场景每个节点处理存储在该节点的数据每个job包含Map和Reduce两部分分而治之简化并行计算的编程模型构建抽象模型：Map和Reduce开发人员专注于实现Mapper 和Reducer 函数隐藏系统层细节优点：易于编程：实现接口就能完成一个分布式计算框架可扩展性强高容错性高吞吐量：处理的数...

2020-07-02 07:41:45 936

原创菜鸟先飞之Hadoop分布式文件系统HDFS（一）

一、了解HDFSHDFS，即分布式文件系统，是指文件系统管理的物理资源不一定直接连接在本地节点上，而是通过计算机网络与节点相连。它允许将一个文件通过网络在多台主机上以多副本的方式进行存储，实际上是通过网络来访问文件，而用户和程序看起来却像是访问本地的文件系统一样。HDFS优点：高容错性：HDFS上传的文件会自动保存多个副本，一个副本丢失，HDFS的副本机制会自动复制其他机器上的副本适合大数据处理流式数据访问：文件一旦写入，就不能修改只能增加，提高I/O性能可构建在廉价...

2020-07-01 06:44:52 507

原创菜鸟先飞之Hadoop 秘籍（三）Zookeeper 、Hive、Hbase、Docker、MySQL

一、安装准备hadoop-2.6.0-cdh5.14.2.tar.gzhadoop-native-64-2.6.0.tarhbase-1.2.0-cdh5.14.2.tar.gzhive-1.1.0-cdh5.14.2.tar.gzMySQL-client-5.6.46-1.el7.x86_64.rpmMySQL-server-5.6.46-1.el7.x86_64.rpmzookeeper-3.4.6.tar.gzjdk-8u221-linux-x64.tar.gzm.

2020-06-29 00:16:31 711 1

原创菜鸟先飞之Elasticsearch应用

2020-06-23连接上集群后现在我们来使用 ELASTICSEARCH进行学习-ES数据模型Index：索引，由多个Document组成Type：索引类型，6.x中仅支持一个，以后将逐渐被移除Document：文档，由多个Field组成Field：字段，包括字段名与字段值-文档元数据：_index：索引名_type：索引类型_id：文档编号_version：文档版本号用于并发控制_score：在搜索结果中的评分集群连接完毕后，打开浏览器输入：master的IP地址进行连接先按

2020-06-24 07:22:04 444

原创菜鸟先飞之JAVA之数组（包含冒泡排序、插入排序、二分法）

一、数组在内存空间划出一串连续的空间（数组是一个变量，存储相同数据类型的一组数据）数组基本要素：1、标识符：驼峰命名规则——>数组名2、数组元素 ——>值3、元素下标：从0开始，数组中的每个元素都可以通过下标来访问4、元素类型：数组中所有元素数据类型相同——>类型（Object[]//最大的数据类型）5、数组长度（0~长度-1 ——为元素下标）数组名.length（数组长度固定不变，避免数组越界）二、使用数组的步骤1、声明数组（就是在内存空间划出一层房

2020-06-22 03:09:49 413

原创菜鸟先飞之JAVA选择结构与循环结构简述

一、选择结构1、普通的选择结构可以处理单一或组合条件的情况 public class Xue2{ public static void main(String[] args) { String name="张三"; //控制台分别输入张三和张浩得成绩 Scanner input=new Scanner(System.in); System.out.println("请输入张三的java...

2020-06-21 21:53:19 386

原创菜鸟先飞之ELK安装配置

ES安装前的准备(elk安装包版本要求一致)准备五个jar包一个zip压缩包1、elasticsearch-6.2.2.tar.gz2、elasticsearch-head-master.zip3、kibana-6.2.2-linux-x86_64.tar.gz4、logstash-6.2.2.tar.gz5、node-v8.9.1-linux-x64.tar.gz6、jdk-8u221-linux-x64.tarcd /返回家目录mkdir software ..

2020-06-19 02:01:19 439

原创菜鸟先飞之依赖注入

Loc与Aop继配置过了Spring环境之后，我们来了解下依赖注入一、关于构造注入1、即set注入：前提是实体类中必须存在set方法（即所谓的依赖，否则报红，无法给属性赋值）；<bean id="user1" name="user2" class="cn.kgc.kb07.entity.User"> <property name="userName" value="王老七"/></bean>注意值得注意的是：实体类的实现了带参方法后，无参构造不再默认提供

2020-06-16 08:31:59 440

望、本归心的博客