月苍.-优快云博客

原创 Hive小文件优化

hive优化参考文档参考文档参考文档小文件优化小文件产生的原因动态分区插入数据，产生大量小文件，从而导致map数量剧增reduce数量越多，小文件也可能越多（reduce的数量等于输出文件的数量）数据源本身包含大量的小文件小文件的影响从hive的角度，小文件过多会启动很多map，一个map就是一个JVM进程，这些任务初始化，启动，执行会浪费大量的资源，严重影响性能在hdfs中，每个小文件对象的元数据信息大约150byt。如果小文件过多会占用大量内存。这样NameNode内存容量严

2022-09-06 16:22:22 833

原创 HDFS搭建集群

集群启动顺序ZK集群Hadoop集群Hadoop HA集群搭建集群架构bigdata01bigdata02bigdata03namenode1namenode2datanodedatanodedatanodejournal nodejournal nodejournal nodezkfczkfczkfcresourcemanager1resourcemaneger2nodemanagernodemanagernodem

2021-04-06 15:56:58 474

原创 Linux ntp时间服务器

文章目录时间同步安装ntp服务配置详解 /etc/ntp.conf配置ntp服务启动ntp，设置开机自启动查看状态时间同步安装ntp服务yum –y install ntp配置详解 /etc/ntp.confrestrict作用：对ntp做权限控制ignore：忽略所有类型的NTP连接请求nomodify：限制客户端不能使用命令ntpc和ntpq来修改服务器端的时间noquery：不提供NTP网络校时服务notrap：不接受远程登录请求notrust：不接受没有经过认证的客户端的

2021-03-23 10:43:38 644 1

原创 Ambari简介&安装

简介Apache Ambari是一种基于Web的工具，支持Apache Hadoop集群的供应、管理和监控。Ambari目前已支持大多数Hadoop组件，包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeper、Sqoop和Hcatalog等。Apache Ambari 支持HDFS、MapReduce、Hive、Pig、Hbase、Zookeper、Sqoop和Hcatalog等的集中管理。也是5个顶级hadoop管理工具之一。就 Ambari 的作用来说，就是创建、管理、

2021-01-09 21:52:57 3460

原创 Sqoop安装教程及使用

Sqoop安装Sqoop从MySql导入HDFS中命令语法：sqoop import （控制参数） (导入参数)命令元素：导入操作，数据源，访问控制，导入控制，目标地址导入数据之前需要将驱动jar放入Sqoop安装文件夹下的lib中进行导入sqoop import \--connect jdbc:mysql://ip:3306/test_database \--driver com.mysql.jdbc.Driver \--username root \--password 12

2020-12-01 18:42:17 327

原创 Hbase

安装环境HadoopZK

2020-11-18 11:19:10 167

原创 Java编程基础篇

目录计算机、程序和Java概述计算机组成计算机、程序和Java概述计算机组成中央处理器（cpu）内存（主存）存储设备输入设备输出设备通信设备

2020-10-09 09:22:17 492

原创 Python使用国内镜像源

国内源清华：https://pypi.tuna.tsinghua.edu.cn/simple阿里云：http://mirrors.aliyun.com/pypi/simple/中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/华中理工大学：http://pypi.hustunique.com/山东理工大学：http://pypi.sdutlinux.org/豆瓣：http://pypi.douban.com/simple/临时使用pip insta

2020-08-31 16:24:51 525

原创 Python

目录安装安装下载地址安装（记得添加Path）# 查看Python安装版本C:\Users\ThinkPad>python -VPython 3.5.0

2020-08-20 16:19:25 474

原创 Crontab定时任务

crontab [-u user] filecrontab [-u user] [ -e | -l | -r ]注：-u user:用于设定某个用户的crontab,此参数一般由root来运行,不指定的默认情况下是当前登陆的用户file:是命令文件的名字,表示file作为crontab的任务列表文件并载入crontab,若未指定将接受键盘上键入的命令-e:进入当前用户的定时任务文件编辑模式-l:显示当前用户的定时任务文件-r:删除当前用户的crontab文件，也可-u删除指定用户的-i:..

2020-08-04 16:58:01 294

原创 Kafka

无

2020-07-08 15:32:18 1391

原创 Git使用教程

文章目录使用初始化git查看配置修改配置核心概念基本操作创建版本库git initaddgit statuscommitcheckoutdiffresetgit远程仓库github使用学习资料: https://git-scm.com/book/zh/v2初始化git查看配置$ git config --listcore.symlinks=falsecore.autocrlf=truecore.fscache=truecolor.diff=autocolor.status=autoco

2020-07-06 14:15:42 503

原创 Linux Centos 7下静默安装Oracle11gR2

Linux Centos 7下静默安装Oracle11gR2准备工作在网上搜索的是Centos7确认主机名称一致[root@ora11g ~]# vim /etc/hosts192.168.134.159 ora11g上传数据库安装的压缩文件[root@ora11g ~]# ll-rw-r--r-- 1 root root 1239269270 Apr 25...

2020-06-29 20:10:15 324

原创 Linux环境下安装Mysql

Mysql安装解压安装包:[root@ora11g ~]# tar -zxvf mysql-5.7.26-linux-glibc2.12-x86_64.tar.gz移动到 /usr/local[root@ora11g ~]# mv mysql-5.7.26-linux-glibc2.12-x86_64 /usr/local# 修改名称[root@ora11g local...

2020-06-29 20:09:54 258

原创 Flink中Tuple类型

Types.TUPLE(TypeInformation.of(Long.class),TypeInformation.of(Integer.class));

2020-06-22 19:54:48 3210 2

原创 ES笔记(一)

文章目录基础入门为了搜索安装并运行Elaticsearch安装Sense和ES的交互Java API节点客户端(Node client)传输客户端(Transport client)RESTful API with JSON over HTTP面向文档JSON创建一个雇员目录索引员工文档检索文档轻量搜索使用查询表达式搜索更复杂的搜索全文搜索短语搜索高亮搜索分析基础入门英文文档中文文档Elasticsearch 是一个实时的分布式搜索分析引擎，它能让你以前所未有的速度和规模，去探索你的数据。它被用.

2020-06-19 09:54:33 785

原创 YARN基础教程

概述YRAN (Yet Another Resource Negotiator)Yarn是一个分布式的资源管理系统，用于提高分布式的集群环境下的资源利用率，这些资源包括内存、IO、网络、磁盘等。其产生的原因是为了解决原MapReduce框架的不足。最初MapReduce的committer还可以周期性的在已有的代码上进行修改，可是随着代码的增加以及原MapReduce框架设计的不足，在原MapReduce框架上进行修改变得越来越困难，所以MapReduce的committer决定从架构上重新设计MapR

2020-06-12 09:37:53 583

月苍的博客