- 博客(21)
- 收藏
- 关注
原创 Hive小文件优化
hive优化参考文档参考文档参考文档小文件优化小文件产生的原因动态分区插入数据,产生大量小文件,从而导致map数量剧增reduce数量越多,小文件也可能越多(reduce的数量等于输出文件的数量)数据源本身包含大量的小文件小文件的影响从hive的角度,小文件过多会启动很多map,一个map就是一个JVM进程,这些任务初始化,启动,执行会浪费大量的资源,严重影响性能在hdfs中,每个小文件对象的元数据信息大约150byt。如果小文件过多会占用大量内存。这样NameNode内存容量严
2022-09-06 16:22:22
734
原创 HDFS搭建集群
集群启动顺序ZK集群Hadoop集群Hadoop HA集群搭建集群架构bigdata01bigdata02bigdata03namenode1namenode2datanodedatanodedatanodejournal nodejournal nodejournal nodezkfczkfczkfcresourcemanager1resourcemaneger2nodemanagernodemanagernodem
2021-04-06 15:56:58
432
原创 Linux ntp时间服务器
文章目录时间同步安装ntp服务配置详解 /etc/ntp.conf配置ntp服务启动ntp,设置开机自启动查看状态时间同步安装ntp服务yum –y install ntp配置详解 /etc/ntp.confrestrict作用:对ntp做权限控制ignore:忽略所有类型的NTP连接请求nomodify:限制客户端不能使用命令ntpc和ntpq来修改服务器端的时间noquery:不提供NTP网络校时服务notrap:不接受远程登录请求notrust:不接受没有经过认证的客户端的
2021-03-23 10:43:38
523
1
原创 Ambari简介&安装
简介Apache Ambari是一种基于Web的工具,支持Apache Hadoop集群的供应、管理和监控。Ambari目前已支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeper、Sqoop和Hcatalog等。Apache Ambari 支持HDFS、MapReduce、Hive、Pig、Hbase、Zookeper、Sqoop和Hcatalog等的集中管理。也是5个顶级hadoop管理工具之一。就 Ambari 的作用来说,就是创建、管理、
2021-01-09 21:52:57
3359
原创 Sqoop安装教程及使用
Sqoop安装Sqoop从MySql导入HDFS中命令语法:sqoop import (控制参数) (导入参数)命令元素:导入操作,数据源,访问控制,导入控制,目标地址导入数据之前需要将驱动jar放入Sqoop安装文件夹下的lib中进行导入sqoop import \--connect jdbc:mysql://ip:3306/test_database \--driver com.mysql.jdbc.Driver \--username root \--password 12
2020-12-01 18:42:17
270
原创 Java编程基础篇
目录计算机、程序和Java概述计算机组成计算机、程序和Java概述计算机组成中央处理器(cpu)内存(主存)存储设备输入设备输出设备通信设备
2020-10-09 09:22:17
417
原创 Python使用国内镜像源
国内源清华:https://pypi.tuna.tsinghua.edu.cn/simple阿里云:http://mirrors.aliyun.com/pypi/simple/中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/华中理工大学:http://pypi.hustunique.com/山东理工大学:http://pypi.sdutlinux.org/豆瓣:http://pypi.douban.com/simple/临时使用pip insta
2020-08-31 16:24:51
500
原创 Python
目录安装安装下载地址安装(记得添加Path)# 查看Python安装版本C:\Users\ThinkPad>python -VPython 3.5.0
2020-08-20 16:19:25
357
原创 Crontab定时任务
crontab [-u user] filecrontab [-u user] [ -e | -l | -r ]注:-u user:用于设定某个用户的crontab,此参数一般由root来运行,不指定的默认情况下是当前登陆的用户file:是命令文件的名字,表示file作为crontab的任务列表文件并载入crontab,若未指定将接受键盘上键入的命令-e:进入当前用户的定时任务文件编辑模式-l:显示当前用户的定时任务文件-r:删除当前用户的crontab文件,也可-u删除指定用户的-i:..
2020-08-04 16:58:01
248
原创 Git使用教程
文章目录使用初始化git查看配置修改配置核心概念基本操作创建版本库git initaddgit statuscommitcheckoutdiffresetgit远程仓库github使用学习资料: https://git-scm.com/book/zh/v2初始化git查看配置$ git config --listcore.symlinks=falsecore.autocrlf=truecore.fscache=truecolor.diff=autocolor.status=autoco
2020-07-06 14:15:42
453
原创 Linux Centos 7下静默安装Oracle11gR2
Linux Centos 7下静默安装Oracle11gR2准备工作在网上搜索的是Centos7确认主机名称一致[root@ora11g ~]# vim /etc/hosts192.168.134.159 ora11g上传数据库安装的压缩文件[root@ora11g ~]# ll-rw-r--r-- 1 root root 1239269270 Apr 25...
2020-06-29 20:10:15
289
原创 Linux环境下安装Mysql
Mysql安装解压安装包:[root@ora11g ~]# tar -zxvf mysql-5.7.26-linux-glibc2.12-x86_64.tar.gz移动到 /usr/local[root@ora11g ~]# mv mysql-5.7.26-linux-glibc2.12-x86_64 /usr/local# 修改名称[root@ora11g local...
2020-06-29 20:09:54
218
原创 Flink中Tuple类型
Types.TUPLE(TypeInformation.of(Long.class),TypeInformation.of(Integer.class));
2020-06-22 19:54:48
3146
2
原创 ES笔记(一)
文章目录基础入门为了搜索安装并运行Elaticsearch安装Sense和ES的交互Java API节点客户端(Node client)传输客户端(Transport client)RESTful API with JSON over HTTP面向文档JSON创建一个雇员目录索引员工文档检索文档轻量搜索使用查询表达式搜索更复杂的搜索全文搜索短语搜索高亮搜索分析基础入门英文文档中文文档Elasticsearch 是一个实时的分布式搜索分析引擎,它能让你以前所未有的速度和规模,去探索你的数据。 它被用.
2020-06-19 09:54:33
722
原创 YARN基础教程
概述YRAN (Yet Another Resource Negotiator)Yarn是一个分布式的资源管理系统,用于提高分布式的集群环境下的资源利用率,这些资源包括内存、IO、网络、磁盘等。其产生的原因是为了解决原MapReduce框架的不足。最初MapReduce的committer还可以周期性的在已有的代码上进行修改,可是随着代码的增加以及原MapReduce框架设计的不足,在原MapReduce框架上进行修改变得越来越困难,所以MapReduce的committer决定从架构上重新设计MapR
2020-06-12 09:37:53
523
原创 Flink Sink Hbase
Flink将数据落地HbaseFlink主类package flink.sink2hbase;import flink.sink2hbase.deserialization.JsonDeserializationSchema;import flink.sink.HbaseSinkFunction;import flink.sink2hbase.map.HTableBaseMap;import flink.sink2hbase.table.UserHTable;import org.apach
2020-06-11 10:41:52
1446
原创 HDFS
概述hdfs(Hadoop Distribute File System)是分布式文件系统,分布式文件系统是指文件系统管理的物理存储资源不一定直接链接在本地节点上,而是通过计算机网络与节点相连,可让多机器上的多用户分享文件和存储空间分布式文件系统的特点:分布式文件系统可以有效解决大数据的存储和管理难题将固定于某个地点的某个文件系统,扩展到任意多个地点/多个文件系统众多的节点组成一个文件系统网络每个节点可以分布在不同的地点,通过网络进行节点间的通信和数据传输在使用分布式文件系统时,无需关心数据
2020-06-09 23:09:59
292
原创 Hadoop
Hadoop生态圈HDFS:Hadoop Distributed File System作为Hadoop生态体系中数据的存储,分布式文件系统MapReduce:Hadoop中分布式计算框架,对海量数据进行并行分析和计算Hbase:基于HDFS的列式存储的Nosql数据库Hive:是一款SQL解释引擎,能够将Sql转换成为MR代码Flume:分布式日志采集系统,用于收集海量的日志数据,并将其存储在HDFS中Kafka:消息队列,实现对分布式应用程序间的解耦和,数据缓冲Zookeeper:分布式
2020-06-08 23:01:40
161
原创 SQL开窗函数
窗口函数的语法:开窗函数支持分区、排序、和框架三种元素,语法格式如下OVER ( [ <PARTITION BY clause> ] [ <ORDER BY clause> ] [ <ROW or RANGE clause> ] ) <PARTITION BY clau...
2020-05-05 17:17:43
182
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人