
大数据
文章平均质量分 86
一些大数据周边的小知识
pub.ryan
专注于大数据
展开
-
hadoop 拾遗补缺(一) HDFS基础与客户端简单操作
1、HDFS特点:高容错性:允许集群中某些机器宕机影响正常的存储廉价性:对单台服务器要求不会太高,成本低安全性:一个数据有多个副本,即使某台机器宕机也不会造成数据丢失扩展性:集群可在工作状态下随时扩展增加容量元数据限制:为提升查找效率,它在namenode的内存中存储一份,在磁盘中也会存储一份备份,不要存储大量小文件,以免给namenode工作压力,且在分布式环境下,效率会非常低不可随机修改:在HDFS中文件不可以随机进行修改2、HDFS 存储:元数据基于内存存储,其数量局限于nameno原创 2021-01-03 23:27:46 · 227 阅读 · 0 评论 -
脚本任务调度azkaban使用
1.Azkaban 底层原理简述架构图:从上图可见,Azkaban集群部署模式,主要有3个核心的组件:Azkaban WebServer,是整个调度集群的核心,负责所有作业的管理和调度。Azkaban ExecutorServer,整个调度集群中实际运行作业的节点DB,是集群中所有节点运行共用的数据存储,包含作业信息、各种调度元数据等。2 Azkaban任务调度平台搭建1. 下载安装下载地址:http://azkaban.github.io/downloads.h..转载 2020-12-25 11:37:13 · 909 阅读 · 0 评论 -
spark访问Hive错误Error creating transactional connection factory
1、使用windows访问集群时,需要装utils位置:直接下载https://github.com/cdarlint/winutils 找到对应版本,并在windows环境变量中新建:HADOOP_HOME2、Error creating transactional connection factory其它配置请参见之前的一篇配置文章:spark02: 围绕Spark3.0.1为主Hadoop3.2、Mysql、Hbase2.3.3、Hive3.1.2、ZooKeepe...原创 2020-12-13 15:33:50 · 2742 阅读 · 0 评论 -
hive3.1.2远程连接报错hadoop is in safe, Tez找不到、Thrift 10000端口占用、hadoop AuthorizationException问题、hive后台运行
在连接远程hive时:hiveserver2报错:1、hadoop is in safejava.lang.RuntimeException: Error applying authorization policy on hive configuration: org.apache.hadoop.hdfs.server.namenode.SafeModeException: Cannot create directory /tmp/hive/root/c6dccd2b-0324-41d原创 2020-12-06 11:14:06 · 901 阅读 · 0 评论 -
zookeeper与spark在同一台机器上8080端口冲突解决
无法正常启动:[root@ryan data]# zkServer.sh startZooKeeper JMX enabled by defaultUsing config: /home/apps/zookeeper3.5.5/bin/../conf/zoo.cfgStarting zookeeper ... FAILED TO START看日志:2020-12-02 20:53:44,613 [myid:1] - ERROR [main:ZooKeeperServerMain@79原创 2020-12-02 20:54:53 · 708 阅读 · 0 评论 -
Flume 3:串联avro汇聚后传输到HDFS中
1、source采用avro source:级联多个agent之间的avro传输使用场景:跨机房多个Agent之间采用avro序列化方式进行数据传输首先配置上游:配置avro sink 发送者, 从c01上发送给c02先将flume安装复制到c02# 上游发送端c01:agent# 文件:tail-mem-avro.conf# 上游发送端c01:agent# 文件:tail-mem-avro.confa1.sources = s1a1.channe...原创 2020-11-10 16:27:01 · 329 阅读 · 2 评论 -
Flume 2 安装配置, telnet配置,常用source采集方式
1. 上传解压下载位置:https://archive.apache.org/dist/flume/1.9.0/ apache-flume-1.9.0-bin.tar.gz 2020-07-06 15:17 65Mtar -zxf apache-flume-1.9.0-bin.tar.gz -C appscp flume-env.sh.template flume-env.sh2、配置conf下flume-env.sh中入java路径:...原创 2020-11-09 18:05:28 · 670 阅读 · 0 评论 -
Flume1:基础知识、Agent架构、Channel/Sink传输拦截器与Put/Take传输事务控制
1. 基础知识 flume是一个实时数据采集工具,可以从各种各样的数据源(服务器)上采集用户行为、事件日志数据集中传输(汇聚)到大数据生态的各种存储平台中(hdfs,hbase,hive,kafka)1.1 flume的优势:可以高速采集数据,采集的数据能够以想要的文件格式及压缩方式存储在hdfs上 事务功能保证了数据在采集的过程中数据不丢失 部分Source保证了Flume挂了以后重启依旧能够继续在上一次采集点采集数据,真正做到数据零丢失1.2 flume的组成flum...原创 2020-11-09 12:23:29 · 1242 阅读 · 0 评论 -
akka-3 主从节点间的Heartbeat心跳机制与宕机移除
实现:心跳通信与宕机移除 1、客户机在连接master成功后创建一个定时器,每5秒发送一次心跳给master 2、master接收到客户端心跳后,查找对应的客户机,并根据当前时间更新一次内存中的客户机最近一次心跳时间 3、master主动在一启动时,创建一个定时器,检测当前内存中的客户机最近一次心跳时间是否超过10秒,若超过10秒还没有就从当前内存中移除最终效果:1、创建客户机信息类,记录当前的配置信息以及最后一次心跳机制时间 lastUpdateTime/** * W.原创 2020-11-01 12:41:57 · 533 阅读 · 0 评论 -
akka-2 利用模式匹配,实现worker节点向master报告本机配置信息
1、创建本机配置信息类* WorkInfo* Worker的本机信息类* id:主机名称 momery:内存大小 cores:CPU核数直接使用默认构造创建消息类/** * Worker的本机信息类 * id:主机名称 momery:内存大小 cores:CPU核数 */class WorkerInfo(val id: String, var memory: Int, var cores: Int) { override def toString: String .原创 2020-11-01 11:38:36 · 228 阅读 · 0 评论 -
akka-1 建立akka连接,并进行简单消息发送
<properties> <maven.compiler.source>1.8</maven.compiler.source> <maven.compiler.target>1.8</maven.compiler.target> <encoding>UTF-8</encoding> <scala.version>2.13.3</sca...原创 2020-11-01 09:50:38 · 348 阅读 · 1 评论 -
谷歌三篇论文之一Google文件系统
转自:http://blog.sina.com.cn/s/blog_4cc6846d0101sstl.html GFS是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。它运行于廉价的普通硬件上,但可以提供容错功能。它可以给大量的用户提供总体性能较高的服务。1、设计概览(1)设计思想 GFS与过去的分布式文件系统有很多相同的目标,但GFS的设计受到了当前及预期的应用方面的工作量及技术环境的驱动,这反映了它与早期的文件系统明显不同的设想。这就需要对传统的选择进行重转载 2020-09-25 20:06:54 · 902 阅读 · 0 评论 -
快速搭建Hadoop集群环境
相关环境与工具:vmware15, Centos7, JDK1.8, Xshell5, hadoop-3.1.1, zookeeper-3.4.6, hbase-2.2.5的环境搭建集群:三台,c01, c02, c03 分别运行的程序:hdfs:hbase:安装系统,搭建集群与Java环境配置规划:网关:GATEWAY:192.168.10.1IP:IPADDR:192.168.10.2(windows:开发客户端会用)|3(c01:Hadoop主节点)|4(c原创 2020-10-09 22:10:50 · 443 阅读 · 2 评论