BubbleMa-优快云博客

原创 Hadoop-HA

一、集群五种安装模式1. 单机2. 伪分布式3. 完全分布式一个主节点，一个冷备份节点存在单点故障问题4. 高可用多个主节点，多个从节点，从一时刻只有一个active主节点提供服务，主节点仍然是一台机器的性能，主节点压力过大。5. 联邦块池：联邦模式中标志数据块的管理权限同一时间多个主节点提供服务，多个namenode依赖于块池id区分数据归属多个namenode共同...

2022-03-24 15:23:00 316

原创 Yarn mr1.0

资源调度：主从jobtracker:1. 负责mr任务的资源调度，分配资源2. 启动mr任务3. 监控当前mr任务的执行进度和状态1）jobtracker没有高可用配置方案，存在单点故障问题2）jobtracker压力过大，既要负责资源分配，又要负责应用程序的跟踪tasktracker:将资源分为mapslot和reduceslot，资源严重浪费1. jobtracker单点故障2. jo...

2022-03-22 14:50:33 277

原创 HA集群两个standby

关闭集群任意namenode节点上初始化zkfchdfs zkfc -formatZK启动集群

2021-12-24 17:47:20 1037

一、概述Sqoop 是 Apache 旗下一款“ Hadoop 和关系数据库服务器之间传送数据 ”的工具，实现大数据平台与关系型数据库之间的数据迁移。导入 import：关系型数据库导入数据到大数据平台导出 export：大数据平台数据导出到关系型数据库Sqoop的本质是一个命令行工具，将数据迁移的命令转化为MR程序。传统MR程序的输入输出都是HDFS，Sqoop底层只需重新定义输入 InputFormat 和输出 OutputFormat，以实现从关系型数据库读取数据和向关系型数据库写入数

2021-12-17 15:47:46 1747

原创 Zookeeper(二)

一、Zookeeper原理解析1、集群角色描述角色描述领导者（Leader） Leader负责进行投票的发起和决议，更新系统状态；处理客户端的读写请求(为了保证最终一致性，所有写请求都由Leader处理) 学习者（Learner）跟随者（Follower） Follwer用于接收客户端的请求并向客户端返回结果； Follwer在选主的过程中参与投票。观察者（Observer） Observer

2021-12-16 23:04:28 809

原创 Zookeeper(一)

zookeeper介绍

2021-12-16 19:03:58 1226

原创 mac mysql无法启动 mac ERROR 2002 (HY000): Can‘t connect to local MySQL server through socket ‘/tmp/mysq

大概率因为关闭电脑没有正常关闭mysql1. 停止mysql服务sudo mysql.service stop若不能正常关闭，则查看mysqld进程号kill掉ps -ef | grep mysqldkill -9 进程号2. 开启mysql服务sudo mysql.service startmysql -uroot -p...

2021-12-15 20:30:19 791

原创 Hive(五) -- Hive执行流程、数据倾斜和优化

Hive的数据倾斜实际上就是MR的数据倾斜

2021-12-14 19:38:23 1668

原创 Hive(四) -- 数据类型、函数、json、多字节分隔符、窗口函数

一、函数1、内置函数查看内置函数：show functions 查看某一内置函数信息：desc function extended fname 常用内置函数： 1. 集合函数 map：生成map集合。参数必须是偶数个，奇数位看做key，偶数位看做value array：生成数组 ...

2021-12-14 19:37:25 686

原创 Hive(三) -- dml

一、插入1. load load data [local] inpath '/../..' [overwrite] into table tname [partition(partcol1=val1,...)]; 1）从本地加载使用local关键字加载本地的数据，实质是将本地数据上传到HDFS中Hive表的目录下。 2）从HDFS加载加载HDFS上的数据，此时会将数据移动到Hiv...

2021-12-14 16:03:28 961

原创 Hive(二) -- ddl

Hive支持标准SQL，同时又有自己的特点，属于方言版SQL。Hive的ddl主要包含对于数据库和表的查询、创建和删除。dml包含数据查询和插入，其中插入有load和insert两种方式，针对于4种表的特点有不同的插入方式。一、ddl : data define language库：创建库：create database dname; 切换库：use dname; 查询库列表：show database; show...

2021-12-14 14:51:24 1261

原创 Hive(一)

一、产生背景 Hive 由 Facebook 实现并开源，是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据映射为一张数据库表，并提供 HQL(Hive SQL)查询功能，底层数据是存储在 HDFS 上。Hive 的本质是将 SQL 语句转换为 MapReduce 任务运行，使不熟悉 MapReduce 的用户很方便地利用 HQL 处理和计算 HDFS 上的结构化的数据，适用于离线的批量数据计算。Hive 依赖于 HDFS 存储数据，Hive...

2021-12-14 13:49:21 1232

原创 Hadoop(七) -- Yarn

一、Yarn概述资源调度器，负责计算程序的资源调度。Yarn采用主从架构，主节点RecourceManager，从节点NodeManager。1. ResourceManagerResourceManager是基于应用程序对集群资源的需求进行调度的YARN集群主控节点，负责协调和管理整个集群（所有nodemanager的资源），相应用户提交的不同类型应用程序的解析，调度，监控等工作。ResourceManager为每个Application启动一个MRAppMaster，并且...

2021-12-13 22:24:48 879

原创 Hadoop(六) -- MapReduce（四）join

MapReduce, map join, reduce join

2021-12-13 18:32:23 381

原创 Hadoop(五) -- MapReduce（三）shuffle

mepreduce共三个模块，map、shuffle、reduce。map端读取数据并将数据映射为键值对发送给ruduce端，在发送过程中会进过一个shuffle过程（分区、排序、分组），数据先按分区规则进行分区，分区后再对每个分区中的数据进行排序，最后再对排序后的数据进行分组（相同key的为一组）。经过shuffle之后，数据已经分为了不同的区，每个区中的数据已经排好序传入reduce端，reduce端每次读入一个组的数据进行处理。一、排序当map端发送的key是自...

2021-12-13 17:04:51 515

原创 Hadoop(四) -- MapReducer（二）maptask和reducetask并行度

一、MapTask的并行度运行map部分的任务叫做maptask，并行度是指同时运行的maptask的任务个数。maptask处理的数据量对应于一个文件切片，每个maptask处理一个文件切片大小的数据。 MapReducer任务运行时通过 FileInputFormat 类传入输入数据文件，该类在读取文件时会调用 getSplit() 方法对文件进行逻辑切片。 getSplit() 部分源码如下，当使用默认配置时切片大小默认等于HDFS分块大小1...

2021-12-10 18:52:38 912

原创 Hadoop(三) -- MapReduce（一）WordCount

一、设计思想移动计算代替移动数据。分而治之。MapReduce是一个分布式计算框架，借助函数式编程思想，用Map和Reduce两个函数编程实现基本的并行计算任务。MapReducer内部封装了文件读取操作，用户在使用时只需要继承Mapper和Reducer类并实现map和reduce两个方法（相当于将自己的业务逻辑作为参数传入MapReducer框架）即可实现大数据分布式计算。 MapReduce计算模型主要由三个阶段构成：Map、shuffle...

2021-12-10 17:44:17 874

原创 Hadoop(二) -- HDFS

一、设计思想 1. 分块存储文件在hdfs中采用分块方式存储，hadoop2中数据块默认大小为128M。每个文件在hdfs中存储时被切分成多个大小相同的块，若数据大小不足128M也按照128M进行存储。 2. 备份存储 hdfs底层采用空间换取数据安全，每个数据块会复制多个副本存储在不同的节点上。多个副本之间互为备份，没有主次之分。 3. 元数据记录...

2021-12-06 17:27:24 1194

原创 Hadoop(一)

一、大数据相关概念 1. 集群很多机器共同完成一个任务，多台机器叫做一个集群，每一个机器叫做一个节点。 2. 分布式一个任务被分成多个小任务，每个机器只负责一个小任务，这个任务的执行就是分布式执行。 3. 负载均衡同一个集群中的每一个节点分担的任务相等二、Hadoop模块 1. common ...

2021-12-06 16:27:15 243

原创 linux执行python脚本

1. 查看python路径which python2. .py文件头部标注解释器#!/usr/bin/python3. 执行脚本文件./file_name.py

2021-12-01 18:49:34 1256

转载最近邻插值python实现

插值原理：将原图像像素值提取出来赋值给新图像设原图像像素点坐标分别为 (src_x, src_y)，目标图像像素点坐标为 (tar_x, tar_y)，插值的核心就是找到这两张图像坐标之间的映射关系。最邻近插值采用将目标图像按比例缩小，找到与目标图像最邻近的点建立映射关系。下面是实现的python代码import numpy as npfrom PIL import Imagedef nearest(image, target_size): """ Nearest

2021-09-01 22:17:10 1668

转载 chrome 浏览器被贵单位管理被yahoo劫持

最近不知道怎么了，突然chrome 浏览器就被劫持了，也无法修改默认的搜索引擎，并且显示被贵单位管理。网上找了一堆解法都没有用，https://www.zhihu.com/question/342820093在这个链接里Montaigne的回答：在系统偏好设置-> 描述文件（辅助功能旁边），找到针对 chrome 的配置，删除相应的文件完美解决.........

2019-12-27 16:02:29 2358

原创记一次手作-----然后ha集群崩了。。。zookeeper也崩了

原因：因为在配置zookeeper的时候，有个文件保存位置的地方忘记配置了，用的是默认的，所以每次在哪儿执行的zkServer.sh 的命令时，就在当前目录生成了zookeeper.out的日志文件，我还很强迫症，，，虽然ha集群已经搭好了，也用了好久，但是我还是想着把zookeeper的配置文件改了。后来ha集群就崩了（一直都是两个standby，没有active）看日志就说是connectio...

2018-08-19 16:02:04 427

原创 MapReduce面试题---空箱、冰调、洗衣机系列(不走寻常路系列)

现有这些一些输入数据1 0家电2 0服装3 0食品4 1洗衣机5 1冰箱6 2男装7 2女装8 3零食9 3水果10 4美的11 5海尔12 6衬衫13 7蓬蓬裙14 8牛奶15 14特仑苏要求输出数据为（前面一栏是自己编号，后面一栏是父节点的编号，再后面是自己的名字）家电洗衣机 - 美的家电冰箱 - 海尔服装男装 - 衬衫服...

2018-08-17 21:16:16 843

原创一个经典面试题

据说有五个不同颜色的房间排成一排，每个房间里分别住着一个不同国籍的人，每个人都喝一种特定品牌的饮料，抽一种特定品牌的烟，养一种宠物，没有任意两个人抽相同品牌的香烟，或喝相同品牌的饮料，或养相同的宠物。问题是谁在养鱼作为宠物？为了寻找答案，爱因斯坦给出了以下 15 条线索。英国人住在红色的房子里；瑞典人养狗作为宠物；丹麦人喝茶；绿房子紧挨着白房子，在白房子的左边；绿房子的主人...

2018-08-17 20:11:51 454

转载 Eclipse中Outline里各种图标的含义

转自：http://www.cnblogs.com/qdwyg2013/p/6489019.html转自：https://blog.youkuaiyun.com/frankarmstrong/article/details/61520279先说颜色：绿色：public 黄色：protected 蓝色：no modifier 红色：private...

2018-07-23 20:40:20 366

BubbleMa