
bigdata
文章平均质量分 85
smallumbrella
前进--缓慢而坚定
展开
-
Scala中的函数式编程与面向对象编程知识点复习整理(二)——面向对象编程
面向对象基础概述Scala是一门完全面向对象的语言,摒弃了Java中很多不是面向对象的语法,虽然如此,但其面向对象思想和Java的面向对象思想还是一致的。package在java中 作用 分类管理(实体类,demo类等区分) 区分类(防重名) 包访问权限 语法 com.xxx.yyy.zzz scala中的基本语法和java一致 扩展语法 Scala中包和类的物...原创 2022-03-15 15:32:29 · 766 阅读 · 2 评论 -
Scala中的函数式编程与面向对象编程知识点复习整理(一)——函数式编程
对知识点的回顾。原创 2022-03-15 14:56:13 · 282 阅读 · 0 评论 -
HBase与Hadoop生态其他组件的联系
1.1 定义HBase是一种分布式、可扩展、支持海量数据存储的NoSQL数据库。分布式体现:底层存储在HDFS;集群中的Regionserver服务器也是分布式运行。可扩展体现:在建表的时候无需指定具体的列,在插入具体数据时指定;可以通过简单的增加机器来增加存储量。1.2 应用场景1. 写密集型应用,每天写入量巨大,而相对读数量较小的应用,比如IM的历史消息,游戏的日志等等2. 不需要复杂查询条件来查询数据的应用,HBase只支持基于rowkey的查询,对于HBase来说,单条记录或者小范原创 2022-03-04 17:03:55 · 3746 阅读 · 1 评论 -
Kafka的入门级API应用
文章目录1.Producer API1.1 消息发送流程1.2 异步发送API1.2.1 导入依赖1.2.2 添加log4j配置文件1.2.3 编写代码1.2.3.1 不带回调函数的API1.2.3.2 带回调函数的API1.3 自定义分区器2.Consumer API2.1 自动提交offset2.1.1 编写代码2.2 手动提交offset2.2.1 同步提交offset2.2.2 异步提交offset2.3 数据漏消费和重复消费分析3.自定义Interceptor3.1 拦截器原理如前所述,int原创 2022-01-07 09:10:12 · 1042 阅读 · 0 评论 -
我的数据你在哪?我用Flume采你啦
文章目录Flume官网学习目标Flume基础架构概述Agent 内部原理进阶案例1.复制2.负载均衡3.故障转移4.聚合5.多路复用面试题1.你是如何实现Flume数据传输的监控的?2. Flume的Source、Sink、Channel的作用?你们的Source是什么类型?3.Flume的Channel Selectors4.Flume参数调优5.Flume的事务机制6.Flume采集数据会丢失吗?美团日志系统架构设计读后小结架构设计需要考虑的几个方面可用性(availablity)可靠性(reliabi原创 2021-12-24 10:09:20 · 594 阅读 · 21 评论 -
Hive之从理论到实战(三)
文章目录说在前面第一题难点数据准备实战之路需求一:统计出每个用户的每月访问次数及累计访问次数1:修改月份格式2:根据第一步的结果集求出每个用户的每月访问次数3:根据2求出每个用户的累计访问次数第二题难点数据准备实战之路需求一:每个店铺的UV(访问数)需求二:每个店铺访问次数top3的访客信息。输出店铺名称、访客id、访问次数1 首先获取每个店铺的访客信息2 获取rank3 获取top3第三题难点数据准备实战之路需求一:1 查找 日期小于等于10月1日的信息2 根据1的结果 查找 每个用户的总能量group原创 2021-12-11 11:40:38 · 2028 阅读 · 3 评论 -
Hive之从理论到实战(二)
第五章 查询了解一下语法先:SELECT [ALL | DISTINCT] select_expr, select_expr, ... FROM table_reference [WHERE where_condition] [GROUP BY col_list] [ORDER BY col_list] [CLUSTER BY col_list | [DISTRIBUTE BY col_list] [SORT BY col_list] ] [LIMIT number]原创 2021-12-10 16:05:53 · 2255 阅读 · 0 评论 -
Hive之从理论到实战(一)
大数据的魅力,总让人深陷其中哇!原创 2021-12-10 11:11:40 · 3124 阅读 · 9 评论 -
一些Zookeeper面试题
监听器原理首先存在一个Main()线程。在main线程中创建Zookeeper客户端时会创建两个线程,一个负责网络连接通信(connect),一个负责监听(listener)。通过connect线程将注册的监听事件发送给Zookeeper。Zookeeper将获取到的监听事件加入到监听列表中.Zookeeper将数据变化的这个消息发送给listener线程。listener线程内部调用了process()方法,负责采取相应的措施。选举机制(1)半数机制:集群中原创 2021-11-29 11:30:10 · 86 阅读 · 1 评论 -
关于Hadoop优化的那些不得不唠的事儿
文章目录Hadoop数据压缩概述MR支持的压缩编码压缩性能的比较Hadoop企业优化MapReduce瓶颈优化方法数据输入Map阶段Reduce阶段I/O传输数据倾斜问题Hadoop小文件优化方法小文件弊端优化的方向Hadoop数据压缩概述压缩是提高Hadoop运行效率的一种优化策略,通过对Mapper、Reducer运行过程的数据进行压缩,能够减少IO开销,提高MR程序运行速度,但同时也增加了CPU运算负担。因此它适用于IO密集型的job,不适合运算密集型的job。MR支持的压缩编码原创 2021-11-25 19:50:13 · 587 阅读 · 0 评论 -
一张图连通Hadoop三大组件运行机制(HDFS、MapReduce、Yarn)
原来Yarn是这样贯通Hadoop的。原创 2021-11-22 19:50:58 · 876 阅读 · 1 评论 -
大数据数据倾斜问题及策略
前言数据倾斜是大数据开发中经常会遇到的问题,而且基本是面试中的必问考点,在面试中以及实际开发中,几乎天天面临的都是这个问题。本文是小鹏人工爬虫来的,希望能帮自己和我的读者们理解它!正文Hadoop中的数据倾斜概述在MapReduce编程模型中十分常见,用通俗易懂的话来说,数据倾斜无非就是大量的相同key被partition分配到一个分区里,造成了‘一个人累死,其他人闲死’的情况,这种情况是我们不能接受的,这也违背了并行计算的初衷,首先一个节点要承受着巨大的压力,而其他节点计算完毕后要一直等待这原创 2021-11-19 11:37:32 · 2597 阅读 · 13 评论 -
Mapreduce排序器对象获取规则源码分析
写在前面本篇博客背景 在使用Mapreduce程序时,不难看出Map阶段的输出键值对其实是默认按照字典排序的,而我们在使用该程序的时候也会因为需要满足某种需求自定义排序规则。当前我们有两种实现自定义排序的方式:两种实现自定义排序的方式直接让参与排序的对象实现WritableComparable接口,并在接口中实现compareTo方法,当运行的时候hadoop会自动帮助我们生成WritableComparator对象。具体可见下例:phoneBean.javapackage com.y原创 2021-11-15 14:58:59 · 1582 阅读 · 14 评论 -
为了了解Mapreduce切片机制,我开始了第一次源码探索......
文章目录说在前面人话模式1.探索前的热身2.探索ing源码说在后面说在前面 今天的视频在讲解源码,不出意外的我又在迷糊中听了大半,老师在后面摇了好几下我才醒,然后就被安排了一个伟大而艰巨的任务——学会自己看源码…… 怎么办呢?那就看嘛!在看之前我还不忘百度搜索一下看源码的好处。下方为知乎某大佬原话“我为什么读源码” 很多人一定和我一样的感受:源码在工作中有用吗?用处大吗?很长一段时间内我也有这样的疑问,认为哪些有事没事扯源码的人就是在装,只是为了提高他们的逼格而已。 那为什么我还要读源码呢原创 2021-11-12 23:37:30 · 1838 阅读 · 18 评论 -
Mapreduce入门--词频统计
前言本篇博客内容:使用Hadoop提供给Java的依赖和接口轻松实现Mapreduce词频统计程序的入门。工具:IDEA需求:统计《yxp》这首诗中每个单词和符号出现的次数诗的内容如下:yxp yxp how are you ?do you know how I miss you recently ?perhaps you are having a time that studying hard and living happily.But you should know that I st原创 2021-11-11 17:07:11 · 871 阅读 · 19 评论 -
如何打通HDFS任督二脉
文章目录用HDFS写数据流程图打通HDFS任督二脉角色开始打通……①HDFS文件块大小②机架感知(副本存储节点选择)③DATANODE工作机制④网络拓扑—节点距离计算Lastbutnotleast的知识点nn和2nn工作机制用HDFS写数据流程图打通HDFS任督二脉文字详解(1)客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。(2)NameNode返回是否可以上传。(3)客户端请求第一个 Block原创 2021-11-10 15:20:29 · 1212 阅读 · 0 评论 -
NAT和桥接模式的区别
前言在被问到桥接模式和NAT模式区别时,记忆中的它们在被调度出来的时候显得十分混乱,于是答得驴唇不对马嘴,故有此文。 ----2021年11月1日19:59:15正文桥接模式(bridged networking)概述在这样的模式下,VMWare虚拟出来的操作系统就像是局域网中一台独立的主机,它能够作为一台与物理主机相等地位的主机访问局域网内任意主机(包括它自身的物理机),因为它占用了该网段中一个独立的IP地址。各个主机间的关系如下图所示:原创 2021-11-01 22:18:39 · 412 阅读 · 0 评论 -
大数据技术之Shell工具详解
前言 也许漫漫长夜里带给你温暖的恰恰是那不会动情亦不会改变的代码。 —–2021年10月29日21:44:06文章目录正文整体思维导图Shell 概述脚本入门变量思维导图系统预定义变量**常用系统变量**自定义变量语法定义规则特殊变量$n功能描述注意示例$#功能描述示例$*功能描述示例$@功能描述示例$?功能描述示例运算符基本语法示例条件判断基本语法常用判断条件示例流程控制if 判断基本语法示例case 语句基本语法示例for循环基本语法示例read原创 2021-10-30 15:04:50 · 2322 阅读 · 0 评论 -
大数据技术之Linux(下)----Linux常用命令及参数详解
前言本篇博客主要介绍Linux系统中的大部分常用命令,其中有些是必会的,有些是做了解即可,用的机会不多,具体掌握程度需要读者自行把握。正文思维导图帮助类思维导图man 获取帮助信息1)基本语法man [命令或配置文件] (功能描述:获得帮助信息)2) 查看ls命令的帮助信息3)显示说明 信息 功能 NAME 命令的名称和单行描述 SYN...原创 2021-10-27 16:06:59 · 822 阅读 · 5 评论 -
大数据技术之Linux(上)
前言 越过了JAVASE基础这座大山之后,终于能够学习我最爱的大数据技术啦! 第一天学习的是Linux知识,那么----它是什么? 我们为什么要学习它? 又要怎么使用它呢?带着三个问题学下去,你会找到自己想要的答案。正文学习过程(上)思维导图概念Linux,全称GNU/Linux,是一种...原创 2021-10-22 11:43:45 · 1613 阅读 · 8 评论