
BigData_Work
文章平均质量分 60
记录已经发⽣的
描述正在发⽣的
预测将要发⽣的
aju20
2025
展开
-
Hadoop框架中Mapreduce常见问题解析
问题描述MapReduce是一个运行在分布式文件系统上的一个并行计算框架。它的核心思想可以简单概述成一句话:移动计算而非移动数据,分而治之。你怎么理解移动计算而不移动数据?答:就是将写好的业务逻辑和mapreduce自带的一些组件打包成计算程序,移动到有数据存储的节点上,利用多节点的CPU的并发能力,提高计算效率。 mapreduce是分为两个阶段,map阶段处理的是块文件(原始文件),计算后的结果存储到本地磁盘;reducer阶段要跨节点fetch属于自己要处理的数据,计算后的结果存...原创 2021-09-01 00:19:56 · 762 阅读 · 0 评论 -
Linux常用命令
1.vi脚本快键键移动:# 要加shift键:#H:移动到当前屏幕的最上一行的行首 --header#M:移动到当前屏幕的中间一行的行首 --中间M#L: 移动到当前屏幕的最下一行的行首 --Leavegg:移动到这个文件的第一行,相当于1G (常用) --同HG:移动到这个文件的最后一行(常用) --同L删除单个字符:小x: --向后删除一个字符大X: --向前删除一个字符 nx: --n为数字,连续向后删除n个字符。删除:以行为单位.原创 2021-09-28 22:53:55 · 185 阅读 · 0 评论 -
Scala语言基础
Scala是什么?Scala的预期目标是将面向对象、函数式编程和强大的类型系统结合起来,同时让人要能写出优雅、简洁代码。scala采用了java语言的大部分语法,表达式、语句、和代码块和Java一样,还有类、包和引用的语法Scala的语言特点?1. 面向对象的语言2. 面向函数式编程的语言3. 静态的语言4. 扩展性良好5. 支持Actor并发模型(多线程)scala编程语言的规范?4. scala的语法缩进要使用空格、不要使用tab键7. 空行的目的,用于逻原创 2021-10-12 23:37:51 · 298 阅读 · 0 评论 -
Spark 使用局部聚合+全局聚合解决数据倾斜问题
Spark中的数据倾斜问题主要指shuffle过程中出现的数据倾斜问题,是由于不同的key对应的数据量不同导致的不同task所处理的数据量不同的问题。例如,reduced端一共要处理100万条数据,第一个和第二个task分别被分配到了1万条数据,计算5分钟内完成,第三个task分配到了98万数据,此时第三个task可能需要10个小时完成,这使得整个Spark作业需要10个小时才能运行完成,这就是数据倾斜所带来的后果。import org.apache.spark.rdd.RDDimport .原创 2021-10-27 23:49:08 · 349 阅读 · 0 评论 -
常用正则表达式汇总-附带详解案例
-常用字符 -主要作用 -备注 \ \ 反斜线 \ 一个\是转义 [abc] a、b、c简单类 [ ]表示闭区间 [^abc] 任何字符,除了a、b或c(否定) [a-zA-Z] a到z或A到Z,两头的字母包括在内(范围) [a-d[m-p]] a到d或m到p:[a-dm-p](并集) [a-z&&[def]] d、e或f(交集) [a...原创 2021-10-25 00:14:18 · 143 阅读 · 0 评论