
大数据
文章平均质量分 96
大数据系统学习
我不是靓仔ing
java学习路线每日更新,更新的文章内容及相关软件仅供学习交流,若使用商业用途,请购买正版授权,否则产生的一切后果将由下载用户自行承担。若有疑问,请私信。
展开
-
【大数据day17】——Hive数据仓库(数据库与数据仓库的区别,Hive 的基本概念, Hive 的安装, Hive 的安装,Hive 的基本操作1)
数据仓库-Hive1. 数据仓库1.1. 基本概念英文名称为Data Warehouse,可简写为DW或DWH。数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。数据仓库是存数据的,企业的各种数据往里面存,主要目的是为了分析有效数据,后续会基于它产出供分析挖掘的数据,或者数据应用需要的数据,如企业的分析性报告和各类报表等。可以理解为:面向分析的存储系统。1.2. 主要特征数据仓库是面向主题的(Subject-Oriented )、集成的(In原创 2021-04-01 15:21:27 · 958 阅读 · 0 评论 -
【大数据day16】——yarn【yarn的架构和工作流程,yarn的调度器,关于yarn常用参数设置】
yarn资源调度1.yarn的介绍: yarn是hadoop集群当中的资源管理系统模块,从hadoop2.0开始引入yarn模块,yarn可为各类计算框架提供资源的管理和调度,主要用于管理集群当中的资源(主要是服务器的各种硬件资源,包括CPU,内存,磁盘,网络IO等)以及调度运行在yarn上面的各种任务。yarn核心出发点是为了分离资源管理与作业监控,实现分离的做法是拥有一个全局的资源管理(ResourceManager,RM),以及每个应用程序对应一个的应用管理器(ApplicationMaste原创 2021-03-31 15:21:12 · 550 阅读 · 0 评论 -
【大数据day15】——自定义InputFormat合并小文件,自定义outputFormat订单评论分组,自定义分组求取topN
文章目录1. 自定义InputFormat合并小文件**1.1 需求****1.2 分析****1.3 实现****自定义InputFromat****自定义**RecordReaderMapper类:主类:2. 自定义outputFormat**2.1** **需求****2.2 分析****2.3 实现****第一步**:自定义MyOutputFormat**第二步**:自定义Mapper类第三步:主类JobMain3. 自定义分组求取topN**3.1 需求****3.2 分析****3.3 实现**原创 2021-03-31 15:18:33 · 549 阅读 · 0 评论 -
【大数据day14】——MapReduce的运行机制详解(案列:Reduce 端实现 JOIN, Map端实现 JOIN,求共同好友)
1 .MapReduce的运行机制详解1.1:MapTask 工作机制整个Map阶段流程大体如上图所示。简单概述:inputFile通过split被逻辑切分为多个split文件,通过Record按行读取内容给map(用户自己实现的)进行处理,数据被map处理结束之后交给OutputCollector收集器,对其结果key进行分区(默认使用hash分区),然后写入buffer,每个map task都有一个内存缓冲区,存储着map的输出结果,当缓冲区快满的时候需要将缓冲区的数据以一个临时文件的方式存放原创 2021-03-12 15:10:47 · 567 阅读 · 0 评论 -
【大数据day13】——MapReduce提升(MapReduce 排序和序列化,规约Combiner,MapReduce案例-流量统计,统计求和,上行流量倒序排序(递减排序),手机号码分区)
9 MapReduce案例-流量统计需求一: 统计求和统计每个手机号的上行数据包总和,下行数据包总和,上行总流量之和,下行总流量之和分析:以手机号码作为key值,上行流量,下行流量,上行总流量,下行总流量四个字段作为value值,然后以这个key,和value作为map阶段的输出,reduce阶段的输入Step 1: 自定义map的输出value对象FlowBeanpublic clas...原创 2021-03-10 15:02:08 · 715 阅读 · 0 评论 -
【大数据day12】——MapReduce 基础(MapReduce 介绍、编程规范、运行模式、WordCount统计单词个数案例,MapReduce 分区,MapReduce 中的计数器)
Hadoop-Mapreduce1. MapReduce 介绍MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思想核心是“分而治之”,适用于大量复杂的任务处理场景(大规模数据处理场景)。Map负责“分”,即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算,彼此间几乎没有依赖关系。Reduce负责“合”,即...原创 2020-04-23 19:30:07 · 734 阅读 · 0 评论 -
【大数据day11】——HDFS 的 API 操作(使用文件系统方式访问数据,HDFS小文件合并,HDFS的高可用机制, Hadoop的联邦机制(Federation))
Hadoop 核心-HDFS1:HDFS 的 API 操作1.1 配置Windows下Hadoop环境在windows系统需要配置hadoop运行环境,否则直接运行代码会出现以下问题:缺少winutils.exeCould not locate executable null \bin\winutils.exe in the hadoop binaries 缺少hadoop.dll...原创 2020-04-20 17:06:43 · 411 阅读 · 0 评论 -
【大数据day10】——Hadoop 核心-HDFS(HDFS 的架构,HDFS的副本机制和机架感知,hdfs的高级使用命令, HDFS基准测试,HDFS 文件读写过程,HDFS 的元数据辅助管理)
Hadoop 核心-HDFS1. HDFS概述1.1 介绍1.2 历史2. HDFS应用场景2.1 适合的应用场景2.2 不适合的应用场景3. HDFS 的架构4:NameNode和DataNode4.2 DataNode作用5:HDFS的副本机制和机架感知5.1 HDFS 文件副本机制5.2 机架感知6、hdfs的命令行使用7、hdfs的高级使用命令7. 1、HDFS文件限额配置7.1.1、数量...原创 2020-04-19 14:57:13 · 934 阅读 · 0 评论 -
【大数据day09】—— Hadoop集群安装和配置(appache版本hadoop重新编译,Hadoop安装,配置三台虚拟机集群环境)
Hadoop1、 Hadoop的介绍Hadoop最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。2003年、2004年谷歌发表的两篇论文为该问题提供了可行的解决方案。——分布式文件系统(GFS),可用于处理海量网页的存储——分布式计算框架M...原创 2020-03-10 23:41:11 · 344 阅读 · 0 评论 -
【大数据day08】—— Zookeeper 的概述及安装使用(Zookeeper安装, Zookeeper的Shell 客户端操作,zookeeper的JavaAPI操作)
1 Zookeeper 的概述Zookeeper 是一个开源的分布式协调服务框架 ,主要用来解决分布式集群中应用系统的一致性问题和数据管理问题2:Zookeeper的特点Zookeeper 本质上是一个分布式文件系统, 适合存放小文件,也可以理解为一个数据库- 在上图左侧, Zookeeper 中存储的其实是一个又一个 Znode, Znode 是 Zookeeper 中的节点...原创 2020-03-10 14:57:22 · 309 阅读 · 0 评论 -
【大数据day07_2】——集群Linux环境搭建【非常重要】(虚拟机修改Mac和IP,虚拟机关闭防火墙和SELinux,虚拟机免密码登录,三台机器时钟同步,三台机器安装jdk,安装Mysql)
资料:链接:https://pan.baidu.com/s/1BERKtAe-zQur1N4L-IDxqQ提取码:nfgd1:注意事项1.1 windows系统确认所有的关于VmWare的服务都已经启动1.2 确认好VmWare生成的网关地址1.3 确认VmNet8网卡已经配置好了IP地址和DNS双击下面IPv4选项2:复制虚拟机2.1 将资料中虚拟机文件夹复制三份,...原创 2020-03-09 21:44:53 · 678 阅读 · 0 评论 -
【大数据day07_1】——大数据课程导论,服务器基本介绍,存储磁盘基本介绍,交换机基本介绍,网卡的介绍,IDC数据中心介绍,磁盘阵列(了解即可)
1.大数据课程导论1.1、大数据概念大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。最小的基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。1Byte = 8bit 1K =...原创 2020-03-09 19:49:56 · 624 阅读 · 0 评论 -
【大数据day06】——JVM优化 下 (Tomcat8优化,使用Apache JMeter进行测试,JVM字节码,代码优化建议)
JVM优化 - 第三天今日内容Tomcat8的优化看懂Java底层字节码编码的优化建议1、Tomcat8优化tomcat服务器在JavaEE项目中使用率非常高,所以在生产环境对tomcat的优化也变得非常重要了。对于tomcat的优化,主要是从2个方面入手,一是,tomcat自身的配置,另一个是tomcat所运行的jvm虚拟机的调优。下面我们将从这2个方面进行讲解。1.1、T...原创 2020-03-09 10:03:46 · 423 阅读 · 0 评论 -
【大数据day05】——JVM优化 中 JVM垃圾回收机制(垃圾回收的常见算法,垃圾收集器以及内存分配,可视化GC日志分析工具)
JVM优化 - 第二天今日内容了解什么是垃圾回收掌握垃圾会回收的常见算法学习串行、并行、并发、G1垃圾收集器学习GC日志的可视化查看1、什么是垃圾回收?程序的运行必然需要申请内存资源,无效的对象资源如果不及时处理就会一直占有内存资源,最终将导致内存溢出,所以对内存资源的管理是非常重要了。1.1、C/C++语言的垃圾回收在C/C++语言中,没有自动垃圾回收机制,是通过new关键...原创 2020-03-08 19:55:44 · 220 阅读 · 0 评论 -
【大数据day04】——JVM优化 上(jvm的内存模型,jmap的使用:内存溢出的定位与分析,通过MAT工具对dump文件进行分析,jstack的使用:死锁问题,VisualVM工具的使用)
JVM优化 - 第一天今日内容了解下我们为什么要学习JVM优化掌握jvm的运行参数以及参数的设置掌握jvm的内存模型(堆内存)掌握jamp命令的使用以及通过MAT工具进行分析掌握定位分析内存溢出的方法掌握jstack命令的使用掌握VisualJVM工具的使用资料:链接:https://pan.baidu.com/s/1GVj1G97naeVItuVmW1pR8A提取码:p...原创 2020-03-08 14:22:34 · 1044 阅读 · 0 评论 -
【大数据day03】——linux管道相关命令 & Shell快速入门
管道相关命令1.1 cutcut:以某种方式按照文件的行进行分割参数列表:-b 按字节选取 忽略多字节字符边界,除非也指定了 -n 标志-c 按字符选取-d 自定义分隔符,默认为制表符。-f 与-d一起使用,指定显示哪个区域。范围控制: n:只有第n项 n-:从第n项一直到行尾 n-m:从第n项到第m项(包括m)准备工作vim 1.txt111:...原创 2020-03-07 14:11:17 · 825 阅读 · 0 评论 -
【大数据day02】——Linux系统02(find 搜索,VI编辑器_终端编辑器,用户权限相关命令,系统信息相关命令)
搜索命令1.find 搜索1.1 目标通过find命令 在特定目录下(包含它的后代目录) 搜索 符合条件的文件1.2 实现 : 在指定目录中 根据名称 搜索命令格式序号命令格式作用01find [路径] -name ‘*.txt’查找指定路径下扩展名是 .txt的文件, 包括子目录如果省略路径, 表示在当前文件夹下查找之前学习的通配符,...原创 2020-03-06 09:55:41 · 261 阅读 · 0 评论 -
【大数据day01】——Linux系统01(系统安装,远程连接工具secureCRT & winSCP ,Linux常用命令)
操作系统概述目标了解 操作系统 的作用1.1 操作系统(Operation System, OS)操作系统作为接口的示意图:没有安装操作系统的计算机, 通常被称为 裸机如果想在 裸机 上运行自己所编写的程序, 就必须用机器语言书写程序如果计算机上安装了操作系统, 就可以在操作系统上安装支持的高级语言环境,用于高级语言开发1.2 不同应用利于的主流操作系统桌面操作系统...原创 2020-03-05 20:51:02 · 1290 阅读 · 0 评论