
云计算与大数据
文章平均质量分 83
nihui123
现在在修炼中
展开
-
大数据-MapReduce工作原理详解
导语 之前的分享中,介绍了有关MapReduce计算框的内容,这里来介绍一下MapReduce工作原理详解Map端的流程1、从上图可以看出,一个输入分片就会有一个Map的任务来进行处理,并且Map输出的结果会暂时存放到一个缓冲区中,当这个缓冲区的内容溢出的时候,就会在本地创建一个溢出的文件,并且将缓冲区中的数据内容写入到这个文件中。2、在数据写入到磁盘之前,首先需要根据Reduce任务的数目将数据划分为相同的数目的分区,也就是说一个Reduce任务应该对应的一个分区的数据。这样做的目的就是.原创 2022-01-25 16:44:07 · 2890 阅读 · 0 评论 -
大数据-操作HDFS的基本命令
导语 安装完Hadoop之后下面就来看看如何使用HDFS打印文件列表标准写法hadoop fs -ls hdfs:/ # hdfs:明确的说明是HDFS系统路径简写hadoop fs -ls / # 默认是HDFS系统下的根目录打印指定的子目录 hadoop fs -ls /上传文件、目录put 的用法上传新文件hadoop fs -put file:/root/test.txt hdfs:/ # 上传本地的test.txt 到HDFS的根目录,HDFS根目.原创 2022-01-25 16:31:34 · 2119 阅读 · 0 评论 -
大数据-MapReduce计算框架
导语 MapReduce作为Hadoop核心编程模型,在Hadoop中,数据处理的核心就是MapReduce程序设计模型。下面就来分享一下MapReduce都有那些值得我们注意的事情。MapReduce编程模型 Map 和Reduce 的概念是从函数式编程中借鉴而来的,而函数式编程也是现在比较流行的一个话题。整个的MapReduce计算过程其实是被分为Map阶段和Reduce阶段的。也就是映射与缩减两个独立的阶段过程。在Map中进行数据的读取与预处理,然后将预处理结果发送到Reduce中进行有.原创 2022-01-06 16:33:24 · 2513 阅读 · 0 评论 -
大数据-Hadoop 3.3.1安装详解
导语 HDFS的核心设计主要包括数据块、数据块复制、数据块的副本存放策略、机架感知、数据块的备份数、安全模式、负载均衡以及心跳机制等功能模块的设计,下面就来看看这些模块都是如何设计的。数据块 数据块(Block)是HDFS上存储数据的基本单位。任何一个文件系统其实都是由数据块的概念,只要是文件系统,都会涉及到文件数据的存储问题,当然存储这些文件也需要有相应的数据结构,所以数据块可以看做是文件系统上存储数据的基本单位。 在Windows中文件系统有自己的数据块涉及,Linux系统中也有自己的.原创 2022-01-03 09:59:58 · 2214 阅读 · 1 评论 -
大数据-HDFS 配置与使用
导语 在之前的分享中我们知道HDFS有三种模式:单机模式、伪集群模式和集群模式。文章目录HDFS 配置和启动启动 HDFSHDFS 使用HDFS ShellHDFS API单机模式:Hadoop 仅作为库存在,可以在单计算机上执行 MapReduce 任务,仅用于开发者搭建学习和试验环境。伪集群模式:此模式 Hadoop 将以守护进程的形式在单机运行,一般用于开发者搭建学习和试验环境。集群模式:此模式是 Hadoop 的生产环境模式,也就是说这才是 Hadoop 真正使用的模式,用于提供生产.原创 2021-12-28 23:09:05 · 1850 阅读 · 0 评论 -
大数据-如何在Docker上使用Hadoop
导语 由于Hadoop是为集群而设计的软件,所以在学习和使用的过程中难免会遇到在多台机器上配置Hadoop的情况,这个对于初学者来说会造成很多的障碍。主要的障碍有两个;昂贵的计算机集群。多个计算机构成的集群环境需要昂贵的硬件。难以部署和维护。在众多的机器上都要部署相同的软件环境是一个比较大的工程量。而且比较不灵活,需要修改的话很多的内容都需要修改。 为了解决这个问题,现在有一个比较成熟的解决方案就是使用Docker。 Docker 是一个容器管理系统,他可以向虚拟机一样运行多个虚拟机.原创 2021-12-27 22:35:05 · 3368 阅读 · 0 评论 -
大数据-HDFS文件系统是什么
导语 Hadoop中附带了一个HDFS(Hadoop分布式文件系统)的分布式文件系统,专门用来存储超级大文件使用,它为整个的Hadoop应用生态圈提供了基础的文件存储功能。文档目录HDFS 特点不适用HDFS的场景HDFS体系结构HDFS数据块复制HDFS读取和写入流程文件读取详细操作HDFS 特点 HDFS专门是为了解决大数据存储问题而出现的,它具备如下的几个特点1、HDFS文件系统可以存储超大文件 在我们实际应用中,每个磁盘都有自己默认的数据块的大小,这也是磁盘对数据读写的时候要求.原创 2021-12-25 13:44:55 · 3065 阅读 · 1 评论 -
大数据学习知识点导图
原创 2018-03-30 21:35:49 · 7333 阅读 · 0 评论 -
Hadoop
本文是借鉴了很多的博客的文章,自己动手在Ubuntu上做过测试,Linux基础好的同学可以直接参考使用。Hadoop简介Hadoop是Apache软件基金会的一个开源的分布式计算平台,以HDFS和MapReduce(这个是由GoogleMapReduce开源所实现的)为核心的Hadoop为用户提供了系统底层的实现细节透明的分布式基础架构,(https://baike.baidu.com/i原创 2017-08-05 10:58:05 · 1907 阅读 · 0 评论 -
Java集合框架
原创的Java框架的实现过程原创 2017-03-11 19:29:45 · 1769 阅读 · 0 评论 -
大数据需要学什么
学习要根据自身情况来定,如果你是零基础,那就必须先从基础Java开始学起(大数据支持很多开发语言,但企业用的最多的还是JAVA),接下来学习数据结构、Linux系统操作、关系型数据库,夯实基础之后,再进入大数据的学习,具体可以按照如下体系:第一阶段CORE JAVA (加**的需重点熟练掌握,其他掌握)Java基础**数据类型,运算符、循环,算法,顺序结构程序设计,原创 2016-12-09 22:43:24 · 47437 阅读 · 10 评论 -
APP漏洞扫描
APP漏洞扫描器之未使用地址空间随机化摘要:阿里聚漏洞扫描器有一个检测项叫未使用地址空间随机化技术, 本文主要介绍该项技术的原理和扫描器的检测方法。APP漏洞扫描用地址空间随机化前言我们在前文《APP漏洞扫描器之本地拒绝服务检测详解》了解到阿里聚安全漏洞扫描器有一项静态分析加动态模糊测试的方法来检测的功能,并详细的介绍了它在针对本地拒绝服务的检测方法。原创 2016-12-09 22:38:09 · 6407 阅读 · 0 评论