
大数据
wangyhwyh753
生命在于不断的学习前进。忍得住虚无的诱惑和平凡的寂寞,受得了生活的苦难和精神的冷落。不为别人,只为得到自己应该得到的一生。
展开
-
HDFS与NFS区别
#相同点两者的文件系统数据均能够在相关系统内的多台机器上进行数据读取和写入,都是分布式文件系统#不同点##NFS是通过RPC通信协议进行数据共享的文件系统,所以NFS必须在运行的同时确保RPC能够正常工作。在不同的文件进行读取和写入时,实际上是对服务端的共享文件地址进行操作,一旦服务端出现问题,那么其他所有的机器无法进行文件读取和写入,并且数据无法找回。所以NFS系统的文件其实并没有备份,并...原创 2020-04-21 19:20:51 · 3747 阅读 · 0 评论 -
kafka消息中间件的数据一致性
kafka之理解分区功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入kafka是一种分布式的基于发布/订阅模式的消息中...原创 2020-04-20 20:20:44 · 417 阅读 · 0 评论 -
HDFS数据如何保持一致性
HDFS是如何确保数据的一致性。hdfs在namenode上备份元数据,并将数据存储在datanode上的,默认备份3份。那么hdfs是如何保证数据的一致性呢?1、hdfs的namenode机制hdfs只有一个namenode,一旦namenode出现问题,数据块信息无法寻找。namenode中的元数据信息在工作时,会将元数据信息缓存在内存中。namenode将这些内存中的数据备份到...原创 2020-04-16 18:26:42 · 2914 阅读 · 0 评论 -
spark并行计算
目标:解释RDD在SPARK的集群是如何分布的。 分析SPARK如何对基于文件的RDD进行分区。 阐述SPARK如何并行执行RDD操作 说明如何通过分区来实现并行控制 分析如何查看和监控任务task和阶段stage.首先来看一看spark是如何在云模式(cluster mode)工作的。spark cluster一个云模式下的spark程序运行流程如下所示。用户可以...翻译 2020-01-19 19:16:38 · 2118 阅读 · 0 评论 -
包含jdk和python3的dockerfile编写
由于在做的项目大多是基于python3的,很多都需要在之前的镜像上加入python3环境,这里是python3.6.10官网dockerfile的编写,供参考。## NOTE: THIS DOCKERFILE IS GENERATED VIA "update.sh"## PLEASE DO NOT EDIT IT DIRECTLY.#FROM alpine:3.11# ens...转载 2020-01-09 17:13:52 · 1590 阅读 · 1 评论 -
airflow调度原理及k8s调度原则
Airflowairflow是一个任务调度组件,主要是基于DAG(有向无环图)来定义整个工作流。他主要解决了crontab调度无法完成的任务依赖,网页服务,任务暂停等功能。并且airflow能够很好的支持python,spark,hive,k8s等 airflow架构 airflow包含以下组件:元数据库(存储DAG)执行器worker(负责执行task)...原创 2019-12-06 18:36:19 · 4155 阅读 · 0 评论 -
大数据时代的思考
信息爆炸这个早就听说过,但是为什么现在才出现大数据一说?人工智能更是60年代的概念,现在为什么会火?语音识别,图像识别为什么变得越来越重要?并行处理器,云计算,数据挖掘,机器学习为什么广泛需求高级人才?这两天看了吴军的《智能时代》,这些问题有了比较清楚的了解。按照这位前辈的理解,我们应该正在处于一次技术革命的拐点。以上提到的这些概念都是解决了人类之前无法解决的一些事,这种方法就是利用大数据处理技术...原创 2018-04-16 22:16:03 · 482 阅读 · 0 评论