
hadoop分布式计算解决方案集锦
文章平均质量分 91
Hadoop使用过程中遇到的问题及解决方案
优惠券已抵扣
余额抵扣
还需支付
¥19.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
普通网友
这个作者很懒,什么都没留下…
展开
-
深度学习核心技术精讲100篇(八十五)-Dask 分布高性能计算深入讲解
Dask 入门 识别和描述 Dask 数据集合(Collection),包含数组(Array)和数据框(DataFrame)和调度器。 认识到 Dask 数组的使用与 Numpy 数组的使用时类似的。 理解分块(chunk)大小(size)、形状(shape)和计算开销。 部署本地分布式集群并使用诊断仪表板(diagnostics dashboard). 什么是 Dask?Dask 是一个灵活应用于分析计算的并行计算包。Dask 能够提供动态并行任务调度系统、高级原创 2022-03-16 06:00:00 · 1232 阅读 · 0 评论 -
深度学习核心技术精讲100篇(五十五)-深度解读分布式定时任务框架
前言我们先思考下面几个业务场景的解决方案: 支付系统每天凌晨1点跑批,进行一天清算,每月1号进行上个月清算 电商整点抢购,商品价格8点整开始优惠 12306购票系统,超过30分钟没有成功支付订单的,进行回收处理 商品成功发货后,需要向客户发送短信提醒 ❝类似的业务场景非常多,我们怎么解决?❞很多业务场景需要我们某一特定的时刻去做某件任务,定时任务解决的就是这种业务场景。一般来说,系统可以使用消息传递代替部分定时任务,两者有很多相似之处,可以相互替换场景。原创 2022-01-04 06:00:00 · 1005 阅读 · 2 评论 -
Hadoop应用实战100讲(四)-分布式系统中协调和复制技术的原理
前言分布式系统需要管理大规模服务器,软件需要运行在海量服务器上。管理的服务器越多,越需要在系统中提供协调(Coordination)的仲裁服务,从而让运行在多台服务器上的软件达成共识(Consensus)、形成一致(Agreement),典型如对象存储核心元数据。协调服务本身也是由运行在多台服务器上的软件组成,当某台服务器发生故障并且无法修复时,还需要继续提供服务。此时,引入复制(Replication)技术将数据在多台服务器之间复制,即使某台服务器发生故障也能快速、无缝地切换到其他服务器,从而原创 2021-11-28 06:00:00 · 1123 阅读 · 0 评论 -
3万字长文记录Docker 最全学习笔记,手把手带你入个门
docker不是一个值得投入的领域,它解决的问题是Unix系统最初设计的一个疏忽。从一个不会用docker的小白,自己一步一步的摸索,中间也踩过许多坑。但任然,坚持从哪里跌倒就从哪里爬起来。不求感动自己,但求人生无悔。1 容器简介1.1 什么是 Linux 容器1.2 容器不就是虚拟化吗1.3 容器发展简史2 什么是 Docker?2.1 Docker 如何工作?2.2 Docker 技术是否与传统的 Linux 容器相同?2.3 docker的目标3 安装Docker3.1 Dock.原创 2021-09-16 08:47:30 · 974 阅读 · 0 评论 -
4万字长文ClickHouse应用实战-物化视图在微信的实践
前言ClickHouse广泛用于用户和系统日志查询场景中,借助腾讯云提供基础设施,微信也在分阶段逐步推进clickhouse的建设和应用,目前作为基础建设的一部分,主要针对于OLAP场景,为业务方提供稳定高效的查询服务。在业务场景下,实时事件流上报可能会在不同的日志,以不同的格式、途径写入到clickhouse。在之前的使用中,通过查询多个日志表join实现多个指标的整合。用传统JOIN方式,我们遇到如下困难: 1.每个查询会有非常长的代码,有的甚至1500行、2000行sql,使用和理解上特别痛苦;原创 2021-09-15 08:42:28 · 1089 阅读 · 1 评论 -
万字长文详解大数据应用实战案例-万亿级大数据监控平台建设方案
编者按随着互联网业务的迅速发展,用户对系统的要求也越来越高,而做好监控为系统保驾护航,能有效提高系统的可靠性、可用性及用户体验。监控系统是整个运维环节乃至整个项目及产品生命周期中最重要的一环。百分点大数据技术团队基于大数据平台项目,完成了百亿流量、约3000+台服务器集群规模的大数据平台服务的监控,沉淀了一套适合自身业务和技术特点的监控架构设计思路、设计方法和落地方案。本文主要从监控系统整体设计和技术方案落地两大部分阐述了大数据监控平台的建设过程,旨在帮助大家了解监控系统设计思路,对于监控系统建原创 2021-09-18 08:35:00 · 1190 阅读 · 0 评论 -
spark知识点八万字长文最全汇总和高频面试题目
本文目录:一、Spark 基础二、Spark Core三、Spark SQL四、Spark Streaming五、Structured Streaming六、Spark 两种核心 Shuffle七、Spark 底层执行原理八、Spark 数据倾斜九、Spark 性能调优十、Spark 故障排除十一、Spark大厂面试真题Spark涉及的知识点如下图所示,本文将逐一讲解:本文档参考了关于 Spark 的众多资料整理而成,为了整洁的排版及舒适的阅读,对于模糊不清晰的图原创 2021-09-14 08:29:00 · 1033 阅读 · 0 评论 -
Hadoop应用实战100讲(三)-Hadoop分布式文件系统
前言当大数据到大一定程度时,系统会进行分布存储,HDFS以流式数据访问的模式可以运行到普通的商用服务器集群上,完成了分布式存储的功能,同时也向客户开放了HDFS相应的访问接口,以满足不同的需求。以下是我为大家准备的几个精品专栏,喜欢的小伙伴可自行订阅,你的支持就是我不断更新的动力哟!MATLAB-30天带你从入门到精通MATLAB深入理解高级教程(附源码)tableau可视化数据分析高级教程一.HDFS的工作原理HDFS中的数据是分布存储的,默认块的大小为128MB(Hadoop原创 2021-09-22 08:58:32 · 937 阅读 · 1 评论 -
Hadoop应用实战100讲(二)-Hadoop常用命令汇总
前言以下是我为大家准备的几个精品专栏,喜欢的小伙伴可自行订阅,你的支持就是我不断更新的动力哟!MATLAB-30天带你从入门到精通MATLAB深入理解高级教程(附源码)tableau可视化数据分析高级教程一.HDFS命令行Hadoop help命令的使用1.hadoop -help查询所有Hadoop Shell支持的命令2.distcp这是Hadoop下的一个分布式复制程序,可以在不t同的HDFS集群间复制数据,也可以在本地文件间复制数据。hadoop.原创 2021-08-18 09:21:32 · 1039 阅读 · 0 评论 -
Hadoop应用实战100讲(一)-Hadoop进行文件压缩
前言在集群中大规模的数据的转换与传输是一项艰巨的任务,而Hadoop自带一套特有的文件I/O系统,使得这项艰巨的任务变得简单。以下是我为大家准备的几个精品专栏,喜欢的小伙伴可自行订阅,你的支持就是我不断更新的动力哟!MATLAB-30天带你从入门到精通MATLAB深入理解高级教程(附源码)tableau可视化数据分析高级教程1.压缩Hadoop文件数据存取与计算需要集群中众多的节点,通过网络连接方式进行相互协作完成作业,节点间的数据采用压缩形式进行传输,这样可以减少存储文件所需的原创 2021-08-17 09:00:23 · 1098 阅读 · 0 评论 -
深度学习核心技术精讲100篇(五十一)-Spark平台下基于LDA的k-means算法实现
本文主要在Spark平台下实现一个机器学习应用,该应用主要涉及LDA主题模型以及K-means聚类。通过本文你可以了解到: 文本挖掘的基本流程 LDA主题模型算法 K-means算法 Spark平台下LDA主题模型实现 Spark平台下基于LDA的K-means算法实现 1.文本挖掘模块设计1.1文本挖掘流程文本分析是机器学习中的一个很宽泛的领域,并且在情感分析、聊天机器人、垃圾邮件检测、推荐系统以及自然语言处理等方面得到了广泛应用。文本聚类是信原创 2021-06-26 06:44:42 · 1161 阅读 · 0 评论 -
深度学习核心技术精讲100篇(四十八)-TB级的日志监控系统很难?带你使用ELK轻松搭建日志监控系统
本文主要介绍怎么使用 ELK Stack 帮助我们打造一个支撑起日产 TB 级的日志监控系统。在企业级的微服务环境中,跑着成百上千个服务都算是比较小的规模了。在生产环境上,日志扮演着很重要的角色,排查异常需要日志,性能优化需要日志,业务排查需要业务等等。然而在生产上跑着成百上千个服务,每个服务都只会简单的本地化存储,当需要日志协助排查问题时,很难找到日志所在的节点。也很难挖掘业务日志的数据价值。那么将日志统一输出到一个地方集中管理,然后将日志处理化,把结果输出成运维、研发可用的数据是解决日志管.原创 2021-06-10 10:21:51 · 1164 阅读 · 2 评论 -
基于 Kafka 与 Debezium 构建实时数据同步
起源在进行架构转型与分库分表之前,我们一直采用非常典型的单体应用架构:主服务是一个 Java WebApp,使用 Nginx 并选择 Session Sticky 分发策略做负载均衡和会话保持;背后是一个 MySQL 主实例,接了若干 Slave 做读写分离。在整个转型开始之前,我们就知道这会是一块难啃的硬骨头:我们要在全线业务飞速地扩张迭代的同时完成架构转型,因为这是实实在在的”给高速行驶的汽车换轮胎”。为了最大限度地减少服务拆分与分库分表给业务带来的影响(不影响业务开发也是架构转型的前提),我们原创 2020-09-09 09:19:05 · 3537 阅读 · 3 评论 -
RabbitMQ 还是 Kafka?哪个才是架构利器
作为一个有丰富经验的微服务系统架构师,经常有人问我,“应该选择RabbitMQ还是Kafka?”。基于某些原因, 许多开发者会把这两种技术当做等价的来看待。的确,在一些案例场景下选择RabbitMQ还是Kafka没什么差别,但是这两种技术在底层实现方面是有许多差异的。不同的场景需要不同的解决方案,选错一个方案能够严重的影响你对软件的设计,开发和维护的能力。这篇文章会先介绍RabbitMQ和Apache Kafka内部实现的相关概念。紧接着会主要介绍这两种技术的主要不同点以及他们各自的优缺..原创 2020-08-10 08:50:02 · 1090 阅读 · 0 评论 -
如何使用 ClickHouse 每天玩转千亿数据,纯PPT干货
原创 2020-11-05 09:28:02 · 1334 阅读 · 0 评论 -
一文带你深入通读Prometheus ,集群管理最全集锦
随着容器技术的迅速发展,Kubernetes 已然成为大家追捧的容器集群管理系统。Prometheus 作为生态圈 Cloud Native Computing Foundation(简称:CNCF)中的重要一员,其活跃度仅次于 Kubernetes, 现已广泛用于 Kubernetes 集群的监控系统中。本文将简要介绍 Prometheus 的组成和相关概念,并实例演示 Prometheus 的安装,配置及使用,以便开发人员和云平台运维人员可以快速的掌握 Prometheus。Prometheus 简原创 2020-11-04 08:35:15 · 1528 阅读 · 2 评论 -
分布式计算Hadoop系列之如何Eclipse中构建Hadoop项目
之前根据Hadoop官方文档对HDFS、MapReduce的架构、配置管理等进行了学习,但某些地方官方文档讲解的比较模糊。做过开发的人都能够体会,官方文档有些类似业务规则或者要求,而真正的细节还是需要深入研究源代码的。基于以上的原因,决定深入学习Hadoop的源代码,虽然现在已经出现Hadoop-2.x的文档版本,但还是决定学习Hadoop-1.x的源码,而要想研究源代码最好的方法还是先构建Had原创 2014-05-07 17:00:33 · 791 阅读 · 0 评论 -
Hadoop学习之MapReduce(三)
在学习过MapReduce框架的几个关键类和接口后(只是简单的说明了类或者接口的作用及使用方式,要想深入了解如何工作的就需要深入研究源代码了,这也是计划中的学习任务),接下来看看任务的执行和环境,主要涉及的还是一些参数。TaskTracker将mapper/reducer任务作为子进程在不同的jvm中执行,子任务继承了父进程TaskTracker的环境。用户可以通过 mapred.{map|red原创 2014-05-07 17:12:52 · 605 阅读 · 0 评论 -
Hadoop学习之MapReduce(六)
在这篇文章中主要关注MapReduce作业的输入和输出,由于Hadoop版本的变化及本人对这些变化了解的还不够深入,难免有描述不清楚的地方,会在进一步学习后更正不准确的地方。作业输入InputFormat描述了MapReduce作业的输入规范。MapReduce框架依靠作业的InputFormat实现:1. 验证作业的输入规范。2. 将输入文件分割为逻辑的InputSpli原创 2014-05-07 17:17:36 · 603 阅读 · 0 评论 -
Hadoop学习之以全分布模式部署及问题
之前学习Hadoop都是在VMWare虚拟机上的Linux系统上以伪分布模式部署的,最近领导对GreenPlum比较感兴趣,申请了7台物理机,也就有机会在7台物理组成的集群中以全分布模式部署Hadoop了。在部署Hadoop之前,领导已经将该7台物理机的ssh配置好了,若不熟悉ssh的配置可以参考文章http://blog.youkuaiyun.com/skywalker_only/article/detai原创 2014-05-07 18:05:16 · 753 阅读 · 0 评论 -
Hadoop学习之HDFS架构(一)
HDFS的全称是Hadoop Distributed File System(Hadoop分布式文件系统),是受到Google的GFS(Google文件系统)启发而设计开发出来的运行在商用主机上的分布式文件系统。最初HDFS是作为Nutch网络搜索引擎项目的基础结构发展的(在Nutch2.x版本以前,搜索到的数据存储在HDFS上,2.x版本中可以将数据存储在诸如HBase等NoSQL中),现在是H原创 2014-05-07 18:07:17 · 739 阅读 · 0 评论 -
Hadoop学习之HDFS架构(二)
HDFS可以跨越大集群中的机器可靠地存储非常大的文件,将文件存储为一系列的块,除了最后一个块外,所有的块的大小都是相同的。当然若文件大小正好为块大小的倍数则所有块的大小相同。为了容错的目的,一个文件的块会被复制成若干份,块大小和复制因子是可配置的。应用程序可以指定文件的副本数量,复制因子可以在文件创建时指定,也可以以后修改。HDFS中的文件是一次性写入的,在任何时候都是严格一次性写入的。Nam原创 2014-05-07 18:08:50 · 674 阅读 · 0 评论 -
Hadoop-2.2.0学习之三YARN简介
MapReduce在hadoop-0.23版本中进行了完全的检查修改,并发展为了现在称之为的MapReduce2.0(MRv2)或者YARN。YARN的基本想法是将JobTracker的两个主要功能资源管理和作业调度监控分开为独立的后台进程,目标是拥有一个全局ResourceManager (RM)和每个应用程序一个的ApplicationMaster (AM)。一个应用程序或者是从经典MapRe原创 2014-05-07 18:11:20 · 573 阅读 · 0 评论 -
Hadoop学习之MapReduce(一)
在学习过了HDFS架构和Hadoop的配置管理后,现在学习MapReduce应用程序的编写和管理。首先简单介绍一下MapReduce框架。MapReduce是一个易于编写程序的软件框架,这些应用程序以可靠的、容错的模式并行的运行在很大规模的商用硬件集群上(数以千计的节点),处理超大数量的数据(超过TB的数据集)。一个MapReduce作业通常将输入数据集分割为独立的数据块,这些数据块被map任原创 2014-05-07 17:09:18 · 612 阅读 · 0 评论 -
Hadoop学习之MapReduce(五)
作业的提交和监控Job为作业提交者提供了作业的视图,允许用户管理作业,提交作业,控制作业的执行和查询作业状态,比如跟踪map和reduce任务的执行进度。该类提供的set方法只有在作业已经被提交后才生效,否则将会抛出IllegalStateException异常。作业的提交过程包括:1. 检查作业的输入输出规范。2. 计算作业InputSplit的值。3.原创 2014-05-07 17:16:13 · 854 阅读 · 0 评论 -
Hadoop-2.2.0学习之二HDFS联盟
在学习Hadoop-2.x版本中的HDFS之前先看一下目前普遍使用中的Hadoop-1.x版本的HDFS结构,有助于更好地理解2.x版本中HDFS的变化所带来的好处。先看看2.x版本之前的HDFS结构图,如下所示。从上面的结构可以看出,HDFS主要包括两层:Namespace(命名空间)和块存储(BlockStorage)。命名空间由目录、文件和块组成,支持文件系统相关的所有命名空间操原创 2014-05-07 18:11:59 · 648 阅读 · 0 评论 -
分布式计算Hadoop系列之如何修改Eclipse插件
之前手工成功编译Hadoop-1.2.1的Eclipse插件后,发现了若干问题,比如生成的Mapper和Reducer还在使用Hadoop-0.x版本的一些类,为了解决这些问题并使插件能够适应Hadoop-1.2.1的变化,决定修改插件的源代码后再重新编译。首先需要确定要修改哪些类,在仔细观察了hadoop-1.2.1/src/contrib/eclipse-plugin/src/java/o原创 2014-05-07 17:03:00 · 750 阅读 · 0 评论 -
Hadoop学习之MapReduce(二)
在通过WordCount的例子直观地了解了MapReduce框架的作业如何编写后,现在对MapReduce框架中的关键接口或者类进行深入地地探索和学习。主要讲解Hadoop1.x中的接口和类,也就是org.apache.hadoop.mapreduce包中的接口和类,上面介绍的WordCount作业也是实现了这个包中的接口和类。首先会介绍Mapper和Reducer类,应用程序一般通过集成这两个类原创 2014-05-07 17:11:09 · 663 阅读 · 0 评论 -
Hadoop学习之MapReduce(四)
接下来是跟MapReduce目录结构有关的参数。首先看两个参数,分别为在core-default.xml中定义的hadoop.tmp.dir,其默认值为/tmp/hadoop-${user.name},另一个为定义在mapred-default.xml中的mapred.local.dir,该参数指定了保存MapReduce中间数据文件的目录,其默认值为${hadoop.tmp.dir}/mapre原创 2014-05-07 17:15:01 · 631 阅读 · 0 评论 -
Hadoop学习之Hadoop集群的定制配置(二)
除了上篇博客介绍的管理hadoop后台进程的参数外,还有其它一些参数或者功能用于管理hadoop的运行方式,比如任务的启动与控制、TaskTracker节点的监控等。先看看hadoop的任务控制器。任务控制器是MapReduce框架中定义用户的map和reduce任务如何启动和控制的一些类。任务控制器可以在要求定制用户任务的启动过程或者控制过程的集群中使用,比如,在某些集群中,可能要求以提交作原创 2014-05-07 18:03:58 · 658 阅读 · 0 评论 -
Hadoop学习之Hadoop集群的定制配置(一)
之前已经在七台物理机上以全分布模式安装了Hadoop集群,除了制动NameNode、JobTracker、DataNode、TaskTracker及相关的端口号外,并没有对集群配置做进一步的设定,都保留了默认值。而要想使Hadoop集群发挥更大的作用则需要根据实际情况对配置做修改,下面将介绍如何在Hadoop集群中对一些配置项做修改,由于运维Hadoop集群的经验尚浅难免有所遗漏或者不足。Ha原创 2014-05-07 17:54:37 · 848 阅读 · 0 评论 -
Hadoop学习之以伪分布模式部署Hadoop及常见问题
Hadoop既可以以单机模式运行,也可以以伪分布模式运行,这两种模式都是为了使用者方便学习和调试Hadoop,要想发挥Hadoop分布式、并行处理的优势,还须以分布式模式来部署运行Hadoop。单机模式是指Hadoop在单个节点上以单个进程的方式运行,伪分布模式是指在单个节点上运行NameNode、DataNode、JobTracker、TaskTracker、SeconderyNameNode5原创 2014-05-07 18:06:16 · 746 阅读 · 0 评论 -
Hadoop-2.2.0学习之一Hadoop-2.2.0变化简介
Hadoop-2.2.0在Hadoop-1.x的基础上进行了重大改进,主要体现在HDFS和MapReduce上。下面大体介绍HDFS和MapReduce改进的地方。首先是HDFS联合。众所周知,在Hadoop-1.x版本中,集群中只有一个NameNode节点,一旦该节点失效就不能自动切换到备用节点,这也是Hadoop-1.x被人诟病的地方之一。为了水平的扩展NameNode服务,在2.x版本中原创 2014-05-07 18:12:43 · 618 阅读 · 0 评论 -
ZooKeeper--一个具有高可用性的高性能协调服务
ZooKeeper是什么ZooKeeper是一个具有高可用性的高性能协调服务。ZooKeeper维护着一个树形层次结构,书中的节点被称为znode。znode可以用来存储数据,并且有一个与之相关联的ACL(权限),znode不能大于1M。ZooKeeper使用场景ZooKeeper主要用来解决分布式系统中的“部分失败”问题。部分失败是分布式系统的固有的特征,原创 2014-05-15 09:40:57 · 834 阅读 · 0 评论 -
HDFS--Hadoop分布式文件系统
HDFS是什么HDFS设计特性和概念HDFS,全称是Hadoop Distributed Filesystem,是一个分布式的文件系统,以流式数据访问模式来存储超大文件(一次写入、多次读取)。HDFS具有如下设计特性:(1)处理超大文件,指的是GB、TB、PB级别的文件。百度、淘宝都有PB级别的HDFS,百度应该有国内最大规模的HDFS,几十PB。(2)流式数据原创 2014-05-15 10:11:12 · 898 阅读 · 0 评论 -
MapReduce编程实战之“工作原理”
篇简单剖析MapReduce1.0和MapReduce2.0(yarn)的工作机制。MapReduce1.0工作原理运行整体图作业执行过程关于作业的执行过程,大致分为:提交、初始化、分配任务、执行任务、更新状态、完成 这6个步骤,可以根据以上运行图,自行考虑在这个作业的执行过程中,以上4个独立的实体(客户端、JobTracker、Ta原创 2014-05-15 10:19:16 · 837 阅读 · 0 评论 -
zookeeper学习记录
背景 前段时间看了S4流计算引擎,里面使用到了zookeeper进行集群管理,所以也就花了点时间研究了下zookeeper,不求看懂所有源码,但求了解其实现机制和原理,清楚其基本使用。这也是为后续hadoop,gridgain的分布式计算的产品。学习首先就是收集一些前人的一些学习资料和总结内容,方便自己快速入门。 这里罗列了几篇不错的文章: h原创 2014-05-15 16:39:07 · 819 阅读 · 0 评论 -
ZooKeeper编程
ZooKeeper的用途:distributed coordination;maintaining configuration information, naming, providing distributed synchronization, and providing group services.Zookeeper的节点都是存放在内存中的,所以读写速度很快。更新日志被记录到了磁盘中,以便用原创 2014-05-15 16:44:36 · 793 阅读 · 0 评论 -
Hadoop ssh配置设置
一. 配置机器名 配置/etc/hosts和/etc/sysconfig/network注意:NameNode的hosts文件必须有其slaves指定的所有节点的机器名二. ssh设置 (hadoop中需要在namenode 和 datanode 中直接连接集群内的机器,需要配置ssh)NameNode节点运行ssh-keygen -t dsa -P '' -f ~/.原创 2014-05-15 17:32:42 · 1113 阅读 · 0 评论 -
hadoop使用lzo压缩文件笔记
LZO性能 编译LZO下载: http://www.oberhumer.com/opensource/lzo/download/ wget http://www.oberhumer.com/opensource/lzo/download/lzo-2.06.tar.gz 安装:tar -zxf lzo-2.06.原创 2014-05-15 17:51:42 · 1548 阅读 · 0 评论