
大数据专栏
文章平均质量分 87
我思故我在6789
这个作者很懒,什么都没留下…
展开
-
hdfs文件系统
在大多数情况下,HDFS的副本系数是3,HDFS的存放策略是一个副本存放在本地机架节点上,另一个副 本存放在不同一机架的节点上,第三个副本存放在在与第二个节点同一机架的不同节点上。2)会话管理:如果NN是健康的,zkfc就会在zookeeper中保持一个打开的会话,如果NameNode同时还是Active状态的,那么zkfc还会在Zookeeper中占有一个类型为短暂类型的znode,当这个NN挂掉时,这个znode将会被删除,然后备用的NN,将会得到这把锁,升级为主NN,同时标记状态为Active。原创 2024-07-30 09:05:46 · 747 阅读 · 0 评论 -
logstash 全接触
从关系上看filebeat 是替代 Logstash Forwarder 的下一代 Logstash 收集器,为了更快速稳定轻量低耗地进行收集工作,它可以很方便地与 Logstash 还有直接与 Elasticsearch 进行对接,它们之间的逻辑与拓扑可以参看 Beats 基础,具体的使用可以查看下列的架构,这个也是很多大牛推荐的架构。该参数用以指定Logstash中执行filter和output的线程数,当如果发现CPU使用率尚未达到上限,可以通过调整该参数,为Logstash提供更高的性能。原创 2024-07-30 09:04:39 · 566 阅读 · 0 评论 -
yarn 框架
此外,一个任务失败的次数超过4次,将不会再重新调度。任务尝试也是可以用来中止(killed),因为它是一个推测副本(如果一个任务执行时间比预期的慢的时候, 会启动另外一个相同的任务作为备份,这个任务为推测执行)或者它所在的nodeManager失败,导致该nodeManager所执行的任务被标记为killed,被中止的任务是不会被记录到任务运行尝试次数。如果关闭这个属性,那么可能会造成长时间运行的任务不会被标记为失败,被挂起的任务就会一直不被释放资源,长时间会造成集群效率降低,因此尽量避免这个设置。原创 2024-07-29 08:42:59 · 672 阅读 · 0 评论 -
mapreduce计算框架
强大的索引又出场了。然后 把这些索引信息存放在内存中,如果内存中放不下了,后续的索引信息就需要写到磁盘文件中了:从所 有的本地目录中轮训查找能存储这么大空间的目录,找到之后在其中创建一个类似于“spill12.out.index” 的文件,文件中不光存储了索引数据,还存储了crc32的校验数据。比如 Kvindex初始位置是-4,当第一个写完之后,(Kvindex+0)的位置存放value的起始位置、(Kvindex+1)的位置存放key的起始位置、 (Kvindex+2)的位置存放partition的。原创 2024-07-29 08:38:53 · 918 阅读 · 0 评论 -
hadoop 文件系统
不要忘记,您的工作可能不是竞争集群资源的唯一工作。即使处理128 MB的单个map任务将花费比处理10 MB的map任务处理更长的时间,但是当处理800个更大的文件时,所有处理时间的总和几乎总是要快几个数量级。NodeManager管理的是Container而不是任务,一个Container中可能运行着各种任务,但是对NodeManager而言是透明的,它只负责Container相关操作,比如管理Container的生命周期,即启动Container、监控Container和清理Container等。原创 2024-07-29 08:37:57 · 702 阅读 · 0 评论 -
flume知识点
flume 作为 cloudera 开发的实时日志收集系统,受到了业界的认可与广泛应用。Flume 初始的发行版本目前被统称为 Flume OG(original generation),属于 cloudera。原创 2024-07-28 06:47:26 · 597 阅读 · 0 评论 -
Ansible全接触
正确回答通过率:76.0%[ 详情 ] 推荐指数: ★★★★ 试题难度: 初级 试题类型: 八股文原理 ▸ 写笔记试题回答参考思路: >>Ansible是一款自动化运维工具,基于Python开发,集合了众多运维工具(puppet、cfengine、chef、func、fabric)的优点,实现了批量系统配置、批量程序部署、批量运行命令等功能。Ansible是基于模块工作的,本身没有批量部署的能力。原创 2024-07-26 08:02:30 · 390 阅读 · 0 评论 -
elasticsearch全接触-面试宝典-知识大全
Elasticsearch 是一个分布式、高扩展、高实时的搜索与数据分析引擎。它能很方便的使大量数据具有搜索、分析和探索的能力。充分利用Elasticsearch的水平伸缩性,能使数据在生产环境变得更有价值。Elasticsearch 的实现原理主要分为以下几个步骤,首先用户将数据提交到Elasticsearch 数据库中,再通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据,当用户搜索数据时候,再根据权重将结果排名,打分,再将返回结果呈现给用户。原创 2024-07-24 08:06:15 · 1686 阅读 · 0 评论 -
消息队列原理题库
消息(Message)是指在应用间传送的数据。消息可以非常简单,比如只包含文本字符串,也可以更复杂,可能包含嵌入对象。消息队列(Message Queue)是一种应用间的通信方式,消息发送后可以立即返回,由消息系统来确保消息的可靠传递。消息发布者只管把消息发布到 MQ 中而不用管谁来取,消息使用者只管从 MQ 中取消息而不管是谁发布的。这样发布者和使用者都不用知道对方的存在。消息队列是一种应用间的异步协作机制,同时消息队列中间件是分布式系统中重要的组件,主要解决应用耦合,异步消息,流量削锋等问题。原创 2024-07-24 07:37:31 · 985 阅读 · 0 评论 -
DAMA数据管理知识体系全接触-数据治理-大数据
描述了数据本身(如数据库、数据元素、数据模型),数据表示的概念(如业务流程、应用系统、软件代码、技术基础设施),数据与概念之间的联系(关系)。元数据特征化数据的结构、内容和质量,包括数据的来源、数据的血缘沿袭、数据的定义、以及实体和数据元素的预期用途。与发布路线图保持一致,并提供必要的后台调整和脚本,以自动化开发、测试和发布到生产,还通过数据库级别的发布来标记模型,并以自动化的方式将代码库与该标记联系起来,以便在整个环境中协调手动的编码、生成的程序和语义层的内容并进行版本控制。原创 2024-07-24 07:33:19 · 1900 阅读 · 0 评论 -
linux性能 面试 大全
输出结果中,CPU 项显示了 CPU 的使用状态,其中当 us 列的值较高时,说明用户进程消耗的 CPU 时间多,如果其长期大于 50%,就需要考虑优化程序或算法;vmstat 命令可以显示关于系统各种资源之间相关性能的简要信息,在 《Linux vmstat 命令》一节中,我们已经对此命令的基本格式和用法做了详细的介绍,因此不再赘述,这里主要用它来看 CPU 的一个负载情况。CPU 利用率:和负载不同,CPU利用率指的是当前正在运行的进程实时占用CPU的百分比,它是对一段时间内CPU使用状况的统计。原创 2024-07-23 06:28:38 · 652 阅读 · 0 评论 -
git面面观,面试题,常见问题
Git是一款分布式源代码管理工具(版本控制工具)。Git得其数据更像是一系列微型文件系统的快照。使用Git,每次提交或保存项目状态时,Git基本上都会记录当时所有文件的外观,并存储对该快照的引用。为了提高效率,如果文件没有改变,Git不会再次存储文件,只是指向它已存储的上一个相同文件的链接。Git认为它的数据更像是一个快照流,会将数据作为项目的快照存储一段时间。可以有效、高速地处理从很小到非常大的项目版本管理。原创 2024-07-23 06:26:11 · 757 阅读 · 0 评论 -
微服务专题
微服务是一种分布式架构,分布式架构就是把服务做拆分,在我们的传统单体架构中,我们把所有的服务都写在一起,随着业务的扩大我们的代码耦合度会变得越来越高,后期维护起来也很不方便。微服务就是把模块拆分,把我们整个项目拆解分成许多独立的子项目,每个子项目之间独立开发和部署,子项目也有自己独立的功能,这些独立的子项目就形成了微服务,不同的子项目就进而形成一个服务集群。原创 2024-07-22 09:53:54 · 1180 阅读 · 0 评论 -
微服务&服务注册 专题
服务消费者找到服务提供者的这种机制称为服务发现,又或者服务注册服务发现组件应具备以下功能:服务注册表:服务注册表是服务发现组件的核心(其实就是类似于上面的registry表),它用来记录各个微服务的信息,例如微服务的名称、IP、端口等。服务注册表提供查询API和管理API,查询API用于查询可用的微服务实例,管理API用于服务的注册和注销;服务注册与服务发现:服务注册是指微服务在启动时,将自己的信息注册到服务发现组件上的过程。服务发现是指查询可用微服务列表及其网络地址的机制;原创 2024-07-22 09:23:39 · 1140 阅读 · 0 评论 -
k8,Kubernetes【1】
归根接底,etcd是一个键值存储的组件,其他的应用都是基于其键值存储的功能展开。etcd的存储有如下特点:采用KV型数据存储,一般情况下比关系型数据库快支持动态存储(内存)以及静态存储(磁盘)分布式存储,可集成为多节点集群存储方式,采用类似目录结构只有叶子节点才能真正存储数据,相当于文件叶子节点的父节点一定是目录,目录不能存储数据etcd leader的延迟是要跟踪的最重要的指标,严重的延迟会在集群内造成不稳定,因为Raft的速度仅与大多数机器中最慢的一样快。原创 2024-07-22 06:28:23 · 454 阅读 · 0 评论 -
docker大全
Docker 容器 在应用程序层创建抽象并将应用程序及其所有依赖项打包在一起。这使我们能够快速可靠地部署应用程序。容器不需要我们安装不同的操作系统。相反,它们使用底层系统的 CPU 和内存来执行任务。这意味着任何容器化应用程序都可以在任何平台上运行,而不管底层操作系统如何。我们也可以将容器视为 Docker 镜像的运行时实例Dockerfile 是一个文本文件,其中包含我们需要运行以构建 Docker 映像的所有命令。Docker 使用 Dockerfile 中的指令自动构建镜像。原创 2024-07-22 06:16:45 · 591 阅读 · 0 评论 -
crontab题库
cron 是一个守护进程,它在 Linux 中的特定日期和时间执行命令。您可以使用它来安排活动,既可以作为一次性事件,也可以作为重复任务。Crontab是用于安装、卸载或列出用于驱动服务器中的 cron 守护程序的表的程序。每个用户都可以有自己的 crontab,虽然这些是 /var/spool/cron/crontabs 中的文件,但它们并不打算直接编辑。以下是 crontab 的几个命令行选项。crontab -e 编辑您的 crontab 文件。原创 2024-07-22 06:10:23 · 917 阅读 · 0 评论 -
DevOps 原理
DevOps(Development和Operations的组合词)是一种重视“软件开发人员(Dev)”和“IT运维技术人员(Ops)”之间沟通合作的文化、运动或惯例。透过自动化“软件交付”和“架构变更”的流程,来使得构建、测试、发布软件能够更加地快捷、频繁和可靠DevOps 是一套实践、工具和文化理念,可以实现软件开发团队和 IT 团队之间的流程自动化和集成。它强调团队赋能、跨团队沟通和协作以及技术自动化在开发人员与运维人员产生分歧的时候,DevOps的出现解决了两者之间的矛盾。原创 2024-07-21 12:10:01 · 1112 阅读 · 0 评论 -
Linux 性能
输出结果中,CPU 项显示了 CPU 的使用状态,其中当 us 列的值较高时,说明用户进程消耗的 CPU 时间多,如果其长期大于 50%,就需要考虑优化程序或算法;vmstat 命令可以显示关于系统各种资源之间相关性能的简要信息,在 《Linux vmstat 命令》一节中,我们已经对此命令的基本格式和用法做了详细的介绍,因此不再赘述,这里主要用它来看 CPU 的一个负载情况。CPU 利用率:和负载不同,CPU利用率指的是当前正在运行的进程实时占用CPU的百分比,它是对一段时间内CPU使用状况的统计。原创 2024-07-21 12:06:42 · 592 阅读 · 0 评论 -
Nginx大全
Nginx是一个 轻量级/高性能的反向代理Web服务器,用于 HTTP、HTTPS、SMTP、POP3 和 IMAP协议。他实现非常高效的反向代理、负载平衡,他可以处理2-3万并发连接数,官方监测能支持5万并发,现在中国使用nginx网站用户有很多,例如:新浪、网易、腾讯等Nginx是十分轻量级的HTTP服务器。Nginx,它的发音为“engine X”,是一个高性能的HTTP和反向代理服务器,同时也是一个IMAP/POP3/SMTP 代理服务器。原创 2024-07-21 12:04:54 · 905 阅读 · 0 评论 -
【大数据专题】分布式架构
分布式系统(distributed system)是建立在网络之上的软件系统。内聚性是指每一个数据库分布节点高度自治,有本地的数据库管理系统。透明性是指每一个数据库分布节点对用户的应用来说都是透明的,看不出是本地还是远程。在分布式数据库系统中,用户感觉不到数据是分布的,即用户不须知道关系是否分割、有无副本、数据存于哪个站点以及事务在哪个站点上执行等。简单来讲:在一个分布式系统中,一组独立的计算机展现给用户的是一个统一的整体,就好像是一个系统似的。原创 2024-07-21 08:42:35 · 879 阅读 · 0 评论 -
【大数据专题】数据分析
A:数据挖掘与知识发现B:领域知识发现C:文档知识发现D:动态知识发现A。原创 2024-07-20 07:27:34 · 925 阅读 · 0 评论 -
【大数据专题】数据仓库
在信息系统中,将事务抽象为“实体”(Entity)、“属性”(Property)、“关系”(Relationship)来表示数据关联和事物描述,这种对数据的抽象建模通常被称为ER实体关系模型。实体:通常为参与到过程中的主体,客观存在的,比如商品、仓库、货位、汽车,此实体非数据库表的 实体表。属性:对主体的描述、修饰即为属性,比如商品的属性有商品名称、颜色、尺寸、重量、产地等。关系:现实的物理事件是依附于实体的,比如商品入库事件,依附实体商品、货位,就会有“库存”的属 性产生;原创 2024-07-20 07:20:54 · 1462 阅读 · 0 评论 -
【大数据专题】分析对比
1 . 简述Spark和Flink的区别 ?1、设计理念方面Spark的技术理念是使用微批来模拟流的计算,基于Micro-batch,数据流以时间为单位被切分为一个个 批次,通过分布式数据集RDD进行批量处理,是一种伪实时。Flink是基于事件驱动的,是面向流的处理框架,Flink基于每个事件一行一行地流式处理,是真正的流式 计算。另外它也可以基于流来模拟批进行计算实现批处理。2、架构方面Spark在运行时的主要角色包括:Master、Worker、Driver、Executor。Flink 在原创 2024-07-19 08:49:42 · 934 阅读 · 0 评论 -
【大数据专题】Flink题库
Apache Flink 是一个开源的基于流的有状态计算框架。它是分布式地执行的,具备低延迟、高吞吐的优秀性能,并且非常擅长处理有状态的复杂计算逻辑场景1、Window概述streaming流式计算是一种被设计用于处理无限数据集的数据处理引擎,而无限数据集是指一种不断增长 的本质上无限的数据集,而window是一种切割无限数据为有限块进行处理的手段。Window是无限数据流处理的核心,Window将一个无限的stream拆分成有限大小的“buckets”桶,我们可 以在这些桶上做计算操作。原创 2024-07-19 08:36:58 · 1842 阅读 · 0 评论 -
【大数据专题】Spark题库
试题回答参考思路:Spark是大数据的调度,监控和分配引擎。它是一个快速通用的集群计算平台.Spark扩展了流行的MapReduce模型.Spark提供的主要功能之一就是能够在内存中运行计算 ,但对于在磁盘上运行的复杂应用程序,系统也比MapReduce更有效Spark 是一个通用的内存计算引擎。您可以将它与任何存储系统连接,如本地存储系统、HDFS、Amazon S3 等。它还让您可以自由使用您选择的资源管理器,无论是 Yarn、Mesos、Kubernetes 还是独立的。原创 2024-07-18 08:54:54 · 1560 阅读 · 0 评论