
大数据
文章平均质量分 60
渊飞
这个作者很懒,什么都没留下…
展开
-
Milvus:unknown method GetLoadingProgress for service milvus.proto.milvus.MilvusService
报错内容显示是GRPC通信问题,但是在查询官方文档和Github issue后并没有找到准确的解决方法,仅有类似报错表明是Milvus版本与Java SDK不匹配造成的。笔者这里的Milvus是2.2版本,而JDK是11.0,但是受工程部署所限,没有选择去改JDK的版本。但是令人惊讶的是,尽管报错造成程序退出,但是内存中已经成功加载了具体的collection,因此选择try catch掉这个异常。以Docker部署好Milvus,在Python脚本中加载collection报错。原创 2023-04-11 11:19:12 · 891 阅读 · 0 评论 -
Hadoop原理与机制4-2:YARN调度器、调度算法和资源分配方式
1 YARN资源调度器种类 Hadoop作业调度器主要有三种:FIFO、Capacity Scheduler和Fair Scheduler。Apache Hadoop的默认调度器是Capacity Schedular,而CDH的默认调度器是Fair Schedular。如下对这三种调度器进行分别的介绍。 2 FIFO调度器【先入先出调度器】 特点:FIFO调度器按照任务到达的时间排序,先到先服务, 在当前强调多租户和资源利用率的大环境下,FIFO的使用率并不高。 优...原创 2021-09-12 02:03:10 · 961 阅读 · 0 评论 -
Hadoop原理与机制4-1:YARN工作机制
1 工作机制 MapReduce程序提交到客户端所在的节点。 YARN Runner向ResourceManager申请一个Application。 RM将该应用程序的资源路径返回给YARN Runner。 该程序将运行所需资源提交到HDFS上。 程序资源提交完毕后,申请运行mrAppMaster。 ResourceManager将用户的请求初始化成一个Task。 其中一个NodeManager领取到Task任务。 该NodeManager创建容器Container,并产生MRAppm..原创 2021-09-12 00:27:27 · 120 阅读 · 0 评论 -
Hadoop原理与机制4-0:YARN概述与基础架构
1 YARN概述 Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。2 YARN基础架构ResouceManager(RM)的主要作用如下 资源的分配和调度 启动和监控ApplicationMaster 监控NodeManager 处理客户端请求 NodeManager(NM)的主要作用如下: 管理单个结点的资源 处理来自Resou...原创 2021-09-12 00:21:45 · 106 阅读 · 0 评论 -
解决Hive: java.lang.ClassNotFoundException Class org.apache.hive.hcatalog.data.JsonSerDe not found
在启动Hive时,创建一个表并对其添加一个JSON格式匹配ROW FORMAT SERDE 'org.apache.hive.hcatalog.data.JsonSerDe':问题出现原因如下图的问题:出现该问题的原因主要在于Hive在初始启动时并没有成功加载用于解析JSON格式的JAR包,而出现的ClassNotFoundException中的类就是此表用到的JsonSerDe,故由此可以得到解决该问题的主要思路,如下有两种解决方法:1. 临时解决找到 hive-hcatalo.原创 2020-06-06 21:56:39 · 7165 阅读 · 0 评论 -
MapReduce原理
MapReduce运行阶段数据传递经过输入文件、Map阶段、中间文件、Reduce阶段、输出文件五个阶段,用户程序只与Map阶段和Reduce阶段的Worker直接相关,其他事情由Hadoop平台根据设置自行完成。从用户程序User Program开始,用户程序User Program链接了MapReduce库,实现了最基本的map函数和reduce函数。(1)MapReduce库先...原创 2019-08-01 09:10:44 · 171 阅读 · 0 评论 -
MapReduce编程概述
MapReduce是一个用于大规模数据集的并行处理的分布式计算的编程框架。MapReduce将一个数据处理过程拆分为Map和Reduce两部分:Map是映射,负责数据的过滤分发;Reduce是规约,负责数据的计算归并。开发人员只需通过编写map和reduce函数,不需要考虑分布式计算框架的运行机制,即可在Hadoop集群上实现分布式运算。MapReduce可以帮助开发人员将精力集中在业务逻...原创 2019-08-01 09:09:18 · 866 阅读 · 0 评论 -
HDFS分布式文件系统
大数据存储是大数据处理与分析的基础。高效、安全地存储与读写数据是提高大数据处理效率的关键。数据可分为结构化数据和非机构化数据,传统的关系型数据库一般用于存储结构化数据,而对大数据环境下海量的非机构化数据,通常采用如HDFS分布式文件系统或者NoSQL数据库进行存储。1)HDFS采用主从结构存储数据,NameNode结点负责集群任务调度,DataNode负责执行任务和存储数据块。NameNo...原创 2019-08-01 09:22:26 · 599 阅读 · 0 评论