
大数据
文章平均质量分 79
世界而世界
这个作者很懒,什么都没留下…
展开
-
【Hadoop】hive 简述及安装
Hadoop hive 简述及安装一、官网说明官网wiki文档-ConfluenceGetting StartedHomeThe Apache Hive™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage and queried using SQL syntax.hive是一款软件,支持在大数据分布式原创 2020-12-15 00:45:31 · 503 阅读 · 0 评论 -
【Hadoop】GC 一次 Hadoop MR GC 蛮神奇的
GC 一次 Hadoop MR GC 蛮神奇的1 说明发现在资源有限的情况下,还是蛮容易接触到很多的问题,蛮有意思的。这次主要是搭建了hadoop小环境,测试用,给的资源极少。1台机器 2C4G2 GC 异常Java heap space堆溢出,发生在 map 阶段这种一般发生在 Xmx 不够的情况下,yang区或者old区都塞不下新创建的对象了后来打了 GC 日志最后发生了好几次 Full GC 但是堆里面没啥东西,才 2%ps:写文章的时候才发现都是 Alloca原创 2020-12-09 23:28:30 · 602 阅读 · 0 评论 -
【Hadoop】Yarn 使用 FairSchedule 提交 mr 任务
Hadoop Yarn 使用 FairSchedule 提交 mr 任务1 默认调度说明打开 yarn 的 UI 界面 (默认是http://localhost:8088/cluster/nodes)在 Scheduler 中查看情况,默认是 Capacity Scheduler2 Fair Scheduler 配置修改官方配置说明etc/hadoop/yarn-site.xml<!-- Scheduler Config --><!-- Yarn 使用 Fa原创 2020-12-09 23:25:40 · 312 阅读 · 0 评论 -
【Hadoop】Yarn Scheduler 调度器简述
Hadoop Yarn Scheduler 调度器简述一、综述调度器职能调度程序负责将资源分配给正在运行的程序,遵循约束(容量、队列等)纯调度,不进行监控、跟踪不能保证重启失败的任务(程序故障、硬件故障)会基于应用程序的资源需求进行调度抽象了容器的概念 Container原文 it does so based on the abstract notion of a resource Container which incorporates elements such as memor原创 2020-12-08 00:30:31 · 297 阅读 · 1 评论 -
【Hadoop】MR maptask 工作流程
Hadoop-MR maptask 工作流程RM 整体流程读取数据 k1,v1数据映射 k2,v2数据分区分区内排序分区内数据合并数据分组发送(shuffle)数据reduce数据输出保存maptask部分1个切片对应1个maptask一般是1个block对应1个切片读取对应切片的数据 k1,v1进行数据映射 k2,v2映射完的数据写入环形缓冲区,同时计算分区键。环形缓存区写满80%后,会将数据写入到临时文件,同时进行排序、合并。排序规则先按分区号,后按key。数据都原创 2020-12-06 23:25:56 · 890 阅读 · 0 评论 -
【大数据】Hadoop3集群搭建
Hadoop3集群搭建一、准备官方文档-Setting up a Single Node Cluster官网下载可以下载源码,下载后需要构建一下# 科学上网下载比较快,可以自己电脑下好了在上传到服务器wget https://downloads.apache.org/hadoop/common/hadoop-3.3.0/hadoop-3.3.0-src.tar.gz# 解压文件tar -zxvf hadoop-3.3.0-src.tar.gz# maven构建也可以直接下载安原创 2020-12-06 21:05:12 · 275 阅读 · 0 评论 -
云集群搭建-创建阿里云实例
云集群搭建-创建阿里云实例从终端打开阿里云 云服务器 ECS 产品点击 实例-创建新实例 进入购买界面开始配置新实例付费模型:不长开机使用,可以选择按量付费地域:选择离使用地方近的就行实例:按需选择,共享型最便宜镜像:可以选择你喜欢的系统,我这就用阿里自己的了存储:看你要存多少数据,什么IO性能,单买数据盘也行(单独计费)网络:可以配置一个网段,后面机器都使用该网段公网IP:不常用按流量计费就行,如果你希望绑定一个固定的公网IP,可以后面自己配置弹性公网,此处原创 2020-12-06 21:03:11 · 837 阅读 · 1 评论 -
【JanusGraph入门】6-TinkerPop之Traversal简介
6-TinkerPop之Traversal简介网址官网文档一、Traversal简介遍历器Traversal<S,E>继承了迭代器的接口S stands for start 代表了开始对象的类型E stands for end 代表了结束对象的类型4大组件Step<S,E>一步an individual function applied to S to yield E. Steps are chained within a traversa原创 2020-09-10 13:58:07 · 373 阅读 · 0 评论 -
【JanusGraph入门】5-TinkerPop-家族
5-TinkerPop-家族目标家族成员全貌每个成员都是做什么家族故事和背景家族全貌Blueprints, Pipes, Gremelin, Frames, Furnace, Rexster.家族成员1. 家族标志TinkerPop2. 绿色小精灵GremlinTraversalThe Graph Process图遍历处理小精灵带着口袋的小精灵可复制的小精灵控制台里面的小精灵$ bin/gremlin.sh \,,,原创 2020-08-21 13:29:38 · 289 阅读 · 0 评论 -
【JanusGraph入门】4-TinkerPop简介
TinkerPop简介简介TinkerPop什么是 TinkerPopApache TinkerPop™ is a graph computing framework for both graph databases (OLTP) and graph analytic systems (OLAP).他是 Apache 顶级项目他是图计算框架, 支撑图数据库(OLTP)、图分析系统(OLAP)有哪些项目在用 TinkerPopTinkerPop 成员网址官网官网文档原创 2020-08-20 13:52:57 · 978 阅读 · 0 评论 -
【JanusGraph入门】两点最短路径,基于OLTP,单源广度优先遍历
两点间最大路径实现,基于OLTP,单源1 函数介绍repeat 循环执行括号里面的遍历器,每个遍历分支都会有一个小精灵去跑sideEffect 额外处理内容,不会影响上个函数的返回值aggregate 聚合函数,基于sideEffect实现,可以通过 cap/select 取出emit 针对repeat的收集器,判断哪些路径需要收集,这个有待研究,和unitl/times 有很大的区别until 循环终止条件,与times不可同时使用times 循环终止条件,与until不可同时使用,只能传原创 2020-07-27 22:28:30 · 643 阅读 · 2 评论 -
【JanusGraph入门】(第三天,先从Core包开始)
20200709 第三天 先从Core包开始JanusGraph Core|_ example/ 示例,演示诸神图谱|_ core/ 核心包, 例如:继承TinkerPop图结构的 JanusGraph,JanusVertex等 还有自己的类 SchemaManager JanusGraphQuery 等|_ diskstorage/ 磁盘存储相关 Backend 这个类感觉满关键的 Orchestrates and configures all backend原创 2020-07-10 00:00:44 · 371 阅读 · 2 评论 -
【JanusGraph入门】(第二天,了解概况)
20200708 第二天 JanusGraph了解概况上手开始一步步看源码时,第一块先了解一下软件背景、软件结构、软件功能、软件工具、设计思路,第二块对源码结构进行拆分,可以参考他人的源码分析。JanusGraph 官网1 看看有哪些特点scalable 可伸缩transactional 支持事务 ACIDOpen source 开源,这就不多说了Data Storage 支持的存储库Apache CassandraApache HBaseGoogle Cloud Bigtable原创 2020-07-09 01:35:10 · 350 阅读 · 0 评论 -
【JanusGraph入门】(第一天,下载项目)
20200707 第一天 下载项目fork 了一下仓库https://github.com/guangyuzhihun/janusgraph/tree/v0.3阅读目的实际项目中用到了,希望通过源码解决十亿级别快速入数问题,项目是 3.1 的所以看一下最近的源码 3.4 的JanusGraph 作为分布式图数据库,而且是开源的,那么作为以后想搞好图数据库这块,还是需要看一下该类型数据库的设计及源码(Neo4j作为原生图存储的开源的社区版也要看)今天收获clone 项目和下载 pom原创 2020-07-08 00:46:48 · 310 阅读 · 0 评论 -
Azkaban-搭建及任务编写
Azkaban-搭建及任务编写目录常用网址软件安装下载及构建独立运行集群运行Job编写Flow编写常用网址官网文档软件安装下载及构建下载地址构建# Build and install distributions./gradlew installDist独立运行下载项目源码# 可直接克隆项目git clone https://github.com/azkaban/azkaban.git# 或者下载最新的稳定版源码wget https://原创 2020-06-27 23:04:50 · 431 阅读 · 0 评论