
大数据
文章平均质量分 56
大数据
oneslide
时代是浮躁的,心之所向,日积月累,愈久弥坚,大器晚成。
展开
-
Hadoop 3.3.1 配置Web UI可跨域
core-site.xml <!--web console cors settings--> <property> <name>hadoop.http.filter.initializers</name> <value>org.apache.hadoop.security.HttpCrossOriginFilterInitializer</value>原创 2022-02-28 09:54:57 · 1404 阅读 · 0 评论 -
Flink IntellJ IDEA 快速开始
本文记录如何在idea里使用搭建最新版flink开发环境,源码在:https://github.com/oneslideicywater/flink-test.git安装Scala 插件maven工程新建maven工程├─src│ ├─main│ │ ├─java│ │ ├─resources│ │ └─scala| | |- HelloScala.scala 引入scala依赖选择合适的scala版本, 要和maven工程中 <dep原创 2022-02-27 20:21:40 · 1598 阅读 · 0 评论 -
容器化 hadoop 3.1.1Docker-Compose方式
本文基于CentOS 7基础镜像使用docker-compose单机搭建包含一个namenode和一个datanode HDFS分布式集群,用于概念验证。最后使用Java Client Library 访问HDFS写入一个文件,验证HDFS可远程访问。文章目录规划端口构建镜像1. 目录机构2. 文件内容3. 构建镜像配置启动HDFS测试HDFS测试远程访问Java示例规划端口docker需要暴露适当端口,以使得hadoop可以被远程访问。远程客户端要访问hdfs时,会先从端口9000 获取数据元原创 2022-01-11 11:54:42 · 1972 阅读 · 0 评论 -
Kerberos认证
Key Distribution Center, or KDC 是Kerberos认证中心,用于分发访问时的凭证。由三部分组成用于保存用户身份(principle)和密码(password)的数据库authentication server (AS) 执行凭据认证(用户名密码确认是否正确)和分发TGT(Ticket Granting Ticket), TGT相当于一个通用令牌,可以使用这个通用令牌兑换各种专用令牌。Ticket Granting Server (TGS) 基于TGT分发专翻译 2021-09-15 10:42:09 · 185 阅读 · 0 评论 -
Spark和MapReduce的对比
spark和MapReduce不同点在于,spark每次处理数据都先将数据放到内存里面。如果数据量太大,内存盛不下,那么性能就大打折扣。MapReduce每次执行完了一个任务都会存储到磁盘,比如归并排序。先归并两个节点的数据集,存到磁盘上。当需要进一步归并,还要从磁盘读。而spark则是直接在内存里进行归并,需要进一步归并,如果内存继续申请内存。所以spark影响与它一起运行在同一节点的应用性能。...转载 2019-10-12 17:58:52 · 704 阅读 · 0 评论 -
Frame of Reference and Roaring Bitmaps
While it may surprise you if you are new to search engine internals, one of the most important building blocks of a search engine is the ability to efficiently compress and quickly decode sorted lists...翻译 2019-08-13 21:48:25 · 539 阅读 · 0 评论 -
YARN Documentation
YARN的基本功能就是将资源管理和任务调配/监控方面的功能分离出来。YARN有一个全局的资源管理器(RM),每个应用都有一个ApplicationMaster(AM)。一个应用是一个任务或一个DAG(任务组成的有向无环图)。RM有两个主要组件,调度器(Scheduler)和应用管理器(Application Manager)Scheduler只负责在规则约束下分配资源,不负责监控任务状态等。...翻译 2019-07-30 09:51:24 · 259 阅读 · 0 评论 -
Hadoop生态系统
Hadoop 生态系统HDFS: HDFS是存数据的地方,存的数据是结构化或非结构化MapReduce:基本编程模型处理大数据,运行于廉价机器集群MapReduce:基本编程模型处理大数据,运行于廉价机器集群Spark:大规模数据处理引擎,流处理允许其处理无限数量的数据 Pig:Spark:大规模数据处理引擎,流处理允许其处理无限数量的数据Pig:Pig是数据流语言,Pi...翻译 2019-07-29 19:53:03 · 213 阅读 · 0 评论 -
Flink Note
又是认识一个新组件的一天,看官方文档ing数据计算的场景Event-driven Applications(基于事件的应用)基于事件的应用从多个事件流获取数据,并通过计算,状态更新做出反应。传统应用采用分离的数据层和计算逻辑层,而事件驱动应用基于状态流处理应用数据和应用共存。容灾是通过周期性将检查点(checkpoint)保存远程持久化存储中。典型事件驱动场景包括异常检测,监控,社交媒...翻译 2019-07-20 13:57:23 · 212 阅读 · 0 评论 -
LSM
So磁盘的随机读写性能要远远低于顺序读写。现在的B+数在每次数据插入(写操作)都要更新索引,引起额外的写操作。所以,对于大型数据集的场景(写多读少,随机读更少)不太合适。Google发表了一篇论文(10年前)参考文献2,引入了LSM树,其基本思想就是将随机写改为顺序写,而适当牺牲读性能。基本思路一条数据插入时,写入到一个文件(成为Store File)中。文件是只能追加的。数据在一个文件...原创 2019-07-16 19:59:39 · 344 阅读 · 0 评论 -
HBase Note
HDFS是一个分布式的文件系统,一个文件甚至超过一个主机的硬盘存储,基础文件块128MB。而HBase希望给予HDFS构造一个能够操作百万列*十亿行组成的数据库。...原创 2019-07-13 18:06:25 · 235 阅读 · 0 评论 -
Spark Documentation
boardcast variableSometimes, a variable needs to be shared across tasks, or between tasks and the driver program. Spark supports two types of shared variables: broadcast variables, which can be used...转载 2019-01-31 15:17:53 · 303 阅读 · 0 评论 -
windows 7安装Hadoop 2.9.2
downloadhttp://apache.mirrors.hoobly.com/hadoop/common下选择想要下载的hadoop版本下载hadoop-****.tar.gz,不要下载源码版然后解压到任意目录替换源包任意目录,进入Git Bash,将两个文件夹下载下来:git clone https://gitee.com/oneslideicywater/hadoop-win...翻译 2019-01-09 10:50:18 · 2024 阅读 · 0 评论 -
HDFS
文章翻译来源:https://hadoop.apache.org/docs/r1.2.1/hdfs_design.html#Introduction简单介绍Hadoop Distributed File System (HDFS)是一个运行于廉价硬件上的分布式文件系统。HDFS是一个高容错,专门为在廉价机器上运行而设计的。HDFS提供高吞吐量适合有大量数据的应用。HDFS放宽了几个POSI...转载 2018-12-23 00:03:21 · 201 阅读 · 0 评论