
大数据
文章平均质量分 52
学习笔记
Michael阿明
两个孩子的父亲,8年机械工程师,已转行互联网做算法,一起继续加油!高举智慧,她就使你高升;怀抱智慧,她就使你尊荣。-- 箴言(4:8)
展开
-
使用 Ray 进行大规模分布式数据处理
模拟一些耗时操作computation_time = random.uniform(1, 5) # 模拟计算耗时(1-5秒): 这是 Ray 提供的装饰器,表示该函数将会在远程执行,而不是在本地串行执行。Ray 会将函数调度到集群中可用的工作节点上。: 模拟任务的执行时间,使用生成 1 到 5 秒之间的随机数。: 模拟计算过程中的耗时操作。Ray 远程任务执行:通过装饰器将任务分配到集群中的各个节点并行执行。节点信息获取。原创 2024-11-25 11:25:16 · 1296 阅读 · 0 评论 -
Apache Airflow 数据管道编排快速入门
是一个开源平台,用于编排调度和监控工作流。它通过定义有向无环图(DAGs)来组织任务和其依赖关系,支持任务的定时调度、自动执行和失败重试。Airflow 提供了强大的可视化界面,用于查看任务状态和日志,非常适合处理数据管道、自动化工作流和批处理任务。原创 2024-11-11 00:19:53 · 746 阅读 · 0 评论 -
docker-compose部署hive、kafka服务
放在 docker-hive路径下,cmd输入 docker-compose up -d,会部署hive相关的容器。然后需要在容器内部署写hive的服务,发现镜像的 Python 版本是3.4 的,需要升级。填写openssl的路径,还有取消5行注释,如上图所示。这一步的目的是,后面可以直接用自己的镜像,整了3天,做个记录,能帮到你少走弯路就好。更改 yml 配置,使用自己打包好的镜像。docker kafka 用的是。进行换源,加速后续下载,安装。把上面做好的镜像打包为。注意需要配置 ssl,原创 2022-10-23 00:15:25 · 2544 阅读 · 1 评论 -
大数据技术 思维导图
learn from 从0开始学大数据(极客时间)原创 2021-03-04 20:18:58 · 2653 阅读 · 1 评论 -
ZooKeeper 保证数据一致性
learn from 从0开始学大数据(极客时间)文章目录1. 分布式一致性原理2. Paxos 算法与 ZooKeeper 架构1. 分布式一致性原理CAP 原理认为,一个提供数据服务的分布式系统 无法同时满足 数据一致性(Consistency)、可用性(Availibility)、分区耐受性(Patition Tolerance)这三个条件一致性:返回最新的数据或者错误,而不是过期的数据可用性:每次请求都得到响应,但不保证响应的数据是最新的分区耐受性:即使网络原因导致部分服务器节点丢.原创 2021-03-03 21:49:21 · 320 阅读 · 2 评论 -
流式计算的代表:Storm、Flink、Spark Streaming
learn from 从0开始学大数据(极客时间)文章目录1. Storm2. Spark Streaming3. Flink对存储在磁盘上的数据进行大规模计算处理,大数据批处理对实时产生的大规模数据进行处理,大数据流计算1. Storm一些系统 业务逻辑 和 数据处理逻辑 混合,系统不能复用到其他需求上Storm 中,只需要编程开发好 数据处理逻辑 和 数据源逻辑,处理好拓扑关系2. Spark StreamingSpark Streaming 巧妙地利用了 Spark 的分片.原创 2021-03-03 18:33:14 · 695 阅读 · 1 评论 -
BigTable的开源实现:HBase数据库
learn from 从0开始学大数据(极客时间)文章目录1. 两种数据库2. HBase 可伸缩架构3. HBase 可扩展数据模型4. HBase高性能存储1. 两种数据库关系数据库(RDBMS)缺点:糟糕的 海量数据处理能力、僵硬的设计约束从 Google 的 BigTable 开始,一系列可以进行海量数据存储与访问的数据库被设计出来,NoSQL 这一概念被提了出来。NoSQL,主要指非关系的、分布式的、支持海量数据存储的数据库设计模式。关系数据库是在数据存储中包含了一部分业务逻.原创 2021-03-03 15:10:02 · 623 阅读 · 2 评论 -
为何Spark更高效?
learn from 从0开始学大数据(极客时间)Spark 的计算阶段Hadoop MapReduce 简单粗暴地根据 shuffle 将大数据计算分成 Map 和 Reduce 两个阶段,然后就算完事了。而 Spark 更细腻一点,将前一个的 Reduce 和后一个的 Map 连接起来,当作一个阶段持续计算,形成一个更加优雅、高效的计算模型,虽然其本质依然是 Map 和 Reduce。但是这种多个计算阶段依赖执行的方案可以有效减少对 HDFS 的访问,减少作业的调度执行次数,因此执行.原创 2021-02-26 23:57:58 · 476 阅读 · 0 评论 -
我们并没有觉得MapReduce速度慢,直到Spark出现
learn from 从0开始学大数据(极客时间)Spark 拥有更快的执行速度更友好的编程接口迅速抢占 MapReduce 的市场份额,成为主流的大数据计算框架val textFile = sc.textFile("hdfs://...")// 根据 HDFS 路径生成一个输入数据 RDDval counts = textFile.flatMap(line => line.split(" ")) // 每一行文本用空格拆分成单词 .ma.原创 2021-02-26 00:31:53 · 280 阅读 · 0 评论 -
Hive是如何让MapReduce实现SQL操作的?
learn from 从0开始学大数据(极客时间)1. MapReduce 实现 SQL 的原理SELECT pageid, age, count(1) FROM pv_users GROUP BY pageid, age;实现过程:2. Hive 的架构Hive 能够直接处理我们输入的 SQL 语句(Hive SQL 语法与 标准SQL 略有差异)3. Hive join 操作SELECT pv.pageid, u.age FROM page_view pv JOIN user .原创 2021-02-24 00:06:17 · 432 阅读 · 0 评论 -
Yarn 资源调度框架
learn from 从0开始学大数据(极客时间)Hadoop 主要是由三部分组成:分布式文件系统 HDFS分布式计算框架 MapReduce分布式集群资源调度框架 YarnYarn 的架构原创 2021-02-23 21:44:13 · 226 阅读 · 0 评论 -
MapReduce 计算框架如何运作
learn from 从0开始学大数据(极客时间)1. MapReduce 作业启动和运行机制作业涉及三类关键进程:大数据应用进程这类进程是启动 MapReduce 程序的主入口,主要是指定 Map 和 Reduce 类、输入输出文件路径等,并提交作业给 Hadoop 集群(JobTracker 进程)JobTracker 进程这类进程根据输入数据量,命令下面提到的 TaskTracker 进程启动相应数量的 Map 和 Reduce 进程任务,并管理整个作业生命周期的任务调度和监.原创 2021-02-23 21:21:13 · 229 阅读 · 0 评论 -
MapReduce既是编程模型又是计算框架
learn from 从0开始学大数据(极客时间)MapReduce 编程模型包含 Map 和 Reduce 两个过程map 的主要输入是一对 <Key, Value> 值,输出一对 <Key, Value> 值将相同 Key 合并,形成 <Key, Value 集合 >再将这个 <Key, Value 集合 > 输入 reduce,输出零个或多个 <Key, Value> 对// 计算单词数量的 MapReduce 版本pu.原创 2021-02-23 20:21:16 · 310 阅读 · 0 评论 -
HDFS依然是存储的王者
learn from 从0开始学大数据(极客时间)1. HDFS 架构DataNode 负责数据的存储、读写,HDFS 将文件分割成若干数据块(Block),每个 DataNode 存储一部分数据块,文件就分布存储在整个 HDFS 服务器集群中NameNode 负责分布式文件系统的元数据(MetaData) 管理,也就是文件路径名、数据块的 ID 以及存储位置等信息,相当于操作系统中文件分配表(FAT)的角色2. HDFS 的高可用设计数据存储故障容错对 DataNode 上的数据块.原创 2021-02-22 23:57:07 · 308 阅读 · 2 评论 -
从RAID看垂直伸缩到水平伸缩的演化
learn from 从0开始学大数据(极客时间)大规模数据存储问题:容量问题,数据量超过磁盘容量读写速度,磁盘读写慢数据可靠性,磁盘寿命问题RAID(独立磁盘冗余阵列) 是将多块普通磁盘组成一个阵列,共同对外提供服务。主要是为了改善磁盘的存储容量、读写速度,增强磁盘的可用性和容错能力RAID 技术只是在单台服务器的多块磁盘上组成阵列(垂直伸缩)大数据需要更大规模的存储空间和更快的访问速度。将 RAID 思想原理应用到分布式服务器集群上,就形成了 Hadoop 分布式文件系统 H.原创 2021-02-22 22:59:47 · 297 阅读 · 1 评论 -
移动计算比移动数据更划算
learn from 从0开始学大数据(极客时间)数据太大(PB级别),将程序发送到数据所在地方进行计算,比移动数据更划算如何实现的:将大规模数据存储在集群的所有服务器上,(HDFS系统,块存储)大数据引擎根据服务器的计算能力,在每台服务器启动若干分布式任务执行进程待命大数据计算框架编程,打包编程模型,如 Java 的 JAR 包用 Hadoop 或 Spark 执行 JAR 包(解析数据输入路径、大小、数据切分、数据片分配给任务执行进程)任务执行进程,检查是否有对应的程序包,没有则.原创 2021-02-22 22:27:51 · 354 阅读 · 0 评论