Hadoop
arthasking123
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
《设计数据密集型应用》- Designing Data-Intensive Application - 第10章 批处理 读书笔记
批处理 使用Unix工具的批处理 分析简单日志 以分析网站URL统计量并倒序排序为例 命令链与自定义程序 借助SHELL命令链或脚本语言均可用来分析日志 排序 VS 内存中的聚合 对于上述统计网站的例子,如果URL种类很少,则使用内存中的聚合较合适 GNU Coreutils(Linux)中的sort 程序通过溢出至磁盘的方式来自动应对大于内存的数据集,并能同时使用多个CPU核进行并行排序,可对大数据集进行处理 Unix哲学 统一的接口 使用文件描述符在管道中进行输入.原创 2020-10-22 17:20:52 · 253 阅读 · 0 评论 -
MPP(大规模并行处理)简介
1、 什么是MPP? MPP (Massively Parallel Processing),即大规模并行处理,在数据库非共享集群中,每个节点都有独立的磁盘存储系统和内存系统,业务数据根据数据库模型和应用特点划分到各个节点上,每台数据节点通过专用网络或者商业通用网络互相连接,彼此协同计算,作为整体提供数据库服务。非共享数据库集群有完全的可伸缩性、高可用、高性能、优秀的性价比、资源共享等优势。 简单来说,MPP是将任务并行的分散到多个服务器和节点上,在每个节点上计算完成后,将各自部分的结果汇总在一起得到最转载 2020-10-16 18:31:13 · 1622 阅读 · 0 评论
分享