【ELT.ZIP】OpenHarmony啃论文俱乐部——大数据框架性能优化系统

本文介绍了OpenHarmony中针对大数据框架Apache Hadoop和Spark的性能优化,探讨了两者的联系与特点,以及如何通过数据压缩等手段提升性能。实验结果显示,Lz4和Zstandard在不同数据量下表现优秀,为Hadoop和Spark提供了最佳性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

  • 本文出自ELT.ZIP团队,ELT<=>Elite(精英),.ZIP为压缩格式,ELT.ZIP即压缩精英。
  • 成员:
    • 上海工程技术大学大二在校生
    • 合肥师范学院大二在校生
    • 清华大学大二在校生
    • 成都信息工程大学大一在校生
    • 黑龙江大学大一在校生
    • 山东大学大三在校生
    • 华南理工大学大一在校生
  • 我们是来自7个地方的同学,我们在OpenHarmony成长计划啃论文俱乐部里,与华为、软通动力、润和软件、拓维信息、深开鸿等公司一起,学习和研究操作系统技术

【往期回顾】

 2月23日 《老子到此一游系列》之 老子为什么是老子 —— ++综述视角解读压缩编码++
 3月11日 《老子到此一游系列》之 老子带你看懂这些风景 —— ++多维探秘通用无损压缩++
 3月25日 《老子到此一游系列》之 老子见证的沧海桑田 —— ++轻翻那些永垂不朽的诗篇++
 4月4日 《老子到此一游系列》之 老子游玩了一条河 —— ++细数生活中的压缩点滴++
 4月18日 ++【ELT.ZIP】OpenHarmony啃论文俱乐部——一文穿透多媒体过往前沿++
 4月18日 ++【ELT.ZIP】OpenHarmony啃论文俱乐部——这些小风景你不应该错过++
 4月18日 ++【ELT.ZIP】OpenHarmony啃论文俱乐部——浅析稀疏表示医学图像++
 4月29日 ++【ELT.ZIP】OpenHarmony啃论文俱乐部——计算机视觉数据压缩应用++
 4月29日 ++【ELT.ZIP】OpenHarmony啃论文俱乐部——点燃主缓存压缩技术火花++
 4月29日 ++【ELT.ZIP】OpenHarmony啃论文俱乐部——即刻征服3D网格压缩编码++

【本期看点】

  • Hadoop和Spark框架的性能优化系统
  • 云计算重复数据删除技术降低冗余度
  • 压缩框架Ares如何统一不同算法
  • 在线数据压缩“摇摆门趋势”
  • 揭秘新型移动云存储SDM

【技术DNA】

在这里插入图片描述

【智慧场景】

在这里插入图片描述


背景介绍

大数据概念

  • 大数据Big Data),又称为巨量资料,指的是所涉及的资料量规模巨大到无法透过主流软件工具,在合理的时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。
  • 但大数据是个抽象的概念,业界对大数据还没有一个统一的定义,而且用上面的定义似乎难以理解,所以就有了以下用 “4V” 来定义大数据的方法。

大数据特征

  • 说到大数据的特征,就不得不提到“4V”。那什么是“4V”呢?

  • “4V” 即四个用来描述大数据特征的英文单词:Volume(体积)、Velocity(速度)、Variety(多样) 和 Value(价值)。用“4V”的方式给大数据下个中文定义,那就是满足数据体量巨大、数据速度快速、数据种类繁多和数据价值密度低的数据即大数据。
    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qCqQtjpx-1652334589565)(https://ycnx.online/wp-content/uploads/2022/05/image-1652144736245.png)]

  • 每天大家都在使用微信、QQ与好友开黑聊天,用支付宝、淘宝完成线上下支付。时过境迁,目前互联网产生的数据已经远远地超过很多年前的“3G时代”。比如下图,生动形象地描述了2021年各大互联网公司每分钟所产生的数据。
    file

  • 像是 Tiktok 每分钟就产生了5000次下载,197.6 百万条电子邮件被发出,500 个小时的视频被上传。虽然不是国内的数据,但也能反映出国内的一些情况,更能让我们体会到大数据时代下的数据量之大,数据种类之繁杂。侧面也能反映出处理这些数据的困难。

问题解决

  • 那么大数据是怎样一步步发展到今天的呢?在回答这个问题之前,我们先来介绍一下两个由著名的 Apache 基金会开源出来的非常重要的项目 Apache Spark 和 Apache Hadoop

Apache Hadoop 介绍

  • Apache Hadoop 是一个开源的,可靠的,可扩展的分布式计算框架&#x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值