
Alluxio技术与实践
文章平均质量分 89
本专栏用于分享介绍开源大数据存储系统Alluxio相关的技术与应用实践。
Alluxio
官方网站:alluxio.com.cn
欢迎来玩儿
展开
-
Alluxio AI助力知乎千卡模型训练
Alluxio 社区版为知乎带来了混合云下 AI 存储的通用解决方案,使其能够在短时间内从自研组件无缝切换到 Alluxio 高性能缓存上,支持知乎实现跨云训练;其次,在更加核心的场景下,Alluxio 企业版为知乎带来了更高的稳定性,更好的性能,更便捷的运维,更是支持了知乎内部千卡大模型的训练稳定高效运行。原创 2024-11-21 11:17:59 · 951 阅读 · 0 评论 -
超算互联网统一存储平台技术研究
还有一些复杂的应用场景,比如海洋气象遥感这些领域,他们本身的操作流程就比较复杂,可能数据存储在一个地方,需要流转到另一个地方进行数据的预处理,模拟仿真、模型训练等操作,但是这些操作又可能要在不同的平台上进行,甚至要在不同的区域进行,如果没有一个一体化的服务平台,很难行得通,很难精通所有平台的使用方式,这些问题和挑战也是我们打造超算互联网核心要解决的。再就是数据的预取,也就是数据缓存机制的优化,包括预取的设计、关联规则,还有比较重点的,我们想做分层存储,这是后续要做的事情。原创 2024-03-08 16:59:52 · 1171 阅读 · 0 评论 -
2023年五大趋势预测 | 大数据分析、人工智能和云产业展望
尽管数据共享目前尚未普及,处于早期阶段,但是,以数据共享为核心的生态体系,包括为数据消费者和数据提供者的基础设施、交易能力和服务,都将在 2023 年得到长足的发展。在云上部署数据密集型负载的企业需重新评估其云战略,更加关注成本优化,根据现有或新项目的ROI(投资回报率)和TCO(总拥有成本)来进一步审视企业的云开销。此外,随着大模型不断升级优化,研发人员将需要找到更多新的方法,用来把更多的大模型和实际的应用场景结合起来。越来越多的企业会优化其架构,以避免遭到超出预期的数据出口成本的冲击。原创 2023-01-19 10:15:32 · 2301 阅读 · 0 评论 -
Alluxio 2022技术干货年终大赏
2022,我们积累了很多应用案例,邀请了很多嘉宾参与了我们的社区直播活动17场主题活动(Alluxio Day、Meetup、Datafun Summit等)44位嘉宾44个主题(来自一线大厂的实战者)2000+分钟的分享时长(内容涵盖【金融】【互联网&科技】【大数据】【通信】【电商】【出行】【人工智能】等热门行业)点击标题即可观看。原创 2023-01-14 14:40:17 · 709 阅读 · 0 评论 -
大咖分享 | 如何构建 Alluxio 审计日志分析系统
数据安全的保障是一个数据平台能否真正交付使用的准入门槛原创 2022-11-10 16:34:00 · 1357 阅读 · 0 评论 -
技术分享 | Presto性能对比测试:Kubernetes部署 VS 物理机部署
Presto是开源分布式SQL查询引擎,可以对从GB到PB级大小的数据源进行交互式分析查询。Presto支持Hive、Cassandra、关系型数据库甚至专有数据存储等多种数据源,允许跨源查询。原创 2022-10-11 11:40:13 · 1172 阅读 · 0 评论 -
【Iceberg+Alluxio】助力加速数据通道(下篇)
在【Iceberg + Alluxio 助力加速数据通道】系列活动中,本次主题演讲将分享开源分布式存储系统Alluxio与Iceberg的基本概念、集成方案与未来的结合方向。原创 2022-09-28 14:25:16 · 1029 阅读 · 0 评论 -
【Iceberg+Alluxio】助力加速数据通道(上篇)
在【Iceberg + Alluxio 助力加速数据通道】系列活动中,本次主题演讲将分享开源分布式存储系统Alluxio与Iceberg的基本概念、集成方案与未来的结合方向。原创 2022-09-28 14:00:50 · 1600 阅读 · 0 评论 -
Presto on Alluxio By Alluxio SDS 单节点搭建
利用 Alluxio SDS,底层的 HMS 中的分区表的 location 无需修改,也就是 HMS 没有任何改变,其它计算引擎完全没有变化。而 Presto 通过 Alluxio SDS 提供的元数据服务,可以进行一些定制化的改造,比如某些分区或表不经Alluxio访问,可以返回 原始的 location 信息。原创 2022-09-27 18:06:39 · 399 阅读 · 1 评论 -
帮助 Meta 解决 Presto 中的数据孤岛问题
Raptor 是用来支持Meta(以前的Facebook)中的一些关键交互式查询工作负载的Presto连接器(presto-raptor)。原创 2022-09-26 19:23:33 · 492 阅读 · 0 评论 -
【联通】数据编排技术在联通的应用
本次分享内容将围绕四个方面讲述Alluxio数据编排技术在联通的应用,主要围绕缓存加速、存算分离、混合负载以及轻量级分析四个不同的使用场景进行分享原创 2022-09-13 13:25:19 · 962 阅读 · 0 评论 -
B站基于Iceberg+Alluxio助力湖仓一体项目落地实践
本期分享的题目是B站基于Iceberg + Alluxio 助力湖仓一体项目落地实践,内容包含诸多技术细节原创 2022-08-24 11:51:43 · 882 阅读 · 0 评论 -
Apache顶级项目Ranger和Alluxio的最佳实践(附教程)
Alluxio统一了本地和跨云环境下的数据孤岛,实现数据本地性、可访问性和弹性,从而降低大数据和人工智能/机器学习(AI/ML)工作负载的管理数据和访问数据的难度。原创 2022-08-23 10:16:48 · 1976 阅读 · 6 评论 -
2min速览:从设计、实现和优化角度浅谈Alluxio元数据同步
内容速览:2min速读内容+直播回放+ 实录原创 2022-08-18 10:46:03 · 854 阅读 · 0 评论 -
华能 + Alluxio | 数字化浪潮下跨地域数据联邦访问与分析
本次研究主要聚焦在数据流的双向流动方面原创 2022-08-15 09:53:51 · 1228 阅读 · 0 评论 -
使用 Presto 和 Alluxio 在 AWS 上搭建高性能平台来支持实时游戏服务
Presto+Alluxio的不是在所有情况下的性能都显著优于S3原创 2022-08-05 17:04:29 · 1026 阅读 · 0 评论 -
Alluxio为Presto赋能跨云的自助服务能力
Alluxio 和 Presto之间的协同作用,并展示如何利用两者实现跨云自助服务数据架构。原创 2022-07-29 10:21:11 · 210 阅读 · 0 评论 -
6W+字记录实验全过程 | 探索Alluxio经济化数据存储策略
核心的挑战:如何更加经济地构建数据湖存储体系。原创 2022-07-20 13:35:24 · 515 阅读 · 0 评论 -
Shuttle + Alluxio 加速内存Shuffle起飞
当Alluxio遇上OPPO的Shuttle自产生怎样的化学反应转载 2022-07-15 15:53:20 · 738 阅读 · 0 评论 -
Meta项目功能测试 | 开启PrestoDB和Aria扫描优化
如果遇到需要通过Hive连接器查询ORC文件的场景,绝对值得一试原创 2022-07-15 15:40:32 · 466 阅读 · 0 评论 -
腾讯大咖分享 | 腾讯Alluxio(DOP)在金融场景的落地与优化实践
解决金融场景落地腾讯Alluxio过程中遇到的问题,提升性能和稳定性原创 2022-07-15 11:08:49 · 857 阅读 · 0 评论 -
【合集- 行业解决方案】如何搭建高性能的数据加速与数据编排平台
包含腾讯、B站、网易、联通、兴业银行、Kyligence、文远知行等多个行业的多个大厂原创 2022-06-30 16:40:12 · 437 阅读 · 0 评论 -
金山云团队分享 | 5000字读懂Presto如何与Alluxio搭配
金山云-企业云团队在交互查询场景下对Presto与Alluxio相结合进行了一系列测试,并总结了一些Presto搭配Alluxio使用的建议。原创 2022-06-24 10:56:15 · 716 阅读 · 0 评论 -
什么是一致性哈希?可以应用在哪些场景?
本文介绍了一种可用于软亲和调度的新哈希算法——一致性哈希原创 2022-06-22 10:29:34 · 1046 阅读 · 0 评论 -
技能速成!教你10分钟内在电脑上配置运行Hive Metastore和Presto
本教程将展示如何一步一步安装并配置Presto和Hive MetaStore,从而查询存储在公有S3 bucket中的数据。原创 2022-06-17 13:50:35 · 537 阅读 · 0 评论 -
Meta公司内部项目-RaptorX:将Presto性能提升10倍
降低查询延迟,让Presto的查询性能大大超越原生(vanilla)Presto翻译 2022-06-15 10:09:36 · 756 阅读 · 0 评论 -
Meta公司新探索 | 利用Alluxio数据缓存降低Presto延迟
当面试官问你,如何优化查询延迟和IO扫描,这篇文章就是答案原创 2022-06-10 11:27:51 · 985 阅读 · 0 评论 -
InfoWorld文章丨将数据编排技术用于AI模型训练
人工智能(AI)和机器学习工作负载依赖大型数据集,并且对数据吞吐量有较高的要求,两者都可以通过优化数据工作流来实现。转载 2022-06-05 15:39:05 · 912 阅读 · 0 评论 -
当内卷风波及代码领域,看Alluxio将会采取怎样的块分配策略
代码维度详细拆解,一文读懂Alluxio2分配策略原创 2022-06-05 15:16:14 · 294 阅读 · 0 评论 -
招聘 | 上班轰趴,下班狼人杀,天天招人,怕是要发!
听说这是一家被A16Z青睐的大数据公司原创 2022-05-31 22:53:04 · 393 阅读 · 0 评论 -
导师男团来袭 | 开源之夏2022,与Alluxio一起探索数据编排的奇妙世界
强悍导师男团等你揭晓原创 2022-05-13 13:57:53 · 500 阅读 · 0 评论 -
Alluxio 2.8版本正式发布 | 3大提升抢先打开数据新世界
点击下载的最好时机是刚才,其次是现在原创 2022-05-06 11:39:12 · 301 阅读 · 0 评论 -
Uber实战案例:基于Alluxio实现Presto缓存
01 Uber的业务场景如上图所示,在Uber,所有的决策都与数据有关。Presto以及其他各种查询引擎在Uber是被广泛使用的。例如,运营团队在Dashboard等服务中大量使用了Presto,而UberEats和市场团队也依赖于这些查询结果来确定价格。此外,Presto也在Uber的合规部、增长营销部门、ad-hoc数据分析等场景下使用。上图展示了Uber内部的一些重要数据。总的来说,目前Presto在Uber内部有12K的月活跃用户,每天要处理400K的查询并且要处理超过50PB的数据。在基.原创 2021-12-13 11:46:40 · 1341 阅读 · 0 评论 -
Meta(Facebook): 基于Alluxio Shadow Cache优化Presto架构决策
01 动机与背景Facebook Presto是一个以SQL语言作为接口的分布式实时查询引擎,可以对PB级的数据进行快速的交互式查询。它支持标准的ANSI SQL.包含查询、聚合、JOIN以及窗口函数等。Alluxio将其在数据层的创新作为Presto和各种分析应用程序和用例的关键支持技术。它创建了一个虚拟数据层,可以聚合来自任何文件或对象存储的数据,提供跨存储系统的统一命名空间,并允许应用程序继续使用原有的行业标准接口来访问数据,同时能够为Presto提供内存级别的速度和响应时间。为了提高请求的响.原创 2021-12-09 15:02:43 · 2555 阅读 · 0 评论 -
Alluxio荣获2021中关村前沿大赛大数据与云计算领域TOP10
2021年度中关村国际前沿科技创新大赛以“引领前沿科技、助力数字经济”为主题,瞄准国际最新科技趋势,结合中关村重点发展产业领域以及分园特色产业,聚焦生物医药、人工智能、集成电路、大数据与云计算等12个重点领域开展,旨在通过大赛公开路演的方式,面向全球公开遴选一批拥有全球首创、世界领先的前沿技术项目和企业。大赛得到了教育部、中科院、清华大学、北京大学、中国科协、中国证券投资基金业协会等部门的大力支持,大赛组建了由刘忠范、李开复等10余位院士及国际知名专家组成的专家委员会。关于AlluxioAllu.原创 2021-12-09 14:55:57 · 237 阅读 · 0 评论 -
DeepTech深科技专访丨分布式系统开源项目领跑者Alluxio获5000万美元C轮融资
独立扩展计算和存储的趋势,对象存储的兴起,混合云和多云的日益普及都进一步加剧了与数据访问相关的挑战。数据被孤立在各种存储系统中,使得用户和应用程序很难有效地找到和访问数据。例如,当一位工程师或科学家想写一个应用程序来解决问题时,他需要花费大量的精力来让应用程序高效地访问数据,而不是专注于算法和应用程序的逻辑。事实上,只要应用程序框架、存储系统或部署环境(云与内部部署)发生变化,开发人员就需要重新编写数据访问的程序。数据编排,数据世界缺少的一块拼图在计算机领域所有的问题,没有任何一个问题不能通过.原创 2021-12-09 14:53:41 · 2635 阅读 · 0 评论 -
【Alluxio&大厂】原来BOSS直聘是这样应用的
Hello大家好,我是来自BOSS直聘的基础架构工程师周佩洁。主要负责BOSS直聘算法平台的数据流链路的架构和设计。下面由我介绍Alluxio+Fluid在BOSS直聘算法平台的落地实践,我们本期的分享主要分为以下几个内容:首先,我会介绍一下Alluxio在我们这边使用的背景,另外我会介绍一下我们在使用过程中遇到的挑战。再之后我会介绍我们的整个架构设计,最后我会介绍一下使用Fluid管理Alluxio在k8s集群上的落地,以及我们实现的Alluxio在k8s集群上的动态扩缩容的实践。Part 1 Al.原创 2021-12-09 14:45:23 · 2113 阅读 · 0 评论 -
2.7版本发布丨Alluxio数据编排平台进一步深化对人工智能和机器学习工作负载在混合云和多云上的支持
新功能极大地提高了人工智能和机器学习模型训练中数据加载和预处理的I/O效率并降低了端到端的训练时间和成本全球首创的开源云原生数据编排软件开发商Alluxio宣布正式发布数据编排平台2.7版本,新版本立即可用。2.7版本通过并行数据加载、数据预处理和训练工作流,可将机器学习(ML)训练的I/O效率提高8-12倍,从而显著降低成本。新版本还提供了更强的性能分析,并能更好地支持Apache Hudi和Iceberg等开放表格格式,使得对数据湖的访问更易于扩展,从而实现了Presto和Spark的分析提速。原创 2021-12-09 14:40:08 · 2166 阅读 · 0 评论 -
新生代工程师手把手教你玩转Alluxio+ML(下篇)
Part 1 Alluxio POSIX API自测性能使用Alluxio POSIX读文件速度能到多少?和从云上读取数据相比,使用Alluxio POSIX接口:更快吗?快多少?上篇中提到了很多Alluxio为了加速读取数据做的各种各样的优化,那么对于用户来说还有一个非常重要的问题——在机器学习训练中使用Alluxio读数据到底有多快?比如说数据是储存在云上的,那从Alluxio读会不会比直接从云上读更快,具体能快多少?有了比较我们才能判断出使用Alluxio到底能不能获得训练性能提升,能提.原创 2021-12-09 14:30:00 · 654 阅读 · 0 评论 -
Alluxio+NVIDIA GPUs : 加速分析和人工智能
越来越多的数据处理使用NVIDIA 计算来实现大规模并行。加速计算的发展意味着无论是在分析、人工智能 (AI) 还是机器学习 (ML) 过程中,对存储的访问也需要更快。如果数据访问很大程度影响执行时间,那么GPU加速带来的好处将是有限的。基于GPU的处理与基于CPU 的集群相比,可以驱动更高的数据访问吞吐量。随着用于分析和人工智能的处理集群与数据存储系统的分离,加速数据访问将变得更加重要。NVIDIA已经和Alluxio社区开展合作,对大规模数据集缓存和GPU数据可用性进行高性能数据编排系统测试。A..原创 2021-12-09 13:58:18 · 1492 阅读 · 0 评论