Alluxio Paper

Tachyon是一种分布式文件系统,它以内存速度提供可靠数据共享,显著改善集群计算框架中的读写性能。通过引入lineage技术解决复制带来的瓶颈,并采用Checkpoint算法保证故障时的数据恢复,测试显示其写性能比内存式HDFS快110倍。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

原文 : http://people.eecs.berkeley.edu/~haoyuan/papers/2014_EECS_tachyon.pdf

Reliable, Memory Speed Storage for Cluster Computing Frameworks

Abstract

Tachyon is a distributed file system enabling reliable data sharing at memory speed across cluster computing frameworks. While caching today improves read workloads,writes are either network or disk bound, as replication is used for fault-tolerance. Tachyon eliminates this bottleneck by pushing lineage, a well-known technique borrowed from application frameworks, into the storage layer. The key challenge in making a long-lived lineagebased storage system is timely data recovery in case of failures. Tachyon addresses this issue by introducing a checkpointing algorithm that guarantees bounded recovery cost and resource allocation strategies for recomputation under common resource schedulers. Our evaluation shows that Tachyon outperforms in-memory HDFS by 110x for writes. It also improves the end-to-end latency of a realistic workflow by 4x. Tachyon is open source and is deployed at multiple companies.

摘要

Tachyon是一种分布式文件系统,它能够以内存级别的速度在集群计算框架中提供可靠的数据共享。尽管当今缓存可以有效提高读性能,但是写速度仍然较慢,因为目前的分布式系统大多采用复制方法来保证失败恢复,而网络或者磁盘则会成为瓶颈。Tachyon将应用框架(比如Spark)中的lineage技术引入到了存储层,避免了大量复制,从而消除了网络以及磁盘瓶颈。构建一个长生命周期的基于lineage技术的存储系统时,一个主要的挑战就是如何在失败的情况下能够做到及时的数据恢复。为了解决这个问题,Tachyon采用了一种Checkpoint的算法能过确保数据恢复的时间上限并且合理地为“重计算“分配适当地资源。我们做过测试,Tachyon在写效率上是内存式HDFS的110倍,同时对于端到端的workflow的运行速度也提高了4倍。Tachyon是开源的,目前已经在多家公司部署使用。

1. Introduction

Over the past few years, there have been tremendous efforts to improve the speed and sophistication of largescale data-parallel processing systems. Practitioners and researchers have built a wide array of programming frameworks [29, 30, 31, 37, 46, 47] and storage systems [13, 14, 22, 23, 34] tailored to a variety of workloads.
过去的几年中,业界已经花费了大量的精力去提高大规模数据并行处理系统的速度和适配度。
各种专家和研究人员针对各种不同的场景创建出各种各样的编程框架以及存储系统。

As the performance of many of these systems is I/O bound, traditional means of improving their speed is to cache data into memory [8, 11]. While caching can dramatically improve read performance, unfortunately, it does not help much with write performance. This is because these highly parallel systems need to provide faulttolerance, and the way they achieve it is by replicating the data written across nodes. Even replicating the data in memory can lead to a significant drop in the write performance, as both the latency and throughput of the network are typically much worse than that of local memory.
Slow writes can significantly hurt the performance of job pipelines, where one job consumes the output of another. These pipelines are regularly produced by workflow managers such as Oozie [6] and Luigi [9], e.g., to perform data extraction with MapReduce, then execute a SQL query, then run a machine learning algorithm on the query’s result. Furthermore, many high-level programming interfaces [2, 5, 40], such as Pig [33] and FlumeJava[16], compile programs into multiple MapReduce jobs that run sequentially. In all these cases, data is replicated across the network in-between each of the steps.
这些系统的性能大部分都是I/O受限的,因此为了提升速度比较传统的做法是将数据缓存起来。不幸的是,虽然缓存可以非常有效地提高读性能,但是对于写性能却无能为力。这是因为这些高并行系统需要提供“失败恢复”机制,而其采用的方法是通过复制将数据分发到各个节点上。
即使仅在内存中复制数据也会明显地降低写性能,因为网络延迟和吞吐量受限。过慢的写数据严重影响整个job pipeline的性能,因为在一个job pipeline中一个job依赖于上一个job的输出结果。工作流程序比如oozie, luigi等会生成这些pipeline,比如执行一个mapreduce的数据抽取工作,然后执行一次SQL查询,在查询的结果集上去跑一个机器学习算法等。而且许多像pig,FlumeJava这些高级的编程接口可以把程序编译成多个Mapreduce job,然后顺序执行。在以上这些场景中,都是通过复制将数据在不同的操作中进行传递的。

内容概要:本文针对国内加密货币市场预测研究较少的现状,采用BP神经网络构建了CCi30指数预测模型。研究选取2018年3月1日至2019年3月26日共391天的数据作为样本,通过“试凑法”确定最优隐结点数目,建立三层BP神经网络模型对CCi30指数收盘价进行预测。论文详细介绍了数据预处理、模型构建、训练及评估过程,包括数据归一化、特征工程、模型架构设计(如输入层、隐藏层、输出层)、模型编译与训练、模型评估(如RMSE、MAE计算)以及结果可视化。研究表明,该模型在短期内能较准确地预测指数变化趋势。此外,文章还讨论了隐层节点数的优化方法及其对预测性能的影响,并提出了若干改进建议,如引入更多技术指标、优化模型架构、尝试其他时序模型等。 适合人群:对加密货币市场预测感兴趣的研究人员、投资者及具备一定编程基础的数据分析师。 使用场景及目标:①为加密货币市场投资者提供一种新的预测工具和方法;②帮助研究人员理解BP神经网络在时间序列预测中的应用;③为后续研究提供改进方向,如数据增强、模型优化、特征工程等。 其他说明:尽管该模型在短期内表现出良好的预测性能,但仍存在一定局限性,如样本量较小、未考虑外部因素影响等。因此,在实际应用中需谨慎对待模型预测结果,并结合其他分析工具共同决策。
内容概要:该论文针对新型电力系统中非线性负荷和分布式电源接入导致的电能质量扰动识别难题,提出了一种结合优化广义S变换(OGST)和混合输入神经网络的方法。OGST通过自适应选取高斯窗函数参数保留扰动信号的幅值和频率特征;混合输入神经网络分别处理原始时间序列和时频矩阵,融合两种特征后识别扰动类型。实验表明,该方法在26种扰动类型的仿真数据上识别准确率达99.77%,在实际电网信号上达到92.5%,优于传统单一输入神经网络。论文还提供了详细的代码实现,包括优化广义S变换、电能质量扰动信号生成、混合输入神经网络模型构建及训练流程。 适合人群:具备一定编程基础,特别是对电能质量监测、信号处理和深度学习感兴趣的工程师和研究人员。 使用场景及目标:①适用于电力系统中的电能质量监测,特别是智能变电站和新能源电站的并网检测;②通过OGST和混合输入神经网络,提高对复杂电能质量扰动的识别准确率和鲁棒性;③支持实时处理和边缘计算部署,满足工业场景的实时性和资源限制要求。 其他说明:该方法不仅在理论上创新,而且在实际应用中表现出色。通过参数优化和混合输入架构,能够有效应对不同类型的电能质量扰动。此外,论文还提供了完整的代码实现和实验验证,便于读者复现实验结果并应用于实际项目中。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值