
dask/distributed源码剖析
深入解析Dask与其对应的分布式框架distributed的源码,玩转分布式数据分析
_补白
爱好编程,网页制作
展开
-
03 Dask源码剖析-Dask的数据模型-Array
Dask源码剖析是一个专栏,更多章节请点击文章列表查看。后续我会更新更多内容上来。文章目录Collection:ArrayArray的创建from_array加载Collection:Array前面我们了解了Bag数据模型。通过阅读Bag的源码我们大概熟悉了Dask的数据模型的套路。操作有加载,有计算,都是先转成Delayed,并按照逻辑构建成Graph。真正的计算得到结果需要执行compute提交到集群或在本地执行,并且dask很智能的会graph进行优化。本节我们看下Array数据结构。从源原创 2020-07-19 12:47:42 · 782 阅读 · 0 评论 -
02 Dask源码剖析-Dask的数据模型-Bag
Dask源码剖析是一个专栏,更多章节请点击文章列表查看。后续我会更新更多内容上来。文章目录Collection:BagCollection:Bag对于Bag数据模型,其实从Dask官方进行的用户调研情况来看,这种数据模型较其他数据模型使用的情况是最少的:但是Bag是较为简单的数据模型,对于理解其他数据模型,比如DataFrame、Array,我认为是有帮助的。所以咱们本节就先了解一下Bag。...原创 2020-07-12 12:24:19 · 934 阅读 · 0 评论 -
01 Dask源码剖析-Dask的数据模型-Delayed
文章目录Dask的数据模型概述DelayedDask的数据模型概述在阅读代码前,给大家一些小建议:15个小技巧包括:了解作者开发项目的目的先熟练的使用项目阅读官方文档理解项目中的概念了解项目技术背景没必要读最新版本的代码不需要读完所有的源码版本间比较阅读自顶向下梳理自底向上归纳先做减法,再做加法从接口找关系画图辅助阅读设计模式辅助阅读debug只是辅助那么对于Dask,咱们先用一个关键技巧,阅读官方文档,捋一捋Dask的数据模型:Dask官方文档链接在官方文档首页原创 2020-07-02 17:38:48 · 1591 阅读 · 1 评论 -
00 Dask源码剖析-环境准备
文章目录Dask 介绍前期准备搭建阅读环境配置一个python环境新建文件夹并克隆项目安装依赖库配置启动入口环境测试Dask 介绍Dask是一款用于分析计算的灵活并行计算库。Dask由两部分组成:调度:针对计算优化的动态任务调度。这与Airflow,Luigi,Celery或Make类似,但针对交互式计算工作负载进行了优化。数据结构:“大数据”集合, 像并行数组,数据框和列表一样,它们将通用接口(如NumPy,Pandas或Python迭代器)扩展到大于内存或分布式环境。 这些并行集合运行在动态任原创 2020-06-30 17:22:42 · 777 阅读 · 0 评论 -
[译]Dask vs Celery
文章目录最大的不同:worker的状态和通讯Hello WorldCeleryDask结果比较简单任务依赖关系CeleryDask.distributed原文链接:Dask and Celery本文比较了两个Python分布式任务处理系统Dask.distributed和Celery。免责声明:对比技术真的不好把握。我比较偏向于Dask,从而可能Celery的正确实践方法不了解。请记住这一...翻译 2020-06-21 08:21:02 · 1138 阅读 · 1 评论