
大数据
-派神-
每天进步一点点……
展开
-
python处理大数据你选什么工具? pandas? or Dask?
Pandas是python的众多工具包中最著名一个,如果你使用python进行数据分析与建模,你一定会用到pandas,pandas已经越来越被广泛的应用于数据探索性分析(EDA),它可以完全媲美甚至超越Excel,目前越来越多的Excel数据分析师都在转向使用Python和Pandas,我之前写的大多数博客文章中都是使用pandas作为数据探索性分析(EDA)的工具,但是并不是所有的数据分析工作都适合pandas,例如在做大数据处理时,当你需要同时处理一大堆数据文件时使用pandas会效率较低,并且系统C原创 2020-06-18 15:47:16 · 5891 阅读 · 0 评论 -
震惊! 居然可以用python在短短几秒内处理几十亿数据!
最近一个偶然的机会,我发现了一个可以在短短几秒内处理几十亿数据的python工具包:Vaex, 处于好奇我研究了一下Vaex,下面给大家简单介绍一下Vaex及其基本使用方法。Vaex是什么Vaex是用于惰性核心数据框架(类似于Pandas)的python库,用于可视化和探索大型表格数据集。它可以在N维网格上计算统计数据,例如均值,总和,计数,标准差等,最大可达十亿(109109)每秒的对象/行数。可视化使用直方图,密度图和3d体积渲染完成,从而可以交互式探索大数据。Vaex使用内存映射,零内存复制策原创 2020-06-06 22:58:01 · 5498 阅读 · 0 评论