Vaex安装及使用记录

最新推荐文章于 2024-11-08 12:23:55 发布

sinat_36115361

最新推荐文章于 2024-11-08 12:23:55 发布

阅读量3.8k

点赞数

分类专栏：数据挖掘文章标签： python 大数据

本文链接：https://blog.youkuaiyun.com/sinat_36115361/article/details/105292064

版权

数据挖掘专栏收录该内容

9 篇文章

订阅专栏

一安装
1 windows尝试失败（无论是pip 还是anaconda)
2 Ubuntu conda 一次成功
二使用
1 首先将csv文件转换成hdf5文件
# 注意：csv转换成hdf5时column的名称不能含有中文
pandas_df = pd.read_csv(file_path)
vaex_df = vaex.from_pandas(pandas_df, copy_index=False)
vaex_df.export_hdf5(‘my_data.hdf5’)

2 读取众多hdf5文件并合并到一起
df_all = vaex.open_many(file_path_list)
（单个读取就是vaex.open(file_path））
3 数据类型转换(astype)
eg:
df_all[‘is_alone’] = (df_all.family_size == 0).astype(‘int’)
df_train[‘has_cabin’] = df_train.cabin.notna().astype(‘int’)
时间：df_all[‘pdate’] = df_all.date.notna().astype(np.datetime64)#前提是原数据全部合法，无异常值
4 分组统计
eg:
df.groupby(df.x, agg=‘count’)
df.groupby(df.x, agg=[vaex.agg.count(‘y’), vaex.agg.mean(‘y’)])
df.groupby(df.x, agg={‘z’: [vaex.agg.count(‘y’), vaex.agg.mean(‘y’)]})
时间：df.groupby(vaex.BinnerTime.per_week(df.t)).agg({‘y’ : ‘sum’})
5 选择
eg:
df[df[‘month’] == 12]