Vaex安装及使用记录

一 安装
1 windows尝试失败(无论是pip 还是anaconda)
2 Ubuntu conda 一次成功
二 使用
1 首先将csv文件转换成hdf5文件
# 注意:csv转换成hdf5时column的名称不能含有中文
pandas_df = pd.read_csv(file_path)
vaex_df = vaex.from_pandas(pandas_df, copy_index=False)
vaex_df.export_hdf5(‘my_data.hdf5’)

2 读取众多hdf5文件并合并到一起
df_all = vaex.open_many(file_path_list)
( 单个读取就是vaex.open(file_path))
3 数据类型转换(astype)
eg:
df_all[‘is_alone’] = (df_all.family_size == 0).astype(‘int’)

df_train[‘has_cabin’] = df_train.cabin.notna().astype(‘int’)
时间:df_all[‘pdate’] = df_all.date.notna().astype(np.datetime64)#前提是原数据全部合法,无异常值
4 分组统计
eg:
df.groupby(df.x, agg=‘count’)
df.groupby(df.x, agg=[vaex.agg.count(‘y’), vaex.agg.mean(‘y’)])
df.groupby(df.x, agg={‘z’: [vaex.agg.count(‘y’), vaex.agg.mean(‘y’)]})
时间:df.groupby(vaex.BinnerTime.per_week(df.t)).agg({‘y’ : ‘sum’})
5 选择
eg:
df[df[‘month’] == 12]

6 排序
eg:
df.sort(‘y’, ascending=False)#多个列排序 ([‘x’, ‘y’])
7 df重新组合(join concat)
df1.concat[df2]# 上下合并
ds1.join(ds2)# 左右合并
8 导出
df.export(‘x.hdf5’)

评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值