- 博客(6)
- 问答 (1)
- 收藏
- 关注
原创 numpy的动态数组问题
在处理一个文件流时,不想频繁的写入文件,采用list存储读取的数据。但是numpy的array不支持动态扩展的功能,每次np.append都会重新分配数组,然后进行复制。 想起python的list支持动态的append,可以对python数组append,然后通过np.reshape(())实现。np.reshape可以采取缺省值(-1),比如np.reshape((-1,4))代表构造四列
2018-01-30 11:16:36
5181
原创 pandas re_index 和rename
今天在处理数据的时候,需要dataframe进行重排,记忆中有两个相似的方法reindex和rename,这里记录一下常见用法和区别:rename:重命名,就是对col进行命名的修改,他只改变col的名字,相当于起了个别名,原来叫a,以后叫breindex:重新索引,他可以修改还列的索引关系以及index‘行的索引关系rename:官方文档给的示例:>>> df = pd.
2018-01-12 09:44:59
9394
原创 pandas笔记,pandas常用操作
常用的dataframe操作:1、df.fillna()2、df.drop(axis = 0/1,[' one','two']); axis=1 删除one,two两列;df.drop(columns = ['one','two'])也可以这样删除某一列3、df.dropna(axis,how = 'any'/'all') axis 同上;any情况下,只要某一行/某一列存在一个na,
2018-01-09 10:50:02
635
原创 charset 编码判断
处理很多数据时,遇到大量的编码问题,因此想到使用chardet库,通过os的walk方法遍历文件夹,将每个文件的编码方式序列化到一个json文件中,需要使用的时候json load一下就可以了#!/ USR / bin中/ env的蟒 # - * -编码:UTF-8 - * - 进口 argparse 进口 OS 从 chardet的进口检测 进口 JSON #输出的目录的字符
2018-01-08 15:56:11
465
原创 python deepcopy 与copy
最近在将数据导入mongodb的时候,遇到一些问题:1、多条插入 insert_many() 接收一个list参数(此处为new_post[])2、在list[i]中存储的是一个字典,每次读取文件的时候,给字典赋值(line此处为list,数据来自读取文件)3、将data_es append 到list中,需要使用deepcopy,否则,下一次循环的时候,修改字典data_e
2018-01-05 10:35:03
290
空空如也
排队买商品问题,麻烦一下。。
2015-11-02
TA创建的收藏夹 TA关注的收藏夹
TA关注的人