导包:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt# 去除警告
import warnings
warnings.filterwarnings("ignore")
#加速操作
借助 numexpr 与 bottleneck 支持库,Pandas 可以加速特定类型的二进制数值与布尔操作。
处理大型数据集时,这两个支持库特别有用,加速效果也非常明显。 numexpr 使用智能分块、缓存与多核技术。bottleneck 是一组专属 cython 例程,处理含 nans 值的数组时,特别快。
_________________________________________________________________________________________
增adding
_________________________________________________________________________________________
#保存数据(写入数据)
obj.to_csv('new_name.csv')
#新增列
df['文本长度'] = df['文本'].apply(lambda x: len(str(x)))
_______________________
增改Increase and change
_______________________
#分列
df['新列赋名'] = df['列表要提取的列名'].str.split(" ").str[1]
#split()里添加分割的位置; .str[]里写要提取的index;
df['新列赋名'] = df['列表要提取的列名']apply(lambda x:x.split(' ')[0])
_________________________________________________________________________________________
删remove
_________________________________________________________________________________________
# 删除行列
df.drop(index='行名', columns='列名')
df.drop(labels='行|列', axis=?)
df.drop(index='行名', level=1)
df.drop(columns='列名')
#删除空值
dropna()
||
\/
-----------------------------------------------------
DataFrame.dropna( axis=0, how=‘any’, thresh=None, subset=None, inplace=False)
||
\/
## how
how='all’或者how=‘any’。
how='all’删除全是缺失值的行(列)
how='any’删除只要含有缺失值的行(列)(默认)
## thresh
thresh=n表示保留至少含有n个非NaN数值的行
##subset
subset定义要在哪些列中查找缺失值
## inplace
inplace=True #数据原地改变
inplace=False #会创建一个新的数据框, 默认为False
-----------------------------------------------------
#唯一值
nunique(
Python数据处理:Numpy, Pandas, Seaborn, Matplotlib加速技巧

这篇博客介绍了如何利用Python中的Numpy, Pandas, Seaborn和Matplotlib进行数据处理,并强调了在处理大型数据集时,通过引入numexpr和bottleneck库可以显著提升Pandas的二进制数值和布尔操作的性能,特别是对于包含nans值的数组,加速效果尤为明显。"
128001279,10925334,Redis String详解:类型、操作与面试技巧,"['数据库', 'redis', 'java']
最低0.47元/天 解锁文章
1501

被折叠的 条评论
为什么被折叠?



