python是一款非常好的数据分析工具。高自由度和丰富的第三方库的支持,对于大部分行业的数据分析非常友好,其中最为常用的数据清洗和分析第三方库是numpy和pandas。常用的xlsx、csv、txt数据读取、合并、缺失值处理、重复值处理、异常值处理以及切片替换等操作都比较简单且容易查询。本文主要介绍一些实际工作中用到的一些方法。
目录
1、数据读取和导出经验
1)pandas连接mysql
from sqlalchemy import create_engine
def import_data_mysql(df,table):
"""
数据导入mysql
"""
engine = create_engine('mysql+pymysql://root:‘密码’@‘地址’:‘端口’/‘库’?charset=utf8')
df1.to_sql(name = table,#表名
con = engine,
if_exists = 'append',
index = False)
return df
# 数据提取为dataframe
def extract_data(sql_text):
engine = create_engine('mysql+pymysql://root:‘密码’@‘地址’:‘端口’/‘库’?charset=utf8')
sql = sql_text
df = pd.read_sql_query(sql, engine)
return df
2)大数据文件读取(应对memory error问题)
通过chunksize数据块
#读取大文件chunksize
df = pd.read_csv(os.path.join(path, filename),encoding='gb18030',iterator=True,sep='|')
def import_chunks_data(df,chunksize):
loop = True
chunkSize = chunksize
chunks = []
index=0