数据集及源码https://github.com/JCATHoney/python-data-analysis
一、问题描述
1、不同类型卡的持卡人(type=所有者)的性别对比
2、不同类型卡的持卡人在办卡时的平均年龄对比
3、不同类型卡的持卡人在办卡前一年内的平均帐户余额对比
4、不同类型卡的持卡人在办卡前一年内的平均收入对比
二、数据集
描述:本数据为一家银行的个人金融业务数据集,可以作为银行场景下进行个人客户业务分析和数据挖掘的示例。这份数据中涉及到5300个银行客户的100万笔的交易,而且涉及700份贷款信息与近900张信用卡的数据。通过分析这份数据可以获取与银行服务相关的业务知识
总共8张表:
表结构
E-R图:
3、求解
1、 不同类型卡的持卡人(type=所有者)的性别对比
2、不同类型卡的持卡人在办卡时的平均年龄对比
分析:
需要的信息:持卡类型,持卡人性别,持卡人年龄,发卡时间
涉及的表格:card,disp,client
(1)表连接
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import matplotlib
import seaborn as sns
import os
import time
#%%
os.chdir(r'C:\Users\Away\Desktop\笔记\数据分析\数据科学实践')
#%%
#先读取三张表
card= pd.read_csv('card.csv',encoding='gbk')
disp= pd.read_csv('disp.csv',encoding='gbk')#权限分配表
clients= pd.read_csv('clients.csv',encoding='gbk')
#%%
import sqlite3 # sqlite3相当于轻量版,更多功能可使用SQLAlchemy
con = sqlite3.connect(':memory:') # 数据库连接
# sale.to_sql('sale', con) # 将DataFrame注册成可用sql查询的表
# newTable = pd.read_sql_query("select year, market, sale, profit from sale", con) # 也可使用read_sql
# newTable.head()
card.to_sql('card', con)
disp.to_sql('disp'