商业背景下的数据探索与特征工程
1. 业务假设检验:年龄与定期贷款购买倾向
1.1 定义假设
首先,我们定义一个假设:老年客户相比年轻客户更倾向于购买定期存款计划。这个假设可以基于个人经验、领域知识、已发表的知识或业务直觉。接下来,我们将使用数据来验证这个假设。
1.2 导入必要的包
import pandas as pd
import altair as alt
1.3 加载数据集
file_url = 'https://raw.githubusercontent.com/PacktWorkshops/The-Data-Science-Workshop/master/Chapter03/bank-full.csv'
bankData = pd.read_csv(file_url, sep=";")
1.4 统计各年龄组的记录数
filter_mask = bankData['y'] == 'yes'
bankSub1 = bankData[filter_mask].groupby('age')['y'].agg(agegrp='count').reset_index()
1.5 绘制折线图
alt.Chart(bankSub
超级会员免费看
订阅专栏 解锁全文
942

被折叠的 条评论
为什么被折叠?



