借贷数据聚类与神经网络特征提取应用
在处理借贷俱乐部(Lending Club)的无担保个人贷款申请数据时,我们可以运用多种聚类算法和神经网络技术来进行数据分析和特征提取,以实现更好的贷款评估和客户分类。
1. 聚类算法应用
1.1 k-Means聚类
k-Means聚类是一种常用的聚类算法,在使用借贷俱乐部数据集时,我们需要指定期望的聚类数 $k$,算法会将每个借款人精确地分配到这 $k$ 个聚类中的一个。其目标是最小化簇内变异(也称为惯性),使得所有 $k$ 个聚类的簇内变异之和尽可能小。
为了找到最佳的 $k$ 值,我们进行了一个实验,将 $k$ 的范围设定为 10 到 30,并绘制了上一节定义的准确率度量结果。以下是具体的代码实现:
from sklearn.cluster import KMeans
n_clusters = 10
n_init = 10
max_iter = 300
tol = 0.0001
random_state = 2018
n_jobs = 2
kmeans = KMeans(n_clusters=n_clusters, n_init=n_init,
max_iter=max_iter, tol=tol,
random_state=random_state, n_jobs=n_jobs)
kMeans_inertia = pd.DataFrame(data=[],index=range(10,31),
colum
超级会员免费看
订阅专栏 解锁全文
981

被折叠的 条评论
为什么被折叠?



