数据集特点:Creditcard数据集包含711个样本;29个特征;1个标签(0、1表示信用卡是否出现问题)
问题定义
- 单标签二分类问题
- 标签的取值只有两种,并且只有一个需要预测的标签
解决方法:构建神经网络模型
具体思路:将29个特征数据作为输入数据,将标签(0、1)作为待预测值,调整神经网络模型中的参数使得Loss降低
代码实现(python)
1. 导入库
import numpy as np
import torch
import matplotlib.pyplot as plt
2. 导入数据
data = np.loadtxt('diabetes.csv', delimiter=',', dtype=np.float32)
x_data = torch.from_numpy(data[:, :-1])
y_data = torch.from_numpy(data[:, [-1]])
3. 定义模型
class Model(torch.nn.Module):
def __init__(self):
super(Model, self).__init__()
# 定义三层线性层 通过矩阵乘法将前一层的矩阵变换为下一层的矩阵
self.linear1 = torch.nn.Linear(29, 20) # 759x8 -> 759x6
self.linear2 = torch.nn.Linear(20, 11) # 759x6 -> 759x4
self.linear3 = torch.nn.Linear(11, 1) # 759x4 -> 759x1
# 定义激活函数
self.sigmoid = torch.nn.Sigmoid()
def forward(self, x):
# 叠加线性层每两层之间一定要加入非线性层,否则可以直接由一个线性层代替
x = self.sigmoid(self.linear1(x)) # 759x8
x = self.sigmoid(self.linear2(x)) # 759x6
y_pred = self.sigmoid(self.linear3(x)) # 759x4
return y_pred # 759x1
model = Model()
4. 构建损失函数和优化器
# torch.nn.BCELoss() 二分类交叉熵损失函数( Binary CrossEntropy )
# reduction = 'mean' ,返回loss的平均值
criterion = torch.nn.BCELoss(reduction='mean')
# torch.optim.SGD() 随机梯度下降算法( Stochastic Gradient Descent )
# model.parameters() 保存的是Weights和Bais参数的值 y=wx+b
optimizer = torch.optim.SGD(model.parameters(),lr = 0.001)
5. 训练数据
for epoch in range(1000):
y_pred = model(x_data)
loss = criterion(y_pred, y_data)
loss_list.append(loss.item())
epoch_list.append(epoch)
# 清空过往梯度
optimizer.zero_grad()
# 反向传播,计算当前梯度
loss.backward()
# 根据梯度更新网络参数
optimizer.step()
print(epoch, loss.item())
6. 可视化展示
loss_list=[]
epoch_list=[]
plt.plot(epoch_list, loss_list)
plt.ylabel('loss')
plt.xlabel('epoch')
plt.show()