从要测试的数据集开始。
我们的数据集展示了商店中的 100 位顾客及其购物习惯。
实例
import numpy import matplotlib.pyplot as plt numpy.random.seed(2) x = numpy.random.normal(3, 1, 100) y = numpy.random.normal(150, 40, 100) / x plt.scatter(x, y) plt.show()
结果:
x 轴表示购买前的分钟数。
y 轴表示在购买上花费的金额。
拆分训练/测试
训练集应该是原始数据的 80% 的随机选择。
测试集应该是剩余的 20%。
train_x = x[:80] train_y = y[:80] test_x = x[80:] test_y = y[80:]
显示训练集
显示与训练集相同的散点图:
实例
plt.scatter(train_x, train_y) plt.show()
结果:
它看起来像原始数据集,因此似乎是一个合理的选择: