python 数据挖掘(10) -- 人工神经网络 ANN

本文介绍如何使用神经网络进行销售预测,通过将原始数据转化为数值,并利用Keras搭建神经网络模型,实现了对销售数据的分类预测。

关于神经网络,在 TensorFlow 专栏和 NLP 专栏都已经用了太多,所以不再介绍。只不过python 用的是 Keras ,这其实相比TensorFlow更简单多了(keras 其实是 TensorFlow 的封装,源码其实就是调用 TensorFlow,所以用起来比TensorFlow方便很多)。针对上一节的决策树分类,这里改用人工神经网络代码如下:

#-*- coding:utf-8 -*-
import pandas as pd
''' 改为神经网络感知机预测 '''

filename = 'wajue/sales_data.xls'
data = pd.read_excel(filename,index_col = u"序号")

# 数据是类别标签,要转化成数据
# 用 1 表示好,是,高 这三种属性,用 -1 来表示 坏 否 低
data[data == u"好"] = 1
data[data == u"是"] = 1
data[data == u"高"] = 1
data[data != 1] = -1

# 属性数据矩阵
x_copy = data.iloc[:,:3]
x = data.iloc[:,:3].as_matrix().astype(int)
# 销量类别矩阵
y = data.iloc[:,3].as_matrix().astype(int)

# 导入神经网络感知机模型
from keras.models import Sequential
from keras.layers.core import Dense,Activation

model = Sequence()
# 添加一层隐藏层,输入为 3 个节点
model.add(Dense(3,10))
# 采用 relu 激活函数
model.add(Activation('relu'))
# 添加输出层
model.add(Dense(10,1))
model.add(Activation('sigmoid')) # 输出是0-1 
# 使用反向传播优化方法,损失函数为二元交叉熵
model.compile(loss = 'binary_crossentropy',optimizer = 'adam',class_mode = 'binary')

model.fit(x,y,nb_epoch = 1000,batch_size = 10) # 训练
# 分类预测
yp = model.predict_classes(x).reshape(len(y))

 

### 数据预处理的重要性 为了提升人工神经网络ANN)的性能,高质量的数据至关重要。低质量的数据可能导致低质量的挖掘结果[^1]。因此,在构建和训练神经网络之前,必须对原始数据进行一系列预处理操作。 ### 常见的数据预处理方法 #### 1. 缺失值处理 缺失值会影响模型的学习效果。常见的解决办法包括删除含有缺失值的记录、填充均值/中位数或预测填补等。 #### 2. 特征缩放 特征缩放可以加速梯度下降的速度并改善优化器的表现。常用的方法有标准化(Standardization)、归一化(Normalization)。对于大多数激活函数而言,推荐使用标准化来调整输入变量使其服从零均值单位方差分布[^5]。 ```python from sklearn.preprocessing import StandardScaler scaler = StandardScaler() X_scaled = scaler.fit_transform(X) ``` #### 3. 类别型特征编码 类别型特征需要转换成数值形式才能被机器理解。One-Hot Encoding是最常用的手段之一,它能有效地避免引入不必要的顺序关系。 ```python import pandas as pd df_encoded = pd.get_dummies(df, columns=['category_column']) ``` #### 4. 训练集测试集划分 为了避免过拟合现象的发生,通常会将整个数据集划分为独立不交叠的两部分——训练集用于参数估计;验证集则用来评估泛化能力。 ```python from sklearn.model_selection import train_test_split X_train, X_val, y_train, y_val = train_test_split( X_scaled, y, test_size=0.2, random_state=42) ``` ### 后处理技巧 完成预测之后还需要做进一步的结果解释工作: - **概率校准**:某些分类任务可能更关注于获得可靠的置信水平而非单纯的标签分配; - **异常检测**:识别那些偏离正常模式过多的新样本点; - **可视化分析**:通过图表展示内部机制帮助人们更好地理解和信任黑箱式的决策流程。 综上所述,合理的前后期加工措施有助于提高最终输出的质量以及系统的透明性和可靠性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值