创建新特征的数据
有时候,仅仅选择已有特征是不够的。我们需要在已有特征基础上创建新的特征。
一个效果好的新创建的特征,可以很有效的降低冗余信息,提高特征之间的相关性。对于算法准确率的提高有很好的促进作用。
接下来,加载一个新的数据集,从http://archive.ics.uci.edu/ml/datasets/Internet+Advertisements下载Advertisements(广告)数据集。保存到自己主目录下的Data文件夹中。下载ad.data和ad.names
接着,用pandas加载数据集。我们还是先指定文件的路径。
import os
import pandas as pd
import numpy as np
data_folder = os.path.join(os.path.expanduser("~"), "Data")
data_filename = os.path.join(data_folder, "Ads", "ad.data")
数据集存在几个问题,加载过程需要我们做些处理。问题一,前几个