常用数据集构成 = 特征值 + 目标值(0/1) 每一行为一条记录,每一列即为一个特征 对特征值进行处理: pandas进行简单处理(主要是对缺失值数据,重复值不用处理); 特征工程之特征抽取: 对文本数据进行特征值化(即转换为数值数据):sklearn.feature_extraction 对字典数据进行特征值化:sklearn.feature_extraction.DictVectorizer DictVectorizer.fit_transform(X) #X:字典或者包含字典的迭代器 #返回值:返回sparse矩阵 DictVectorizer