特征抽取
将任意数据转化成可用于机器学习的特征数据。
字典特征提取
使用APIsklearn.feature_extraction
对字典提取时,使用DictVectorizer
方法。
可以把字典转化成二维数组(矩阵)。
示例:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction import DictVectorizer
def dict_demo():
"""
字典特征抽取
:return:
"""
data = [{"city":"北京","tem":100},{"city":"上海","tem":53},{"city":"武汉","tem":65}]
#实例化一个转化类
transfer = DictVectorizer(sparse=False)
#调用feat_transform()
data_new = transfer.fit_transform(data)
print(transfer.get_feature_names())
print(data_new)
return None
if __name__ == '__main__':
#字典特征抽取
dict_demo()
结果:
当然,DictVectorizer(sparse=False)
中也可以不写sparse=False
,效果