希望与热爱编程的人多多交流,共同进步。
字典数据向量化
因为字典数据无法运算、分析,此操作可将字典根据特征生成向量化数据
示例代码:
def dictvec():
"""
字典数据特征抽取,向量化
:return:
"""
# 1 新建向量化器实例
dic = DictVectorizer(sparse=False) # sparse是否稀疏
# 2 调用fit_transform方法,执行向量化
data = dic.fit_transform([
{'city': '北京', 'pos': '北方', 'temperature': 100},
{'city': '上海', 'pos': '东方', 'temperature': 60},
{'city': '深圳', 'pos': '南方', 'temperature': 30},
{'city': '重庆', 'pos': '南方', 'temperature': 70},
])
print(dic.get_feature_names())
print(data)
# ps: 反向量化,恢复成原始数据形式
print(dic.inverse_transform(data)[0])
dictvec()
文本特征值化
以每个词出现次数形成向量化数据,示例代码:
def countvec():
"""
对文本进行特征值化,统计文本出现的次数
:return:
"""
cv = CountVectorizer()
data = cv.fit_transform(['this is a test text', 'we have a test'])
print(cv.get_feature_names())