环境:ubuntu20.10,python3.8
代码如下:
#coding:utf-8
from sklearn.feature_extraction import DictVectorizer, stop_words
from sklearn.feature_extraction.text import CountVectorizer
import jieba
def dict_demo():
#""""
#字典特征提取
#:return:
#""""
data = [{"city":"北京","temperature":100},
{"city":"上海","temperature":60},
{"city":"深圳","temperature":30}]
# 字典特征提取
# 1、实例化
#transfer = DictVectorizer()
transfer = DictVectorizer(sparse=False)

本文展示了如何在Python环境下,利用sklearn库进行英文和中文的特征提取。通过DictVectorizer进行字典特征提取,CountVectorizer用于文本特征提取,并结合jieba进行中文分词。示例包括了从字典列表转换为特征矩阵,以及去除停用词(如“dislike”和“康辉”)的过程。
最低0.47元/天 解锁文章
1213

被折叠的 条评论
为什么被折叠?



