机器学习sklearn —数据类型和文本特征抽取

该博客介绍了如何使用sklearn进行数据类型的处理和文本特征的抽取,包括DictVectorizer用于处理分类特征,CountVectorizer和TfidfVectorizer用于文本数据的转换,以适应机器学习算法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

sklearn与特征工程

数据的来源与类型

来源

大部分数据来源于已有的数据库、与爬虫工程师的采集

数据的类型

按数据分类
标称型:标称型目标变量的结果只在有限目标中取值(如真与假)主要用于分类
数值型:数值型目标变量则可以从无限的数值集合中取值 (如0.100 ,42.001)主要用于回归分析
按数据的分布分类
离散型:离散变量是指其数值只能用自然或整数单位计算的则为离散变量 (班级人数)
连续型:指在指定区间内可以是任意一个数值(票房数据)

数据的特征抽取

现实世界中多数特征都不是连续变量,比如分类、文字、图像等,为了对非连续变量做特征表述,需要对这些特征做数学化表述,因此就用到了特征提取. sklearn.feature_extraction提供了特征提取的很多方法

分类特征变量提取

将城市和环境作为字典数据,来进行特征的提取
sklearn.feature_extraction.DictV
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值