10、机器学习基础与特征工程全解析

机器学习基础与特征工程全解析

1. 热门机器学习库介绍

Scikit-learn 是最受欢迎且广泛使用的机器学习库,它基于 SciPy 构建,拥有丰富的有监督和无监督学习算法。Statsmodels 则是对 SciPy 包的补充,是运行回归模型的最佳包之一,能为模型的每个估计器提供大量统计结果。

2. 数据的机器学习视角

数据是与业务相关的事实和数字,可分为两方面:
- 对象 :如人、树、动物等。
- 属性 :为对象记录的特征,如年龄、大小、重量、成本等。

测量对象属性得到的值会因对象而异,属性也被称为变量。从取值类型看,变量主要分为两类:
- 连续定量变量 :可在较大范围内取任意正或负数值,如零售销售额和保险索赔金额。
- 离散或定性变量 :只能取特定值,如零售店所在地区、州和城市。

3. 测量尺度

变量一般有四种测量尺度:
| 测量尺度 | 属性 | 数学运算 | 描述性统计 | 示例 |
| ---- | ---- | ---- | ---- | ---- |
| 名义尺度 | 身份 | 计数 | 众数、比例 | 颜色(红、绿、黄)、性别(女、男)、足球运动员的球衣号码(1、2、3 等) |
| 顺序尺度 | 身份、大小 | 排序 | 众数、中位数、范围统计 | 军衔(少尉、中尉、上尉等)、衣服尺码(小、中、大等)、考试班级排名(1、2、3 等) |
| 间隔尺度 |

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值