特征与训练数据:机器学习的核心要素
1. 数据与特征概述
在机器学习领域,模型源于数据,而特征则是让数据对机器学习有用的关键。数据本身只是原始信息,特征是我们确定的对实现模型目标有用的任何数据方面。“我们”既包括构建模型的人类,也可能包括自动特征工程系统。简单来说,特征是数据的特定、可测量方面。
1.1 特征示例
以下是一些具体的特征示例:
- 从网络日志中获取的客户信息,如浏览器类型。
- 人类输入应用程序的文本中的单个单词或单词组合。
- 图像中的所有像素集或其结构化子集。
- 客户加载页面时所在位置的当前天气。
任何特征的组合或转换本身也可以成为一个特征。通常,特征包含从底层训练数据中提取的较小结构化数据部分。随着建模技术的发展,更多特征可能会更接近“原始数据”,例如文本模型可能会直接对段落甚至整个文档进行训练。
1.2 特征在实际应用中的作用
以 YarnIt 为例,该网站有一个推荐不同或额外产品的模型。在客户购物时,该模型会被调用,以推荐客户可能需要或想要的其他产品,从而增加销售额。在这种情况下,以下特征可能对模型有用:
| 特征 | 说明 |
| ---- | ---- |
| 产品页面或购物车确认页面 | 判断客户是在浏览还是购买 |
| 当前产品信息 | 包括产品名称、图片信息、类别、制造商和价格 |
| 客户平均购买规模或每年总购买量 | 反映客户的消费能力 |
| 客户是编织者还是钩编者 | 有助于推荐合适的纱线、针和图案 |
| 客户所在国家 | 某些产品在特定地区可能更受欢迎,不同
特征与训练数据:机器学习核心
超级会员免费看
订阅专栏 解锁全文
1382

被折叠的 条评论
为什么被折叠?



