11、机器学习问题框架搭建与数据收集指南

机器学习问题框架搭建与数据收集指南

1. 机器学习问题框架搭建

在实际业务场景中,常常会遇到各种需要借助机器学习解决的问题。以下通过几个常见的业务问题来探讨如何进行问题框架的搭建。

1.1 推荐系统问题

当业务方希望创建一个为用户推荐商品的模型,但仅有用户数据而无标签时,作为数据科学家,应推荐从简单的聚类算法入手。先将用户聚类分组,再根据新用户所在聚类中其他用户的购买商品为其推荐。因为并非所有机器学习问题都需要先获取标签数据才能开展工作,聚类算法属于无监督学习,无需标签即可对数据进行分组。

1.2 CRISP - DM 方法步骤

CRISP - DM 方法是机器学习生命周期中的重要框架,其正确步骤为:业务问题➔机器学习问题框架搭建➔数据收集➔数据探索➔模型训练➔模型评估。这一顺序有助于从业务需求出发,逐步完成机器学习项目。

1.3 实体识别问题

当业务方需要从特定业务文档中提取实体,且文档中的实体使用了不常见的业务术语,同时缺乏标注数据时,应告知对方实体识别需要标签。由于相关实体术语不常见,需要训练自定义模型来检测,因此要先制定获取标签的策略,并将数据标注纳入项目考量。

1.4 实体识别的 PDF 文档问题

若文档为 PDF 格式,应询问客户 PDF 文档是否存储在 Amazon S3 中。因为后续的数据处理和模型训练可能需要将数据存储在合适的位置,了解文档存储位置有助于进一步规划工作。

1.5 KYC 评分问题

对于为 B2B 交易生成 KYC 评分的问题,业务方当前采用基于规则的建模方式,希望借助机

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值