机器学习问题框架搭建与数据收集指南
1. 机器学习问题框架搭建
在实际业务场景中,常常会遇到各种需要借助机器学习解决的问题。以下通过几个常见的业务问题来探讨如何进行问题框架的搭建。
1.1 推荐系统问题
当业务方希望创建一个为用户推荐商品的模型,但仅有用户数据而无标签时,作为数据科学家,应推荐从简单的聚类算法入手。先将用户聚类分组,再根据新用户所在聚类中其他用户的购买商品为其推荐。因为并非所有机器学习问题都需要先获取标签数据才能开展工作,聚类算法属于无监督学习,无需标签即可对数据进行分组。
1.2 CRISP - DM 方法步骤
CRISP - DM 方法是机器学习生命周期中的重要框架,其正确步骤为:业务问题➔机器学习问题框架搭建➔数据收集➔数据探索➔模型训练➔模型评估。这一顺序有助于从业务需求出发,逐步完成机器学习项目。
1.3 实体识别问题
当业务方需要从特定业务文档中提取实体,且文档中的实体使用了不常见的业务术语,同时缺乏标注数据时,应告知对方实体识别需要标签。由于相关实体术语不常见,需要训练自定义模型来检测,因此要先制定获取标签的策略,并将数据标注纳入项目考量。
1.4 实体识别的 PDF 文档问题
若文档为 PDF 格式,应询问客户 PDF 文档是否存储在 Amazon S3 中。因为后续的数据处理和模型训练可能需要将数据存储在合适的位置,了解文档存储位置有助于进一步规划工作。
1.5 KYC 评分问题
对于为 B2B 交易生成 KYC 评分的问题,业务方当前采用基于规则的建模方式,希望借助机
超级会员免费看
订阅专栏 解锁全文
1276

被折叠的 条评论
为什么被折叠?



