机器学习全流程解析:从数据到部署
1. 从数据中学习模型
构建成功的机器学习系统,首要任务是提出一个能用数据解答的问题。以一个简单的人员表格为例,我们可以构建一个机器学习模型来预测一个人是已婚还是单身,这一信息在展示相关广告时会很有用。
在这个例子中,我们将“婚姻状况”变量作为目标(或标签),其余变量作为特征。机器学习算法的任务就是找出输入特征集如何成功预测目标。对于婚姻状况未知的人,我们可以使用该模型根据每个人的输入变量来预测其婚姻状况。
可以把机器学习算法想象成一个神奇的盒子,它能将输入特征映射到输出数据。要构建一个有用的模型,数据不能只有两行。与其他广泛使用的方法相比,机器学习算法的优势之一是能够处理多个特征。不过,像“人员 ID”和“姓名”这样的特征,可能对预测婚姻状况没什么用。有些算法对无信息特征不太敏感,而有些算法去掉这些特征后可能会提高准确性。
值得注意的是,看似无信息的特征有时也能提取出有价值的信息。例如,“位置”特征本身可能没什么用,但可以从中衍生出如“人口密度”这样有价值的特征。这种数据增强方式称为特征提取,在现实世界的机器学习项目中很重要。
有了机器学习模型,我们就可以对新数据(目标变量未知的数据)进行预测。目标预测结果的形式与用于学习模型的原始数据中的形式相同。使用模型进行预测就像是填补新数据中空白的目标列。一些机器学习算法还可以输出每个类别的概率。
下面是基本机器学习工作流程的伪代码:
data = load_data("data/people.csv")
model = build_model(data, tar
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



