
项目开发模块
maomaogo
多学习
展开
-
项目开发python-----测试集与训练集划分模块
划分训练集与测试集在进行划分训练集与测试集时,需要注意两点:1、新的数据过来,你的划分方法是否仍然有效—唯一标识解决方法:可以使用哈希规则给每个样本富赋予唯一的标识,也可以对每个样本按照行索引作为标识,但是需要确保新数据放在后面。2、有时候某个特征对研究对象目标非常的重要,为了使得模型有广泛性,此时划分测试集与训练集的时候需要着重考虑该特征的分布均衡性—分层抽样随机抽样1、 利用skl...原创 2019-06-01 11:05:57 · 609 阅读 · 0 评论 -
项目开发python----数据预处理模块
预处理必要性在将数据放入到模型中训练之前,数据通常是很脏的,可能存在缺失、数据类型不统一、存在异常值、需要标准化处理等。一般来说,预处理包括数据填充、数据标准化、特征编码、数据离散化等步骤。特别注意,在这些工作之前,你需要了解你的数据集哪些特征是数值或者分类变量,了解哪个特征存在缺失。数据:https://github.com/yushiyin/handson-ml/tree/master/...原创 2019-06-02 00:05:55 · 776 阅读 · 0 评论