1.特征的提取
数据特征的提取可以利用(pandas,numpy)根据业务的需求与分析提出相关的特征,图像可以用 python的 pyradiomic 包提取所有特征值。pyradiomics包的github地址 https://github.com/Radiomics/pyradiomics。安装等信息大神介绍的很详细,这对于我们的小伙伴们应该是 so easy 的,值的注意的是 pyradiomics的包的版本是有大的差异的。
2.特征的选择
特征的选择方法可以有:VarianceThreshold(threshold=xx) 过滤掉小于方差阀值xx的特征,SelectKBest(xx, k=xx)选择排名前k个的特征,SelectPercentile(xx,percentile=xx) 只保留指定百分比xx得分最高的特征 ......
方法的相关参数解释请参照连接:https://blog.youkuaiyun.com/weixin_39777626/article/details/79936169
3.机器模型的选择
参照数据与业务的实现选择不同的训练模型:离散型数据(预期的值是不连续的自然数)适用于分类,连续型数据适用于回归。
模型的应用分为:分类,回归,聚类,降维
相关文档参照:https://blog.youkuaiyun.com/u011630575/article/details/78637517
4.模型的对比
sklearn 提供有对模型对比的方法:model_selection 中 cross_val_score (交叉验证),GridSearchCV(表格搜索)
5.数据的训练
依靠强大的sklearn 数据的训练相对的简单。这时会涉及到数据的预处理 ,用sklearn 的 preprocessing 模块对数据进行标准化,归一化。对数据的分配有自己掌握(训练数据,测试数据)
6.模型的保存
两种方式:sklearn.externals 的 joblib 与 pickle
7.预测(predict)