一个完整的机器学习模型训练的过程可拆分为诸多个步骤,包括 前期的问题分析、数据准备、中期的模型训练与调优以及后期的性能 度量与模型选择,机器学习的通用流程如下图所示。
机器学习常用开发工具
机器学习常用的开发工具有 Anaconda、Pychram、Jupyter Notebook,常用的库有Numpy、Pandas、Matplotilib、scikit-learn, 常用的框架有TensorFlow、Keras、PyTorch。
1. Anaconda 简介 Anaconda 是一个Python的集成开发环境,可以便捷的获取库 且提供对库的管理功能,同时对环境可以统一管理的发行版本。Ana conda 包含Conda、Python 在内的超过180个科学库及其依赖项。 其主要特点为:开源、安装过程简单、高性能使用Python和R语 言、免费的社区支持等。其包含的科学库包括Conda、NumPy、SciP y、IPython Notebook 等。Anaconda 支持目前主流的多种系统平 台,包含Windows、macOS和Linux(x86∕Power8)。
2.常用的库
Numpy 是一个支持多维数组与矩阵运算的库,此外也针对数组 运算提供大量的数学函数库。Pandas是基于NumPy的一种工具,提 供了标准的数据模型,能高效地操作大型数据集,同时为时间序列 分析提供很好的支持。Matplotilib是一个绘图库,方便快速绘 图,供了一套和MATLAB类似的绘图API,将众多绘图对象所构成的 复杂结构隐藏在这套API内部,十分适合交互式绘图。scikit-lear n 是专门面向机器学习的Python模块,提供了大量用于机器学习的 工具,包含6个部分:分类、回归、聚类、数据降维、模型选择和 数据预处理。
机器学习开发环境搭建
工作任务主要分为三个步骤:安装Anaconda,搭建python3.X的 开发环境,使用JupyterNotebook新建一个Hello Machine Learning 项目。