机器学习day01------综述

本文深入浅出地介绍了机器学习的概念,探讨了其在各领域的应用,详细解释了监督学习和无监督学习的区别,并概述了机器学习开发流程。通过实例展示了如何使用Python库如scikit-learn进行模型训练和预测。

一.机器学习

1.1 机器学习概述

机器学习是人工智能的一个分支,机器学习是从数据中自动分析获得规律(模型),并利用规律对未知数据进行预测的算法

1.2 为何要学机器学习

21世纪机器学习又一次被人们关注,而这些关注的背后是因为整个环境的改变,我们的数据量越来越多,硬件越来越强悍。急需要解放人的生产力,自动去寻找数据的规律。解决更多专业领域的问题。机器学习已广泛应用于数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战略游戏和机器人等领域。

简而言之:

解放生产力,如智能客服,不知疲倦进行24h小时作业

解决专业问题,如ET医疗,帮助看病

提供社会便利,如杭州的城市大脑

1.3 python的机器学习库

Numpy是一个强大的高级数学运算的工具库,还具备非常高效的向量和矩阵运算功能。NumPy可以让Python支持大量多维矩阵数据的高效操作

matplotlib提供了可视化工具

SciPy带有许多科学计算的模型。 

Scikit-learn是一个基于python的机器学习库,封装了大量经典以及最新的机器学习模型。

scikit-learn支持的机器学习算法包括分类,回归,降维和聚类。还有一些特征提取(extracting features)、数据处理(processing data)和模型评估(evaluating models)的模块作为Scipy库的扩展

其他的一些特点:

scikit-learn文档完善,容易上手,丰富的API,使其在学术界颇受欢迎。

开发者用scikit-learn实验不同的算法,只要几行代码就可以搞定。

scikit-learn包括许多知名的机器学习算法的实现,包括LIBSVM和LIBLINEAR。还封装了其他的Python库,如自然语言处理的NLTK库。

另外,scikit-learn内置大量数据集,允许开发者集中于算法设计,节省获取和整理数据集的时间。

注意:Scikit-learn基于NumPy、SciPy和matplotlib构建,安装它之前,必须安装numpy、scipy、pandas、matplotlib等基础组件

1.4 学到什么

1.学会分析问题,使用机器学习算法的目的,想要算法完成何种任务

2.掌握算法基本思想,学会对问题用相应的算法解决

3.学会利用简便的库或者框架解决问题

1.5  开发机器学习应用程序的步骤

(1)收集数据

    我们可以使用很多方法收集样本护具,如:制作网络爬虫从网站上抽取数据、从RSS反馈或者API中得到信息、设备发送过来的实测数据。

(2)准备输入数据

    得到数据之后,还必须确保数据格式符合要求。

(3)分析输入数据

    这一步的主要作用是确保数据集中没有垃圾数据。如果是使用信任的数据来源,那么可以直接跳过这个步骤

(4)训练算法

    机器学习算法从这一步才真正开始学习。如果使用无监督学习算法,由于不存在目标变量值,故而也不需要训练算法,所有与算法相关的内容在第(5)步。

(5)测试算法

    这一步将实际使用第(4)步机器学习得到的知识信息。当然在这也需要评估结果的准确率,然后根据需要重新训练你的算法

(6)使用算法

   转化为应用程序,执行实际任务。以检验上述步骤是否可以在实际环境中正常工作。如果碰到新的数据问题,同样需要重复执行上述的步骤。

1.6  模型

1.7  机器学习算法分类

监督学习

分类    k-近邻算法、贝叶斯分类、决策树与

随机森林、逻辑回归、神经网络

回归    线性回归、岭回归

标注    隐马尔可夫模型     (不做要求)

无监督学习

聚类    k-means

监督学习(英语:Supervised learning),可以由输入数据中学

到或建立一个模型,并依此模式推测新的结果。输入数据是

输入特征值和目标值所组成函数的输出可以是一个连续的值

(称为回归),或是输出是有限个离散值(称作分类)

无监督学习(英语:Supervised learning),可以由输入数据中

学到或建立一个模型,并依此模式推测新的结果。输入数据是

由输入特征值所组成。

1.8  机器学习开发流程

1.数据集

数据来源

公司本身就有数据

合作过来的数据

购买的数据

2.数据预处理

数据的基本处理: pandad去处理数据(缺失值,合并)

3.特征工程

特征工程(对特征进行处理)【非常重要】

4.构建模型

寻找合适的算法进行模型构建:算法 + 数据

5.预测模型

  1. 模型的评估

   模型的评估,判定效果

  1. 模型上线使用

上线使用, 以API形式提供

https://www.jianshu.com/p/44d3d340b58e

 

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值