一.机器学习
1.1 机器学习概述
机器学习是人工智能的一个分支,机器学习是从数据中自动分析获得规律(模型),并利用规律对未知数据进行预测的算法。

1.2 为何要学机器学习
21世纪机器学习又一次被人们关注,而这些关注的背后是因为整个环境的改变,我们的数据量越来越多,硬件越来越强悍。急需要解放人的生产力,自动去寻找数据的规律。解决更多专业领域的问题。机器学习已广泛应用于数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战略游戏和机器人等领域。
简而言之:
解放生产力,如智能客服,不知疲倦进行24h小时作业
解决专业问题,如ET医疗,帮助看病
提供社会便利,如杭州的城市大脑
1.3 python的机器学习库
Numpy是一个强大的高级数学运算的工具库,还具备非常高效的向量和矩阵运算功能。NumPy可以让Python支持大量多维矩阵数据的高效操作。
matplotlib提供了可视化工具。
SciPy带有许多科学计算的模型。
Scikit-learn是一个基于python的机器学习库,封装了大量经典以及最新的机器学习模型。
scikit-learn支持的机器学习算法包括分类,回归,降维和聚类。还有一些特征提取(extracting features)、数据处理(processing data)和模型评估(evaluating models)的模块,作为Scipy库的扩展。
其他的一些特点:
scikit-learn文档完善,容易上手,丰富的API,使其在学术界颇受欢迎。
开发者用scikit-learn实验不同的算法,只要几行代码就可以搞定。
scikit-learn包括许多知名的机器学习算法的实现,包括LIBSVM和LIBLINEAR。还封装了其他的Python库,如自然语言处理的NLTK库。
另外,scikit-learn内置了大量数据集,允许开发者集中于算法设计,节省获取和整理数据集的时间。
注意:Scikit-learn基于NumPy、SciPy和matplotlib构建,安装它之前,必须安装numpy、scipy、pandas、matplotlib等基础组件
1.4 学到什么
1.学会分析问题,使用机器学习算法的目的,想要算法完成何种任务
2.掌握算法基本思想,学会对问题用相应的算法解决
3.学会利用简便的库或者框架解决问题
1.5 开发机器学习应用程序的步骤
(1)收集数据
我们可以使用很多方法收集样本护具,如:制作网络爬虫从网站上抽取数据、从RSS反馈或者API中得到信息、设备发送过来的实测数据。
(2)准备输入数据
得到数据之后,还必须确保数据格式符合要求。
(3)分析输入数据
这一步的主要作用是确保数据集中没有垃圾数据。如果是使用信任的数据来源,那么可以直接跳过这个步骤
(4)训练算法
机器学习算法从这一步才真正开始学习。如果使用无监督学习算法,由于不存在目标变量值,故而也不需要训练算法,所有与算法相关的内容在第(5)步。
(5)测试算法
这一步将实际使用第(4)步机器学习得到的知识信息。当然在这也需要评估结果的准确率,然后根据需要重新训练你的算法
(6)使用算法
转化为应用程序,执行实际任务。以检验上述步骤是否可以在实际环境中正常工作。如果碰到新的数据问题,同样需要重复执行上述的步骤。
1.6 模型

1.7 机器学习算法分类
监督学习
分类 k-近邻算法、贝叶斯分类、决策树与
随机森林、逻辑回归、神经网络
回归 线性回归、岭回归
标注 隐马尔可夫模型 (不做要求)
无监督学习
聚类 k-means

监督学习(英语:Supervised learning),可以由输入数据中学
到或建立一个模型,并依此模式推测新的结果。输入数据是由
输入特征值和目标值所组成。函数的输出可以是一个连续的值
(称为回归),或是输出是有限个离散值(称作分类)。
无监督学习(英语:Supervised learning),可以由输入数据中
学到或建立一个模型,并依此模式推测新的结果。输入数据是
由输入特征值所组成。
1.8 机器学习开发流程
1.数据集
数据来源
公司本身就有数据
合作过来的数据
购买的数据
2.数据预处理
数据的基本处理: pandad去处理数据(缺失值,合并)
3.特征工程
特征工程(对特征进行处理)【非常重要】
4.构建模型
寻找合适的算法进行模型构建:算法 + 数据
5.预测模型
- 模型的评估
模型的评估,判定效果
- 模型上线使用
上线使用, 以API形式提供
https://www.jianshu.com/p/44d3d340b58e
本文深入浅出地介绍了机器学习的概念,探讨了其在各领域的应用,详细解释了监督学习和无监督学习的区别,并概述了机器学习开发流程。通过实例展示了如何使用Python库如scikit-learn进行模型训练和预测。
736

被折叠的 条评论
为什么被折叠?



