机器学习
1.1人工智能概述
1.2.1 机器学习与人工智能,深度学习
深度学习->机器学习->人工智能;
人工智能:1950,实现自动下棋,人机对弈,达特茅斯会议->人工智能的起点,1956年8月。克劳德-香农(信息论的创始人)内容:用机器来模仿人类的学习能力。持续了两个多月。1956被称为人工智能元年。
机器学习:最开始的垃圾邮件的处理过滤,人工神经网络,深度神经网络。
深度学习:2010年开始,在图像识别领域中表现突出。
1.1.2 机器学习,深度学习有什么作用:
1. 传统预测
店铺销量预测,量化投资,广告推荐
2. 图像处理
交通标志检测,人脸识别
3.自然语言处理
翻译,文本分类,情感分析,自动聊天,文本检测,智能写文章,智能客服
1.2什么是机器学习
1.2.1 定义:
从数据中学习,模型,解决问题。
1.2.2 数据集的构成
特征值 + 目标值 = 经验规律
样本:所有数据,有的数据可以没有目标值。
1.3 机器学习算法分类
1.3.1
监督学习
目标值:类别 = 分类问题
目标值:连续性的数据 = 回归问题
无监督学习
目标值:无 = 无监督学习
1.3.2 机器学习算法分类
1 监督学习: 有目标值的算法
分类:k-近邻算法,贝叶斯分类与随机分类,逻辑回归,回归,线性回归,岭回归。
2 无监督学习: 无目标值的算法
聚类 k-means
1.4 机器学习开发流程
1. 原始数据
2. 数据处理
3. 数据特征工程(训练数据和测试数据)
(算法进行学习)
4. 机器学习算法训练 – 模型
5. 模型评估
6. 应用
1.5 学习框架和资料介绍
1. 算法是核心,数据与计算是基础
2. 找准定位
算法工程师做算法
+ 分析很多数据
+ 分析具体业务
+ 应用常见算法
+ 特征工程、调参数、优化
3. 怎么做?
1.入门
2.书籍资料
3.《机器学习》 – 周志华 – 西瓜书
《统计学习方法》 – 李航
《深度学习》 – 花书
1.5.1 机器学习库与框架
Pytorch
Caffe2
2.1 数据集
2.1.1 可用数据集
不可用数据集
公司内部 百度
数据接口 花钱
数据集 政府机构、
可用数据集
Sklearn