绪论
抽出时间学点新技术,先从了解点皮毛开始。本笔记来源于慕课网 → 前沿技术 → 初识机器学习-理论篇。
什么是机器学习
利用计算机从历史数据中找出规律,并把这些规律应用到对未来不确定场景的决策。
大量数据,找规律,形成公式。
生活中的机器学习
1、关联规则:啤酒和纸尿裤案例。
2、聚类:用户细分精准营销。各类移动卡。
3、朴素贝叶斯和决策树:垃圾邮件、信用卡欺诈。
4、ctr预估和协同过滤:或联网广告(点击量预估)、推荐系统(同时购买)。
5、自然语言处理和图像识别:情感分析、实体识别(关键字提取)、自动驾驶、手势识别。
数据分析和机器学习
共同点:都是在历史数据中找出规律进行应用。
不同点:
- 数据分析主要靠人。处理的是交易数据(例如:用户的订单,跟钱有关系)。数据量少。采样分析。使用关系型数据库。对历史的回顾。少量纬度。
- 机器学习完全靠机器。处理的是行为数据(用户的搜索、点击、浏览历史)。海量数据。全量分析。可以存放到nosql类型数据库。预测未来的事情。大量纬度。
常用算法
算法分类1:
- 有监督学习。给一个标准。例如:分类算法、回归算法。
- 无监督学习。没有标准。例如:聚类。
- 半监督学习。一部分数据。
算法分类2:直指算法本质
- 生成模型。每个样本都有概率。
- 判别模型。有固定的公式获取结果。
框架
确定目标
- 业务需求。
- 数据。
- 特征工程。
训练模型
- 定义模型。
- 定义损失函数:测试模型生成的结果和实际结果有多少偏差。
- 优化算法:根据偏差来选择最好的模型。
模型评估
- 交叉验证。
- 效果评估。
(若有什么错误,请留言指正,3Q)