人工智能第一期 预热研讨
学习的定义:
形式化定义:P评估计算机程序在某个任务类T上的性能,若一个程序通过利用经验E在T中的任务获得了性能的改善,则我们就说关于P,T程序对E进行了学习。
有监督学习:
训练数据由一组训练实例组成。在监督学习中,每一个例子都是一对由一个输入对象(通常是一个向量)和一个期望的输出值(也被称为监督信号)。有监督学习算法分析训练数据,并产生一个推断的功能,它可以用于映射新的例子。一个最佳的方案将允许该算法正确地在标签不可见的情况下确定类标签。用已知某种或某些特性的样本作为训练集,以0建立一个数学模型(如模式识别中的判别模型,人工神经网络法中的权重模型等),再用已建立的模型来预测未知样本,此种方法称为有监督学习。
无监督学习:
目标是我们不告诉计算机怎么做,而是让它(计算机)自己去学习怎样做一些事情。非监督学习一般有两种思路。第一种思路是在指导Agent时不为其指定明确的分类,而是在成功时采用某种形式的激励制度。需要注意的是,这类训练通常会置于决策问题的框架里,因为它的目标不是产生一个分类系统,而是做出最大回报的决定。这种思路很好的概括了现实世界,Agent可以对那些正确的行为做出激励,并对其他的行为进行处罚。
独立同分布:
分类的两种结果:离散,连续。分类 与 回归。
数据集:记录的集合称之为数据集。
样本空间: 由属性构成的空间称之为样本空间。
特征向量:属性空间中的点为特征向量。
归纳偏好:机器学习算法在学习过程中对某种类型假设的偏好,称之为“归纳偏好”或简称“偏好”。
范数:范数(norm)是数学中的一种基本概念,在泛函分析中,范数是一种定义在赋范线性空间中函数,满足相应条件后的函数都可以被称为范数。
L0范数是指向量中非0的元素的个数。
L1范数是指向量中各个元素绝对值之和,也称“稀疏规则算子”(Lasso regularization)。
概率密度函数:
在数学中,连续型随机变量的概率密度函数(在不至于混淆时可以简称为密度函数)是一个描述这个随机变量的输出值,在某个确定的取值点附近的可能性的函数。probability density function,简称PDF。
1)初识机器学习:
一.概念:将 规律 用于对未来 不确定 场景的决策。
规律:从历史数据中总结
通常 来自数据分析师 ———让机器代替
从数据中寻找规律
规律—自动生成————>决策
历史几十年,,,,有大数据引出,,概率论与数理统计(基石)统计学(受限于计算能力限制,低端计算机)
统计学:抽样调查,(有缺陷)————>验证
抽样—>描述统计—>假设检验(统计推断)
发展到,对全部数据进行处理
分析气温:收集历史数据,通过可视化展示,局部上下波动,总体上升
图形——得到——>函数(寻找模型)使用与一维
多维,上百维,构建不出图形,不能发现规律,,纯靠数学运算
二.机器学习发展的动力
1.用数据代替专家(主观经验),定义规则——>if/else 业务逻辑,
2.经济。数据变现
3.业务系统发展的历史
基于专家经验(1)
基于统计———分纬度统计(2)
机器学习————在线学习(3)
运营,产品,专家 交流经验———>程序员——>if/else(1)
数据分析==技术报表(olvp)——>业务规则(2)
离线机器学习(多),跑定时任务,生成模型 —— 发展方向 ———>实时推荐(在线学习)(3)
四。机器学习的典型应用
1.购物篮分析(数据变成钱)
啤酒+尿片(沃尔玛数据分析人员发现)算法:关联规则(典型数据挖掘算法,非机器学习算法)
2.分用户精准营销
中国移动:全球通(商务),动感地带(学生),神州行(务工人员)
机器学习:
算法:聚类(典型机器学习算法)
3.垃圾邮件识别
算法:朴素贝叶斯(机器学习算法)
4.信用卡欺诈
风险识别:还款能力,消费能力
算法:决策树(机器学习算法)
5.互联网广告,搜索引擎
算法:ctr预估(用户点击率预估:线性逻辑回归)
6.推荐系统(猜你喜欢)
算法:协同过滤(与第一条类似)算法不同,解决同类型问题,提升销量
7.领域:自然语言处理
前景广泛(门槛较机器学习更高)
情感分析(积极,消极),实体识别(文章中:人名地名时间)
更多其他领域
8.深度学习:图像识别
(很火)吴文达教授主要从事这方面
更多:语音识别,个性化医疗,情感分析,人脸识别,自动驾驶,智慧机器人,私人虚拟助理,手势控制,视频内容自动识别,实时翻译。。。。
工业届热点
(2)机器学习与传统数据分析的区别
1.数据特点: 交易数据(与¥有关)——VS—— 行为数据(行为历史)
数据特点
交易数据 行为数据
与¥有关 行为历史
少量数据 海量数据
一致性高 不关注精准一致性
sql no sql
*no sql 数据库:只能处理行为性数据,保证吞吐量,一致性打折扣
2.解决的业务问题不一样
数据分析 机器学习
历史,报告过去的事情 未来,预测未来的实行
3.技术手段不同
数据分析:人的经验,用户驱动(olap)交互式分析,受限于人,维度,属性数目有限,技术成熟,落伍
机器学习:算法,数据驱动,大量维度,属性(上亿规模) 发展阶段,部分成熟,流行(推荐,点击预估)
3.参与者不同,服务对象不同
数据分析:数据分析师,目标用户:公司高层
机器学习:数据+算法 做分类,算法差别不大,关键是数据质量 目标用户:个体用户
(3)机器学习常见算法分类
算法分类(1):
有监督学习:(有y)分类算法(是否为垃圾邮件,打标签),回归算法
无监督学习:(没y)聚类算法:分成几累,之前并不知道
半监督学习:(强化学习)小孩学走路
算法分类(2): 分类与回归:
聚类:
标注:像分类,一句话,给每个元素打标签,主谓宾
算法分类(3):(important)
生成模型:(陪审团)属于各个类的概率(%20A类, %40B类, 20%C类。。。)模棱两可
判别模型:(法官)直接给函数,返回结果,属于哪一类,!武断
主要区别:训练数据模型的方法
SVM算法面试必考
分类:C4.5
关联分析 fp-growth:关联算法(韩嘉伟)两边扫描,平凡相机挖掘
统计学习 EM(算法框架)
PageRank 谷歌
AdaBoost 人脸识别,决策树改进版
NAVIE BAYES 朴素贝叶斯
常用成熟算法:
FP-Growth
逻辑回归
RF.GBDT
推荐算法
LDA(文本,自然语言)
Word2Vector(谷歌,文本挖掘)
HMM,CRF(条件随机场,自然语言,文本挖掘)
深度学习(各种识别)
(4)机器学习解决问题的框架
(人工智能解决的问题相对单纯)
确定目标:
业务需求
数据
特征工程(数据预处理,清晰,整合,提取特征),繁琐,复杂
训练模型:
定义模型
定义损失函数**:通常情况下没有精确解(重要),相似,差异度
优化算法:求函数极小值的优化算法,(随机梯度下降,种种)
模型评估:
交叉验证(主流):评估指标,准确率,方差,曲线
效果评估