机器学习(Machine Learning):从数据中学习
直线:模型
拟合:学习的过程
寻找直线的问题:寻找确定直线的参数
- 建立模型: y = wx + b
- 学习模型:确定w, b
- 预测房价:使用模型计算房价
学习算法:从数据中产生模型的算法
经典程序设计:根据数据和规则来获得答案。
机器学习算法:根据数据和答案来推测规则。
机器学习:通过学习算法从数据中学习模型的过程。
监督学习(Supervised Learning):有标记样本的学习
数据集(data set)/样本集(sample set):用来学习的数据的集合。
- 样本(sample)
- 属性(attribute)/特征(feature)
- 标记/标签(label)
模型/假设(hypothesis)/学习器(learner):估计函数
真实存在的规律:真相/真实(ground truth)
监督学习分类
-
回归(regression):预测连续值
-
分类(classification):预测离散值
样本集 👇 学习算法 👇 新输入的数据 👉 估计函数 👉 新输出
无监督学习(Unsupervised Learning)
在样本数据没有标记的情况下,挖掘出数据内部蕴含的关系。
聚类:把相似度高的样本聚合在一起。物以类聚、人以群分。
距离:描述了特征值之间的相似度。
半监督学习(Semi-Supervised Learning)
- 将有监督学习和无监督学习相结合
- 综合使用大量的没有标记数据和少量有标记的数据共同进行学习
机器学习的发展和应用:
符号学习:理论研究、模型研究 → 统计机器学习:应用研究
日常应用场景:推荐系统、购物网站、垃圾邮件过滤、物流配送、美图工具、汉字输入、天气预测。
商务领域:分析数据、辅助商业决策、预测市场。
医疗卫生:辅助诊疗。
教育领域:自动改卷、学生行为建模、预测学习表现、学习支持和评测、学习资源推荐。