人工智能与大数据技术导论-13011知识点记录_13011人工智能与大数据技术导论

本文详细介绍了数据挖掘中的模型构建、特征工程、模型训练方法,如梯度下降和深度学习的神经网络,以及知识图谱的概念和关键技术,包括模型的评估、过度拟合处理和数据预处理的脏数据清洗等。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

脏数据的情况:
(1)存在重复记录的数据;
(2)存在不相关记录
(3)无用的特征信息;
(4)文字拼写错误
(5)信息格式不统一
(6)明显错误的离群值
(7)缺失数据
4.2.3 特征工程
从原始数据中找到合适的特征集的过程

第5章“模型”

需要掌握:模型概念;模型的训练;梯度下降法;模型的拟合效果;模型的评估与改进。

5.1、模型概念
模型刻画了因变量y和自变量x之间的客观关系,即y与x之间存在一种形象的客观规律在约束。模型是对处理变量关系的某种假设。
5.2、模型的训练
5.2.1 概念:训练一个模型就是从训练数据中确定所有权重和偏差的最佳值,参数的求解
训练的目标是找到让误差最小的权重和偏差。
5.2.2 均方误差 MSE: 是回归模型中的一个重要概念,描绘了整个考察的样本集中预测值和实际值的平均偏离程度。
5.2.3 误差函数是为了评估模型拟合的好坏,通常用误差函数来度量拟合的程度。误差函数极小化意味着拟合程度最好,对应的模型参数即为最优参数。
5.3、梯度下降法
5.3.1 类似贪心算法,每次梯度下降都选取局部最优解。如果误差函数是凸函数,梯度下降法得到的解一定是全局最优解(梯度为0)。
5.3.2 误差函数的最小值就是误差函数收敛的位置。
5.3.3 步长:在梯度下降迭代的过程中,每一步沿梯度负方向前进的长度。
5.3.4 常见梯度下降方法:
(1)批量梯度下降法;(2)随机梯度下降法;(3)小批量随机梯度下降法;
5.4、模型的拟合效果
5.4.1 欠拟合:模型过于简单,对于部分数据刻画较差,训练的时间不够;(实际应用中,出现较少)
5.4.2 过度拟合:参数过多,对训练集的匹配度太高、太准确,以至于在后面的预测过程中可能会导致预测值非常偏离合适的值,预测非常不准确。
5.4.3 过度拟合的处理方法:
(1)使用更多训练数据;
(2)使用正则化,改变误差函数,在误差函数原有的基础上加入惩罚项;
(3)早停法,在迭代过程中提早结束迭代;
(4)使用集成算法
(5)减少特征的数量
5.5、模型的评估和改进
5.5.1 回归模型
评价指标:均方误差-MSE 平均绝对误差-MAE
5.5.2 分类模型
评价指标:准确率、精确率、召回率、ROC曲线、误分率
(1)准确率 = 预测正确的样本数据 / 综样本数
误分率 = 1- 准确率
(2)精确率
预测为正的样本中确实为正值的比率
(3)召回率
所有真实值为正的样本中被我们预测为正值的比率。
5.5.3 模型改进
(1)使用更多人为标注的标签数据;
(2)手动进行误差分析;
(3)进行效果更好的Bias-Variance(偏差-方差)分析

第6章“机器学习算法”

需要掌握:算法概述;支持向量机算法;逻辑回归算法;KNN算法;决策树算法;聚类算法
6.1、算法概述
6.1.1 概念
机器

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值