Data mining(I)

本文介绍了数据挖掘的概念及其过程,即从大量、不完整且可能含噪声的数据中自动抽取隐藏的有用模式。主要内容涵盖监督学习与非监督学习的区别,包括决策树、K近邻、神经网络和支持向量机等分类算法,以及过拟合、交叉验证等概念。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Learning Notes of Dr.Bo Yuan.THU 《Data:Theory and Algorithm》Part I

  • Definition:Data Mining is the process of automatically extracting interesting and useful hidden patterns from usually massive,incomplete and noisy data.
    Not a fully automatically process.
    From data to intelligence.
    Data、information、knowledge、decision support
    这里写图片描述
  • Classification
    这里写图片描述
    Algorithms:
    Decision Tree、KNN、Neural Networks、SVM
    Overfitting
    Cross Validation Training data 、Test data
    这里写图片描述
    Confusion Matrix 、 TP(True Positive) 、FP(False Positive) 、FN(False Negative) 、TN(True Negative) 、TPR(True Positive Rate)、 TNR(True Negative Rate)、 Accuracy
    TP+FP+FN+TN = number of samples
    这里写图片描述
    ROC:Receiver Operating Characteristic
    AUC:Area Under ROC Curve #AUC near 1 is good
    这里写图片描述
    Cost sensitive learning
    Lift analysis

  • Clustering
    Difference:Clustering is Unsupervised Learning,Classification is Supervised Learning
    这里写图片描述
    Association Rule

  • Regression
    这里写图片描述
    Underfitting
    Overfitting

  • Data Preprocessing
    这里写图片描述
    Garbage Input garbage Output
    Cloud Computing
    Parallel Computing
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值