机器学习概述

本文介绍了机器学习中的有监督学习与无监督学习的基本概念,并对比了它们的区别。此外,还列举了一些常用的数据集,如KDD99、HTTPDATASETCSIC2010等,这些数据集广泛应用于各种机器学习任务中。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一.基本概念

  1. 有监督学习

    对具有概念标记(分类)的训练样本进行学习,以便尽可能对训练样本集外的数据进行标记(分类)预测。这里,所有的标记(分类)是已知的。

    样本已知

  2. 无监督学习

    对没有概念标记(分类)的训练样本进行学习,以便发现训练样本集中的结构性知识。这里,所有的标记(分类)是未知的。因此,训练样本的歧义性高。聚类就是典型的无监督学习。

    样本未知

  3. 准确率与召回率:

    召回率也叫查全率,准确率也叫查准率。

二.数据集

  1. KDD 99数据

    KDD是知识发现与数据挖掘(Knowledge Discovery and Data Mining)

  2. HTTP DATASET CSIC 2010

    包含大量标注过的针对Web服务的36000个正常请求以及25000个攻击请求,攻击类型包括sql注入、缓冲区溢出、信息泄露、文件包含、xss等,被广泛用于WAF类产品的功能评测

  3. SEA数据集

  4. ADFA-LD数据集

    主机级入侵检测系统的数据集合

  5. Alexa域名数据

    Alexa是当前拥有URL数量最庞大、排名信息发布最详尽的网站。

  6. Scikit-Learn数据集

    最常见的是iris数据集。

  7. MNIST数据集

    入门级的计算机视觉数据集

  8. Movie Review Data

    包含1000条正面的评论和1000条负面的评论,用于文本分类,恶意评论识别方面

  9. SpamBase数据集

    入门级的垃圾邮件分类训练集、

三.特征提取

常见数字型和文本型

1.数字型特征提取

​ 数字型特征可以直接作为特征,多于一个多维的特征,某一个特征的取值范围特别大,很可能导致其他特征对结果的影响被忽略。

预处理的方式

  1. 标准化

  2. 正则化

  3. 归一化

2.文本特征提取

文本数据提取特征相对于数字型要复杂的多,本质上是做单词的切分,不同单词当作一个新的特征

两个非常重要的模型

词集模型:单词构成的集合,集合中每个元素都只有一个,即词集中的单词只有一个

词袋模型:如果一个单词在文档中不止出现一次,统计其出现的次数

 

 

转载于:https://www.cnblogs.com/linwx/p/8296967.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值