数据挖掘概念与技术期末复习

本文涵盖了数据科学的关键概念,包括数据挖掘的步骤,如数据清理和归约,以及聚类、离群点分析和数据仓库的特性。讨论了数据仓库的三层架构和与操作数据库的区别。此外,提到了SVM算法、贝叶斯分类和神经网络在分类预测中的应用,以及DBSCAN算法在密度聚类中的作用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

填空、简答3-5、计算2、应用1

聚类、离群点、数据归约、属性的类型、数据仓库的特征、数据仓库模型、度量值的类型、频繁模式、关联规则、SVM算法、DBSCAN算法的相关概念

简答:

数据仓库和操作数据库的区别

大题:

  • 盒图的绘制

  • 数据仓库建模

  • 相关性分析的方法

  • 使用AprioryFp算法挖掘频繁项集

  • 使用朴素贝叶斯方法和神经网络算法进行分类预测

U1

  • 1.2概念

  • 数据挖掘是从大量数据中挖掘有趣模式和知识的过程。

  • 是知识发现(最重要)的一个步骤

  • 知识发现的步骤

  • 数据清理-数据集成-数据选择-数据变换-数据挖掘-模式评估-知识表示

U2

中心趋势度量:均值、中位数、众数

近似中位数计算

中列数:max和min的均值

  • 四分位数极差IQR=Q3-Q1

  • 可疑的离群点:落在Q3之上或Q1之下1.5倍IQR以外的值

五数概括:按次序:Min,Q1,Median,Q3,Max

  • 数据集由数据对象组成。数据对象代表实体。

  • 数据对象用属性描述。属性表示数据对象的一个特征。

数据是( 数据对象及其属性的集合),属性分为(标称、序数、数值属性 )。

属性的类型由该属性可能具有的值的集合决定。属性可以是标称的、二元的、序数

的或数值的。

  • 标称属性:标称代表“与名称相关”,其值是一些符号或事物的名称。

  • 二元属性:一种标称属性,只有两个状态:0或1。

  • 序数属性:其值之间具有有意义的序或者秩评定,相继值之间的差是未知的。

  • 数值属性:可测量的量,用整数或实数的值表示。数值属性可以是区间标度的或比率标度的。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值