数据挖掘核心概念与应用解析

1、什么是数据挖掘?

数据挖掘的目标是在某个领域内,对大量的、大多无监督的数据进行解读。数据挖掘的用户通常是领域专家,他们拥有并收集数据。企业是数据挖掘的最大用户群体,其目的是让公司更具竞争力和盈利能力。数据所有者不仅希望更好地理解数据,还想获取关于该领域的新知识,以新颖且可能更好的方式解决问题。

为了实现解读数据的目的,新发现的知识应具备以下基本属性:

  • 可理解
  • 有效
  • 新颖
  • 有用

2、数据挖掘结果何时能被最终用户接受?

最终用户通常根据自身领域知识判断所生成知识(信息)的有用性,接受那些能发现数据中隐藏的、之前未知的新信息/知识,且可带来某种优势的结果。

3、讨论为什么我们需要将知识发现过程模型标准化。

  • 标准化知识发现过程模型十分必要,具有多方面的重要意义。
  • 首先,能将知识发现项目在通用框架内进行形式化,实现成本和时间的节省,提高项目的理解度、成功率和可接受性。
  • 其次,可避免盲目、无结构地应用数据挖掘技术,确保最终成果有效、新颖、有用且易懂,避免项目失败。
  • 再者,有助于向决策者展示合理的结构和方法,消除他们对技术应用的疑虑。
  • 最后,能推动标准化方法和程序的发展,使终端用户更轻松地部署项目,提升项目性能,促进使用商业术语的解决方案的开发和交付,提高知识发现领域的曝光度和可接受性。

4、请详细描述CRISP - DM过程模型中的评估和部署步骤,并解释这两个步骤中各子步骤的细节。

评估步骤

评估步骤是在从数据分析角度构建出一个或多个高质量模型后,从业务目标角度对模型进行评估,同时回顾构建模型所执行的步骤。关键目标是确定是否有重要业务问题未得到充分考虑,最后要就数据挖掘结果的使用做出决策。

该步骤的关键子步骤包括:

  1. 评估结果 :对构建好的模型结果进行评估。
  2. 过程回顾 :回顾构建模型所执行的步骤。
  3. 确定下一步 :根据评估和回顾结果,确定后续要采取的步骤。

部署步骤

部署步骤是将发现的知识进行组织和呈现,以便客户使用。此步骤可简单到仅生成一份报告,也可复杂到实施一个可重复的数据挖掘过程。

该步骤进一步分为:

  1. 部署规划 :制定知识部署的计划。
  2. 监控和维护规划 :规划对部署后的知识进行监控和维护的方案。
  3. 生成最终报告 :生成关于整个数据挖掘过程和结果的最终报告。
  4. 过程回顾 :对整个数据挖掘过程进行回顾总结。

5、简要定义并描述数据不一致问题,应包含一个基于心脏诊所数据集的示例。

数据不一致问题指数据中存在矛盾、冲突或不符合特定规则和逻辑的情况,这会影响数据的准确性和可用性,对数据挖掘结果产生负面影响。
数据冗余是指存在两个或多个相同对象,或两个或多个强相关的特征。而数据不一致更侧重于数据之间逻辑和规则上的冲突。

在心脏诊所数据集中,数据不一致可能表现为:
- 一份记录显示患者血压正常,但另一份记录却显示该患者患有需要高血压才会引发的并发症。

这两份记录在逻辑上相互矛盾,无法确定患者的真实状况,会干扰后续对患者病情的分析和诊断。

6、汉明距离用于设计鲁棒分类器,即构造不受离群值影响的分类器。请解释原因。比较汉明距离和欧几里得距离随x的变化情况,说明对于较大的x值,哪一个变化更快。

  • 汉明距离在设计鲁棒分类器时,其构造不受离群值影响。

  • 汉明距离是对应位置元素不同的数量之和,欧几里得距离是对应元素差值平方和的平方根。

  • 随着 $ x $ 增大,欧几里得距离会因差值平方而使结果迅速增大,而汉明距离仅取决于元素不同的数量,不随差值大小变化。

  • 所以对于较大的 $ x $ 值,欧几里得距离变化更迅速,这使得汉明距离受离群值影响小,适合用于设计鲁棒分类器。

7、绘制两类分类器的分类边界,其判别函数形式为 x1x2 = 6.5 + 0.5x1 - 0.9x2 + 0.1x1x2。模式 (1.2, 7.5) 和 (10.4, -15.0) 是否属于同一类?请说明理由。

首先,分类边界由判别函数 $ x_1x_2 = 6.5 + 0.5x_1 - 0.9x_2 + 0.1x_1x_2 $ 确定,移项可得:

$$
6.5 + 0.5x_1 - 0.9x_2 + 0.1x_1x_2 - x_1x_2 = 0
$$

即:

$$
6.5 + 0.5x_1 - 0.9x_2 - 0.9x_1x_2 = 0
$$

为判断模式 $ (1.2, 7.5) $ 和 $ (10.4, -15.0) $ 是否属于同一类,需分别将这两个模式代入判别函数。

  • 对于模式 $ (1.2, 7.5) $,代入得:
    $$
    6.5 + 0.5 \times 1.2 - 0.9 \times 7.5 - 0.9 \times 1.2 \times 7.5 = 6.5 + 0.6 - 6.75 - 8.1 = -7.75
    $$

  • 对于模式 $ (10.4, -15.0) $,代入得:
    $$
    6.5 + 0.5 \times 10.4 - 0.9 \times (-15.0) - 0.9 \times 10.4 \times (-15.0) = 6.5 + 5.2 + 13.5 + 140.4 = 165.6
    $$

由于两个模式代入判别函数后的值一个小于 0,一个大于 0,所以它们 不属于同一类

8、为以下问题设想一些可能引入监督机制的方法:(a) 患者记录,(b) 集成电路集合,(c) 电影集合。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值