数据挖掘与知识发现核心解析

1、什么是数据挖掘?

数据挖掘的目标

数据挖掘的目标是在某个领域中,对大量的、大多无监督的数据进行理解。

  • 数据挖掘的用户 :通常是领域专家,他们不仅拥有数据,还自己收集数据。
  • 企业角色 :是数据挖掘的最大用户群体,他们收集大量数据并希望从中获取有意义的信息,以提高公司的竞争力和盈利能力。
  • 数据所有者的期望
  • 不仅希望更好地理解他们的数据;
  • 还希望获得关于该领域的新知识,以便以新颖、可能更好的方式解决问题。

新知识的基本属性

为了使这些新知识有意义,它应具备以下基本属性:

  • 可理解
  • 有效
  • 新颖
  • 有用

2、数据挖掘结果何时能被最终用户接受?

数据挖掘结果能为用户提供之前未知的新信息/知识,且这些信息/知识能为用户带来某种优势时,可能会被最终用户接受。此外,经过知识发现过程的多次迭代以及与用户的交互,得到符合用户期望的模型时,结果也可能被接受。

3、讨论为什么我们需要将知识发现过程模型标准化。

将知识发现过程(KDP)模型标准化有以下原因:

  1. 确保最终产品对数据用户/所有者有用
    无结构地应用数据挖掘技术常产生无意义结果,导致项目失败,而标准化模型可使最终产品有效、新颖、有用且易懂。

  2. 方便向决策者展示
    KDP结构和机制复杂,决策者难以理解,标准化模型逻辑清晰,能减轻他们的疑虑。

  3. 实现成本和时间节约
    将知识发现项目在通用框架内形式化,可节省成本和时间,提高项目理解度、成功率和接受度。

  4. 促进标准化方法和程序的发展
    标准化模型可开发标准化方法和程序,让最终用户更轻松地部署项目。

  5. 提升项目性能
    使项目执行更快、更便宜、更可靠、更易管理。

  6. 推动知识发现领域发展
    使用业务术语而非传统算法语言,提高该领域的曝光度和可接受性。

4、请详细描述CRISP - DM过程模型中的评估和部署步骤,并解释这两个步骤中子步骤的细节。

评估步骤

在从数据分析角度构建出一个或多个高质量模型后,从业务目标角度对模型进行评估,同时回顾构建模型所执行的步骤。关键目标是确定是否有重要的业务问题未得到充分考虑,最后要就是否使用数据挖掘结果做出决策。

评估步骤的关键子步骤:

  1. 评估结果
  2. 过程回顾
  3. 确定下一步行动

部署步骤

将发现的知识以客户可用的方式进行组织和呈现。根据需求,此步骤可以简单到生成一份报告,也可以复杂到实施一个可重复的数据挖掘过程。

部署步骤的进一步划分:

  1. 制定部署计划
  2. 制定监控和维护计划
  3. 生成最终报告
  4. 过程回顾

5、思考在以下问题中引入监督机制的可能方法:(a) 患者记录;(b) 集成电路集合;(c) 电影集合。并说明你选择相关机制的理由。

对于患者记录,可以请医学专家对部分患者记录进行诊断标注,形成少量有标签的数据集,利用这些标签数据进行半监督学习中的部分监督聚类,帮助对大量未诊断的患者记录进行分类和理解,因为医学领域专家具有专业知识,其标注具有权威性。

对于集成电路集合,可以由电子工程师挑选一些具有代表性或难以判断特性的集成电路进行特性标注,这些标注的集成电路作为“锚点”来辅助聚类,减少搜索空间,确定集成电路的类别,因为电子工程师熟悉集成电路的特性。

对于电影集合,可以让电影评论家或资深影迷对一些电影进行分类标注,同时提供一些电影对之间的相似度量化信息,采用基于邻近度的聚类方法,因为电影分类没有明确的类别数量,基于邻近度的提示格式更通用,能更好地组织电影集合。

6、显然,回归可以通过线性和非线性关系来实现。举一个日常例子,并详细说明模型形式的选择。你会偏好哪种形式?请说明理由。

以学生身高与体重之间的关系为例。

线性回归假设身高与体重之间存在线性函数关系,即
$$ y = b + ax $$

其中:
- $ a $ 是斜率
- $ b $ 是截距

在这个例子中,线性回归模型可以表示为
$$ y = -55.7619 + 0.6857x $$

这意味着身高每增加一个单位,体重预计会增加 0.6857 个单位。

选择线性模型的理由:

  1. 简单性 :线性模型结构简单,易于理解和实现。
  2. 可解释性 :模型的参数(斜率和截距)能够直观地解释变量之间的关系,即身高的变化如何影响体重的变化。
  3. 计算成本低 :线性回归在数学上相对简单,计算效率高。

局限性:

尽管线性回归具有上述优点,实际情况中,身高和体重之间的关系可能并非完全线性。
一些非线性因素,如身体的脂肪含量、肌肉比例等,可能导致体重的增加并非与身高的增加成简单的线性比例。

结论:

在大多数情况下,尤其是在数据量有限或者对模型的解释性要求较高时,线性回归由于其 简单性 可解释性 ,仍然是一个广泛使用的选择。
因此,在这个例子中,会偏好使用线性模型。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值