数据挖掘与Web数据库技术解析
1. 数据挖掘相关要点
1.1 数据挖掘的可扩展性问题
在面对超大型数据库时,数据挖掘会遇到可扩展性问题。解决该问题可采用抽样技术,即对数据库进行有代表性的缩减样本数据挖掘。
1.2 数据挖掘工具的通用性
数据挖掘工具的通用性指其与应用的独立性。很多情况下,解决问题需考虑问题特性。除通用工具外,还有大量特定问题的数据挖掘工具。特定工具了解应用领域,能更轻松完成数据挖掘,尤其在结果解释方面,但通用性和可复用性较差。
1.3 相关练习
以下是一系列数据挖掘相关的练习:
| 练习编号 | 练习内容 |
| ---- | ---- |
| 13.1 | 完成数据集市项目,识别事实和维度的属性。 |
| 13.2 | 设计数据集市,识别维度间的层次结构。 |
| 13.3 | 参考超市管理数据集市,设计交互式界面提取大城市商店各周销售产品类别的数据,并编写对应 SQL 查询。 |
| 13.4 | 描述与练习 13.3 查询结果相关的上卷和下钻操作。 |
| 13.5 | 描述在练习 13.3 查询中使用
with cube
和
with roll up
子句的情况。 |
| 13.6 | 为超市管理数据集市选择位图索引、连接索引和物化视图。 |
| 13.7 | 设计大学考试管理数据集市,创建星型模式和雪花模式并转换为关系形式,模拟上卷和下钻操作设计分析界面,选择索引和视图。 |
| 13.8 | 设计铁路管理数据集市,创建星型模式并转换为关系形式。 |
| 13.9 | 从给定数据库中提取支持度和置信度不低于 20% 的关联规则,再提取支持度高于 50% 的规则。 |
| 13.10 | 将练习 13.9 数据库中的价格离散化为低、中、高三个值,转换数据后构建不同价格类别的销售关联规则并解释结果。 |
| 13.11 | 描述汽车销售数据库,对不同人群购车倾向分类器结构提出假设。 |
2. 互联网与万维网基础
2.1 互联网概述
互联网是通过 TCP/IP 协议族通信的网络联盟。通常,互联网节点是小范围局域网的一部分,局域网通过网络层次结构相互通信。每个互联网节点有唯一的 IP 地址,也可有符号名。互联网应用采用客户端 - 服务器模式,客户端管理用户交互,服务器执行请求操作并响应。
2.2 万维网的概念
万维网最初是访问分布式文档的接口,现在是各类信息系统平台,通过浏览器访问,常与数据库管理系统结合支持大量数据访问。万维网是分布式多媒体超文本,由不同主体在互联网上产生和维护的各种文档组成,不仅能访问静态文档,还能动态生成页面。
2.3 万维网的技术组件
万维网的主要技术组件包括 HTML、URL 和 HTTP:
-
HTML
:用于编写网页,描述文档逻辑特征,可创建超文本链接。通过关联 URL 和锚点创建链接,URL 可指定资源。HTML 还支持创建用户输入参数的页面。
-
URL
:通用格式为
[Protocol://][Server/]Resource
,用于引用资源。例如,
http://www.dia.uniroma3.it/vldb2001/index.html
是使用 HTTP 协议获取文件的 URL。
-
HTTP
:由四个阶段组成:
1. 打开连接:浏览器联系 HTTP 服务器验证准确性和可用性,请求 TCP 连接。
2. 建立连接:服务器接受连接并发送确认。
3. 请求:客户端向服务器发送服务请求和相关参数。
4. 回复:服务器告知请求是否满足并提供结果,同时关闭连接。
HTTP 协议无状态,管理每个请求时不记录上下文,这对需要多次交互的数据库事务是限制。
2.4 网关
Web 服务器可调用程序并传递参数,网关是 Web 服务器调用的程序,可使用多种语言编写。
graph LR
classDef startend fill:#F5EBFF,stroke:#BE8FED,stroke-width:2px;
classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
A([开始]):::startend --> B(打开连接):::process
B --> C(建立连接):::process
C --> D(请求):::process
D --> E(回复):::process
E --> F([结束]):::startend
以上内容涵盖了数据挖掘和互联网、万维网的相关知识,有助于理解这些领域的基本概念和操作。
3. Web 信息系统的特点与挑战
3.1 信息的异构性
Web 信息系统支持的信息高度异构。从一开始,Web 就用于管理文本和多媒体信息(如图像、音频、视频),而传统信息系统主要管理能用简单数据结构(如原子值元组集合)表示的数据。因此,通过 Web 管理的信息结构更复杂、更缺乏规律性,与数据库中使用的信息结构有较大差异。
3.2 用户交互的灵活性
Web 信息系统通常为用户提供与系统交互的更大灵活性,交互由用户兴趣驱动,而非遵循预先设计的模式。然而,用户更改数据内容的机会有限。例如,在电子商务中,用户只能操作其私人“购物篮”中的内容,而不能更改描述商品优惠的 Web 数据内容。
3.3 交互工具的差异
Web 浏览器与信息源之间的交互使用的工具与传统系统不同。尽管浏览器已基本标准化,界面较为统一,但由于访问 Web 的设备不同,其特性可能存在差异。例如,高速内部网中配备大屏幕的强大工作站与使用小屏幕和移动电话连接的便携式计算机,其可用功能可能存在很大差异。
3.4 应用目标的多样性
Web 信息系统面向庞大的互联网用户群体,因此需要考虑的目标比传统信息系统更广泛、更多样。基于这些特点,需要重新思考 Web 信息系统的开发过程,包括明确开发的组件和要集成到其中的组件。
4. 数据密集型网站的建模与设计
4.1 数据密集型网站的重要性
数据在网站中起重要作用的网站被称为数据密集型网站,预计在不久的将来其重要性将显著增加。对这类网站进行合理的建模和设计至关重要。
4.2 建模与设计要点
在进行数据密集型网站的建模和设计时,需要考虑以下几个方面:
| 要点 | 描述 |
| ---- | ---- |
| 数据结构 | 要根据网站的功能和需求,设计合适的数据结构来存储和管理数据。例如,对于电子商务网站,可能需要设计商品表、用户表、订单表等。 |
| 数据关系 | 明确不同数据之间的关系,如一对一、一对多、多对多关系。以大学考试管理数据集市为例,学生与考试成绩之间是一对多的关系。 |
| 用户体验 | 设计友好的用户界面,方便用户与数据进行交互。例如,提供搜索功能、筛选功能等,让用户能够快速找到所需信息。 |
| 性能优化 | 考虑如何优化网站的性能,如使用索引、缓存等技术,减少数据查询和处理的时间。 |
5. Web 与数据库的集成技术
5.1 集成的必要性
为了支持和提供对大量数据的访问,Web 信息系统通常需要与数据库管理系统集成。这样可以利用数据库的强大功能来存储、管理和查询数据。
5.2 集成的实现方式
5.2.1 通过网关实现
Web 服务器可以通过调用网关程序来访问数据库。网关程序可以将用户在 Web 页面上输入的参数传递给数据库,并将数据库的查询结果返回给 Web 页面。例如,当用户在电子商务网站上搜索商品时,Web 服务器调用网关程序,网关程序将搜索关键词作为参数传递给数据库,数据库执行查询操作并将结果返回给网关程序,最后网关程序将结果显示在 Web 页面上。
5.2.2 动态页面生成
Web 可以动态生成页面,其生成过程可以基于从数据库中提取的内容。例如,一个新闻网站可以根据数据库中的新闻数据动态生成新闻页面,当有新的新闻发布时,只需要将新闻数据插入数据库,Web 服务器就可以自动生成包含该新闻的页面。
5.3 克服 HTTP 协议的限制
由于 HTTP 协议无状态,对于需要多次交互的数据库事务存在限制。可以通过以下方法克服这一限制:
-
会话管理
:使用会话机制来跟踪用户的操作状态。例如,在用户登录网站时,服务器为用户创建一个会话,并分配一个唯一的会话 ID,后续用户的操作都与该会话 ID 关联,服务器可以根据会话 ID 来维护用户的状态信息。
-
Cookie 和 Session
:Cookie 是存储在用户浏览器中的小段数据,服务器可以通过设置 Cookie 来存储用户的相关信息。Session 是服务器端的会话机制,与 Cookie 结合使用可以更好地管理用户的会话状态。
graph LR
classDef startend fill:#F5EBFF,stroke:#BE8FED,stroke-width:2px;
classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
A([用户请求]):::startend --> B(Web 服务器):::process
B --> C{是否需要数据库交互}:::process
C -->|是| D(调用网关程序):::process
D --> E(访问数据库):::process
E --> F(获取数据):::process
F --> B
C -->|否| B
B --> G(生成页面):::process
G --> H([返回给用户]):::startend
综上所述,数据挖掘、互联网、万维网以及 Web 与数据库的集成等技术在当今信息时代都具有重要的地位。了解这些技术的基本概念、特点和实现方法,对于开发高效、灵活的信息系统具有重要意义。通过合理运用这些技术,可以更好地满足用户的需求,提高信息的利用效率。
超级会员免费看
1514

被折叠的 条评论
为什么被折叠?



