信息检索与文本理解:从电子文档到智能系统
1. 电子文档概述
“文档”一词既可用作名词,也可用作动词。从词源上看,拉丁语“documentum”意为“用作证据或证明的官方文件,在某些情况下可作为范例”。从狭义上讲,名词“文档”仍保留着这种含义,比如合同。随着历史的发展,“文档”的概念变得更加宽泛,指“任何包含文本和/或非文本组件(如图像、签名、图表、表格等)的印刷品,其创作目的是分享知识”。而动词“document”则意味着说明或展示证据,从更广泛的意义上来说,它涵盖了与文档编辑、印刷和分发相关的所有操作。
在当今社会,纸质文档正逐渐被电子文档所取代。电子文档存储在电子介质上,如光盘(CD - ROM)或可通过网络(如互联网)访问的分布式硬盘。电子文档具有以下重要特征:
- 易于创建、操作和复制 :借助创作系统,电子文档能够轻松创建、修改,并且可以无限制地复制。同时,它们便于传输和高效存储,这也导致了电子文档数量的海量增长。
- 具有易逝性和动态性 :电子文档可能难以捉摸、瞬息万变且不断发展。但另一方面,它们可以同时供多人使用。
- 开创了新的交流结构 :电子文档为新的规范化编码和符号系统(如标记语言)开辟了道路,使得多媒体文档能够呈现视频和音频等新型内容。
2. 自然语言文本的交流作用
2.1 交流模型
许多当前的文档都包含自然语言文本,自然语言文本作为一种交流方式备受重视。交流涉及发送者和接收者,在文档交流的情境中,我们称之为创作者和用户。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



