语义技术与知识管理解析
1. 系统信息处理的困境与元数据的缺失
在实际应用中,系统存在信息处理的局限性。以一位有六项不同专利申请正在审核的律师为例,系统无法知晓他当前关注的是哪一项申请,也不清楚用户是在创建专利、审核同事的申请提案,还是在搜索现有技术。而这些信息本可以让系统主动帮助用户。缺失的正是应用程序之间共享且与用户工作上下文和流程相关联的元数据。
2. 整合结构化与非结构化信息
2.1 分析文本的必要性
传统企业信息系统基于关系数据库技术构建,通常只包含结构化信息,无论是客户关系管理、产品信息、员工信息还是竞争对手信息等系统都是如此。然而在知识管理中,我们还希望捕获和利用存在于企业内部网文本、个人电脑备忘录、电子邮件、幻灯片演示等中的非结构化信息,以及存在于电子表格等应用中的半结构化信息(这些应用有模式,即行和列标题,但定义不明确)。
有观点认为,组织中超过 80% 的数据是非结构化的。显然,组织中有大量有价值的信息以这种形式存在。我们需要提取这些信息并将其转换为结构化形式,以便与现有结构化数据合并。问题在于,结构化数据以模式的形式具有明确的语义,这些语义是特定应用程序本地的,而非使用可共享的本体来表达,但它们毕竟是语义。例如,应用程序知道关系数据库中的价格字段包含以约定货币表示的价格。在非结构化数据中,语义仍然存在,人类可以察觉宣传册何时描述了产品价格,但语义不再以机器可解释的方式定义。价格可以在文档中的任何位置,并且可以用多种不同类型的语言引入。直到最近,解释这些语义还被认为需要人类智能。
如果能从非结构化数据中提取结构化信息,许多应用都将受益。例如,基于企业可用的所有信息,可以构建任何特定客户、供应商
超级会员免费看
订阅专栏 解锁全文
8万+

被折叠的 条评论
为什么被折叠?



