DW 2.0:非结构化数据与系统记录的深度解析
非结构化数据的集成与分析环境选择
在当今的数据处理领域,非结构化数据已成为 DW 2.0 数据仓库的重要组成部分。非结构化数据涵盖了文档、电子表格、电子邮件等多种常见类型,如合同、邮件交流内容等。然而,若要对这些数据进行有意义的分析,就必须先对其进行“集成”。若只是简单地将原始文本塞进数据库,后续的分析将既不高效也无实际意义。
在进行文本分析处理时,面临着一个重要的战略决策,即选择在何处进行处理。主要有两种选择:一是在非结构化文本所在的非结构化环境中进行;二是在结构化环境中进行。在结构化环境中进行文本分析,需要先读取、集成和处理非结构化文本,然后将其放入结构化环境。
虽然读取、集成和处理文本非结构化数据是一项艰巨的任务,但一旦完成这些操作并将其置于结构化环境中,就会开启全新的机遇之门。组织已经在结构化技术领域投入大量资金用于员工和用户培训,构建了包括数据库技术、商业智能、ETL、统计处理等在内的分析环境。因此,利用现有的分析环境是合理的,只需具备读取和集成文本信息的能力,而文本 ETL 技术就能满足这一需求。所以,结构化环境是进行分析处理的最佳选择。
文本集成的多面性
在将文本放入数据库之前,“集成”文本的过程涉及多个方面。为了将非结构化数据整理后纳入数据仓库并用于后续分析,需要完成以下关键任务:
1. 简单编辑 :这是准备非结构化文本进行分析处理的第一步,主要对大小写、标点和字体进行简单编辑。这样做的原因是,未来的分析搜索不应受到排版差异的阻碍。例如,当搜索“bill inmon”时,即使文本中这两个单词的首字母是大写,也应能找到“Bill
超级会员免费看
订阅专栏 解锁全文
1209

被折叠的 条评论
为什么被折叠?



