社交商业智能的数据基础设施与主观业务极化分析
社交商业智能数据基础设施的要求
在社交商业智能(BI)的数据基础设施中,对于要发布的数据,有一系列当前提议尚未涵盖的全球要求,具体如下:
1. 支持大规模意见数据生成 :基础设施必须支持从帖子(如评论、推文等)中大规模生成意见数据,以便能够快速处理大量爬取的数据并将其表示为链接数据。如同数据仓库一样,需要一系列ETL(提取、转换、加载)过程定期为数据基础设施提供数据。这些ETL过程较为特殊,因为它们处理半结构化的Web数据,进行某种情感分析,并输出RDF三元组。
2. 语义表示情感数据 :发布在基础设施中的情感数据必须在严格控制的词汇表和有用的分类关系下进行语义表示。目前,情感数据通常通过统计或自然语言处理(NLP)方法从文本中自动提取,但这些方法未能为BI分析提供明确的语义。例如,大多数自动方法从文本评论中捕获“特征”和“意见指标”,但这些数据未被组织成语义组(如相机的光学、存储和图像质量),以便为每个语义组正确计算部分得分。
3. 支持数据的高分布性 :基础设施必须支持数据的高分布性,根据数据使用情况提供最佳分区。BI分析以主题为导向,因此数据必须根据这些主题进行分布。例如,意见事实应按项目类别(如电子产品、旅游服务等)组织,并分配到不同的数据集中。大规模数据分布还可减轻存储这些大量数据的需求。
4. 提供新鲜数据 :基础设施必须通过尽快迁移已发布的帖子来提供新鲜数据。除了第一点的考虑外,基础设施应尽可能采用电子商务中现有的词汇表,以方便从不同来源(如微数据)加载数据。