文本数据访问:模式、技术与挑战
1. 文本数据访问概述
文本数据访问是文本分析的基础,在文本管理和分析应用中发挥着两个重要作用。其一,它能检索与特定分析问题最相关的文本数据,避免处理大量无关数据带来的不必要开销;其二,它能在适当的上下文中解释分析结果或发现的知识,并提供数据来源。
文本数据访问的总体目标是在正确的时间将用户与正确的信息连接起来,主要通过拉取(Pull)和推送(Push)两种方式实现。拉取模式下,用户主动从系统中获取相关信息;推送模式下,系统主动向用户提供相关信息。
2. 访问模式:拉取与推送
2.1 拉取模式
拉取模式中,用户通常使用搜索引擎主动发起访问过程,以查找相关文本数据。这种模式适用于用户有临时信息需求的情况,需求满足后可能就不再需要。例如,用户想买产品时会检索相关意见,购买后就不再需要这类信息;分析社交媒体数据时,分析师可能会探索与事件相关的特定实体信息。
查询是拉取模式中最常见的访问方式,但浏览也是一种补充方式。当用户不知道如何制定有效查询、输入关键字查询不方便或只是想无目标地探索某个主题时,浏览非常有用。查询和浏览可看作在信息空间中查找相关信息的两种互补方式,可类比为在现实世界中观光:知道景点确切地址可直接前往,类似用户明确需求并能制定准确查询;不知道确切地址则可先到大致位置再四处寻找,类似用户使用近似查询到达相关页面后再浏览找到真正相关的信息。
2.2 推送模式
推送模式下,系统主动向用户推荐一组相关信息项,更适用于满足用户或分析师的长期信息需求。例如,研究人员的研究兴趣相对稳定,而信息流(如发表的研究文章)是动态的,推荐系统可监控信息流
超级会员免费看
订阅专栏 解锁全文
5万+

被折叠的 条评论
为什么被折叠?



