文本分析与情感分析:挖掘信息价值的关键技术
1. 文本分析的重要性与定义
在处理大量文档时,手动关联文档间的数据、描绘复杂关系或识别趋势,要么极其耗费人力,要么几乎无法实现。自动识别和探索文档间数据关系的方法,能显著提高研究活动的速度和效率。在某些情况下,像文本分析中的自动探索技术,不仅是一种辅助手段,更是研究人员切实识别大量自然语言文档中微妙模式的基本要求。
文本分析可宽泛地定义为一个知识密集型过程,用户通过一套分析工具与文档集合进行长期交互。与数据挖掘类似,文本分析旨在通过识别和探索有趣的模式,从数据源中提取有用信息。不同的是,文本分析的数据源是文档集合,有趣的模式存在于这些文档的非结构化文本数据中,而非形式化的数据库记录。
2. 文档集合与文档
2.1 文档集合
文档集合可以是任何基于文本的文档组合。实际上,大多数文本分析解决方案旨在发现非常大的文档集合中的模式,文档数量从数千到数千万不等。
文档集合分为静态和动态两种。静态文档集合中,初始的文档补充保持不变;动态文档集合则会随着时间不断纳入新的或更新的文档。超大的文档集合以及文档更改率极高的集合,会给文本分析系统的各个组件带来性能优化挑战。
2.2 文档
文档可非正式地定义为集合中离散文本数据的一个单元,通常与现实世界的文档相关,如商业报告、法律备忘录、电子邮件、研究论文等。在特定文档集合中,通常可以用一个原型文档来代表一类相似的文档。文档可以存在于各种类型和数量的集合中,也可以同时属于不同的文档集合或同一集合的不同子集。
文档可分为以下几类:
1. 结构化文档 <
超级会员免费看
订阅专栏 解锁全文
1315

被折叠的 条评论
为什么被折叠?



