为什么要文本数据可视化
文字是传递信息最常用的载体,随着海量文本的涌现,信息超载和数据过剩等问题日益凸显,当大段大段的文字摆在面前,已经很少有人耐心、认真把它读完,人们急需一种更高效的信息接收方式,从视觉的角度出发,文本可视化正是解药良方。所谓一图胜千言,其实就是文本可视化的一种表现。
因此,文本可视化技术将文本中复杂的或者难以通过文字表达的内容和规律以视觉符号的形式表达出来,使人们能够利用与生俱来的视觉感知的并行化处理能力,快速获取文本中所蕴含的关键信息。
文本可视化的流程
文本可视化依赖于自然语言处理,因此词袋模型、命名实体识别、关键词抽取、主题分析、情感分析等是较常用的文本分析技术。文本分析的过程主要包括特征提取,通过分词、抽取、归一化等操作提取出文本词汇级的内容,利用特征构建向量空间模型并进行降维,以便将其呈现在低维空间,或者利用主题模型处理特征,最终以灵活有效的形式表示这些处理过的数据,以便进行可视化呈现。下图(来源:网络)是一个文本可视化的基本流程图: