文本数据可视化

文本数据可视化

我们把文档作为我们生活中的主要信息产物
由于网络基础设施的存在,近年来,我们对文档的访问量大幅增长

管道

文本可视化流程:
在这里插入图片描述

典型的文本挖掘技术

文本信息挖掘:
 文本数据预处理
  过滤无效数据、提取有效词等
 文本特征抽取
  关键词;词频分布;主题
 文本特征度量
  相似性计算;文本聚类等
  
典型的文本挖掘方法:
  词频 TF、TF IDF
  文本分类 文本聚类
  K均值 话题模型
  LDA、HDP、PLSA

标签/字云
  目前研究界非常热门
  已经证明在网络上非常流行
  想法是通过视觉手段显示单词/概念的重要性。
  标签:用户指定的关于某事物的元数据(描述符)
  有时泛化为只反映词频
  
标签云衍化:Wordle
提升标签云的美学欣赏价值:
  整体形状可定制
  字体样式、大小、颜色编码不同属性   
  紧凑排布,节省空间
  在这里插入图片描述

人们搜索网络时的需求:
  在这里插入图片描述

主要问题:
  总结文本语料库
  大量复杂信息
  时变的
  直观解释总结结果
  一致的可视化
  提供反馈或明确他们的需求
  不完善的总结结果或不同的用户需求

自动摘要:
 高性能
 高比较率
 一种芬芳模式
在这里插入图片描述

LDA数据转换:
在这里插入图片描述

按用户兴趣排序的主题:
  在这里插入图片描述

增强堆积图:
  关键步骤:
   计算层的几何图形
   分层着色
   分层排序:最小化失真 最大化可用空间
        确保语义一致
   分层标注

文本流:
  问题:
   理解大型文本集合中的主题演变非常重要
   随时了解热门、新话题和相互交织的话题
   深入了解潜在主题
   
主题数据和关系提取:
  增量分层Dirichlet进程  文本主题在线学习
  自动检测主题编号    提取合并/拆分关系
  基于文档主题更改    在线计算合并/拆分概率

关键事件提取:
  关键事件类型    生、死、合、裂
  合并/拆分事件评分  分支机构数量
  分支概率熵

关键字相关性发现:
  提取
   每个文档中的名词短语、动词短语和命名实体
  共同点
   他们之间的共同点
   用来说明“为什么”

关键点:
  人物的动态关系  场景的层次结构

主题竞争模式:
在这里插入图片描述

未来文本可视化主题

交互式增量文本分析
多层次可视文本总结(关键词+句子)
多方面的文本分析(例如,总结+情感分析)
多媒体文档摘要(文本+图像+视频)
互动、可视的社交媒体分析

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值