文本可视化与假新闻检测的机器学习方法
1. t-SNE 文本可视化
t-SNE(t-Distributed Stochastic Neighbor Embedding)是一种用于可视化高维数据的技术。在对合并的向量化文本进行 t-SNE 可视化时,会出现不同困惑度(Perplexity)下的情况。
| 困惑度 | 情况描述 |
|---|---|
| 50 | 数据的 t-SNE 可视化呈现出一大群和小群簇的组合,试图形成簇但并不完美 |
| 80 | 与困惑度为 50 时类似,数据结构几乎相同 |
通过观察发现,这种可视化试图从数据中提取信息。在散点图中,绿色和红色点分别代表获批项目和被拒项目。词袋模型(Bag of Words)和 TF-IDF 比 tf-idf 加权的 word2vec 向量化效果更好,因为它们能形成一些小的簇,且整体数据的重叠较少。较高的困惑度值在数据可视化中似乎更好,因为数据重叠较少。但由于数据的大量重叠,这些技术都不适用于分类。不过,在二维空间中不可分离的问题,在更高维度中可能是可分离的。综合所有文本特征的可视化效果远优于其他方法,因为它的数据聚类效果更好,能让我们对数据得出一些有用的结论。
graph LR
A[高维数据] --> B[t-SNE 降维]
B
超级会员免费看
订阅专栏 解锁全文
3319

被折叠的 条评论
为什么被折叠?



