文本数据聚类分析与微带天线阵列设计
一、文本数据聚类分析
1.1 K - means 聚类在推文数据上的不足
K - means 算法在处理推文(文本数据)时效果欠佳。因此,需要采用其他方法来对推文数据进行更有效的聚类分析。
1.2 LDA 和 LSI 用于微观主题建模
1.2.1 应用数据集
LDA(Latent Dirichlet Allocation)和 LSI(Latent Semantic Indexing)这两种主题建模算法被应用于航空公司、社会灾难数据集以及 Sabarimala 寺庙推文数据集,对这些数据进行微观主题建模。
1.2.2 确定微观主题数量
通过 LDA GridSearchCV 方法来确定微观主题的数量。具体操作如下:
- 参数设置:将主题数量设置为 [5, 10, 15, 19, 20],‘learning_decay’设置为 [0.5, 0.7, 0.9]。
- 选择最优组合:该方法会对这两个参数的所有组合进行尝试,选取得分最高的组合作为最优 LDA 模型。
1.2.3 评估指标
- 对数似然得分 :有助于理解模型的拟合质量,得分越高越好。
- 困惑度 :用于衡量概率模型对给定样本的预测能力。
通过这两个指标来确定理想的模型。以下是部分数据集的对数似然得分和困惑度:
| 数据集 | 最佳对数似然得分 | 模型困惑度 |
| — |