44、文本数据聚类分析与微带天线阵列设计

文本数据聚类分析与微带天线阵列设计

一、文本数据聚类分析

1.1 K - means 聚类在推文数据上的不足

K - means 算法在处理推文(文本数据)时效果欠佳。因此,需要采用其他方法来对推文数据进行更有效的聚类分析。

1.2 LDA 和 LSI 用于微观主题建模

1.2.1 应用数据集

LDA(Latent Dirichlet Allocation)和 LSI(Latent Semantic Indexing)这两种主题建模算法被应用于航空公司、社会灾难数据集以及 Sabarimala 寺庙推文数据集,对这些数据进行微观主题建模。

1.2.2 确定微观主题数量

通过 LDA GridSearchCV 方法来确定微观主题的数量。具体操作如下:
- 参数设置:将主题数量设置为 [5, 10, 15, 19, 20],‘learning_decay’设置为 [0.5, 0.7, 0.9]。
- 选择最优组合:该方法会对这两个参数的所有组合进行尝试,选取得分最高的组合作为最优 LDA 模型。

1.2.3 评估指标
  • 对数似然得分 :有助于理解模型的拟合质量,得分越高越好。
  • 困惑度 :用于衡量概率模型对给定样本的预测能力。

通过这两个指标来确定理想的模型。以下是部分数据集的对数似然得分和困惑度:
| 数据集 | 最佳对数似然得分 | 模型困惑度 |
| — |

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值