推荐开源项目:DETM - 动态嵌入主题模型
DETM项目地址:https://gitcode.com/gh_mirrors/de/DETM
项目介绍
DETM(Dynamic Embedded Topic Model)是一个用于处理具有时间依赖性的文本语料库的创新性话题建模框架。该项目由Adji B. Dieng、Francisco J. R. Ruiz和David M. Blei共同提出,并在其论文中详细阐述。这个模型继承了Embedded Topic Model(ETM)的优点,并通过引入随机游走先验,学习平滑的主题演化轨迹。
项目技术分析
DETM的核心是将每个词的分布参数表示为词向量与特定时间步的话题向量内积的结果。这种设计使得DETM能够有效地处理稀有词汇。项目基于PyTorch框架实现,利用结构化的自适应变分推断和LSTM进行模型训练。其内部机制充分利用预训练的词向量,以增强对主题的捕捉能力,同时通过定义随机游走在话题嵌入空间中的行为,实现了对时间序列数据的建模。
项目及技术应用场景
DETM适用于任何有时间序列信息的文本挖掘任务,例如:
- 新闻分析:追踪随着时间变化的热点话题。
- 社交媒体监控:洞察公众情绪随时间的变化趋势。
- 历史文献研究:理解某个时期的语言变迁或文化动态。
项目提供预先处理好的联合国文档(UN)和国际计算语言学学会会议论文(ACL)两个数据集,方便用户直接运行代码体验DETM的效果。
项目特点
- 灵活性:DETM能够处理不同领域的文本数据,且对稀有词具有良好的泛化能力。
- 时间敏感性:通过学习话题的时间演变,揭示隐藏在文本流背后的趋势。
- 高效性:采用结构化的自适应变分推断和LSTM,加速模型训练过程。
- 可扩展性:易于与其他自然语言处理工具集成,适应不同的应用需求。
使用方法示例
要在本地运行DETM,只需简单地调用Python脚本并指定相关参数:
python main.py --dataset acl --data_path PATH_TO_DATA --emb_path PATH_TO_EMBEDDINGS --min_df 10 --num_topics 50 --lr 0.0001 --epochs 1000 --mode train
请确保已经安装了所需的Python 3.6.7和PyTorch 1.1.0版本。
最后,如果你使用DETM进行研究,请别忘了引用原始论文:
@article{dieng2019dynamic,
title={The Dynamic Embedded Topic Model},
author={Dieng, Adji B and Ruiz, Francisco JR and Blei, David M},
journal={arXiv preprint arXiv:1907.05545},
year={2019}
}
DETM是一个强大而灵活的开源话题建模工具,无论你是研究人员还是开发者,都能从中受益。立即尝试DETM,解锁你的文本数据的深度洞察吧!
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考