社交媒体与建筑结构领域的数据分析与技术应用
1. 社交媒体话题建模分析
1.1 数据收集
通过 Twitter API 收集了 2021 年厄瓜多尔总统选举前、选举期间和选举后数周内发布的共计 562,164 条推文。其中包含了总统 Guillermo Lasso 和前总统候选人 Andrés Arauz 的账户推文,还提取了 @lassoguillermo 的 1,047 条推文,以及来自 @eluniversocom、@ecuavisainforma 等不同媒体账号的 4,135 条推文。分析中包含了转发推文,因为主题建模方法提取主要话题,而转发有助于扩展信息,转发内容也贡献了共享的“主要话题”。
1.2 话题建模步骤
- 清理原始推文 :
- 将所有文本转换为小写。
- 去除标点符号、停用词、标签、提及和网址。
- 分词 :使用 Natural Language of ToolKit (NLTK) 的 tokenize 模块将“清理后的文本”拆分为单词或标记。
- 创建语料库和字典 :通过将标记与其整数 ID 映射,创建字典来设置语料库。
- 获取共现信息 :使用 NLTK 的 brigram 模块获取共现信息。
- 绘制网络 :使用 Matplotlib 的 draw_networkx 绘制
超级会员免费看
订阅专栏 解锁全文
635

被折叠的 条评论
为什么被折叠?



