社交媒体与建筑结构领域的数据分析与深度学习应用
1. 社交媒体政治话题分析
1.1 数据收集
研究人员通过 Twitter API 收集了 2021 年厄瓜多尔总统选举前、选举期间和选举后的推文,总计 562,164 条。这些推文涵盖了总统候选人 Guillermo Lasso 和 Andrés Arauz 的账户,以及多个媒体账号,如 @eluniversocom、@ecuavisainforma 等。其中,提取了 @lassoguillermo 的 1,047 条推文和 8 个媒体账号的 4,135 条推文,并且分析中包含了转发内容,因为转发有助于主题信息的传播和扩展。
1.2 主题建模步骤
- 数据清洗 :
- 将所有文本转换为小写。
- 去除标点符号、停用词、标签、提及和网址。
- 分词 :使用 Natural Language of ToolKit (NLTK) 的 tokenize 模块将清洗后的文本拆分为单词或标记。
- 构建语料库 :通过将标记与整数 ID 映射,创建一个字典。
- 共现分析 :使用 NLTK 的 brigram 模块获取共现信息。
- 绘制网络 :使用 Matplotlib 的 draw_networkx 绘制网络。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



