基于 Twitter 数据的区块链热门领域分析
在当今数字化时代,社交媒体数据蕴含着丰富的信息,对于了解新兴技术的发展趋势具有重要价值。本文聚焦于利用 Twitter 数据来分析区块链技术的热门领域,通过一系列的数据处理和分析方法,揭示了区块链在不同领域的应用趋势。
研究背景与目的
近年来,区块链技术在多个行业的应用发展备受关注。许多研究围绕 Twitter 数据展开分析,采用对数概率率概念构建模型,还有学者提出考虑句子中所有词汇情感来确定整体情感的模型,以及运用无监督技术进行 Twitter 数据分析的模型。本研究旨在通过对 Twitter 数据的深入挖掘,识别区块链技术应用的热门领域,以转发数作为选择标准,因为转发在一定程度上代表了对推文的认可。
研究方法
本研究提出的方法主要包括以下几个步骤:
1. 数据收集 :使用 tweepy API 从 Twitter 账户获取与区块链关键词相关的数据。收集了两个数据集,一个是基于特定哈希标签(#Blockchain OR #BlockchainConnect OR #BlockchainTechnology)的查询数据集,在 2019 年 8 月至 12 月期间共提取了 8,802,838 条推文;另一个是基于用户的数据集,收集了 2016 年至 2019 年官方区块链相关 Twitter 账户的 8576 条推文,用于识别年度领域趋势。
2. 数据预处理 :对收集到的 Twitter 数据进行预处理,以提高分析的准确性。具体步骤如下:
- 去除重复推文:跳过不同用户重复的推文列。
- 转换为小
超级会员免费看
订阅专栏 解锁全文
2330

被折叠的 条评论
为什么被折叠?



