探索GitHub热门编程语言与花授粉算法性能分析
1. 从GitHub仓库发现热门编程语言
在对GitHub仓库的研究中,为了发现热门的编程语言组合,采用了一系列的研究方法。
研究过程的步骤如下:
1. 数据预处理与变量识别 :
- 从GitHub仓库随机抽取60个不同的用户账户。
- 确定了“编程语言”和“粉丝数量”两个合适的变量,同时将“下载数量”确定为无关变量。
- 从获取的数据中选择了十种不同的编程语言。
2. 构建模型 :
- 由于Apriori方法在计算支持计数时需要多次扫描的缺点,采用FP - Growth方法构建模型。
- 模型的具体规格如下:
- 输入:每个用户使用的编程语言。
- 输出:两种编程语言的组合及其支持计数。
- 算法:频繁模式增长算法。
- 输入:事务数据库。
- 输出:带有支持计数的两种编程语言组合。
- 预处理:将事务项(文本形式的编程语言)转换为数字。
- 使用的编程语言:C语言。
- 以一个静态数据集为例,首先计算不同编程语言的支持计数,然后根据支持计数降序排序并存储在FP - 树中,最后使用FP - Growth方法生成两种编程语言的组合。
3. 假设检验 :为发现的两种编程语言组合构建假设并进行测试。
研究结果表明,根据粉丝数量将GitHub用户账户分为两组,对两组的前两种编程语言组合及其支持计数进行分析。通过独立样本T检验,发现使用热门编程语言(包含Javascri
超级会员免费看
订阅专栏 解锁全文
1575

被折叠的 条评论
为什么被折叠?



