
GHTorrent数据集
蛐蛐蛐
个人主页:https://quyu.github.io/
展开
-
R语言包arules进行频繁项集挖掘的最简单例子
arules是进行频繁项集挖掘(frequent itemset mining)的有效工具,不过我在使用的时候发现网上很多例子都比较繁琐,这里总结一下其中apriori方法的最简单使用方法,这里首先给出代码:files_change<-read.transactions(input_file, format="basket", sep=",")summary(files_change)r...原创 2018-06-03 00:52:14 · 5509 阅读 · 0 评论 -
怎样通过GitHub API下载Repository的README文本内容
这个是我在获取数据时候的一些经验,简单总结一下:按照这里的文档:http://pygithub.readthedocs.io/en/latest/github_objects/Repository.html要得到一个Repository的Readme文件,只需要使用:get_readme这个方法会返回一个github.ContentFile.ContentFile对象,http://pygithu...原创 2018-05-28 11:51:31 · 3128 阅读 · 0 评论 -
导入GHTorrent数据库时copy to tmp table操作时间过长的解决方法
由于之前把Ubuntu系统搞崩了,所以之前已经导入的GHTorrent数据集又得重新导入,发现copy to tmp table的时间特别长,想了想自己之前已经设置了tmp_table_size,但仔细搜索了一下,发现为了解决这个问题,仅仅设置这一处是不对的,例如这里讨论的:https://dba.stackexchange.com/questions/7806/copying-to-tmp-ta...原创 2018-05-24 22:37:04 · 752 阅读 · 0 评论 -
通过GitHub API下载Repository源码Zip文件的方法
由于科研需要,需下载上千个Repo的源码,简单试了一下用GitHub下载的方法,其实很简单,唯一需要注意的是,使用requests.get下载大文件时的注意事项,可以参考这里:https://blog.youkuaiyun.com/abcd1f2/article/details/53322934。最后,附上一点示例性的源码:import requeststry: download_link=repo.g...原创 2018-06-10 20:39:35 · 4511 阅读 · 0 评论 -
怎样通过JGit获得一次Commit的所有相关信息(如变更代码行数)
在之前这篇博客中,我介绍了如何使用JGit获取一次Commit修改的文件列表。那如果我们想获得更多的统计信息呢?如每一个文件被修改的代码行数。一般情况下,可以使用诸如:git log --date-order --stat > change-details.txt和:git log --date-order --pretty=fuller --name-status &g...原创 2019-10-10 02:09:03 · 5983 阅读 · 12 评论