
数据挖掘实战
文章平均质量分 50
以实战项目来了解和学习数据挖掘
Lyndsey
这个作者很懒,什么都没留下…
展开
-
数据挖掘实战-前沿分析-Task05
本次任务的主要任务是对论文作者的关系进行建模。数据处理步骤:将作者列表进行处理,并完成统计。具体步骤如下:将论文第一作者与其他作者(论文非第一作者)构建图;使用图算法统计图中作者与其他作者的联系;社交网络分析:图是复杂网络研究中的一个重要概念。Graph是用点和线来刻画离散事物集合中的每对事物间以某种方式相联系的数学模型。Graph在现实世界中随处可见,如交通运输图、旅游图、流程图等。利用图可以描述现实生活中的许多事物,如用点可以表示交叉口,点之间的连线表示路径,这样就可以轻而易举的描绘出一原创 2021-01-25 22:00:18 · 134 阅读 · 0 评论 -
数据挖掘实战-前沿分析-Task04
本次任务主要是做的文本分类任务,具体是使⽤论⽂文标题和摘要完成类别分类。首先对论⽂文标题和摘要进行处理;对论⽂类别进⾏处理;构建⽂文本分类模型;import reimport jsonimport pandas as pdimport matplotlib.pyplot as pltdata = []with open('arxiv-metadata-oai-snapshot.json', 'r') as f: for idx, line in enumerate(f):原创 2021-01-23 15:15:23 · 189 阅读 · 0 评论 -
数据挖掘实战-前沿分析-Task03
任务:统计包含代码的论文本次任务的主要内容就是利用正则表达式在comments或abstract字段中取出具体的代码链接。任务重点:正则表达式的学习和使用。准备工作,取出数据中的abstract, categories, comments 对应的内容。import reimport jsonimport pandas as pdimport matplotlib.pyplot as pltdata = []with open('arxiv-metadata-oai-snapsh原创 2021-01-19 13:54:23 · 272 阅读 · 0 评论 -
数据挖掘实战-前沿分析-Task02
本次的任务主要死后完成论文作者的统计,统计出所有论文作者出现频率Top10的姓名。数据读取本次任务只取出其中的三个字段进行处理。import seaborn as snsimport reimport jsonimport pandas as pdimport matplotlib.pyplot as pltdata = []with open('arxiv-metadata-oai-snapshot.json', 'r') as f: for idx, line in enum原创 2021-01-16 21:58:28 · 169 阅读 · 1 评论 -
数据挖掘实战-前沿分析-Task01
内容介绍:本次任务主要是一个数据准备的工作,通过爬虫获取arxiv上面的数据,然后对论文进行一个分类,查看一下所有类别论文的数量,以及计算机领域里面论文的分布情况。问题整理:1、列表推导式嵌套循环理解。unique_categories = set([i for l in [x.split(' ') for x in data["categories"]] for i in l])等价于以下的代码:list1 = []for l in [x.split(' ') for x in data[原创 2021-01-13 15:14:08 · 267 阅读 · 2 评论 -
Mac Ananconda Python下载安装 xgboost【可参考多个报错类型】
本文用来记录安装xgboost时遇到的错误以及最后的解决方案一、错误集锦在使用pip install xgboost时遇到的错误1、超时错误解决方案:pip install -i https://pypi.tuna.tsinghua.edu.cn/simple xgboost2、Error: Command “python setup.py egg_info” failed with e...原创 2020-03-22 14:22:03 · 862 阅读 · 0 评论