
python
文章平均质量分 72
Helianthus Lee
这个作者很懒,什么都没留下…
展开
-
作者信息关联-5
作者关联(数据建模任务),对论文作者关系进行建模,统计最常出现的作者关系;1 数据处理步骤将作者列表进行处理,并完成统计。具体步骤如下:将论文第一作者与其他作者(论文非第一作者)构建图;使用图算法统计图中作者与其他作者的联系;2 社交网络分析图是复杂网络研究中的一个重要概念。Graph是用点和线来刻画离散事物集合中的每对事物间以某种方式相联系的数学模型。Graph在现实世界中随处可见,如交通运输图、旅游图、流程图等。利用图可以描述现实生活中的许多事物,如用点可以表示交叉口,点之间的连线表示路径,原创 2021-01-25 21:51:20 · 179 阅读 · 0 评论 -
论文种类分类-4
论文分类(数据建模任务),利用已有数据建模,对新论文进行类别分类学会文本分类的基本方法、TF-IDF等;1 数据处理步骤在原始arxiv论文中论文都有对应的类别,而论文类别是作者填写的。在本次任务中我们可以借助论文的标题和摘要完成:对论文标题和摘要进行处理;对论文类别进行处理;构建文本分类模型;2 文本分类思路思路1:TF-IDF+机器学习分类器直接使用TF-IDF对文本提取特征,使用分类器进行分类,分类器的选择上可以使用SVM、LR、XGboost等思路2:FastTextFastT原创 2021-01-22 23:06:16 · 377 阅读 · 0 评论 -
论文代码统计-3
任务:论文代码统计,统计所有论文出现代码的相关统计。1 数据处理步骤在原始arxiv数据集中作者经常会在论文的comments或abstract字段中给出具体的代码链接,所以我们需要从这些字段里面找出代码的链接。1)确定数据出现的位置;2)使用正则表达式完成匹配;3)完成相关的统计;2 正则表达式正则表达式(regular expression)描述了一种字符串匹配的模式(pattern),可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。普通字符:原创 2021-01-19 23:47:10 · 182 阅读 · 0 评论 -
TASK2:论文作者统计
论文作者统计,统计所有论文作者出现评率Top10的姓名1 数据处理步骤在原始arxiv数据集中论文作者authors字段是一个字符串格式,其中每个作者使用逗号进行分隔分,所以需要完成以下步骤:使用逗号对作者进行切分;剔除单个作者中非常规的字符;2 字符串处理在Python中字符串是最常用的数据类型,可以使用引号('或")来创建字符串。Python中所有的字符都使用字符串存储,可以使用方括号来截取字符串,如下实例:In [1]:var1 = 'Hello Datawhale!'var2 =原创 2021-01-17 00:24:12 · 290 阅读 · 0 评论 -
论文数据分析-1
论文数量统计:即统计2019年全年计算机各个方向论文数量。1.数据集介绍id:arXiv ID,可用于访问论文;submitter:论文提交者;authors:论文作者;title:论文标题;comments:论文页数和图表等其他信息;journal-ref:论文发表的期刊的信息;doi:数字对象标识符,https://www.doi.org;report-no:报告编号;categories:论文在 arXiv 系统的所属类别或标签;license:文章的许可证;abstract:原创 2021-01-14 02:13:59 · 652 阅读 · 1 评论 -
Pandas--变形
一、长宽表的变形1.pivotpivot 是一种典型的长表变宽表的函数长变宽三要素:变形后的行索引:index需要转到列索引的列:columns以及这些列和行索引对应的数值:values2.pivot_tablepivot 的使用依赖于唯一性条件,那如果不满足唯一性条件,那么必须通过聚合操作使得相同行列组合对应的多个值变为一个值:pivot_table 来实现,其中的 aggfunc 参数就是使用的聚合函数。此外, pivot_table 具有边际汇总的功能,可以通过设置 margins=原创 2020-12-27 23:56:28 · 172 阅读 · 0 评论 -
分组
一、分组模式及其对象1.一般模式分组操作三要素:分组依据 、 数据来源 、 操作及其返回结果 。一般模式:df.groupby(分组依据)[数据来源].使用操作2.分组依据的本质根据多个维度进行分组,只需在 groupby 中传入相应列名构成的列表即可。传入列名只是一种简便的记号,事实上等价于传入的是一个或多个列,最后分组的依据来自于数据来源组合的unique值,通过 drop_duplicates 就能知道具体的组类别。3.Groupby对象最终具体做分组操作时,所调用的方法都来自于 pa原创 2020-12-25 17:28:08 · 630 阅读 · 0 评论 -
索引
一、索引器1.表的列索引列索引是最常见的索引形式,一般通过 [] 来实现。通过 [列名] 可以从 DataFrame 中取出相应的列,返回值为 Series。如果要取出多个列,则可以通过 [列名组成的列表] ,其返回值为一个 DataFrame。此外,若要取出单列,且列名中不包含空格,则可以用 .列名 取出,这和 [列名] 是等价的2.序列的行索引【a】以字符串为索引的 Series1.如果取出单个索引的对应元素,则可以使用 [item] ,若 Series 只有单个值对应,则返回这个标量值,如原创 2020-12-22 23:56:53 · 275 阅读 · 0 评论 -
pandas基础
一、文件的读取和写入1.文件读取pd.read_csv(’ ‘)pd.read_excel(’ ‘)pd.read_table(’ ')注:header=None表示第一行不作为列名,index_col表示把某一列或几列作为索引,索引的内容将会在第三章进行详述,usecols表示读取列的集合,默认读取所有的列,parse_dates表示需要转化为时间的列,关于时间序列的有关内容将在第十章讲解,nrows表示读取的数据行数。上面这些参数在上述的三个函数里都可以使用。2.数据写入df_csv.to原创 2020-12-19 23:55:36 · 303 阅读 · 3 评论 -
预备知识
一、Python基础1. 列表推导式与条件赋值[* for i in *] 。其中,第一个 * 为映射函数,其输入为后面 i 指代的内容,第二个 * 表示迭代的对象。value = a if condition else b2.匿名函数与map方法对于列表推导式的匿名函数映射, Python 中提供了 map 函数来完成,它返回的是一个 map 对象,需要通过 list 转为列表3.zip对象与enumerate方法zip函数能够把多个可迭代对象打包成一个元组构成的可迭代对象,它返回了一个 z原创 2020-12-16 22:10:03 · 131 阅读 · 0 评论 -
实践大作业
导入鸢尾属植物数据集,保持文本不变。【知识点:输入和输出】如何导入存在数字和文本的数据集?2. 求出鸢尾属植物萼片长度的平均值、中位数和标准差(第1列,sepallength)【知识点:统计相关】如何计算numpy数组的均值,中位数,标准差?3. 创建一种标准化形式的鸢尾属植物萼片长度,其值正好介于0和1之间,这样最小值为0,最大值为1(第1列,sepallength)。【知识点:统计相关】如何标准化数组?4. 找到鸢尾属植物萼片长度的第5和第95百分位数(第1列,sepallengt.原创 2020-12-01 23:55:06 · 193 阅读 · 0 评论 -
线性代数
线性代数Numpy 定义了 matrix 类型,使用该 matrix 类型创建的是矩阵对象,它们的加减乘除运算缺省采用矩阵方式计算,因此用法和Matlab十分类似。但是由于 NumPy 中同时存在 ndarray 和 matrix 对象,因此用户很容易将两者弄混。这有违 Python 的“显式优于隐式”的原则,因此官方并不推荐在程序中使用 matrix。在这里,我们仍然用 ndarray 来介绍。矩阵和向量积矩阵的定义、矩阵的加法、矩阵的数乘、矩阵的转置与二维数组完全一致,不再进行说明,但矩阵的乘法有原创 2020-11-29 23:48:13 · 263 阅读 · 0 评论 -
统计相关
次序统计计算最小值numpy.amin(a[, axis=None, out=None, keepdims=np._NoValue, initial=np._NoValue, where=np._NoValue])计算最大值numpy.amax(a[, axis=None, out=None, keepdims=np._NoValue, initial=np._NoValue, where=np._NoValue])计算极差numpy.ptp(a, axis=None, out=None,原创 2020-11-27 22:12:33 · 167 阅读 · 0 评论 -
随机抽样
次序统计计算最小值numpy.amin(a[, axis=None, out=None, keepdims=np._NoValue, initial=np._NoValue, where=np._NoValue])Return the minimum of an array or minimum along an axis.计算极差numpy.ptp(a, axis=None, out=None, keepdims=np._NoValue) Range of values (maximum - mi原创 2020-11-25 23:57:41 · 223 阅读 · 0 评论 -
Numpy输入和输出
输入和输出numpy 二进制文件save()、savez()和load()函数以 numpy 专用的二进制类型(npy、npz)保存和读取数据,这三个函数会自动处理ndim、dtype、shape等信息,使用它们读写数组非常方便,但是save()输出的文件很难与其它语言编写的程序兼容。文本文件savetxt(),loadtxt()和genfromtxt()函数用来存储和读取文本文件(如TXT,CSV等)。genfromtxt()比loadtxt()更加强大,可对缺失数据进行处理。文本格式选项nu原创 2020-11-23 21:32:08 · 970 阅读 · 0 评论 -
pip安装python包的一些常见错误及解决方法
错误:xarray 0.15.0 has requirement numpy >=1.15, but you will have numpy 1.14.0 which is incompatible解决:因为不兼容,需要升级numpy包。 pip install -U numpy错误:Could not install packages due to anEnvironmentE...原创 2020-02-19 21:34:24 · 5837 阅读 · 2 评论