datawhale的pandas学习
文章平均质量分 90
减肥的卡比兽
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
第二次综合练习
【任务四】显卡日志下面给出了3090显卡的性能测评日志结果,每一条日志有如下结构:Benchmarking #2# #4# precision type #1##1# model average #2# time : #3# ms其中#1#代表的是模型名称,#2#的值为train(ing)或inference,表示训练状态或推断状态,#3#表示耗时,#4#表示精度,其中包含了float, half, double三种类型,下面是一个具体的例子:Benchmarking Inference f原创 2021-01-13 18:47:36 · 200 阅读 · 1 评论 -
第十章 时间序列
导入所需模块:import numpy as npimport pandas as pd一、时序中的基本对象时间序列的概念在日常生活中十分常见,但对于一个具体的时序事件而言,可以从多个时间对象的角度来描述。例如2020年9月7日周一早上8点整需要到教室上课,这个课会在当天早上10点结束,其中包含了哪些时间概念?第一,会出现时间戳(Date times)的概念,即’2020-9-7 08:00:00’和’2020-9-7 10:00:00’这两个时间点分别代表了上课和下课的时刻,在pandas中原创 2021-01-10 17:21:55 · 1334 阅读 · 0 评论 -
第九章 分类数据
导入所需模块import numpy as npimport pandas as pd一、cat对象1. cat对象的属性在pandas中提供了category类型,使用户能够处理分类类型的变量,将一个普通序列转换成分类变量可以使用astype方法。df = pd.read_csv('../data/learn_pandas.csv', usecols = ['Grade', 'Name', 'Gender', 'Height', 'Weight'])s = df.Grade.astype(原创 2021-01-07 20:06:51 · 662 阅读 · 0 评论 -
第一次综合练习
【任务一】企业收入的多样性【题目描述】一个企业的产业收入多样性可以仿照信息熵的概念来定义收入熵指标:I=−∑ip(xi)log(p(xi))I=-\sum _{i}p(x_{i})log(p(x_{i}))I=−∑ip(xi)log(p(xi))其中 p(xi) 是企业该年某产业收入额占该年所有产业总收入的比重。在company.csv中存有需要计算的企业和年份,在company_data.csv中存有企业、各类收入额和收入年份的信息。现请利用后一张表中的数据,在前一张表中增加一列表示该公司该年原创 2020-12-31 11:42:41 · 192 阅读 · 1 评论 -
datawhale的pandas学习 第六章连接
import numpy as npimport pandas as pd一、关系型连接1. 连接的基本概念把两张相关的表按照某一个或某一组键连接起来是一种常见操作,例如学生期末考试各个科目的成绩表按照 姓名 和 班级 连接成总的成绩表,又例如对企业员工的各类信息表按照 员工ID号 进行连接汇总。由此可以看出,在关系型连接中, 键 是十分重要的,往往用 on 参数表示。另一个重要的要素是连接的形式。在 pandas 中的关系型连接函数 merge 和 join 中提供了 how 参数来代表连接形原创 2020-12-29 20:11:14 · 360 阅读 · 2 评论 -
datawhale的pandas学习 第五章 变形
导入所需的包import numpy as npimport pandas as pd一、长宽表的变形什么是长表?什么是宽表?这个概念是对于某一个特征而言的。例如:一个表中把性别存储在某一个列中,那么它就是关于性别的长表;如果把性别作为列名,列中的元素是某一其他的相关特征数值,那么这个表是关于性别的宽表。下面的两张表就分别是关于性别的长表和宽表:[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-FJXSNBh3-1609078987107)(/Users/mao/Li原创 2020-12-27 22:23:45 · 309 阅读 · 0 评论 -
datawhale的pandas学习第四章 分组
导入本章所需模块:import numpy as npimport pandas as pd一、分组模式及其对象1. 分组的一般模式分组操作在日常生活中使用极其广泛,例如:依据性别性别分组,统计全国人口寿命寿命的平均值平均值依据季节季节分组,对每一个季节的温度温度进行组内标准化组内标准化依据班级班级筛选出组内数学分数数学分数的平均值超过80分的班级从上述的几个例子中不难看出,想要实现分组操作,必须明确三个要素:分组依据分组依据、数据来源数据来源、操作及其返回结果操作及其返回结果。同时原创 2020-12-25 23:42:28 · 317 阅读 · 0 评论 -
datawhale的pandas学习 第三章 索引
首先导入所需的包import numpy as npimport pandas as pd一、索引器1. 表的列索引列索引是最常见的索引形式,一般通过 [] 来实现。通过 [列名] 可以从 DataFrame 中取出相应的列,返回值为 Series ,例如从表中取出姓名一列: 如果要取出多个列,则可以通过[列名组成的列表],其返回值为一个DataFrame,例如从表中取出性别和姓名两列:【注意】当[] 里面是列名,返回Series。当[] 里面是列名组成的列表,返回DataFrame此原创 2020-12-22 21:47:51 · 429 阅读 · 0 评论 -
datawhale学习第二章 pandas基础
import numpy as npimport pandas as pd之前的版本号是1.0.5使用pip install --upgrade pandas更新即可一、文件的读取和写入1. 文件读取pandas可以读取的文件格式有很多,这里主要介绍读取csv, excel, txt文件。即pd.read_csv pd.read_table pd.read_excel1.1pd.read_csvpandas.read_csv(filepath_or_buffer, sep=', ', d原创 2020-12-19 22:59:25 · 252 阅读 · 1 评论 -
datawhale的pandas学习第一章
1.Python基础语法1.1 列表推导式与条件赋值列表推导式: [* for i in *] 。其中,第一个 * 为映射函数,其输入为后面 i 指代的内容,第二个 * 表示迭代的对象。带有 if 选择的条件赋值,其形式为 value = a if condition else b :value = 'cat' if 2>1 else 'dog' #'cat'结合两者L = [1, 2, 3, 4, 5, 6, 7][i if i <= 5 else 5 for i in L]原创 2020-12-16 16:03:05 · 246 阅读 · 0 评论 -
datawhale的pandas学习 第七章 缺失数据
导入所需模块import numpy as npimport pandas as pd一、缺失值的统计和删除1. 缺失信息的统计缺失数据可以使用isna或isnull(两个函数没有区别)来查看每个单元格是否缺失,结合mean可以计算出每列缺失值的比例:df = pd.read_csv('../data/learn_pandas.csv', usecols = ['Grade', 'Name', 'Gender', 'Height', 'Weight', 'Transfer'])df.isna原创 2021-01-03 20:50:31 · 334 阅读 · 1 评论 -
第八章 文本数据
导入所需模块import numpy as npimport pandas as pd一、str对象1.1 str对象的设计意图str对象是定义在Index或Series上的属性,专门用于逐元素处理文本内容,其内部定义了大量方法,因此对一个序列进行文本处理,首先需要获取其str对象。在Python标准库中也有str模块,为了使用上的便利,有许多函数的用法pandas照搬了它的设计,例如字母转为大写的操作:根据文档API材料,在pandas的50个str对象方法中,有31个是和标准库中的str原创 2021-01-06 15:29:02 · 432 阅读 · 2 评论
分享