datawhale-动手学数据分析task01
- 与read_csv()输出相同格式的数据
- df = pd.read_csv('train.csv',chunksize=1000)
- DataFrame的基础属性
- 行数 列数
- 列数据类型
- 数据维度
- 行索引
- 列索引
- 对象值,二维ndarray数组
- DataFrame整体情况
- 显示前10行,默认是5行
- 显示末尾几行,默认是5
- 相关系数,如行数,列数,列索引、列非空值个数,列类型,内存占用
- 快速统计结果,计数、均值、标准差、最大值、四分数、最小值
- 我们以"Age"为筛选条件,显示年龄在10岁以下的乘客信息。
- 以"Age"为条件,将年龄在10岁以上和50岁以下的乘客信息显示出来
- 第100行的"Pclass"和"Sex"的数据显示出来
- 第100,105,108行的"Pclass","Name"和"Sex"的数据显示出来
- 使用iloc方法将midage的数据中第100,105,108行的"Pclass","Name"和"Sex"的数据显示出来
- Pandas介绍
Pandas 是 Python 的核心数据分析支持库,提供了快速、灵活、明确的数据结构,旨在简单、直观地处理关系型、标记型数据。Pandas 的目标是成为 Python 数据分析实践与实战的必备高级工具,其长远目标是成为最强大、最灵活、可以支持任何语言的开源数据分析工具。经过多年不懈的努力,Pandas 离这个目标已经越来越近了。
Pandas 适用于处理以下类型的数据:
与 SQL 或 Excel 表类似的,含异构列的表格数据;有序和无序(非固定频率)的时间序列数据;带行列标签的矩阵数据,包括同构或异构型数据;任意其它形式的观测、统计数据集, 数据转入 Pandas 数据结构时不必事先标记
🔗Pandas中文网:https://www.pypandas.cn/ - 加载数据
本次动手学数据分析使用的数据为Kaggle上的泰坦尼克项目(Titanic: Machine Learning from Disaster)
🖇️数据集下载链接:https://www.kaggle.com/c/titanic/data
Titanic: Machine Learning from Disaster
处理直接从网页下载数据外,可以直接使用命令行下载,更加快速直接; 🔸如何使用命令行下载数据: 🔹首先要安装Kaggle API,具体安装步骤请查看官方GtiHub: https://github.com/Kaggle/kaggle-api 🔹安装好后,直接在电脑终端运行:kaggle competitions download -c titanic
1.1 导入numpy和pandas
import numpy as np
import pandas as pd
12
1.2 IO工具
pandas的I/O API是一组read函数,比如pandas.read_csv()函数。这类函数可以返回pandas对象。相应的write函数是像DataFrame.to_csv()一样的对象方法。下面是一个方法列表,包含了这里面的所有readers函数和writer函数。
1.3 CSV与文本文件读取
读文本文件 (a.k.a. flat files)的主要方法 is read_csv().
使用相对路径载入数据
df = pd.read_csv(‘train.csv’)
1
使用绝对路径载入数据
df = pd.read_csv(’/mydrive/Colab_Notebooks/DataWhela/Data Analysis/hands-on-data-analysis/第一单元项目集合/train.csv’)
1
read_csv()与read_table()两个函数的区别
df = pd.read_table(‘train.csv’)
df.head(3)
12
df = pd.read_csv(‘train.csv’)
df.head(3)
12
通过上述结果可以看出,read_csv()返回的数据的格式与read_table()的数据格式不同;read_csv()返回的数据的格式为制表后的,而read_table()的数据只用逗号隔开。因此,查看两个函数定义代码:
read Csv make_parser_ function(‘read csv’, sep=’,’)
read csv= Appender( read csv doc)(read csv read_table=make_parser_function( ‘read table’, sep=’\t’)
read table=Appender( read table doc)(read table)
123
根据定义代码可以看出,两个函数的本质区别在于分隔符sep不同,其他,除了方法名不一样,其他都相同。
与read_csv()输出相同格式的数据
df = pd.read_table(‘train.csv’,sep=’,’)
df.head(3)
123
1.4 逐块读取
由于通常数据集的数据量都是巨大的,如果直接读取所有数据,不仅速度慢,还消耗计算机资源;为了高效快捷的读取数据,从而使用逐块读取。
df = pd.read_csv(‘train.csv’,chunksize=1000)
df = pd.read_table(‘train.csv’,sep=’,’,chunksiz

本文介绍了Pandas,它是Python的核心数据分析库,用于处理表格型和标记型数据。通过实例展示了如何使用Pandas加载CSV数据,包括read_csv()和read_table()函数的使用,并解释了它们的区别。此外,还详细讲解了如何逐块读取大型数据集,更改表头和索引,以及查看数据的基本信息,如行数、列数、数据类型和统计信息。文章以泰坦尼克号数据集为例,演示了筛选、排序和数据操作的方法。
最低0.47元/天 解锁文章
569

被折叠的 条评论
为什么被折叠?



