datawhale-动手学数据分析task01

本文介绍了Pandas,它是Python的核心数据分析库,用于处理表格型和标记型数据。通过实例展示了如何使用Pandas加载CSV数据,包括read_csv()和read_table()函数的使用,并解释了它们的区别。此外,还详细讲解了如何逐块读取大型数据集,更改表头和索引,以及查看数据的基本信息,如行数、列数、数据类型和统计信息。文章以泰坦尼克号数据集为例,演示了筛选、排序和数据操作的方法。

  1. Pandas介绍
    Pandas 是 Python 的核心数据分析支持库,提供了快速、灵活、明确的数据结构,旨在简单、直观地处理关系型、标记型数据。Pandas 的目标是成为 Python 数据分析实践与实战的必备高级工具,其长远目标是成为最强大、最灵活、可以支持任何语言的开源数据分析工具。经过多年不懈的努力,Pandas 离这个目标已经越来越近了。
    Pandas 适用于处理以下类型的数据:
    与 SQL 或 Excel 表类似的,含异构列的表格数据;有序和无序(非固定频率)的时间序列数据;带行列标签的矩阵数据,包括同构或异构型数据;任意其它形式的观测、统计数据集, 数据转入 Pandas 数据结构时不必事先标记
    🔗Pandas中文网:https://www.pypandas.cn/
  2. 加载数据
    本次动手学数据分析使用的数据为Kaggle上的泰坦尼克项目(Titanic: Machine Learning from Disaster)
    🖇️数据集下载链接:https://www.kaggle.com/c/titanic/data
    Titanic: Machine Learning from Disaster
    处理直接从网页下载数据外,可以直接使用命令行下载,更加快速直接; 🔸如何使用命令行下载数据: 🔹首先要安装Kaggle API,具体安装步骤请查看官方GtiHub: https://github.com/Kaggle/kaggle-api 🔹安装好后,直接在电脑终端运行:kaggle competitions download -c titanic
    1.1 导入numpy和pandas
    import numpy as np
    import pandas as pd
    12
    1.2 IO工具
    pandas的I/O API是一组read函数,比如pandas.read_csv()函数。这类函数可以返回pandas对象。相应的write函数是像DataFrame.to_csv()一样的对象方法。下面是一个方法列表,包含了这里面的所有readers函数和writer函数。

1.3 CSV与文本文件读取
读文本文件 (a.k.a. flat files)的主要方法 is read_csv().
使用相对路径载入数据
df = pd.read_csv(‘train.csv’)
1
使用绝对路径载入数据
df = pd.read_csv(’/mydrive/Colab_Notebooks/DataWhela/Data Analysis/hands-on-data-analysis/第一单元项目集合/train.csv’)
1
read_csv()与read_table()两个函数的区别
df = pd.read_table(‘train.csv’)
df.head(3)
12

df = pd.read_csv(‘train.csv’)
df.head(3)
12

通过上述结果可以看出,read_csv()返回的数据的格式与read_table()的数据格式不同;read_csv()返回的数据的格式为制表后的,而read_table()的数据只用逗号隔开。因此,查看两个函数定义代码:
read Csv make_parser_ function(‘read csv’, sep=’,’)
read csv= Appender( read csv doc)(read csv read_table=make_parser_function( ‘read table’, sep=’\t’)
read table=Appender( read table doc)(read table)
123
根据定义代码可以看出,两个函数的本质区别在于分隔符sep不同,其他,除了方法名不一样,其他都相同。

与read_csv()输出相同格式的数据

df = pd.read_table(‘train.csv’,sep=’,’)
df.head(3)
123

1.4 逐块读取
由于通常数据集的数据量都是巨大的,如果直接读取所有数据,不仅速度慢,还消耗计算机资源;为了高效快捷的读取数据,从而使用逐块读取。

df = pd.read_csv(‘train.csv’,chunksize=1000)

df = pd.read_table(‘train.csv’,sep=’,’,chunksiz

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值