pandas学习(三)

1.从dataframe中删除一列

del DF['column-name'],

DF.drop('column_name', axis=1, inplace=True)
DF = DF.drop('column_name', 1)

2.从dataframe中删除多列

删除多列df.drop([Column Name or list],inplace=True,axis=1)
DF.drop([DF.columns[[0, 1, 3]]], axis=1) 

3.从dataframe中在指定位置插入一列

 

using idx = 0 will insert at the beginning

df.insert(idx, col_name, value)

4.调换dataframe中列

5.找出指定行的重复数量

df.index[(df == [3, 1, 1, 0]).all(axis=1)]
Int64Index([2, 3], dtype=int64)
还有一种情况:

male_trips是一个大dataframe,stations是一个小dataframe.对每个station id ,我想知道 male trips中有多少行对应.命令式:

df = male_trips.groupby('start_station_id').size()

6.对dataframe,根据列名称,或者列序号进行分组,并查看每个分组的行数

df_1.groupby([0,1,2,3,4]).size()

结果:

0  1  2  3  4
0  0  0  0  0    9896
            1     101
         1  0      43
            1       1
      1  1  0      99
            1       2
   1  0  0  0       7
      1  1  1       2
1  1  0  0  0       9
            1      13
         1  0       6
            1      42
      1  1  0     202
            1     827


7.dataframe中,将column名称以numpy.array形式生成

feature_names = df.columns.values[:19]

8.将两个array形成一个list

c = zip(clf_et.feature_importances_,feature_names)

9.两个值对比,python显示结果为布尔值

in:c[7][0]>c[0][0]

out:False




<think>我们正在回答用户关于Pandas学习路线的问题。根据用户提供的引用,我们可以构建一个从入门到精通的学习路线。结合引用[1]和引用[2],我们知道Pandas的基本功能包括Series和DataFrame的创建、索引操作、数据清洗(如处理缺失值)、数据对齐、函数应用(apply和map)以及排序和排名等。引用[3]提到Pandas可以用于实际案例,如电商销售数据分析、股票数据分析和航班数据分析。因此,我们可以将学习路线分为以下几个阶段:1.入门基础:安装Pandas,了解基本数据结构(Series和DataFrame),数据读取和写入。2.数据操作:索引、切片、选择数据;处理缺失值;数据合并与重塑;数据清洗。3.进阶功能:分组和聚合;时间序列处理;函数应用(apply)和映射(map);排序和排名;重采样等。4.实际案例:通过具体项目(如电商销售分析、股票分析)巩固知识。下面我们按照这个结构来详细说明,并尽可能参考提供的引用内容。</think> 以下是Pandas从入门到精通的学习路线建议,结合了引用内容的关键知识点,分为四个阶段逐步进阶: --- ### **📊 第一阶段:基础入门 (1-2周)** 1. **环境安装与基础数据结构** - 安装Pandas:`pip install pandas numpy` - 创建`Series`(一维数据): ```python import pandas as pd s = pd.Series([1, 3, 5, np.nan, 6, 8]) # 引用[1]示例 ``` - 创建`DataFrame`(二维表格): ```python df = pd.DataFrame({'列A': [1, 2], '列B': ['a', 'b']}) ``` 2. **数据读取与基础操作** - 读取CSV/Excel:`pd.read_csv('data.csv')` - 查看数据:`df.head()`, `df.info()`, `df.describe()` - 索引操作:`df.loc[行索引]`, `df.iloc[行号]` --- ### **🧪 第二阶段:核心功能 (2-3周)** 1. **数据清洗与处理** - 处理缺失值:`df.dropna()`, `df.fillna(0)` - 数据对齐:不同索引的自动对齐计算(引用[2]) - 重命名/删除列:`df.rename()`, `df.drop('列名', axis=1)` 2. **数据重塑与索引调整** - 重新索引:`df.reindex(['新行索引'])`(引用[2]) - 行/列转换:`df.melt()`, `df.pivot()` 3. **函数映射与转换** - 逐元素处理:`df.applymap(func)` - 行/列应用:`df.apply(func, axis=0|1)`(引用[2]) - 向量化操作:`df['新列'] = df['列A'] * 10` --- ### **🔍 第阶段:高级分析 (3-4周)** 1. **分组与聚合** - 分组统计:`df.groupby('类别列').sum()` - 复杂聚合:`df.agg(['mean', 'max'])` 2. **时间序列处理** - 日期索引:`pd.date_range()`(引用[1]) - 重采样:`df.resample('D').mean()` 3. **数据合并** - 横向合并:`pd.concat([df1, df2])` - 键值合并:`pd.merge(df1, df2, on='键')` 4. **排序与排名** - 值排序:`df.sort_values('列名')`(引用[2]) - 数据排名:`df.rank()` --- ### **🚀 第四阶段:实战精通** 1. **项目实战** - 电商分析:订单数据清洗、用户行为统计(引用[3]) - 金融分析:股票价格波动计算(引用[3]) - 多维分析:`pd.pivot_table()`制作总结报表 2. **性能优化技巧** - 向量化替代循环 - 高效数据类型:`astype('category')` - 分块读取大文件:`chunksize`参数 3. **拓展技能** - 结合可视化:`df.plot()`集成Matplotlib - 大数据处理:Pandas+Dask扩展 --- ### 📚 推荐资源 1. 官方文档:[pandas.pydata.org](https://pandas.pydata.org/) 2. 经典书籍:《Python for Data Analysis》(引用[2]提及核心方法) 3. 实战案例库:[Kaggle Pandas教程](https://www.kaggle.com/learn/pandas) ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值