Pandas语句

数据加载与保存
读取数据
pd.read_csv(‘filename.csv’):读取 CSV 文件。
pd.read_excel(‘filename.xlsx’):读取 Excel 文件。
pd.read_sql(query, connection_object):从 SQL 数据库中读取数据。
pd.read_json(‘filename.json’):读取 JSON 文件。
保存数据
df.to_csv(‘filename.csv’):将数据保存为 CSV 文件。
df.to_excel(‘filename.xlsx’):将数据保存为 Excel 文件。
df.to_sql(‘table_name’, connection_object):将数据保存到 SQL 数据库中。
df.to_json(‘filename.json’):将数据保存为 JSON 文件。
数据查看与检查
查看数据
df.head(n):查看数据框的前 n 行(默认 5 行)。
df.tail(n):查看数据框的后 n 行(默认 5 行)。
df.sample(n):随机抽取 n 行数据。
数据框信息
df.info():查看数据框的基本信息,包括列名、数据类型和缺失值等。
df.describe():查看数据框的统计描述,包括计数、均值、标准差、最小/最大值等。
列名与索引
df.columns:查看数据框的列名。
df.index:查看数据框的索引。
数据清洗与预处理
缺失值处理
df.dropna():删除包含缺失值的行或列(根据参数 axis)。
df.fillna(value):用指定值填充缺失值。
df.interpolate():用插值方法填充缺失值。
数据转换
df[‘column’].astype(dtype):转换列的数据类型。
df.apply(func, axis=1):对数据框的每一行或列应用函数(根据 axis 参数)。
df.map(func):对数据框的某一列应用函数(通常用于替换值)。
数据筛选
df[df[‘column’] > value]:基于列的条件筛选行。
df.query(‘column > value’):用查询字符串筛选行。
df.loc[row_indices, col_indices]:基于行和列的索引选择数据。
df.iloc[row_indices, col_indices]:基于行和列的整数位置选择数据。
数据排序
df.sort_values(by=‘column’):按指定列的值排序。
df.sort_index():按索引排序。
数据去重
df.drop_duplicates():删除重复行。
数据合并与分组
pd.concat([df1, df2], axis=0):沿指定轴连接数据框(默认是行连接)。
pd.merge(df1, df2, on=‘column’):基于指定列合并数据框(类似 SQL 的 JOIN)。
df.groupby(‘column’).agg(func):按指定列分组,并对每组应用聚合函数。
文本处理
df[‘column’].str.lower():将列中的字符串转换为小写。
df[‘column’].str.upper():将列中的字符串转换为大写。
df[‘column’].str.contains(‘pattern’):检查列中的字符串是否包含指定模式。
df[‘column’].str.replace(‘pattern’, ‘replacement’):替换列中字符串的指定模式。
数据可视化(简单)
虽然 Pandas 本身不是专门的可视化库,但它提供了一些简单的可视化工具:
df.plot.line():绘制折线图。
df.plot.bar():绘制条形图。
df.plot.hist():绘制直方图。
df.plot.box():绘制箱线图。
df.plot.scatter(x=‘col1’, y=‘col2’):绘制散点图。

### 关于 `pandas` 库的语法与示例 #### 使用 `pandas.DataFrame.loc` `pandas.DataFrame.loc` 是一种强大的工具,允许基于标签来选择或过滤 DataFrame 中的数据。此功能不仅限于简单的行选择,还支持复杂的多条件筛选和范围选取。 对于单个标签的选择操作如下所示: ```python import pandas as pd df = pd.DataFrame({ 'A': ['foo', 'bar', 'baz'], 'B': [1, 2, 3], }, index=['a', 'b', 'c']) result = df.loc['a'] # 获取索引为'a'的一整行数据[^1] print(result) ``` 如果想要获取特定位置上的单元格值,则可以通过指定行列标签组合的方式实现: ```python cell_value = df.loc['a', 'A'] # 获取索引为'a'且列为'A'的一个元素 print(cell_value) ``` 另外还可以利用布尔表达式来进行更复杂的数据提取工作: ```python filtered_df = df.loc[df['B'] > 1] # 过滤出'B'列大于1的所有行 print(filtered_df) ``` 除了上述基本用法之外,`loc` 方法同样适用于同时定位多个维度上的子集,并返回一个新的 DataFrame 对象作为结果。 #### 数据读取与导出 为了更好地处理实际项目中的文件输入输出需求,在掌握了核心 API 后还需要掌握如何高效地加载外部表格资源并保存修改后的成果。例如 CSV 文件是最常见的结构化存储格式之一,因此这里给出相应的导入导出示例代码片段供参考: ```python # 导入CSV文件创建DataFrame对象 data_from_csv = pd.read_csv('example.csv') # 将当前存在的DataFrame写回到新的CSV文档里去 data_to_save.to_csv('output_file_name.csv') ``` 以上就是有关 `pandas` 基础语法及其典型应用场景的部分介绍[^2]。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

「已注销」

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值