pandas学习总结系列(二)

最新推荐文章于 2024-05-04 20:49:19 发布

原创最新推荐文章于 2024-05-04 20:49:19 发布 · 229 阅读

0 ·

CC 4.0 BY-SA版权

excel 专栏收录该内容

6 篇文章

订阅专栏

IO操作

一般我们获取数据获得输出结果都要和io接触。
pandas一般会有两个方法：

read_excel()
to_excel()
支持csv，json，html，excel，sql等等。

和json相关操作

一般结构化数据比如(dataframe为主)

dfjo = pd.DataFrame(dict(A=range(1, 4), B=range(4, 7), C=range(7, 10)),
                columns=list('ABC'), index=list('xyz'))
 ----------------------
  A  B  C
x  1  4  7
y  2  5  8
z  3  6  9

面向列转为json(列为key)

dfjo.to_json(orient="columns")
------------------------
{"A":{"x":1,"y":2,"z":3},"B":{"x":4,"y":5,"z":6},"C":{"x":7,"y":8,"z":9}}

*面向行(key为index)

dfjo.to_json(orient="index")
-----------------------------
{"x":{"A":1,"B":4,"C":7},"y":{"A":2,"B":5,"C":8},"z":{"A":3,"B":6,"C":9}}

转为以数组包裹的类型(每一行为一个对象)

dfjo.to_json(orient="records")
----------------------------------------
[{"A":1,"B":4,"C":7},{"A":2,"B":5,"C":8},{"A":3,"B":6,"C":9}]

面向值 (不需要key，只需要值)

dfjo.to_json(orient="values")
----------------------------------
[[1,4,7],[2,5,8],[3,6,9]]

面向拆分(也就是将这组数据的col，index，data都分出来)

dfjo.to_json(orient="split")
-------------------------------
{"columns":["A","B","C"],"index":["x","y","z"],"data":[[1,4,7],[2,5,8],[3,6,9]]}

读取json

read_json('位置',orient) #orient和写差不多

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

青缘何夕

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

pandas（3）数据的读入和输出

qq_34786604的博客

09-16

1054

pandas读取输出数据库文件 Excel文件 json文件详细介绍read_csv ,to_csv

Pandas系列学习教程

lzylzy66的博客

03-10

769

例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了Pandas学习的基础内容。提示：以下是本篇文章正文内容，下面案例可供参考例如：以上就是今天要讲的内容，本文仅仅简单介绍了pandas的使用，而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

参与评论您还未登录，请先登录后发表或查看评论

pandas 的json功能

king_26852的博客

07-05

472

import pandas as pd dfj = pd.DataFrame(np.random.randn(5, 2), columns=list('AB')) dfj.to_json() '{"A":{"0":-1.2945235903,"1":0.2766617129,"2":-0.0139597524,"3":-0.0061535699,"4":0.8957173022},"B":{"...

Pandas学习总结

weixin_52527244的博客

05-30

5339

介绍 Pandas 是非常著名的开源数据处理库，我们可以通过它完成对数据集进行快速读取、转换、过滤、分析等一系列操作。除此之外，Pandas 拥有强大的缺失数据处理与数据透视功能，可谓是数据预处理中的必备利器。知识点数据类型数据读取数据选择数据删减数据填充数据类型 Pandas 的数据类型主要有以下几种，它们分别是：Series（一维数组），DataFrame（二维数组），Panel（三维数组），Panel4D（四维数组），PanelND（更多维数组）。其中 Series 和

pandas学习笔记与总结

weixin_66224671的博客

08-29

1516

pandas读书笔记，pandas的常用操作

Numpy和Pandas的学习总结

朝游碧海的博客

01-19

1418

学习完莫烦python. numpy和pandas;学习总结，【Numpy & Pandas (数据处理教程)】 1、创建一个二维数组 np.array() import numpy as np array = np.array([[1, 2, 3], [2, 3, 4]]) print(array) print("number of dim:", array.ndim) #数组有几行，就是几维这里为2行（2维） print("shape:", array.

Python pandas学习总结

Alden_Wei的博客

04-02

2574

Python pandas学习总结　　pandas是做数据分析非常重要的一个模块，它使得数据分析的工作变得更快更简单。由于现实世界中数据源的格式非常多，但是pandas也支持了不同数据格式的导入方法，所以学习pandas非常有必要。要是想看所有的方法详解可以去官网，要想学习Pandas建议先看下面2个网站。　　官网地址如下：https://pandas.pydata.org/ 　　官网教程如...

pandas学习这些就够了

weixin_47958619的博客

05-04

1742

是一个二维的、大小可变的、具有潜在异构类型列的表格型数据结构。Series 的标签通常是唯一的，但这不是强制的。如果字典中传递，将作为键参数，使用排序的键，除非它传递，在这种情况下的值将会选择。主要用到的三个函数：loc,iloc和ix，loc函数按标签值进行提取，iloc按位置进行提取，ix可以同时按标签和位置进行提取。7、对category字段的值依次进行分列，并创建数据表，索引值为df_inner的索引列，列名称为category和size。这是有用的如果你串联串联轴没有有意义的索引信息的对象。

Pandas学习笔记

PuddleRubbish的博客

10-28

1776

声明：本文为借鉴其他帖子总结出来的学习笔记，不作它用。pandas是基于numpy数组构建的，是python中基于numpy和matplotlib的第三方数据分析库，与后两者共同构成了python数据分析的基础工具包，主要用于数据处理与分析，支持包括数据读写、数值计算、数据处理、数据分析和数据可视化全套流程操作。它提供了一个简单、高效、带有默认标签（也可以自定义标签）的 DataFrame 对象。能够快速得从不同格式的文件中加载数据（比如 Excel、CSV 、SQL文件），然后将其转换为可处理的对象；

精选资源

pandas库学习报告.docx

04-11

### pandas库学习报告 #### 一、pandas简介 pandas 是一个强大的 Python 库，专为数据分析设计。它建立在 NumPy 基础之上，提供了一系列高级数据结构和数据分析工具，使得处理数据变得更加简单高效。pandas 的核心...

Pandas系列学习教程——08 pandas字符串处理

lzylzy66的博客

03-11

1359

随着人工智能的不断发展，数据分析这门技术也越来越重要，很多人都开启了学习数据分析，本文就介绍了pandas学习的基础内容。本章简单介绍了pandas处理字符串的步骤，具体如下。

Pandas系列学习教程——03 pandas数据查询

lzylzy66的博客

03-10

1457

随着人工智能的不断发展，数据分析这门技术也越来越重要，很多人都开启了学习数据分析，本文就介绍了pandas学习的基础内容。本章讲解的是Pandas系列学习教程中的第三章——pandas数据查询，主要介绍按数值、列表、区间、条件和函数方法进行查询。

（27页PPT）某省市照明智能管理系统解决方案.pptx

12-20

（27页PPT）某省市照明智能管理系统解决方案.pptx

12-20

12-20

12-20

Python从零到壹全栈学习资源库_包含Python基础语法详解网络爬虫实战案例数据分析与可视化机器学习算法原理与实现自然语言处理与文本挖掘数据库操作与数据存储Sele.zip

12-20

遗传算法路径规划的MATLAB实现

12-20

先展示下效果 https://pan.quark.cn/s/a4b39357ea24 遗传算法 - 简书遗传算法的理论是根据达尔文进化论而设计出来的算法: 人类是朝着好的方向（最优解）进化，进化过程中，会自动选择优良基因，淘汰劣等基因。遗传算法（英语：genetic algorithm (GA) ）是计算数学中用于解决最佳化的搜索算法，是进化算法的一种。进化算法最初是借鉴了进化生物学中的一些现象而发展起来的，这些现象包括遗传、突变、自然选择、杂交等。搜索算法的共同特征为：首先组成一组候选解依据某些适应性条件测算这些候选解的适应度根据适应度保留某些候选解，放弃其他候选解对保留的候选解进行某些操作，生成新的候选解遗传算法流程遗传算法的一般步骤 my_fitness函数评估每条染色体所对应个体的适应度升序排列适应度评估值，选出前 parent_number 个个体作为待选 parent 种群（适应度函数的值越小越好）从待选 parent 种群中随机选择 2 个个体作为父方和母方。抽取父母双方的染色体，进行交叉，产生 2 个子代。（交叉概率）对子代（parent + 生成的 child）的染色体进行变异。（变异概率）重复3,4,5步骤，直到新种群（parentnumber + childnumber）的产生。循环以上步骤直至找到满意的解。名词解释交叉概率：两个个体进行交配的概率。例如，交配概率为0.8，则80%的“夫妻”会生育后代。变异概率：所有的基因中发生变异的占总体的比例。 GA函数适应度函数适应度函数由解决的问题决定。举一个平方和的例子。简单的平方和问题求函数的最小值，其中每个变量的取值区间都是 [-1, ...

（20页PPT）智慧戒毒所信息化系统建设及应用方案.pptx

12-20

（20页PPT）智慧戒毒所信息化系统建设及应用方案.pptx

pandas学习

05-05

### Pandas 学习教程与入门指南 Pandas 是一个用于数据处理和分析的强大 Python 库，其设计目标是为了简化复杂的数据操作流程。以下是关于 Pandas 的学习路径以及一些核心概念的详细介绍。 #### 1. Pandas 基础介绍 Pandas 是基于 NumPy 构建的一个开源库，主要用于数据分析和处理[^1]。它的名称来源于 **Panel Data** 和 **Data Analysis** 的组合，在经济学领域中，“Panel Data” 表示多维时间序列数据。Pandas 提供了两种主要的数据结构——`Series` 和 `DataFrame`，分别对应一维数组和二维表格形式的数据存储方式。 #### 2. 安装与导入要开始使用 Pandas，首先需要安装并导入该库。可以通过以下命令完成安装： ```bash pip install pandas ``` 在脚本或交互环境中引入 Pandas： ```python import pandas as pd ``` #### 3. 数据结构概述 ##### (1) Series `Series` 是一种类似于一维数组的对象，可以保存任意类型的对象。 ```python s = pd.Series([1, 3, 5, np.nan, 6, 8]) print(s) ``` 输出结果如下： ``` 0 1.0 1 3.0 2 5.0 3 NaN 4 6.0 5 8.0 dtype: float64 ``` ##### (2) DataFrame `DataFrame` 类似于电子表格或者 SQL 表格，是一种二维标签化数据结构。 ```python df = pd.DataFrame({ 'Name': ['Alice', 'Bob', 'Charlie'], 'Age': [25, 30, 35], 'City': ['New York', 'Los Angeles', 'Chicago'] }) print(df) ``` 输出结果如下： ``` Name Age City 0 Alice 25 New York 1 Bob 30 Los Angeles 2 Charlie 35 Chicago ``` #### 4. 数据读取与写入 Pandas 支持多种文件格式的数据加载与导出，包括 CSV、Excel、SQL 数据库等。 - 加载 CSV 文件： ```python data = pd.read_csv('file.csv') ``` - 导出到 Excel 文件： ```python data.to_excel('output.xlsx', index=False) ``` #### 5. 数据探索与描述性统计通过内置函数可轻松获取数据的基本统计信息。 - 获取摘要统计量： ```python summary = data.describe() print(summary) ``` 此方法会返回数值型列的计数、均值、标准差、最小值、四分位数及最大值等指标[^2]。 - 计算特定列的平均值： ```python mean_value = data['Age'].mean() print(mean_value) ``` #### 6. 数据筛选与过滤可以根据条件对数据进行子集提取。 ```python filtered_data = data[data['Age'] > 30] print(filtered_data) ``` #### 7. 缺失值处理 Pandas 提供了便捷的方法来检测和填充缺失值。 - 检测缺失值： ```python missing_values = data.isnull().sum() print(missing_values) ``` - 使用指定值填补缺失项： ```python filled_data = data.fillna(0) print(filled_data) ``` #### 8. 排序与分组 - 按某一列排序： ```python sorted_data = data.sort_values(by='Age', ascending=True) print(sorted_data) ``` - 按某字段分组计算汇总统计： ```python grouped_stats = data.groupby('City')['Age'].mean() print(grouped_stats) ``` --- ### 实际案例演示假设有一个销售记录表，包含商品类别、销售额和其他属性的信息，我们可以利用 Pandas 来执行一系列的操作： ```python # 创建样本数据框 sales_data = pd.DataFrame({ 'Category': ['Electronics', 'Books', 'Clothing', 'Electronics', 'Books'], 'Sales': [200, 150, 300, 250, 100], 'Region': ['North', 'South', 'East', 'West', 'Central'] }) # 查看前几行数据 print(sales_data.head()) # 统计各分类总销售额 category_totals = sales_data.groupby('Category')['Sales'].sum() print(category_totals) # 找出最高销售额所在区域 max_sales_region = sales_data.loc[sales_data['Sales'].idxmax(), 'Region'] print(max_sales_region) ``` --- ### 总结以上内容涵盖了 Pandas 的基础知识及其常见应用场景。对于初学者而言，建议从简单的数据加载、查看和基本运算入手，逐步深入掌握更复杂的特性如数据透视表、时间序列分析等功能[^3]。