pandas学习总结系列(二)

IO操作

一般我们获取数据获得输出结果都要和io接触。
pandas一般会有两个方法:

  • read_excel()
  • to_excel()
    支持csv,json,html,excel,sql等等。

和json相关操作

一般结构化数据比如(dataframe为主)

dfjo = pd.DataFrame(dict(A=range(1, 4), B=range(4, 7), C=range(7, 10)),
                columns=list('ABC'), index=list('xyz'))
 ----------------------
  A  B  C
x  1  4  7
y  2  5  8
z  3  6  9
  • 面向列转为json(列为key)
dfjo.to_json(orient="columns")
------------------------
{"A":{"x":1,"y":2,"z":3},"B":{"x":4,"y":5,"z":6},"C":{"x":7,"y":8,"z":9}}

*面向行(key为index)

dfjo.to_json(orient="index")
-----------------------------
{"x":{"A":1,"B":4,"C":7},"y":{"A":2,"B":5,"C":8},"z":{"A":3,"B":6,"C":9}}
  • 转为以数组包裹的类型(每一行为一个对象)
dfjo.to_json(orient="records")
----------------------------------------
[{"A":1,"B":4,"C":7},{"A":2,"B":5,"C":8},{"A":3,"B":6,"C":9}]
  • 面向值 (不需要key,只需要值)
dfjo.to_json(orient="values")
----------------------------------
[[1,4,7],[2,5,8],[3,6,9]]
  • 面向拆分(也就是将这组数据的col,index,data都分出来)
dfjo.to_json(orient="split")
-------------------------------
{"columns":["A","B","C"],"index":["x","y","z"],"data":[[1,4,7],[2,5,8],[3,6,9]]}
读取json
read_json('位置',orient) #orient和写差不多
先展示下效果 https://pan.quark.cn/s/a4b39357ea24 遗传算法 - 简书 遗传算法的理论是根据达尔文进化论而设计出来的算法: 人类是朝着好的方向(最优解)进化,进化过程中,会自动选择优良基因,淘汰劣等基因。 遗传算法(英语:genetic algorithm (GA) )是计算数学中用于解决最佳化的搜索算法,是进化算法的一种。 进化算法最初是借鉴了进化生物学中的一些现象而发展起来的,这些现象包括遗传、突变、自然选择、杂交等。 搜索算法的共同特征为: 首先组成一组候选解 依据某些适应性条件测算这些候选解的适应度 根据适应度保留某些候选解,放弃其他候选解 对保留的候选解进行某些操作,生成新的候选解 遗传算法流程 遗传算法的一般步骤 my_fitness函数 评估每条染色体所对应个体的适应度 升序排列适应度评估值,选出 前 parent_number 个 个体作为 待选 parent 种群(适应度函数的值越小越好) 从 待选 parent 种群 中随机选择 2 个个体作为父方和母方。 抽取父母双方的染色体,进行交叉,产生 2 个子代。 (交叉概率) 对子代(parent + 生成的 child)的染色体进行变异。 (变异概率) 重复3,4,5步骤,直到新种群(parentnumber + childnumber)的产生。 循环以上步骤直至找到满意的解。 名词解释 交叉概率:两个个体进行交配的概率。 例如,交配概率为0.8,则80%的“夫妻”会生育后代。 变异概率:所有的基因中发生变异的占总体的比例。 GA函数 适应度函数 适应度函数由解决的问题决定。 举一个平方和的例子。 简单的平方和问题 求函数的最小值,其中每个变量的取值区间都是 [-1, ...
### Pandas 学习教程与入门指南 Pandas 是一个用于数据处理和分析的强大 Python 库,其设计目标是为了简化复杂的数据操作流程。以下是关于 Pandas学习路径以及一些核心概念的详细介绍。 #### 1. Pandas 基础介绍 Pandas 是基于 NumPy 构建的一个开源库,主要用于数据分析和处理[^1]。它的名称来源于 **Panel Data** 和 **Data Analysis** 的组合,在经济学领域中,“Panel Data” 表示多维时间序列数据。Pandas 提供了两种主要的数据结构——`Series` 和 `DataFrame`,分别对应一维数组和维表格形式的数据存储方式。 #### 2. 安装与导入 要开始使用 Pandas,首先需要安装并导入该库。可以通过以下命令完成安装: ```bash pip install pandas ``` 在脚本或交互环境中引入 Pandas: ```python import pandas as pd ``` #### 3. 数据结构概述 ##### (1) Series `Series` 是一种类似于一维数组的对象,可以保存任意类型的对象。 ```python s = pd.Series([1, 3, 5, np.nan, 6, 8]) print(s) ``` 输出结果如下: ``` 0 1.0 1 3.0 2 5.0 3 NaN 4 6.0 5 8.0 dtype: float64 ``` ##### (2) DataFrame `DataFrame` 类似于电子表格或者 SQL 表格,是一种维标签化数据结构。 ```python df = pd.DataFrame({ 'Name': ['Alice', 'Bob', 'Charlie'], 'Age': [25, 30, 35], 'City': ['New York', 'Los Angeles', 'Chicago'] }) print(df) ``` 输出结果如下: ``` Name Age City 0 Alice 25 New York 1 Bob 30 Los Angeles 2 Charlie 35 Chicago ``` #### 4. 数据读取与写入 Pandas 支持多种文件格式的数据加载与导出,包括 CSV、Excel、SQL 数据库等。 - 加载 CSV 文件: ```python data = pd.read_csv('file.csv') ``` - 导出到 Excel 文件: ```python data.to_excel('output.xlsx', index=False) ``` #### 5. 数据探索与描述性统计 通过内置函数可轻松获取数据的基本统计信息。 - 获取摘要统计量: ```python summary = data.describe() print(summary) ``` 此方法会返回数值型列的计数、均值、标准差、最小值、四分位数及最大值等指标[^2]。 - 计算特定列的平均值: ```python mean_value = data['Age'].mean() print(mean_value) ``` #### 6. 数据筛选与过滤 可以根据条件对数据进行子集提取。 ```python filtered_data = data[data['Age'] > 30] print(filtered_data) ``` #### 7. 缺失值处理 Pandas 提供了便捷的方法来检测和填充缺失值。 - 检测缺失值: ```python missing_values = data.isnull().sum() print(missing_values) ``` - 使用指定值填补缺失项: ```python filled_data = data.fillna(0) print(filled_data) ``` #### 8. 排序与分组 - 按某一列排序: ```python sorted_data = data.sort_values(by='Age', ascending=True) print(sorted_data) ``` - 按某字段分组计算汇总统计: ```python grouped_stats = data.groupby('City')['Age'].mean() print(grouped_stats) ``` --- ### 实际案例演示 假设有一个销售记录表,包含商品类别、销售额和其他属性的信息,我们可以利用 Pandas 来执行一系列的操作: ```python # 创建样本数据框 sales_data = pd.DataFrame({ 'Category': ['Electronics', 'Books', 'Clothing', 'Electronics', 'Books'], 'Sales': [200, 150, 300, 250, 100], 'Region': ['North', 'South', 'East', 'West', 'Central'] }) # 查看前几行数据 print(sales_data.head()) # 统计各分类总销售额 category_totals = sales_data.groupby('Category')['Sales'].sum() print(category_totals) # 找出最高销售额所在区域 max_sales_region = sales_data.loc[sales_data['Sales'].idxmax(), 'Region'] print(max_sales_region) ``` --- ### 总结 以上内容涵盖了 Pandas 的基础知识及其常见应用场景。对于初学者而言,建议从简单的数据加载、查看和基本运算入手,逐步深入掌握更复杂的特性如数据透视表、时间序列分析等功能[^3]。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值