pandas,seaborn与matplotlib学习

本文详细介绍了pandas的数据结构,包括Series和DataFrame,以及如何使用它们。接着,深入探讨了seaborn库,展示了如何绘制箱型图、计数图、直方图和catplot。最后,简述了matplotlib的基本使用步骤,为数据可视化提供基础。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


在机器学习中,一般使用pandas进行数据的处理,使用matplotlib或者seaborn
进行数据可视化,两者结合起来处理和分析数据,能让之后的步骤事半功倍。

一、pandas

代码保存在ipynb文件,点击查看

pandas数据结构

  • Series
    一种类似于一维数组的对象,由**一组数据(各种numpy数据类型)以及一组与之相关的数据标签(即索引)**组成。在创建时可以显式说明各个数据点的索引,如果没有说明,则默认自动创建0到N-1(N为数据的长度)的整数型索引,并且可以通过索引的方式选取Series中的单个或一组值。也可以通过字典赋值创建。Series在算术运算中会自动对齐不同索引的数据

创建方式
(1)Series:通过一维数组创建
(2)Series:通过字典的方式创建

Series类型包括index和values两部分,相当于DataFrame的任意一列加索引构成,下面是一些基本操作

import pandas as pd 
from pandas import Series,DataFrame

data1=Series(['A','B','C','D'])

print (data1)
print (data1.index)#获得索引
print (data1.values)#获得值
print(data1[1])#查找某一个索引值
# print(data1[A])#查找某一个索引值
print (data1[:3]) #自动切片
  • DataFrame

可以从任何数据格式创建dataframe,这是一个表格型的数据结构。构建DataFrame最常用的一种是直接传入一个由等长列表或numpy数组组成的字典。可通过columns指定列顺序,如果指定的列名称不存在,则默认为NaN值。

pandas.DataFrame( data, index, columns, dtype, copy)

在这里插入图片描述
总结主要用法

# -*- coding: utf-8 -*-
"""pandas.ipynb

Automatically generated by Colaboratory.

Original file is located at
    https://colab.research.google.com/drive/1L7F8tse-VTKAbP8eY4Ui9rR0U_myV53y
"""

import urllib.request
import urllib
url = "https://raw.githubusercontent.com/GokuMohandas/practicalAI/master/data/titanic.csv"
response = urllib.request.urlopen(url)
html = response.read()
with open('titanic.csv', 'wb') as f:
    f.write(html)

import pandas as pd

df=pd.
好的!以下是关于如何在Python中安装常用库 `numpy`、`pandas`、`seaborn`、`matplotlib`、`scikit-learn`、`flask` 和 `tensorflow` 的详细说明以及它们的功能简介: ### 安装步骤 为了安装这些库,你需要确保已经正确配置了 Python 环境,并且需要使用包管理工具如 pip 或 conda。 #### 使用 Pip 安装 ```bash pip install numpy pandas seaborn matplotlib scikit-learn flask tensorflow joblib ``` 如果遇到权限问题可以尝试加上 `--user` 参数: ```bash pip install --user numpy pandas seaborn matplotlib scikit-learn flask tensorflow joblib ``` 对于 TensorFlow,在某些系统上可能会因为硬件兼容性导致版本冲突(例如 GPU 支持),所以建议先查看官方文档选择适合的版本后再运行安装命令。 #### 使用 Conda 安装 (推荐用于 Anaconda 用户) 如果你正在使用Anaconda,则通过Conda进行安装会更稳定一些: ```bash conda install numpy pandas seaborn matplotlib scikit-learn flask joblib # 对于TensorFlow, 可能需要单独指定频道或其他依赖项 conda install -c anaconda tensorflow ``` --- ### 各库功能概述 1. **NumPy**: 提供高性能数值计算能力的核心库。它支持大型数组矩阵操作,同时提供大量的数学函数。 2. **Pandas**: 主要用于数据分析任务的数据处理工具集。提供了DataFrame结构来方便地加载、清洗及分析表格型数据。 3. **Seaborn & Matplotlib**: - Seaborn 基于Matplotlib构建而成,旨在简化统计图表生成过程。 - 而Matplotlib本身则是绘制二维图形的基础绘图框架。 4. **Scikit-Learn**: 最流行的机器学习库之一,内置了许多算法模型包括回归分类聚类降维等预处理方法评估指标等功能模块。 5. **Flask**: 微型Web应用开发框架,简单易用,非常适合快速搭建API服务或者小型网站项目。 6. **TensorFlow/Keras**: 深度学习领域的主流深度学习平台之一,支持从研究到生产部署整个流程;Keras作为高级接口被集成进去了,默认也是首选入门级选项。 7. **Joblib**: 尤其适用于保存复杂对象比如训练完后的ML/DL model文件时非常有用的一个序列化/反序列化的实用程序替代品pickle. --- 以上就是这几个重要Python科学计算生态系统的组成部分及其基本用途啦!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值