积累知识点(Numpy, pandas, seaborn, matplotlib)

这篇博客介绍了如何利用Python中的Numpy, Pandas, Seaborn和Matplotlib进行数据处理,并强调了在处理大型数据集时,通过引入numexpr和bottleneck库可以显著提升Pandas的二进制数值和布尔操作的性能,特别是对于包含nans值的数组,加速效果尤为明显。" 128001279,10925334,Redis String详解:类型、操作与面试技巧,"['数据库', 'redis', 'java']

 导包:



import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

 # 去除警告

import warnings         
warnings.filterwarnings("ignore") 

#加速操作

借助 numexpr 与 bottleneck 支持库,Pandas 可以加速特定类型的二进制数值与布尔操作。

处理大型数据集时,这两个支持库特别有用,加速效果也非常明显。 numexpr 使用智能分块、缓存与多核技术。bottleneck 是一组专属 cython 例程,处理含 nans 值的数组时,特别快。

_________________________________________________________________________________________
增adding
_________________________________________________________________________________________


#保存数据(写入数据)
obj.to_csv('new_name.csv')

#新增列
df['文本长度'] = df['文本'].apply(lambda x: len(str(x)))

_______________________
增改Increase and change
_______________________

#分列
df['新列赋名'] = df['列表要提取的列名'].str.split(" ").str[1]
#split()里添加分割的位置;    .str[]里写要提取的index;
df['新列赋名'] = df['列表要提取的列名']apply(lambda x:x.split(' ')[0])

_________________________________________________________________________________________
删remove
_________________________________________________________________________________________

# 删除行列
df.drop(index='行名', columns='列名')
df.drop(labels='行|列', axis=?)
df.drop(index='行名', level=1)
df.drop(columns='列名')

#删除空值
dropna()
||
\/
-----------------------------------------------------
DataFrame.dropna( axis=0, how=‘any’, thresh=None, subset=None, inplace=False)
||
\/
## how

how='all’或者how=‘any’。
how='all’删除全是缺失值的行(列)
how='any’删除只要含有缺失值的行(列)(默认)

## thresh

thresh=n表示保留至少含有n个非NaN数值的行

##subset
subset定义要在哪些列中查找缺失值

## inplace

inplace=True #数据原地改变
inplace=False #会创建一个新的数据框, 默认为False
-----------------------------------------------------

#唯一值
nunique(
好的!以下是关于如何在Python中安装常用库 `numpy`、`pandas`、`seaborn`、`matplotlib`、`scikit-learn`、`flask` 和 `tensorflow` 的详细说明以及它们的功能简介: ### 安装步骤 为了安装这些库,你需要确保已经正确配置了 Python 环境,并且需要使用包管理工具如 pip 或 conda。 #### 使用 Pip 安装 ```bash pip install numpy pandas seaborn matplotlib scikit-learn flask tensorflow joblib ``` 如果遇到权限问题可以尝试加上 `--user` 参数: ```bash pip install --user numpy pandas seaborn matplotlib scikit-learn flask tensorflow joblib ``` 对于 TensorFlow,在某些系统上可能会因为硬件兼容性导致版本冲突(例如 GPU 支持),所以建议先查看官方文档选择适合的版本后再运行安装命令。 #### 使用 Conda 安装 (推荐用于 Anaconda 用户) 如果你正在使用Anaconda,则通过Conda进行安装会更稳定一些: ```bash conda install numpy pandas seaborn matplotlib scikit-learn flask joblib # 对于TensorFlow, 可能需要单独指定频道或其他依赖项 conda install -c anaconda tensorflow ``` --- ### 各库功能概述 1. **NumPy**: 提供高性能数值计算能力的核心库。它支持大型数组与矩阵操作,同时提供大量的数学函数。 2. **Pandas**: 主要用于数据分析任务的数据处理工具集。提供了DataFrame结构来方便地加载、清洗及分析表格型数据。 3. **Seaborn & Matplotlib**: - Seaborn 基于Matplotlib构建而成,旨在简化统计图表生成过程。 - 而Matplotlib本身则是绘制二维图形的基础绘图框架。 4. **Scikit-Learn**: 最流行的机器学习库之一,内置了许多算法模型包括回归分类聚类降维等预处理方法评估指标等功能模块。 5. **Flask**: 微型Web应用开发框架,简单易用,非常适合快速搭建API服务或者小型网站项目。 6. **TensorFlow/Keras**: 深度学习领域的主流深度学习平台之一,支持从研究到生产部署整个流程;Keras作为高级接口被集成进去了,默认也是首选入门级选项。 7. **Joblib**: 尤其适用于保存复杂对象比如训练完后的ML/DL model文件时非常有用的一个序列化/反序列化的实用程序替代品pickle. --- 以上就是这几个重要Python科学计算生态系统的组成部分及其基本用途啦!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值