polars：数据处理的新一代王者

最新推荐文章于 2025-04-12 11:02:02 发布

爱Python的小朋友

最新推荐文章于 2025-04-12 11:02:02 发布

阅读量577

点赞数 20

文章标签： python 开发语言前端数据库

本文链接：https://blog.youkuaiyun.com/2301_80799243/article/details/144625895

版权

大家好呀！今天我要给大家介绍一个超级强大的数据处理库 —— polars。如果说pandas是数据处理界的老大哥，那polars就是新生代的实力派选手。它不仅速度快得惊人，内存占用还特别小，而且API设计得相当优雅。对于处理大规模数据集，polars简直就是一把利器！让我们一起来探索这个让数据分析变得更轻松的神器吧！

polars是什么？

polars是用Rust语言编写的Python数据处理库，它的设计灵感来自Apache Arrow。就像开着超跑处理数据一样，polars能让你的数据分析工作跑得又快又稳。首先，让我们安装它：

pip install polars

🌟 小贴士：如果你想要完整功能，可以安装所有可选依赖：

pip install "polars[all]"

基础使用

创建DataFrame

让我们从最基础的DataFrame创建开始：

import polars as pl

# 从字典创建DataFrame
df = pl.DataFrame({
    "name": ["Tom", "Jerry", "Mike"],
    "age": [20, 25, 30],
    "city": ["New York", "London", "Tokyo"]
})

# 从CSV文件读取
df = pl.read_csv("data.csv")

# 查看数据
print(df)

基本操作

polars的语法设计非常优雅，支持链式操作：

# 数据筛选和转换
result = df.filter(pl.col("age") > 25)\
           .select(["name", "city"])\
           .sort("name")

# 聚合操作
summary = df.groupby("city")\
           .agg([
               pl.col("age").mean().alias("avg_age"),
               pl.count("name").alias("count")
           ])

性能优化特性

惰性求值

polars的一大特色是支持惰性求值，可以大大提升性能：

# 创建惰性DataFrame
lazy_df = pl.scan_csv("large_file.csv")

# 构建查询计划
result = lazy_df.filter(pl.col("value") > 100)\
                .groupby("category")\
                .agg(pl.col("amount").sum())\
                .collect()  # 此时才真正执行计划

🔥 性能提示：对于大数据集，优先使用惰性求值！

并行处理

polars默认就支持多线程处理：

import polars as pl

# 设置并行线程数
pl.Config.set_num_threads(4)

# 处理大数据
df = pl.read_csv("big_data.csv")\
       .filter(pl.col("value") > 0)\
       .groupby("category")\
       .agg([
           pl.col("amount").sum(),
           pl.col("quantity").mean()
       ])

与pandas对比

来看看polars和pandas的一些关键区别：

# pandas写法
import pandas as pd
pd_df = pd.read_csv("data.csv")
result = pd_df[pd_df["age"] > 25].groupby("city")["salary"].mean()

# polars写法
import polars as pl
pl_df = pl.read_csv("data.csv")
result = pl_df.filter(pl.col("age") > 25)\
              .groupby("city")\
              .agg(pl.col("salary").mean())

⚡️ 速度对比：polars通常比pandas快2-10倍！

高级特性

表达式API

polars的表达式API非常强大：

# 复杂条件筛选
df.filter(
    (pl.col("age") > 25) & 
    (pl.col("city").is_in(["New York", "Tokyo"]))
)

# 窗口函数
df.with_columns([
    pl.col("salary")
    .mean()
    .over("department")
    .alias("dept_avg_salary")
])

数据类型处理

# 自动类型推断
df = pl.read_csv("data.csv", dtype_overrides={"id": pl.Int32})

# 类型转换
df.with_columns([
    pl.col("date").str.strptime(pl.Date, "%Y-%m-%d"),
    pl.col("amount").cast(pl.Float32)
])

🚨 注意事项：

polars的日期时间处理与pandas有所不同
某些pandas的方法名在polars中可能不同
默认情况下，polars不支持行索引（index）概念

实用技巧

内存优化：

# 查看内存使用
df.estimated_size()

# 使用适当的数据类型
df.with_columns([
    pl.col("big_numbers").cast(pl.Int32)
])

性能调优：

# 使用streaming模式处理大文件
for batch in pl.read_csv("huge_file.csv").iter_chunks(10000):
    process_batch(batch)

练习题：

创建一个包含学生成绩的DataFrame，计算每个科目的平均分和标准差
使用惰性求值处理一个大型CSV文件，筛选并聚合数据
对比polars和pandas处理同一个数据集的性能差异

小伙伴们，今天的Python学习之旅就到这里啦！记得动手实践，有问题随时在评论区问我哦。让我们一起感受polars带来的速度与激情吧！祝大家学习愉快，Python学习节节高！

更多请关注微信公众号SurzZ