python | s4cmd，一个超酷的 Python 库！

原创于 2025-11-27 17:42:28 发布 · 305 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #github #prompt #学习 #深度学习 #python

深度学习拓展阅读同时被 2 个专栏收录

993 篇文章

订阅专栏

python库

179 篇文章

订阅专栏

本文来源公众号“python”，仅用于学术分享，侵权删，干货满满。

原文链接：https://mp.weixin.qq.com/s/AfJfqNT1TxvERl1mS-kqvA

在云计算时代，Amazon S3已成为最流行的对象存储服务之一。然而，传统的s3cmd工具在处理大量文件或大文件时往往效率较低。s4cmd应运而生，它是一款用纯Python编写的超级S3命令行工具，基于boto3库开发，代码量控制在1500行以内，却实现了多线程并发传输、批量删除、大文件分片上传等强大功能。相比s3cmd，s4cmd在上传下载速度上通常能获得2倍以上的性能提升，特别适合需要频繁与S3交互的运维人员和开发者使用。

安装

1、安装方法

s4cmd可以通过pip包管理器轻松安装。在终端中执行以下命令即可完成安装，整个过程非常简单快捷，无需额外配置复杂的依赖环境。

# 使用pip安装s4cmd
pip install s4cmd

# 如果需要指定Python3环境
pip3 install s4cmd

2、验证安装

安装完成后，可以通过查看版本信息来验证是否安装成功。同时需要配置AWS凭证，s4cmd支持多种凭证配置方式，非常灵活。

# 查看s4cmd版本
s4cmd --version

# 配置凭证方式一：使用环境变量
export S3_ACCESS_KEY="your_access_key"
export S3_SECRET_KEY="your_secret_key"

# 配置凭证方式二：使用已有的.s3cfg配置文件（如果之前配置过s3cmd）
# s4cmd会自动读取~/.s3cfg中的凭证信息

核心特性

多线程并发：采用多线程多连接实现，显著提升文件传输效率
大文件支持：支持超过5GB大文件的分片上传（Multi-part Upload）
批量删除：单次API调用可删除多达1000个文件，速度提升100倍以上
通配符支持：支持Unix风格的通配符匹配，如s3://bucket/folder/*/*.txt
自动重试：失败任务会自动延迟重试，提高操作可靠性
MD5校验：支持上传下载时的MD5完整性校验
时间戳过滤：支持按文件修改时间进行筛选操作

基本功能

1、列出文件（ls）

列出S3存储桶中的文件是最基础的操作。s4cmd的ls命令支持递归列出和显示目录本身等选项，操作方式与Linux的ls命令非常相似，便于用户快速上手。

import subprocess

# 列出存储桶根目录
subprocess.run(['s4cmd', 'ls', 's3://my-bucket/'])

# 递归列出所有文件
subprocess.run(['s4cmd', 'ls', '-r', 's3://my-bucket/data/'])

# 只显示目录条目
subprocess.run(['s4cmd', 'ls', '-d', 's3://my-bucket/logs/'])

2、上传文件（put）

上传功能是s4cmd的核心能力之一。通过多线程技术，s4cmd能够快速将本地文件上传到S3，支持递归上传整个目录，还可以通过同步检查避免重复上传相同内容。

import subprocess

# 上传单个文件
subprocess.run(['s4cmd', 'put', 'local_file.txt', 's3://my-bucket/'])

# 递归上传整个目录
subprocess.run(['s4cmd', 'put', '-r', './local_folder/', 's3://my-bucket/backup/'])

# 启用同步检查，避免重复上传
subprocess.run(['s4cmd', 'put', '-r', '-s', './data/', 's3://my-bucket/data/'])

3、下载文件（get）

下载操作同样高效，支持从S3下载文件到本地。多线程下载机制确保了大文件和批量文件下载的速度优势，同时支持同步检查功能。

import subprocess

# 下载单个文件
subprocess.run(['s4cmd', 'get', 's3://my-bucket/file.txt', './'])

# 递归下载整个目录
subprocess.run(['s4cmd', 'get', '-r', 's3://my-bucket/data/', './local_data/'])

# 强制覆盖本地已存在的文件
subprocess.run(['s4cmd', 'get', '-f', 's3://my-bucket/config.json', './'])

4、删除文件（del）

s4cmd的删除功能采用批量删除API，单次调用可处理1000个文件，相比顺序删除效率提升百倍以上，特别适合清理大量临时文件或日志。

import subprocess

# 删除单个文件
subprocess.run(['s4cmd', 'del', 's3://my-bucket/old_file.txt'])

# 递归删除整个目录
subprocess.run(['s4cmd', 'del', '-r', 's3://my-bucket/temp/'])

# 模拟删除（不实际执行）
subprocess.run(['s4cmd', 'del', '-r', '-n', 's3://my-bucket/logs/'])

高级功能

1、同步操作（sync）

同步功能可以保持本地目录与S3存储桶内容一致。配合递归、强制覆盖和同步检查参数，能够实现增量同步，只传输变化的文件，大大节省时间和带宽。

import subprocess

# 本地到S3同步
subprocess.run([
    's4cmd', 'sync', 
    '--recursive', '--force', '--sync-check',
    './local_folder/', 's3://my-bucket/remote_folder/'
])

# S3到本地同步
subprocess.run([
    's4cmd', 'sync',
    '--recursive', '--sync-check',
    's3://my-bucket/data/', './local_backup/'
])

2、时间戳过滤

s4cmd支持按文件最后修改时间进行过滤，这在处理日志归档、数据清理等场景中非常实用。支持人性化的时间表达方式，如"2 months ago"。

import subprocess

# 删除2个月前的旧文件
subprocess.run([
    's4cmd', 'del', '-r',
    '--last-modified-before', '2 months ago',
    's3://my-bucket/logs/'
])

# 只下载最近一周的文件
subprocess.run([
    's4cmd', 'get', '-r',
    '--last-modified-after', '7 days ago',
    's3://my-bucket/reports/', './recent_reports/'
])

3、服务端加密

在企业级应用中，数据安全至关重要。s4cmd支持通过API参数传递实现服务端加密，保障存储在S3中的数据安全性。

import subprocess

# 使用服务端加密上传文件
subprocess.run([
    's4cmd', 'put',
    '--API-ServerSideEncryption', 'AES256',
    'sensitive_data.txt', 's3://my-bucket/secure/'
])

实际应用场景

1、日志归档自动化

在生产环境中，服务器每天会产生大量日志文件。使用s4cmd可以快速将日志同步到S3进行长期存储，同时删除本地过期日志，释放磁盘空间。

#!/bin/bash
# 每日日志归档脚本
DATE=$(date +%Y%m%d)

# 上传今日日志到S3
s4cmd put -r /var/log/app/ s3://company-logs/app/$DATE/

# 删除S3上90天前的旧日志
s4cmd del -r --last-modified-before '90 days ago' s3://company-logs/app/

2、数据备份与恢复

利用s4cmd的同步功能，可以实现数据库备份文件的增量同步，确保数据安全的同时最小化传输量。

# 增量同步数据库备份
s4cmd sync --recursive --sync-check \
    /backup/database/ s3://backup-bucket/database/

总结

s4cmd是一款专为高效处理Amazon S3操作而设计的Python命令行工具。它基于boto3库构建，通过多线程并发技术实现了相比传统工具2倍以上的性能提升。其核心优势包括：批量删除API支持（效率提升100倍）、超过5GB大文件的分片上传、Unix风格的通配符匹配、自动重试机制以及时间戳过滤功能。无论是日常的文件上传下载，还是复杂的日志归档、数据备份场景，s4cmd都能提供简洁高效的解决方案。对于需要频繁与S3交互的运维工程师和开发者而言，s4cmd无疑是提升工作效率的利器。

THE END !

文章结束，感谢阅读。您的点赞，收藏，评论是我继续更新的动力。大家有推荐的公众号可以评论区留言，共同学习，一起进步。