如何在 Pandas 中将 DataFrame 列转换为日期时间

Pandas中DataFrame列转日期时间的方法

最新推荐文章于 2025-10-08 00:39:07 发布

原创最新推荐文章于 2025-10-08 00:39:07 发布 · 1.9k 阅读

32 ·

CC 4.0 BY-SA版权

文章标签：

#pandas

引言：掌握日期时间格式，数据处理更高效

你是否曾经遇到过这样的问题：从 CSV 文件或数据库中导入的数据中，日期列被识别为字符串类型，导致无法进行时间序列分析或计算？或者，在合并多个数据集时，由于日期格式不一致，导致数据对齐错误？这些问题的根本原因在于 Pandas 的 DataFrame 默认情况下不会自动将日期列识别为日期时间类型。今天，我们将深入探讨如何在 Pandas 中将 DataFrame 列转换为日期时间，并提供一些实用的技巧和最佳实践。

为什么需要将列转换为日期时间？

在数据科学领域，尤其是涉及时间序列分析时，日期时间类型的正确处理至关重要。以下是几个关键原因：

时间序列操作：日期时间类型允许我们进行各种时间序列操作，如重采样、滚动窗口计算、滞后等。
日期运算：可以方便地进行日期之间的加减运算，例如计算两个日期之间的天数差。
排序与筛选：按日期排序或筛选特定时间段的数据变得更加简单。
可视化：在绘制时间序列图表时，日期时间类型能更好地支持轴标签和刻度。

使用 `pd.to_datetime()` 方法

Pandas 提供了一个非常强大的函数 pd.to_datetime()，用于将字符串或其他类型的列转换为日期时间格式。下面通过具体的例子来说明其用法。

基本用法

假设我们有一个包含日期字符串的 DataFrame：

import pandas as pd

data = {'date': ['2023-01-01', '2023-01-02', '2023-01-03']}
df = pd.DataFrame(data)
print(df.dtypes)

输出结果如下：

date    object
dtype: object

可以看到，默认情况下，date 列是 object 类型（即字符串）。我们可以使用 pd.to_datetime() 将其转换为 datetime64[ns] 类型：

df['date'] = pd.to_datetime(df['date'])
print(df.dtypes)

输出结果变为：

date    datetime64[ns]
dtype: object

处理不同的日期格式

实际应用中，日期格式可能千差万别。pd.to_datetime() 支持多种常见的日期格式，并且可以通过参数 format 明确指定格式。例如：

data = {'date': ['01/01/2023', '01/02/2023', '01/03/2023']}
df = pd.DataFrame(data)

df['date'] = pd.to_datetime(df['date'], format='%m/%d/%Y')
print(df.dtypes)

如果遇到不规范的日期格式，还可以使用 errors='coerce' 参数将无法解析的值设为 NaT（Not a Time）：

data = {'date': ['01/01/2023', 'invalid_date', '01/03/2023']}
df = pd.DataFrame(data)

df['date'] = pd.to_datetime(df['date'], format='%m/%d/%Y', errors='coerce')
print(df)

输出结果：

         date
0 2023-01-01
1        NaT
2 2023-01-03

处理缺失值

有时，数据集中可能包含缺失值（如 NaN 或空字符串）。pd.to_datetime() 在处理这些情况时表现得非常智能，会自动将其转换为 NaT：

data = {'date': ['2023-01-01', None, '2023-01-03']}
df = pd.DataFrame(data)

df['date'] = pd.to_datetime(df['date'])
print(df)

输出结果：

        date
0 2023-01-01
1        NaT
2 2023-01-03

性能优化

当处理大规模数据时，性能是一个不可忽视的问题。为了提高转换速度，可以利用 cache=True 参数。该参数会在内部缓存已解析的日期格式，从而加速后续相同格式的解析过程：

data = {'date': ['2023-01-01'] * 100000}
df = pd.DataFrame(data)

%time df['date'] = pd.to_datetime(df['date'], cache=True)

处理时区信息

在全球化背景下，跨时区的数据处理变得越来越重要。Pandas 提供了丰富的时区支持功能，帮助我们在不同地区之间进行准确的时间转换。

添加时区信息

假设我们有一列 UTC 时间戳，希望将其转换为带有时区信息的日期时间对象：

data = {'utc_time': ['2023-01-01 12:00:00', '2023-01-02 12:00:00']}
df = pd.DataFrame(data)

df['utc_time'] = pd.to_datetime(df['utc_time']).dt.tz_localize('UTC')
print(df)

输出结果：

                 utc_time
0 2023-01-01 12:00:00+00:00
1 2023-01-02 12:00:00+00:00

转换时区

接下来，我们可以将 UTC 时间转换为其他时区，例如中国标准时间（CST）：

df['cst_time'] = df['utc_time'].dt.tz_convert('Asia/Shanghai')
print(df)

输出结果：

                 utc_time                  cst_time
0 2023-01-01 12:00:00+00:00 2023-01-01 20:00:00+08:00
1 2023-01-02 12:00:00+00:00 2023-01-02 20:00:00+08:00

移除时区信息

在某些情况下，我们可能不需要时区信息，这时可以使用 tz_localize(None) 来移除时区：

df['local_time'] = df['cst_time'].dt.tz_localize(None)
print(df)

输出结果：

                 utc_time                  cst_time           local_time
0 2023-01-01 12:00:00+00:00 2023-01-01 20:00:00+08:00 2023-01-01 20:00:00
1 2023-01-02 12:00:00+00:00 2023-01-02 20:00:00+08:00 2023-01-02 20:00:00

实战案例：处理复杂的日期格式

在现实世界中，日期格式往往比想象中复杂得多。接下来，我们通过一个实际案例来展示如何应对这种情况。

案例背景

某公司有一个销售记录表，其中包含订单日期。但由于历史遗留问题，日期格式非常混乱，有以下几种情况：

标准日期格式（如 2023-01-01）
美式日期格式（如 01/01/2023）
含有时区信息的 ISO8601 格式（如 2023-01-01T12:00:00Z）

我们需要将所有日期统一转换为标准的日期时间格式。

解决方案

首先，导入数据并查看前几行：

data = {
    'order_date': [
        '2023-01-01',
        '01/02/2023',
        '2023-01-03T15:00:00Z',
        '2023-01-04'
    ]
}
df = pd.DataFrame(data)
print(df)

输出结果：

              order_date
0               2023-01-01
1               01/02/2023
2  2023-01-03T15:00:00Z
3               2023-01-04

然后，使用 pd.to_datetime() 进行转换：

df['order_date'] = pd.to_datetime(df['order_date'], infer_datetime_format=True, errors='coerce')
print(df)

输出结果：

          order_date
0 2023-01-01 00:00:00
1 2023-01-02 00:00:00
2 2023-01-03 15:00:00
3 2023-01-04 00:00:00

通过设置 infer_datetime_format=True，Pandas 会自动推断最合适的日期格式；同时使用 errors='coerce' 来处理无法解析的情况。

最佳实践与技巧

在日常工作中，掌握一些最佳实践和技巧能够显著提高工作效率和代码质量。

使用 `read_csv()` 直接加载日期时间列

当从 CSV 文件读取数据时，可以利用 parse_dates 参数直接将指定列转换为日期时间类型：

df = pd.read_csv('sales_data.csv', parse_dates=['order_date'])

这不仅简化了代码，还能提高读取效率。

避免重复转换

一旦将某一列成功转换为日期时间类型，尽量避免对其进行重复转换。因为每次转换都会带来额外的计算开销。如果确实需要重新赋值，建议先检查目标列的类型：

if df['date'].dtype != 'datetime64[ns]':
    df['date'] = pd.to_datetime(df['date'])

利用向量化操作

相比于逐行遍历，Pandas 的向量化操作通常具有更高的性能。因此，在处理大量数据时，应优先选择内置的向量化方法。例如，计算两个日期之间的天数差：

df['days_diff'] = (df['end_date'] - df['start_date']).dt.days

注意内存占用

对于超大规模的数据集，频繁创建新的列可能会导致内存不足的问题。此时，可以考虑使用 inplace=True 参数直接修改原列，或采用增量处理的方式分批次处理数据。

结合 CDA 数据分析师课程提升技能

如果你对数据分析感兴趣，并希望系统地学习更多关于 Pandas 及其他工具的知识，不妨了解一下 CDA 数据分析师课程。CDA 提供了丰富的课程资源和实战项目，涵盖了从基础到高级的各种技能，帮助你快速成长为一名合格的数据分析师。

延伸阅读

以上就是在 Pandas 中将 DataFrame 列转换为日期时间的详细讲解。通过掌握这些技巧和最佳实践，你可以更加高效地处理各种日期时间相关的问题。希望本文对你有所帮助！

如何在 Pandas 中将 DataFrame 列转换为日期时间

引言：掌握日期时间格式，数据处理更高效

为什么需要将列转换为日期时间？

使用 pd.to_datetime() 方法

基本用法

处理不同的日期格式

处理缺失值

性能优化

处理时区信息

添加时区信息

转换时区

移除时区信息

实战案例：处理复杂的日期格式

案例背景

解决方案

最佳实践与技巧

使用 read_csv() 直接加载日期时间列

避免重复转换

利用向量化操作

注意内存占用

结合 CDA 数据分析师课程提升技能

延伸阅读

使用 `pd.to_datetime()` 方法

使用 `read_csv()` 直接加载日期时间列