pyspark中timestamp字段类型过滤的细节

最新推荐文章于 2025-08-24 12:52:00 发布

原创最新推荐文章于 2025-08-24 12:52:00 发布 · 2.1k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#spark #timestamp #filter #毫秒

本文介绍两种过滤特定时间戳的方法：一种是直接使用字符串日期进行过滤；另一种是将时间戳转换为数值格式，再利用时间元组进行过滤。后者需要注意转换后的精度问题。

背景

假设存在以下数据，且time_stamp列的schema为TimeStamp

time_stamp	Feature
2019-07-22 00:00:00.044	A
2019-07-22 00:00:00.056	B
2019-07-22 00:00:01.090	B
2019-07-22 00:00:01.099	A
2019-07-22 00:00:02.233	C
2019-07-22 00:00:02.455	D
2019-07-22 00:00:02.673	A

现在如果要过滤 2019-7-22 00:00:01点之后的数据，有两种方式：

直接使用字符串日期进行过滤
将timestamp列cast为数值格式，然后传入timetuple进行过滤

第一种方式比较直接，写成如下方式即可：

origin_df.filter("time_stamp > '2019-07-22 00:00:01'")

得到的结果为：

time_stamp	Feature
2019-07-22 00:00:01.090	B
2019-07-22 00:00:01.099	A
2019-07-22 00:00:02.233	C
2019-07-22 00:00:02.455	D
2019-07-22 00:00:02.673	A

第二种方式有点小坑，一般的文档会推荐写成：

import datetime
a = datetime.datetime(2019,7,22,0,0,1).timestamp()
origin_df.filter(col("time_stamp").cast("long“） > a)

此时的结果为：

time_stamp	Feature
2019-07-22 00:00:02.233	C
2019-07-22 00:00:02.455	D
2019-07-22 00:00:02.673	A

你会发现数据变少了，原因就是通过cast（”long“）进行timestamp的转换时，数据只到秒级别，毫秒数据会被丢失，所以正确的方式应该是：

import datetime
a = datetime.datetime(2019,7,22,0,0,1).timestamp()
origin_df.filter(col("time_stamp").cast("double“） > a)

特此记录。。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

wang_306

关注关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

分布式计算入门（PySpark处理NASA服务器日志）

闲人编程的博客

03-09

405

分布式计算是一种将任务分解到多个计算节点上并行处理的方法。其基本思想是将一个大任务拆分成多个子任务，然后将这些子任务分发到不同的节点上同时计算，最后将各节点计算结果汇总。这种方式不仅可以显著提高数据处理速度，还能充分利用集群中的计算资源，避免单点瓶颈问题。数据并行性：将数据集划分为若干个子集，分别在多个节点上并行处理。任务并行性：将一个任务拆分为多个相互独立的子任务，各自并行执行。TotalCount∑i1NxiTotalCounti1∑Nxi其中xi。

pyspark笔记 Timestamp 类型的比较

qq_40206371的博客

08-02

685

因为所虽然此时timestamp列已经是Timestamp类型了，但由于d1,d2,d3比较的是一个字符串，所以filter比较的时候，又把对应的timestamp转化回string了。比如这个例子，s虽然也是4/1及之后的时间，但是他比c1小，也就是说不会被d2捕获。我们现在希望找到2023年4/1日及之后的所有行，于是我们有如下几种实现方式。首先将dart里面'timestamp'这一列转化成Timestamp类型。最近写pyspark遇到的一个小问题。查看timestamp的前5个元素。

参与评论您还未登录，请先登录后发表或查看评论

pyspark对timestamp列处理及对列进行修改格式

01-06

2006

import findspark findspark.init() from pyspark.sql.types import * from pyspark.sql import SparkSession from pyspark.sql.functions import to_date from pyspark.sql.functions import to_timestamp if __name__ == '__main__': # 0. 构建执行环境入口对象SparkSession

pyspark读取es

wzj_wp的博客

10-14

1570

方式一：sqlcontext def readEs(): conf = SparkConf().setAppName("es").setMaster("local[2]") sc = SparkContext(conf=conf) sqlContext = SQLContext(sc) df = sqlContext.read.format("org.elasticsearch.spark.sql") \ .option("es.nodes.wan.only"

shell 时间戳_pyspark之填充缺失的时间数据

weixin_39747293的博客

12-09

327

这里的场景是，原始数据有两个表示时间的字段：日期和小时，以及对应时间的数据值(比如某个网站的访问量，在凌晨一般没有，白天有)。只有数据值不为0的时候才会记录，因此数据值为0的时间段是没有的。但我们可能需要这些数据，因此就要用到填充功能。下面会举一个例子来说明。首先导入需要用到的包，这里的pyspark版本是2.2.0，python版本是2.7。import sys reload(sys) sys....

pyspark笔记

Sniper24's Tech Archive

10-26

1213

pyspark.sql.SQLContextTop funcs: 1. 创建DF createDataFrame(data,schema) 2. 从多种数据源读取数据，sqlContext 3. user-define类 registerDataFrameAsTable(df, tableName) registerFunction(name, f, returnType=StringT

PySpark数据结构与类型操作全解析

### PySpark 数据结构与类型操作全解析 #### 1. PySpark 中的数据结构基础在 PySpark 里，数据结构的运用十分关键。像 map 这种结构，PySpark 会把它展示得如同数组一般，不过每个键会通过箭头映射到一个值。例如...

hive查询hudi timestamp类型

02-20

### 如何在 Hive 中查询 Hudi 表的 Timestamp 类型字段为了确保能够在 Hive 中正确查询 Hudi 表中的 `timestamp` 类型字段，需要确认几个配置项已经设置妥当。 #### 配置 Hoodie 同步工具支持 Timestamp 类型 ...

15、PySpark 数据处理：时间戳、布尔值、空值及复杂类型的运用

最新发布

l3m4n的博客

08-24

本文详细介绍了在 PySpark 中处理时间戳、布尔值、空值的方法，并探讨了复杂数据类型的运用，包括数组、映射和结构体的操作技巧。通过实际代码示例和案例分析，帮助读者掌握高效的数据处理与分析技能，适用于实际大数据应用场景。

PySpark数据类型与操作全解析

# PySpark 数据类型与操作全解析 ## 1. 日期和时间处理 ### 1.1 日期和时间的表示在处理数据时，日期和时间的表示是一个看似简单实则复杂的问题。不同地区对于日期的表示方式存在差异，例如“7/11”在不同地区可能...

Spark的timestamp 数据时间问题

qq_41758289的博客

02-07

1607

使用Spark来处理国际业务数据，涉及到数据时区转换，在实际项目中出现时区转换问题。但在实际Cluster 去run job的时候，如果给一个eff_dt为的时间，但是往往会出现df_eff_dt为20240131的日期。

sqlalchemy查询时过滤类型为TIMESTAMP字段的数据

请叫我皮皮虾的博客

05-10

1001

1、问题记录：python中，如何得到过滤字段为TIMESTAMP类型的数据库表中的数据？（过滤create_time为当天的数据） python中简化的表的结构如下： class Test(Base): __tablename__ = 'test' create_time = Column(TIMESTAMP, nullable=False, server_default=text("CURRENT_TIMESTAMP")) id = Column(Inter) create_time的数据类

PostgreSQL 进阶 - 模式匹配，过滤敏感数据，数据清理

weixin_57266891的博客

11-02

1885

通过从1到50生成一系列数字，将生成的数字与预定义的字符串连接起来，并将结果分别插入“url”、“name” 和 “description” 字段。

Wireshark 用户使用手册 ———— 命令行控制 Wireshark

永远的菜鸡小詹的博客

11-05

1万+

目录命令行控制 Wireshark命令行参数解析 Wireshark 的默认行为通常会很好地满足你的需求。但是，随着对 Wireshark 越来越熟悉，它可以通过各种方式进行定制，以更好地满足你的需求。在本文中，我们将主要探讨： 1. 如何使用命令行参数启动 Wireshark 2. 如何为数据包列表着色 3. 如何控制协议剖析 4. 如何使用各种首选项设置命令行控制 Wireshark 你可以从命令行启动 Wireshark，但也可以从大多数窗口管理器启动它。在本节中，我们将

tcpdump笔记

yjkhtddx的专栏

01-27

2014

tcpdump

*TIMESTAMP列类型*

kaixuanman的博客

11-30

229

嗅探工具 --- wireshark、tcpdump、dsniff、ettercap、bettercap、netsniff-ng、cain