pandas 查找数据

优化Pandas数据筛选效率

最新推荐文章于 2025-03-03 11:21:17 发布

原创最新推荐文章于 2025-03-03 11:21:17 发布 · 3.4k 阅读

4 ·

CC 4.0 BY-SA版权

我们不生产知识，我们只是互联网的搬运工

编程语言专栏收录该内容

240 篇文章

订阅专栏

本文探讨了在处理ConceptNet5中文数据集时，如何利用Pandas库进行高效的数据筛选。通过对比不同方法的执行时间，发现直接使用布尔运算比apply方法更高效，并进一步优化了代码，将速度提升了数倍。

这里选取的数据集为 conceptNet5 的中文数据集

data = pd.read_csv(FILE, delimiter='\t')
data.columns = ['uri', 'relation', 'start', 'end', 'json']

在这里插入图片描述

使用布尔运算

使用计时器参见：【python 代码计时】

with Timer() as t:
    data[data['start'].str.contains('zh') & data['end'].str.contains('zh')]
'''
[time spent: 0.57s]
'''

这个速度还比较快了
在这里插入图片描述

使用 apply 方法

with Timer() as t:
    data[data.apply(lambda row: 'zh' in row['start'] and 'zh' in row['end'],axis=1)]
'''
[time spent: 9.03s]
'''

apply 是逐行遍历，看来没有做并行优化，

然鹅！上面的代码是有问题的！是可以优化的！

最大的问题就是上面的代码把不相关的列也牵扯了进来，正确的写法应该是：

with Timer() as t:
	data[data['start'].apply(lambda row: row.find('zh')>0) & data['end'].apply(lambda row: row.find('zh')>0)]
'''
[time spent: 0.33s]
'''

速度提升令人震惊！

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

颹蕭蕭

关注关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

pandas使用教程：导入数据和查找行和列，条件选择

Cachel Wood的博客

04-30

1679

学生的姓名，这列没有重复值，一个学生一行，即一条数据，共100条。这是一个学生各季度成绩总表（节选），各列说明如下。建立实际行索引之后，数字索引就没有了。：所在的团队、班级，这个数据会重复。：各个季度的成绩，可能会有重复值。

Pandas数据分析-数据查询

qq_48081868的博客

08-08

721

3.Padas的数据查询文章目录3.Padas的数据查询前言一、Pandas查询数据的几种方法二、Pandas使用df.loc查询数据的方法2.1 使用单个的label值查询数据2.2 使用值列表批量查询2.3 使用数值区间进行范围查询2.4 使用条件表达式查询2.5 调用函数查询总结前言笔者最近正在学习Pandas数据分析，将自己的学习笔记做成一套系列文章。本节主要记录Pandas的数据查询方法，如loc方法。一、Pandas查询数据的几种方法 df.loc 方法，根据行、列的标签值查询

参与评论您还未登录，请先登录后发表或查看评论

Pandas中的五种数据查询方法--【数值，列表，区间，条件，函数查询】

qq_46044325的博客

09-11

1万+

这种错误一般都是修改完之后了，不能在进行修改，说明已经修改过了。2. df.iloc方法，根据行、列的数字位置查询。注意，组合条件&符号合并，每个条件判断都得带括号。1.df.loc方法，根据行、列的标签值查询。.loc既能查询，又能覆盖写入，强烈推荐!行或列，都可以只传入单个值，实现精确匹配。1.使用单个label值查询数据。注意：区间既包括开始，也包括结束。3.使用数值区间进行范围查询。北京2018年全年天气预报。2.使用值列表批量查询。4.使用条件表达式查询。得到DataFrame。

[Pandas基础] Pandas 数据查询

m0_74827981的博客

10-06

2886

Pandas 数据查询的几种方法 1. df.loc方法查询，根据行，列的标签值查询 2. df.iloc方法查询 ,根据行,列的数字位置进行查询 3. df.where方法 4.df.query方法

pandas查询数据的几种方法

最新发布

听海边涛声

03-03

1463

pandas查询数据的几种方法

Pandas数据查询

qq_42765393的博客

02-26

1275

df.iloc方法，根据行、列的数字位置查询。.loc既能查询，又能覆盖写入，强烈推荐！降维：DataFrame>Series>值。行或者列，都可以只传入单个值，实现精确匹配。df.loc方法，根据行、列的标签值查询。以上查询方法，既使用与行，也适用于列。bool列表的长度得等于行数或者列数。使用单个label值查询数据。区间：包含开始，也包含结束。使用数值区间进行范围查询。df.where方法。df.query方法。

Pandas查询数据的5大方法

qq_41715032的博客

03-22

1735

pandas中的数据查询

pandas查找数据

09-22

在pandas中，可以通过使用代码来查找数据并找出数据内在的规律。其中，DataFrame是一种常用的数据结构，类似于Excel中的数据表格。要查找数据，可以使用DataFrame的loc方法。例如，可以使用loc方法来查找特定日期...

pandas查找数据中为零的值

04-10

关于Pandas查找数据中为零的值，您可以使用如下代码: ```python import pandas as pd df = pd.read_csv('your_data_file.csv') zero_values = df[df == 0].stack().index.tolist() print('Zero values:', zero_...

【每天一个小工具】python+pandas查找excel里的一组数据

weixin_38500144的博客

06-30

2540

python+pandas查找excel指定信息

使用pandas查找数据表中第一个非零元素对应的角度

weixin_41855010的博客

08-05

2000

有以下数据表，第一列表示角度值，第二列表示是否满足条件，现在的任务是找到第一个满足条件的角度，也就是第一个1出现的行号。我们可以编写以下代码来完成以上需求 import pandas as pd data = pd.read_csv("oneOrZeros.csv",encoding="utf-8",header=None) #target表示你要查询的数值 target = 1 #sel_data存储了所有val等于target的记录 sel_data = data[data[1]==target]

3000字详解Pandas数据查询，建议收藏

weixin_43373042的博客

12-27

859

大家好，又是新的一周，也是2021年的最后一周，今天小编来和大家说一说怎么从DataFrame数据集中筛选符合指定条件的数据，希望会对读者朋友有所帮助。导入数据集和模块我们先导入panda...

Pandas系列(二)查询数据

小小何先生的学习之旅

08-14

1568

Pandas中如何对数据进行查询，有5种方法对其进行查询：按数值、列表、区间、条件、函数五种方法： Pandas查询数据有以下几种方法： df.loc方法，根据行、列的标签值查询。.loc既能查询，又能覆盖写入。 df.iloc方法，根据行、列的数字位置查询。 df.where方法。 df.query方法。 Pandas使用.loc查询数据的方法有五个：使用单个label值查询数据使用值列表批量查询使用数值区间进行范围查询使用条件表达式查询调用函数查询以上方法既适用于行也

pandas(三)数据查询

风华浪浪的博客

07-01

947

数值、列表、区间、条件、函数Pandas查询数据的几种方法.loc既能查询，又能覆盖写入，强烈推荐！Pandas使用df.Ioc查询数据的方法6. 使用单个label值查询数据7. 使用值列表批量查询8. 使用数值区间进行范围查询9. 使用条件表达式查询10. 调用函数查询以上查询方法，既适用行，也适用列注意观察降维打 DataFrame > Series > 值。

Python：利用Pandas读取数据、查询指定条件的数据、以及数据的详细信息

热门推荐

无面人的博客

02-25

1万+

在Python中，如何利用Pandas去读取数据、查询指定条件的数据、以及获取数据的详细信息.

Pandas基础之查找和筛选数据

m0_55703957的博客

03-25

2033

这个表格是代码中使用的数据，因为csdn上面没办法传表格。宝子们，如果想使用可以粘贴到自己的excel中保存使用。

Pandas查询数据的几种方式

qq_40703593的博客

11-06

1万+

一、Pandas查询数据的几种方法 1.df.loc方法，根据行、列的标签值查询 2.df.iloc方法，根据行、列的数字位置查询 3.df.where方法， 4.df.query方法二、查询数据方法的实现案例注：在查询数据过程中会存在降维的情况，DataFrame中查询出某列或某行为Series类型，从DataFrame和Series中查询出某个值为具体的编程语言中的类型，如 int，float，str等类型 1、df.loc查询数据方法 ①使用单个label值查询数据

SearchArray:在Pandas数据框中实现高效全文搜索

2401_87189860的博客

09-06

1136

它是一个创新的Python库,旨在将全文搜索功能直接引入Pandas数据框,为数据科学家和机器学习工程师提供了一种简单而强大的方式来实现高效的文本搜索和排序。通过使用SearchArray,我们可以轻松地在Pandas数据框中实现高效的全文搜索功能,为数据分析和机器学习项目增添新的维度。它不仅简化了搜索功能的实现过程,还为创新型搜索应用的开发铺平了道路。然而,需要注意的是,SearchArray主要针对中小型数据集和原型开发设计,对于需要处理海量数据的生产环境,传统搜索引擎可能仍然是更好的选择。

7步教你随心所欲的用 Pandas 对数据进行复杂查询

Python学习与数据挖掘

02-25

1193

在数据分析和数据建模的过程中需要对数据进行清洗和整理等工作，有时需要对数据增删字段。本文将介绍Pandas对数据的复杂查询。实际业务需求往往需要按照一定的条件甚至复杂的组合条件来查询数据。本文将介绍如何发挥Pandas数据筛选的无限可能，随心所欲地取用数据。推荐文章有人把吴恩达老师的机器学习和深度学习做成了中文版超全整理：机器学习和 Python 技术路线来了上瘾了，最近又给公司撸了一个可视化大屏(附源码) 如此优雅，4款 Python 自动数据分析神器真香啊梳理半月有余，精