记录一个pandas执行模糊查询sql的坑

最新推荐文章于 2025-09-10 14:31:02 发布

原创最新推荐文章于 2025-09-10 14:31:02 发布 · 2.4k 阅读

1 ·

CC 4.0 BY-SA版权

后端开发同时被 2 个专栏收录

9 篇文章

订阅专栏

python

2 篇文章

订阅专栏

本文介绍在使用Presto查询引擎时，如何正确进行模糊查询。通过调整SQL语句中的like子句，解决了因字符匹配错误导致的问题，确保了查询结果的准确性。

查询引擎使用了presto，在sql中使用了模糊查询。
engine = create_engine(presto_url,encoding='utf-8')

sql_exe ="""select id,title,tags from source.base.table where  tags like '%呵呵%' """

df = pd.read_sql_query(sql_exe,engine)

一直报错：unsupported format character

解决方案

1 sql_exe ="""select id,title,tags from source.base.table where tags like '%%呵呵%%' """

2 sql_exe ="""select id,title,tags from source.base.table where tags like %s """

df = pd.read_sql_query(sql_exe,engine,params=("%呵呵%",))

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

onwingsofsong

关注关注

4
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

数据分析-27-基于pandas进行模糊匹配merge_asof和groupby分组统计

qq_20466211的博客

10-01

1008

pandas.merge_asof()函数是pandas库中的一个非常实用的函数，用于根据时间戳将两个数据集进行合并。该函数可以很好地处理时间戳不完全匹配的情况，并进行模糊匹配。理解groupby：split(分割)、apply(应用)、combine(组合)。(1)split：按照指定的key分割dataframe；(2)apply：对每个组应用聚合函数；(3)combine：将所有的聚合结果合并成一个数据框。

从0到1学Pandas（六）：Pandas 与数据库交互

邓邓子的博客

07-26

1365

本文聚焦 Pandas 与数据库的交互操作，从基础到进阶全面讲解。先介绍连接 SQLite、MySQL 等数据库的方法，以及执行 SQL 查询、创建修改表结构的操作。再详述数据导入导出，包括 read_sql、to_sql 函数的使用及大数据量处理。还阐述了数据库事务处理的 ACID 特性、批量操作与错误回滚，最后讲解查询优化、连接池管理和数据同步策略，为开发者提供 Pandas 与数据库交互的完整指南。

参与评论您还未登录，请先登录后发表或查看评论

【Coding】Pandas实现VLOOKUP模糊搜索匹配

SUFEHeisenberg的博客

02-27

3733

【Coding】Pandas实现VLOOKUP模糊搜索匹配 1. 问题描述如果想利用pandas在python中实现Series文本中的模糊匹配而非精准匹配，可以利用fuzzy实现。 2. 数据样例 df1 = pd.DataFrame([['Apple','A'],['Banana','B'],['Orange','C'],['Strawberry','D'],['Mango','G']], columns=['Fruits','AA']) df2 = pd.DataFrame([['Aple','a'

别再低效筛选数据了！试试pandas query函数

Python966的博客

03-21

3472

数据过滤在数据分析过程中具有极其重要的地位，因为在真实世界的数据集中，往往存在重复、缺失或异常的数据。

Pandas Query 方法深度总结

周萝卜的博客

07-25

7101

大多数 Pandas 用户都熟悉 iloc[] 和 loc[] 索引器方法，用于从 Pandas DataFrame 中检索行和列。但是随着检索数据的规则变得越来越复杂，这些方法也随之变得更加复杂而臃肿。同时 SQL 也是我们经常接触且较为熟悉的语言，那么为什么不使用类似于 SQL 的东西来查询我们的数据呢事实证明实际上可以使用 query() 方法做到这一点。因此，在今天的文章中，我们将展示如何使用 query() 方法对数据框执行查询获取数据我们使用 kaggle 上的 Titanic 数据集作

pandas多条件模糊搜索（sql， like）

小小臭臭的博客

09-21

2321

pandas实现多条件模糊搜索

pandas 模糊查询

Kp0fS的草稿纸

06-01

2481

def search(df, column, keywords): """ Pandas fuzzy search :param df: pandas dataframe :param column: the name of column :param keywords: the key words of your search :return: [true, false,...,true] list """ return df[column.

Python连接StarRocks全流程实践: SQL文件调用与Pandas混合优化

t.y.Tang的博客

03-21

2398

通过这种分阶段混合计算, 既能发挥StarRocks处理海量数据的性能优势, 又能保留Pandas在内存计算中的灵活性, 实现效率与功能的完美平衡.结合SQL的高效聚合与Pandas的灵活计算, 实现查询和数据处理的深度融合.该库基于SQLAlchemy 2.x开发, 仅支持Python 3.x环境.对大批量数据的写入, 建议进行分块. 分块写入较单条插入速度会有显著提升.这样可以避免python代码的查询与SQL耦合, 支持版本化管理.将DDL, DML分离为独立文件, 例如。: 调整连接复用参数。

Pandas数据分析全流程——从数据导入到结果输出，这一篇文章就够了

奔跑的蜗牛

04-22

1126

🎉 今天我们从数据导入、清洗、处理与转换，到数据探索与专业分析，再到可视化和结果输出，走了一遍完整的Pandas数据分析全流程。这里用SQLAlchemy作为数据库引擎示例，假设你使用的是SQLite数据库（其他数据库类似，只需更换连接字符串）。分析不同部门的薪资分布，不仅能看出部门间的差距，也能发现数据中的潜在问题，比如是否存在薪资异常或数据偏态现象。这一步，不仅是数据分析，更像是给数据做一次“全身检查”，发现每个细节问题，让决策者有据可依！数据清洗其实就是对症下药，让数据变得干净、标准，便于后续处理。

餐厅评论最多SQL查询实现

热门推荐

qq_39926861的博客

12-07

2万+

主要用到的工具：Pandas 、fuzzywuzzy Pandas:是基于numpy的一种工具，专门为分析大量数据而生，它包含大量的处理数据的函数和方法，以下为pandas中文API: 缩写和包导入在这个速查手册中，我们使用如下缩写： df：任意的Pandas DataFrame对象 s：任意的Pandas Series对象同时我们需要做如下的引入： import pa...

Pandas数据处理学习笔记|contains/startswith/endswith模糊查询数据

weixin_46706405的博客

04-08

315

模糊查询

编程之路

08-07

406

Title var app = angular.module('myApp',[]); app.controller("myControl",function($scope){ $scope.friends = [ {name:'aaa',phone:'110'},

pandas isin和模糊查询contains，list 模糊查询find；numpy合并concatenate，argsort

weixin_42357472的博客

04-08

1424

contains kkk1.loc[kkk1["querytext"].str.contains("迷你小")]

【Python】pandas 筛选数据的 8 个骚操作

fengdu78的博客

06-13

4660

肝了一个月的pandas进阶小册子出炉了????「pandas进阶宝典」日常用Python做数据分析最常用到的就是查询筛选了，按各种条件、各种维度以及组合挑出我们想要的数据，以方便我们分析挖掘。东哥总结了日常查询和筛选常用的种骚操作，供各位学习参考。本文采用sklearn的boston数据举例介绍。fromsklearnimportdatasets importpandasaspd bos...

Python的pandas查询数据

04-01

<think>嗯，用户问的是如何使用Python的Pandas库执行数据查询操作。首先，我需要回忆Pandas中常用的数据查询方法。记得Pandas主要有两种数据结构，DataFrame和Series，而查询操作通常是在DataFrame上进行的。首先，用户可能需要基本的查询方式，比如布尔索引。比如通过条件筛选数据，例如df[df['age'] > 30]，这样可以筛选出年龄大于30的行。这个是最基础也是最常用的方法，应该放在前面介绍。然后是.loc和.iloc方法。.loc是基于标签的索引，可以同时指定行和列的条件，而.iloc是基于位置的索引，适合按位置选择数据。可能需要分别举例说明，比如用.loc选择特定行和列，或者结合条件查询。接下来，用户可能需要进行字符串的模糊查询，比如使用str.contains方法。例如，筛选出名字中包含“John”的行。这时候需要提到Pandas的字符串方法，并且提醒注意大小写敏感的问题，可能还需要提到case参数的使用。另外，isin方法也是常用的，用于筛选某列的数值是否在某个列表中。比如df[df['city'].isin(['Beijing', 'Shanghai'])]，这样可以选出城市是北京或上海的数据。这个在处理分类数据时非常有用。还有query方法，这个可能更高级一些，允许使用字符串表达式进行查询，类似于SQL的WHERE子句。比如df.query("age > 30 and city == 'Shanghai'")，这样的写法更简洁，适合熟悉SQL的用户。不过需要说明的是，query方法的性能可能在大数据量时不如布尔索引，但代码可读性更好。用户可能还关心如何执行SQL查询，比如直接从数据库读取数据或者对DataFrame执行SQL语句。这时候需要提到read_sql_query函数，以及结合SQLAlchemy引擎的使用。例如，使用pd.read_sql_query("SELECT * FROM table WHERE age > 30", engine)来从数据库获取数据。同时，保存DataFrame到数据库可以用to_sql方法，这也是常见操作。参数化查询是为了防止SQL注入，这时候需要提到使用参数化查询的方式，比如在read_sql_query中使用params参数传递变量，而不是拼接字符串。这样可以提高安全性，特别是在处理用户输入的时候。在注意事项方面，性能优化很重要。对于大数据集，应该建议使用向量化操作，避免循环。此外，索引的合理使用也能提升查询速度，比如对常用查询字段设置索引。同时，处理缺失值时需要注意，比如NaN的处理可能会影响查询结果。用户提供的引用中提到了read_sql_query和to_sql的使用，以及SQLAlchemy的参数。所以需要确保在回答中涵盖这些点，特别是如何连接到数据库和执行查询。此外，引用中还提到国内镜像安装的问题，不过用户的问题是关于数据查询，可能不需要涉及安装部分，但如果有环境配置的问题，可能需要提到，但这里应该不需要。可能用户的实际需求是从数据库查询数据并进行处理，或者对现有的DataFrame进行灵活的条件筛选。需要结合不同的方法，给出示例代码，让用户能够直接复制使用。同时，要注意代码的格式正确，比如使用反引号包裹代码块，并正确标注语言类型。最后，生成的相关问题需要围绕Pandas的查询操作展开，比如如何组合多个条件，处理复杂查询，性能优化，或者如何将查询结果导出。这些问题应该能帮助用户进一步深入学习和解决问题。</think>以下是使用Python的Pandas库执行数据查询的详细方法，结合代码示例说明： --- ### 一、基础数据查询方法 1. **布尔索引查询** 通过条件表达式生成布尔序列筛选数据： ```python # 筛选年龄大于30的记录 result = df[df['age'] > 30] # 多条件查询（注意用&/|替代and/or） filtered_data = df[(df['city'] == 'Shanghai') & (df['salary'] > 10000)] ``` 2. **`loc` 与 `iloc` 定位查询** - `loc` 按标签/条件筛选： ```python # 选择满足条件的行和特定列 selected = df.loc[df['score'] >= 90, ['name', 'subject']] ``` - `iloc` 按位置索引： ```python # 提取第2-5行、前3列数据 subset = df.iloc[1:5, 0:3] ``` --- ### 二、进阶查询技巧 3. **字符串模糊匹配** 使用`.str.contains()`进行文本筛选： ```python # 查找姓名包含"张"的记录（case=False忽略大小写） mask = df['name'].str.contains('张', case=False, na=False) zhangs = df[mask] ``` 4. **`isin()` 列表匹配** 筛选列值存在于指定集合中的数据： ```python # 筛选城市为北京或上海的数据 cities = ['Beijing', 'Shanghai'] city_data = df[df['city'].isin(cities)] ``` 5. **`query()` 方法** 支持SQL-like语法的高可读性查询： ```python # 直接编写表达式字符串 result = df.query("30 <= age <= 50 and department == 'Sales'") ``` --- ### 三、数据库交互查询 6. **从数据库读取数据** 使用`pd.read_sql_query`执行SQL语句（需配合SQLAlchemy引擎）： ```python from sqlalchemy import create_engine engine = create_engine('sqlite:///mydatabase.db') # 执行SQL查询并返回DataFrame sql = "SELECT * FROM employees WHERE hire_date > '2020-01-01'" df = pd.read_sql_query(sql, engine) ``` 7. **参数化查询（防SQL注入）** 安全传递动态参数： ```python params = {'min_salary': 8000, 'target_dept': 'IT'} safe_query = "SELECT * FROM staff WHERE salary > %(min_salary)s AND department = %(target_dept)s" df = pd.read_sql_query(safe_query, engine, params=params) ``` 8. **DataFrame写入数据库** 使用`to_sql`保存查询结果： ```python df.to_sql('new_table', engine, if_exists='replace', index=False) ``` --- ### 四、性能优化建议 - 对常用筛选字段**预先设置索引**：`df.set_index('user_id', inplace=True)` - 处理超大数据时使用`dask`库并行处理 - 避免逐行循环操作，优先使用向量化方法 ---