in及not in与组合查询的效率比较

本文通过两个具体的SQL查询案例,展示了不同查询方式之间的效率差异。其中一个使用了表连接的方法,另一个则采用了子查询的方式。测试结果显示,尽管两者都能得到相同的结果集,但在执行速度上却存在明显区别。

以下两条语句的查询结果是一样,但效率有比较大差别

1、SELECT *
FROM users, user_group
WHERE users.id = user_group.userid
AND user_group.groupid = ' '

测试结果:

显示行 0 - 17 (18 总计, 查询花费 0.0041 秒)

显示行 0 - 3 (4 总计, 查询花费 0.0039 秒)

显示行 0 - 3 (4 总计, 查询花费 0.0051 秒)

 

2、select * from users where id in (select userid from user_group where groupid=' ')

测试结果:

显示行 0 - 12 (13 总计, 查询花费 0.0272 秒)

显示行 0 - 4 (5 总计, 查询花费 0.0174 秒)

显示行 0 - 3 (4 总计, 查询花费 0.0207 秒)

import requests from bs4 import BeautifulSoup import os import re from urllib.parse import urljoin # 定义关键词列表 KEYWORDS = [""] def sanitize_text(text): """增强型文本清洗""" text = re.sub(r'<[^>]+>', '', text) text = re.sub(r'https?://\S+', '', text) replacements = { ' ': ' ', '&': '&', '"': '"', '<': '<', '>': '>' } for k, v in replacements.items(): text = text.replace(k, v) text = re.sub(r'[■◆▼©®™●【】]', '', text) text = re.sub(r'\s+', ' ', text).strip() return text def save_content(url, save_folder): """安全获取并保存网页内容(增加空内容过滤)""" try: headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'} response = requests.get(url, headers=headers, timeout=10) response.encoding = 'utf-8' if response.status_code == 200: soup = BeautifulSoup(response.text, 'html.parser') main_content = soup.find(['article', 'div'], class_=re.compile(r'content|main')) clean_text = sanitize_text(main_content.get_text() if main_content else soup.get_text()) # 新增空内容过滤判断 if not clean_text.strip(): print(f'跳过空内容: {url}') return # 生成安全文件名 filename = re.sub(r'[\\/*?:"<>|]', '', url.split('/')[-1])[:50] + '.txt' filepath = os.path.join(save_folder, filename) with open(filepath, 'w', encoding='utf-8') as f: f.write(clean_text) print(f'成功保存至: {filepath}') else: print(f'访问失败: {url} 状态码: {response.status_code}') except Exception as e: print(f'处理{url}时出错: {str(e)}') def main(): """主程序""" # 设置保存路径 desktop = os.path.join(os.path.expanduser('~'), 'Desktop') folder_name = "ScrapedData" save_path = os.path.join(desktop, folder_name) # 创建保存目录(如果不存在) os.makedirs(save_path, exist_ok=True) # 模拟种子页面(需合法授权后替换实际目标网站) seed_url = "http://www.81.cn/" try: res = requests.get(seed_url, timeout=10) soup = BeautifulSoup(res.text, 'html.parser') # 提取包含关键词的链接 links = [] for a in soup.find_all('a', href=True): text = a.get_text().strip() if any(keyword in text for keyword in KEYWORDS): absolute_url = urljoin(seed_url, a['href']) links.append(absolute_url) # 去重处理 unique_links = list(set(links)) # 保存内容(建议控制频率) for link in unique_links[:10]: # 示例仅处理前5条 save_content(link, save_path) except Exception as e: print(f'程序终止: {str(e)}') if __name__ == "__main__": main() 在上述代码基础上修改代码实现不同的文章存放在不同的txt中,不要放在同一个txt中,然后修改代码使保存txt的速度加快一些,请给出修改后完整的代码
03-13
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值