抓取过程中出现url.openStream()异常

本文介绍了一个出现在jdk1.5_06之前的版本中的java.lang.IllegalArgumentException异常问题,并指出该问题是由于JDK版本BUG导致。解决方案为升级到最新版本的JDK。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

具体信息
java.lang.IllegalArgumentException
at sun.net.www.ParseUtil.decode(ParseUtil.java:179)
at sun.net.www.ParseUtil.toURI(ParseUtil.java:253)
at sun.net.www.protocol.http.HttpURLConnection.plainConnect(HttpURLConnection.java:738)
at sun.net.www.protocol.http.HttpURLConnection.connect(HttpURLConnection.java:669)

是由于JDK版本BUG问题造成的,这个BUG只出现在jdk1.5_06之前版本,更新最新的就可以解决此问题
from flask import Flask, jsonify, request import requests from bs4 import BeautifulSoup import os from PIL import Image import io app = Flask(__name__) # 存储处理后图片的目录 IMAGE_DIR = r"D:\destop\图像格式转变后" if not os.path.exists(IMAGE_DIR): os.makedirs(IMAGE_DIR) # 下载图片 def download_image(url): try: response = requests.get(url, stream=True) response.raise_for_status() img = Image.open(response.raw) return img except Exception as e: print(f"下载图片 {url} 时出错: {e}") return None # 图片压缩 def compress_image(image, quality=80): buffer = io.BytesIO() image.save(buffer, format=image.format, quality=quality) buffer.seek(0) return buffer # 转换为 WebP 格式 def convert_to_webp(image): buffer = io.BytesIO() image.convert('RGB').save(buffer, format='WebP', quality=80) buffer.seek(0) return buffer # 处理图片 def process_image(url, index): img = download_image(url) if img: # 压缩图片 compressed_img = compress_image(img) img = Image.open(compressed_img) # 转换为 WebP 格式 webp_img = convert_to_webp(img) img = Image.open(webp_img) # 保存图片 save_path = os.path.join(IMAGE_DIR, f'image_{index}.webp') img.save(save_path) return save_path return None # 抓取图片并处理 @app.route('/crawl-images', methods=['POST']) def crawl_images(): data = request.get_json() url = data.get('url') if not url: return jsonify({"error": "缺少 URL 参数"}), 400 try: response = requests.get(url) response.raise_for_status() soup = BeautifulSoup(response.text, 'html.parser') images = soup.find_all('img') processed_images = [] for index, img in enumerate(images): img_url = img.get('src') if img_url: if not img_url.startswith('http'): base_url = url.rsplit('/', 1)[0] img_url = f"{base_url}/{img_url}" save_p
最新发布
03-19
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值