关于webmagic爬取Https网站报错的解决办法

针对webmagic 0.7.3版本爬取只支持TLS1.2的HTTPS网站出现错误的状况,作者提供了临时解决方案。此问题将在0.7.4版本得到修复。临时解决办法包括修改HttpClientGenerator的buildSSLConnectionSocketFactory方法,创建自定义的HttpClientDownloader并应用于Spider。已提供重新编译打包的webmagic-core-0.7.3.jar供使用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目前webmagic最新版是0.7.3版本,在爬取只支持TLS1.2https站点会报错

javax.net.ssl.SSLException: Received fatal alert: protocol_version
	at sun.security.ssl.Alerts.getSSLException(Alerts.java:208)
	at sun.security.ssl.Alerts.getSSLException(Alerts.java:154)
	at sun.security.ssl.SSLSocketImpl.recvAlert(SSLSocketImpl.java:2023)
	at sun.security.ssl.SSLSocketImpl.readRecord(SSLSocketImpl.java:1125)
	at sun.security.ssl.SSLSocketImpl
WebMagic是一款Python编写的网络数据采集框架,它主要用于爬取网页信息,包括HTML、CSS Selectors以及XPath选择器等。如果你想要利用WebMagic爬取视频,通常需要按照以下步骤操作: 1. **项目初始化**:首先安装WebMagic及其依赖库,如`pip install webmagic requests beautifulsoup4`。 2. **编写规则**:创建一个Spider类,继承自WebMagic的BaseSpider,并定义好提取视频链接的方法。例如,你可以通过解析HTML页面找到`<a>`标签并检查其`href`属性是否指向视频地址。 ```python import re class VideoSpider(BaseSpider): start_urls = ['http://example.com'] # 起始URL def parse(self, response): video_links = response.xpath('//a[@data-type="video"]/@href').getall() for link in video_links: yield Request(link, callback=self.parse_video) def parse_video(self, response): video_url = re.search(r'(https?://[^ "]+)', response.text).group(0) # 这里可以进一步处理视频源文件,如下载或保存到本地 yield { 'url': video_url, } ``` 3. **视频下载**:如果需要下载视频,可能需要用到第三方库,如`moviepy`(用于视频剪辑)、`pytube`(YouTube视频下载),或者直接使用原生的HTTP请求下载。 4. **存储视频**:下载完成后,你需要将视频保存到指定的位置,比如本地磁盘或者云存储服务。 需要注意的是,有些网站可能会有反爬虫机制,或者对大量抓取行为有限制,所以在实际操作时要遵守相关法律法规,并尊重网站的robots.txt协议。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值