webmagic爬取报错

准备使用webmagic进行爬虫开发,download时发现报错 :No appropriate protocol (protocol is disabled or cipher suites are inappropriate) 。

导致这个问题的,竟是jdk版本过高导致,jdk1.8高版本对ssl做了限制,而我的jdk版本为jdk1.8.0_291

解决办法
打开jdk所在目录 cd /Library/Java/JavaVirtualMachines
修改文件:vim /jdk1.8.0_291.jdk/Contents/Home/jre/lib/security/java.security
找到如下内容:

jdk.tls.disabledAlgorithms=TLSv1.1, RC4, DES, MD5withRSA, \
                            DH keySize < 1024, EC keySize < 224, 3DES_EDE_CBC, anon, NULL, \
                            include jdk.disabled.namedCurves

去除 jdk.tls.disabledAlgorithms 中 SSLv3, TLSv1, TLSv1.1三项协议,然后重启项目即可。

WebMagic是一款Python编写的网络数据采集框架,它主要用于爬取网页信息,包括HTML、CSS Selectors以及XPath选择器等。如果你想要利用WebMagic爬取视频,通常需要按照以下步骤操作: 1. **项目初始化**:首先安装WebMagic及其依赖库,如`pip install webmagic requests beautifulsoup4`。 2. **编写规则**:创建一个Spider类,继承自WebMagic的BaseSpider,并定义好提取视频链接的方法。例如,你可以通过解析HTML页面找到`<a>`标签并检查其`href`属性是否指向视频地址。 ```python import re class VideoSpider(BaseSpider): start_urls = ['http://example.com'] # 起始URL def parse(self, response): video_links = response.xpath('//a[@data-type="video"]/@href').getall() for link in video_links: yield Request(link, callback=self.parse_video) def parse_video(self, response): video_url = re.search(r'(https?://[^ "]+)', response.text).group(0) # 这里可以进一步处理视频源文件,如下载或保存到本地 yield { 'url': video_url, } ``` 3. **视频下载**:如果需要下载视频,可能需要用到第三方库,如`moviepy`(用于视频剪辑)、`pytube`(YouTube视频下载),或者直接使用原生的HTTP请求下载。 4. **存储视频**:下载完成后,你需要将视频保存到指定的位置,比如本地磁盘或者云存储服务。 需要注意的是,有些网站可能会有反爬虫机制,或者对大量抓取行为有限制,所以在实际操作时要遵守相关法律法规,并尊重网站的robots.txt协议。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值