基于Mojo的perl爬虫

本文介绍了一个基于Mojo的perl爬虫实现,作者在不懂HTML、CSS、XML及面向对象编程的情况下,通过示例代码展示如何抓取网页内容。文章中提到,对于获取动态页面信息(如JS接口发送的数据)感到困惑,并寻求帮助。提供的代码能够抓取特定路径的链接并进行深度限制的爬取。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

不多说 Mojo 的perl爬虫,我不懂HTML,CSS,XML,甚至是面向对象的编成也是一知半解。
所以只能照葫芦画瓢,写的不好不要喷
另外我对于 如何获取动态页面的信息十分困惑,例如如何 获取JS接口 发送的信息我就没有看懂 
所以请路过大神指点一二 
可以留言 鄙人QQ:326889964
#!/usr/bin/perl
use strict;
use 5.20.0;
use Mojo::UserAgent;
use Bloom::Filter;
use Smart::Comments;
use utf8;
use Encode;
no warnings;
 
my $dept_level = 3;
my $baseUrl = Mojo::URL->new($ARGV[0] || 'http://www.weather.com.cn/forecast/');
my ($domain) = $baseUrl =~ qr#http://(?:www.)?([^/]+)#;
my $filter = Bloom::Filter->new(capacity => 100000, error_rate => 0.0001);
my $ua = Mojo::UserAgent->new(max_redirects => 3);
my @Citys;
 
my $callback;$callback = sub  {
    my ($ua, $tx) = @_;
    return if !$tx->success;


    my $dept = $tx->req->headers-&
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值