Perl网络蜘蛛程序示例[转] z

最新推荐文章于 2025-12-18 22:00:43 发布

转载最新推荐文章于 2025-12-18 22:00:43 发布 · 1.1k 阅读

文章标签：

#perl #网络 #url #function #cgi #browser

ALL 同时被 2 个专栏收录

200 篇文章

订阅专栏

Perl

52 篇文章

订阅专栏

本文介绍了一个使用Perl编写的简单网页抓取脚本，该脚本可以获取指定URL的内容，并从中提取链接和标题等信息。它利用了LWP模块进行HTTP请求，并通过正则表达式解析HTML。

#!C:/Perl/bin/perl.exe
#Fetch the contents of the fellow Url,Only for Three Level
#Power By:antsnet
#Email:antsnet@163.com

print "Content-type: text/html;charset=gb2312;/n/n";
     use LWP 5.64; # 载入较新版本的 LWP classes
     use CGI;
     my $cgi=new CGI;
     my $browser = LWP::UserAgent->new;
     my $count=0;

     #start function of getUrl
     sub getUrl{
     my $myurl=shift;

     #     $content 里是网页内容，下面是对此内容作些分析：
     getAnalyse(getContents($myurl),$myurl);
foreach $url(@hash_title){
        print     $url."/n";
}
}
#end of function of getUrl
#start of get robots.txt
sub getRobots{
        print getContents();
}
#end of get robots.txt
#<![start function of getContents;
sub getContents{
     my $myurl=shift;

     #if($myurl eq ""){
      # $myurl = "http://hi.baidu.com/antsnet";
     #}
     $myurl=($myurl eq "" ? "http://hi.baidu.com/antsnet":$myurl);
     # get request:
     #my $myurl = 'http://hi.baidu.com/antsnet';

     my $response = $browser->get( $myurl );
     die "Can't get $url -- ", $response->status_line
      unless $response->is_success;

     die "Hey, 我想要 HTML 格式而不是 ", $response->content_type
     unless $response->content_type eq 'text/html';
        # 或者任何其他的 content-type

     # 成功的话就对内容处理
     $contents= $response->content;
     return $contents;
}
#]>end function of getContents;

#
sub getAnalyse{
     my ($contents,$myurl)=@_;
     $myurl=($myurl eq "" ? "http://hi.baidu.com/antsnet":$myurl);
     while($contents=~ m/<a(.*?)href=(/"|/')(.*?)(/"|/')(.*?)>(.*?)<//a>/g){
          $exp_url=$3;      #3为URL
          $exp_title=$6;     #6为TITLE
          if($exp_url=~/(script|mailto:)/){ #去掉包含Mailto的链接
          }elsif($exp_url=~/http://///){
             $url=$exp_url;
          } elsif(substr($exp_url,0,1) eq "/"){
             $url="$myurl$exp_url";
             }else{
             $url="$myurl/$exp_url";
             }
          $hash_url[$i]=$url;
          $hash_title[$i]=$exp_title;
          $i++;
}
return ($hash_url,$hash_title);
}
#
getUrl($cgi->param("uri"));
#print $content;