PL/SQL实现类似spider的功能

最新推荐文章于 2024-06-02 07:01:53 发布

最新推荐文章于 2024-06-02 07:01:53 发布 · 146 阅读

文章标签：

本文介绍如何利用Oracle提供的UTL_HTTP包获取网页内容，并通过示例展示了简单的网页爬取方法，包括获取指定网页的所有链接。

--------------------------------------------------------------------------
-----------------------------Cryking原创------------------------------
-----------------------转载请注明出处,谢谢!------------------------

首先,我们来看一个用utl_http包来获得网页内容的一个简单示例:

注意:非DBA用户需要先赋与执行该包的权限

DECLARE
  req   utl_http.req;
  resp  utl_http.resp;
  value VARCHAR2(1024);
BEGIN
  req := utl_http.begin_request('http://blog.youkuaiyun.com/edcvf3');
  utl_http.set_header(req, 'User-Agent', 'Mozilla/4.0');
  resp := utl_http.get_response(req);
  LOOP
     UTL_HTTP.read_text(resp, value);--也可以用read_line
     DBMS_OUTPUT.PUT_LINE('--------------');
    dbms_output.put_line(value);
  END LOOP;
  utl_http.end_response(resp);
EXCEPTION
  WHEN utl_http.end_of_body THEN
    utl_http.end_response(resp);
    when others then
    dbms_output.put_line(utl_http.get_detailed_sqlerrm);
    UTL_HTTP.END_RESPONSE(resp);--必须关闭,否则会获得错误,并且再次请求时会提示打开的连接过多
END;

如上:代码比较简单,相关的请求及结果返回都已经由相关存储/函数实现了,只需掌握调用方法.

得到的结果如下:

--------------
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<title>流云追风 - 博客频道 - youkuaiyun.com</title>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
<meta name="description" content="" />
<script src="http://static.blog.youkuaiyun.com/scripts/jquery.js" type="text/javascript"></script>
<script type="text/javascript" src="http://static.blog.youkuaiyun.com/scripts/ad.js?v=1.1"></script>
<link rel="Stylesheet" type="text/css" href="http://static.blog.youkuaiyun.com/skin/default/css/style.css?v=1.1" />
<link id="RSSLink" title="RSS" type="application/rss+xml" rel="alternate" href="/edcvf3/rss/list" />
<link rel="shortcut icon" href="/favicon.ico" />
<link type="text/css" rel="stylesheet" href="http://static.blog.youkuaiyun.com/scripts/SyntaxHighlighter/styles/blue_green.css" />
</head>
<body>
<script src="http://csdnimg.cn/pubnav/js/pub_topnav_2011.js"type="text/javascript"></script>

<di
--------------
v id="container">
<div id="header">
<div class="header">
<div id="blog_title">
<h1><a href="/edcvf3">流云追风</a></h1>
<h2>追寻编程之道</h2>
<div class="clear"></div>
</div>
<div class="clear"></div>
</div>
</div>
<div id="navigator">
<div class="navigator_bg"></div>
<div class="navigator">

... 太长了,后面的省略掉.

好了,既然可以轻松获得网页内容,那么再实现spider也比较容易了.

注:这里并没有去爬网页的具体内容,只是把某个网页内所有的网址及对应IP保存到了表里

具体代码如下:

DECLARE
  V_REQ     UTL_HTTP.REQ;
  V_RESP    UTL_HTTP.RESP;
  V_CHARSET VARCHAR2(100);
  V_VALUE   VARCHAR2(2500);
  V_COUNT   NUMBER := 1;
  v_url     VARCHAR2(2000);
BEGIN
  V_REQ  := UTL_HTTP.BEGIN_REQUEST('http://www.hao123.com');--爬hao123,因为它里面的网址比较多
  V_RESP := UTL_HTTP.GET_RESPONSE(V_REQ);
  LOOP
    UTL_HTTP.read_text(V_RESP, V_VALUE);
    if instr(UPPER(v_value), 'HREF') > 0 then
      loop
        if instr(UPPER(v_value), 'HTTP') > 0 then
          select regexp_substr(v_value, 'http[0-9a-zA-Z/:.]+com|cn|org|net',1,1,'i') --匹配网址,不区分大小写
            into v_url
            from dual;
            --DBMS_OUTPUT.PUT_LINE(v_value);
          if v_url is null then
            exit;
          end if;
          if instr(upper(v_url), 'HTTPS') > 0 THEN
            v_url := REPLACE(UPPER(v_url), 'HTTPS://','');
          ELSE
            v_url := REPLACE(UPPER(v_url), 'HTTP://','');
          END IF;
          begin
            DBMS_OUTPUT.PUT_LINE(v_url);--打印出已经爬到的网址
            DBMS_OUTPUT.PUT_LINE('--------------');
            --插入表
            insert into ip_url --用来保存爬到的网站,这里只保存了网址和IP,略加处理即可保存网页内容
              (ip, urladdress, indate)
              select utl_inaddr.get_host_address(v_url), v_url, sysdate
                from dual;
          exception
            when others then
              NULL;
          end;
          if replace(v_value,' ','') is null then exit; end if;
          v_value := replace(upper(v_value), v_url, '');
        else
          exit;
        end if;
      end loop;
    end if;
    EXIT WHEN V_COUNT >= 2000;
    V_COUNT := V_COUNT + 1;
  END LOOP;
  UTL_HTTP.END_RESPONSE(V_RESP);
EXCEPTION
  WHEN UTL_HTTP.END_OF_BODY THEN
    UTL_HTTP.END_RESPONSE(V_RESP);
  when others then
    DBMS_OUTPUT.PUT_LINE(v_value);
    dbms_output.put_line(utl_http.get_detailed_sqlerrm);
    UTL_HTTP.END_RESPONSE(V_RESP);
END;

打印的结果如下:

WWW.HAO123.COM
TV.HAO123.COM
MOVIE.HAO123.COM
MUSIC.HAO123.COM
TUAN.BAIDU.COM
XYX.HAO123.COM
FEEDBACK.HAO123.COM
S0.HAO123IMG.COM
WWW.HAO123.COM
WWW.HAO123.COM
PAN.BAIDU.COM
S0.HAO123IMG.COM
HI.BAIDU.COM
S1.HAO123IMG.COM
WWW.HAO123.COM
HI.BAIDU.COM
REG.163.COM
WWW.BAIDU.COM
WWW.HAO123.COM
MUSIC.BAIDU.COM
VIDEO.BAIDU.COM
IMAGE.BAIDU.COM
TIEBA.BAIDU.COM
ZHIDAO.BAIDU.COM
NEWS.BAIDU.COM