mathematica抓取网页

最新推荐文章于 2025-05-13 22:26:53 发布

原创最新推荐文章于 2025-05-13 22:26:53 发布 · 2.1k 阅读

6 ·

CC 4.0 BY-SA版权

Mathematica 专栏收录该内容

4 篇文章

订阅专栏

本文介绍了一个使用Mathematica编写的简易网页抓取程序。该程序可以抓取指定页面上的链接及标题信息，并将信息存储为列表形式。适用于初学者了解网页抓取的基本流程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一个简易的获取网页.nb程序

list = List[];
url = "http://blog.youkuaiyun.com/gl486546/article/category/6389727/";
catchPageElem[n_] := Block[{xml, len, d, i, temp},
  xml = Import[url <> ToString[n], "XMLObject"];
  d = Cases[xml,
    XMLElement[
      "span", {"class" -> "link_title"}, {XMLElement[
        "a", {"shape" -> "rect", 
         "href" -> 
          href_}, {title_}], __}] :> {"http://blog.youkuaiyun.com" <> href, 
      StringTrim[title]}, {0, Infinity}];
  len = Length[d];
  Do[AppendTo[list, d[[i]]], {i, 1, len}]
  ]
Do[catchPageElem[i], {i, 1, 13}];
list