最近写了一个网络爬虫的程序,供大家参考 程序的思路如下: 一:需要过滤器过滤出所需的内容,得到一个内容集合; 二:从过滤出的内容集合里过滤出所需要(比如:可以是新闻标题和地址)的列表; 三:得到下一页的地址; 四:根据得到的标题的链接去得到该页的详细内容; 五:更加下一页的地址继续循环,ok! 注意:在执行上,最好加线程进行执行,否则会影响效率。这个可以自己根据需求去加。