自己动手写网络爬虫-----（1）

最新推荐文章于 2017-11-14 19:36:22 发布

Eleganty

最新推荐文章于 2017-11-14 19:36:22 发布

阅读量1k

点赞数

CC 4.0 BY-SA版权

分类专栏： java

本文链接：https://blog.youkuaiyun.com/qq_15099611/article/details/45602873

java 专栏收录该内容

10 篇文章

订阅专栏

本文深入探讨了爬虫技术的实现过程，从基础代码编写、过滤器优化到解决运行时警告，详细介绍了如何使用API解决爬虫过程中遇到的问题。包括通过参数配置解析网页、使用流式读取内容避免缓存空间不足、解决中文乱码问题等关键步骤，最终实现了高效、稳定的网页内容抓取。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

照着书上把代码写完之后运行MyCrawler主程序，发现在存储的路径下面只有一个网页内容，就说明爬虫只爬取了一个网页，仔细检查了书上的代码，发现并没有错误，后来查了API之后才发现，在Parser的构造函数里有一个是可以带参数的，我就说嘛，没有传入URL的参数，它怎么知道解析哪个嘛。

![parser带参数截图]

带了参数之后，但发现还是只有一个网页，我就知道肯定是过滤器出问题了，于是把过滤器改了，不管怎么样都解析，就是把不符合过滤条件的else部分也返回true，这样果然是没问题了，可以爬取很多网页了。初级的爬虫就这样完成了。后来我发现运行时，控制台总是提示警告，大概意思是说无法预料到获取的网页实际大小是多少，不好给出缓存空间，建议使用流式读取内容。。。。

我参照httpClient的APi使用GetResponseBodyAsStream代替了之前的GetResponseBody，可是又出问题了，写入内容时乱码了。网上查了之后找到了问题所在，也找到了解决办法，原因在于用BufferedReader缓存输入流里面的数据时，InputStreamReader读取流的时候使用的是默认的字符集：

InputStreamReader(InputStream in) 创建一个使用默认字符集的 InputStreamReader。

InputStreamReader(InputStream in, Charset cs) 创建使用给定字符集的 InputStreamReader。

InputStreamReader(InputStream in, CharsetDecoder dec) 创建使用给定字符集解码器的 InputStreamReader。

InputStreamReader(InputStream in, String charsetName) 创建使用指定字符集的 InputStreamReader。

因为不知道到底要用什么字符集来读取，只有先用ISO-9958-1来读取，然后用readline函数来转换成字符串，之后再用String的getByte（charset）来转换成字节序列，最后直接把这个写入到本地文件就可以了。![截图]