自己动手写网络爬虫-----(1)

本文深入探讨了爬虫技术的实现过程,从基础代码编写、过滤器优化到解决运行时警告,详细介绍了如何使用API解决爬虫过程中遇到的问题。包括通过参数配置解析网页、使用流式读取内容避免缓存空间不足、解决中文乱码问题等关键步骤,最终实现了高效、稳定的网页内容抓取。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

照着书上把代码写完之后运行MyCrawler主程序,发现在存储的路径下面只有一个网页内容,就说明爬虫只爬取了一个网页,仔细检查了书上的代码,发现并没有错误,后来查了API之后才发现,在Parser的构造函数里有一个是可以带参数的,我就说嘛,没有传入URL的参数,它怎么知道解析哪个嘛。

![parser带参数截图]

带了参数之后,但发现还是只有一个网页,我就知道肯定是过滤器出问题了,于是把过滤器改了,不管怎么样都解析,就是把不符合过滤条件的else部分也返回true,这样果然是没问题了,可以爬取很多网页了。初级的爬虫就这样完成了。 后来我发现运行时,控制台总是提示警告,大概意思是说无法预料到获取的网页实际大小是多少,不好给出缓存空间,建议使用流式读取内容。。。。

我参照httpClient的APi使用GetResponseBodyAsStream代替了之前的GetResponseBody,可是又出问题了,写入内容时乱码了。 网上查了之后找到了问题所在,也找到了解决办法,原因在于用BufferedReader缓存输入流里面的数据时,InputStreamReader读取流的时候使用的是默认的字符集:

InputStreamReader(InputStream in) 创建一个使用默认字符集的 InputStreamReader。

InputStreamReader(InputStream in, Charset cs) 创建使用给定字符集的 InputStreamReader。

InputStreamReader(InputStream in, CharsetDecoder dec) 创建使用给定字符集解码器的 InputStreamReader。

InputStreamReader(InputStream in, String charsetName) 创建使用指定字符集的 InputStreamReader。  

因为不知道到底要用什么字符集来读取,只有先用ISO-9958-1来读取,然后用readline函数来转换成字符串,之后再用String的getByte(charset)来转换成字节序列,最后直接把这个写入到本地文件就可以了。![截图]


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值