用Scala打造精悍爬虫（一）游记篇

duanhengbin

于 2016-10-21 01:57:01 发布

阅读量1.8k

点赞数 1

CC 4.0 BY-SA版权

分类专栏： Scala 文章标签： Jsoup

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/duanhengbin/article/details/84822478

本文介绍了一个使用Scala和Jsoup构建的携程游记爬虫，针对爬虫的常见挑战，如网络断开、验证码和速度瓶颈，提出解决方案。通过递归和线程池实现异常重试和加速爬取，最终实现一个无需监控的稳定爬虫，平均抓取速度为21.6个URL/秒。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

分享一下前段学习Scala做的一个爬虫程序。

【关于爬虫】

接触爬虫的时间并不长，发现python在这个领域有很大的份额。虽然也用过python，但是始终觉得动态语言做这种“严谨“工作还是不如Java，当然更没法和Scala比。

总结一下爬虫的主要困难：

痛点1：网断，大量爬取时，各种超时错是司空见惯，需要有良好的重试机制防止被打断。

痛点2：验证码，一般大网站都有反爬机制，当一定时间访问过多，就会跳转到验证码页面（携程就有）甚至禁止访问。另外，做模拟登陆的时候这个更是是绕不开的坎，真正的爬虫噩梦。详见：知乎上一篇《为什么有些验证码看起来很容易但是没人做自动识别的？》黄凯迪的文章。

痛点3：速度瓶颈，一般爬取数据都是百万级甚至更多，为了获得好的速度，多线程是必不可少的，单机不能满足需求就要分布式。但是这个又会增加上面两个问题的解决难度。

【关于反爬虫】

为什么聊这个？当然是知己知彼百战不殆。

网上看到一篇，还正好是携程出的，名字挺牛气。《关于反爬虫，看这一篇就够了》

【项目简述】

本篇程序用Scala+Jsoup 实现一个携程游记的爬虫，单机角度解决上面的问题。

先简要分析下携程游记，http://you.ctrip.com/travels/，作为国内数一数二的旅游类平台，携程主要通过收购小网站的方式壮大其游记规模，已经到了巨无霸级别，这次主要爬取游记目录规模 100万篇左右。由于数量过多，按照携程自己做的标签分类进行过滤，“精华”，“美图”，“典藏”，“实用”四类作为抓取对象。

【那些包？】

全部是标准库

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。