Java实现爬虫需要看的一些博客知识,附上成果仓库地址

该博客围绕Java爬虫展开,介绍开发使用httpClient、Jsoup、JUnit等入门级类库,建议爬取新浪、知乎等平台,还提及云村。资源方面有入门框架,可进阶学习分布式爬虫,给出IP代理地址,涉及不同语言解析加密及处理JSON字段等内容。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

提要

  • 开发语言:Java
  • 使用的入门级类库:httpClient+Jsoup+JUnit
  • 建议爬取顺序:新浪 -> 知乎 -> 贴吧 -> 豆瓣 -> 网易云热评
  • 这里只专门对于云村

资源

  • 主要框架(入门框架)
	https://blog.youkuaiyun.com/johnson_moon/article/details/78459143
	https://blog.youkuaiyun.com/u014798883/article/details/54909951
	https://blog.youkuaiyun.com/johnson_moon/article/details/78459143#comments
  • 进阶学习分布式爬虫
https://github.com/CriseLYJ/Python-crawler-tutorial-starts-from-zero
  • IP代理地址
http://www.data5u.com/
  • 对库的使用
https://blog.youkuaiyun.com/tsj11514oo/article/details/71024309
  • 解析加密-Python
https://www.zhouzying.cn/58.html
  • 解析加密-Java
https://www.cnblogs.com/skillking/p/9960123.html
  • 解析加密-C#
https://www.zhanghuanglong.com/detail/csharp-version-of-netease-cloud-music-api-analysis-(with-source-code)
  • 知乎大佬们的回答
 https://www.zhihu.com/question/36081767
  • 处理JSON字段
https://my.oschina.net/u/2411067/blog/815920
https://www.cnblogs.com/ScarecrowAnBird/p/7804434.html
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值