
爬虫
杰西米特
!-!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
免费的ip代理池
python写的一个ip池服务器 原地址 github:https://github.com/jhao104/proxy_pool 外国的网站太慢,我拉到gitee了: https://gitee.com/panlufei/proxy_pool 我自己的服务器: 47.104.17.47:5010 (可以当测试使用, 不要大量访问.) 47.104.17.47:5010/get 获...原创 2020-02-21 15:58:03 · 3061 阅读 · 2 评论 -
最近帮朋友爬虫,由于最后爬完数据要写入excel,需要在所有线程爬完之后,再调用文件导出方法,所以需要一个能判断所有线程都完成了的方法
方法一: 主线程里判断如果线程数量大于1,就一直等待, while(Thread.activeCount()>0){ try { Thread.sleep(2000); } catch (InterruptedException e) { e.printStackTrace...原创 2019-12-13 21:29:28 · 271 阅读 · 0 评论 -
java 批量爬取国图 marc信息,用txt和excel保存
代码提交到了 gitee上, 对应的文件夹 新建一个isbn.txt 每行写一个isbn即可,然后运行程序即可, 200个,大概能成功180-190 个(国图也不是很全), 200大概用时15s左右 链接: https://gitee.com/panlufei/demo/blob/master/src/main/java/com/plf/demo1/zg/Marc.java ...原创 2019-11-09 19:57:02 · 894 阅读 · 4 评论 -
java爬取jd的所有图书类信息
maven 依赖 <dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.11.3</version> <...原创 2019-09-29 14:16:05 · 579 阅读 · 0 评论