爬虫
武装
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
零基础写Java知乎爬虫之进阶篇
说到爬虫,使用Java本身自带的URLConnection可以实现一些基本的抓取页面的功能,但是对于一些比较高级的功能,比如重定向的处理,HTML标记的去除,仅仅使用URLConnection还是不够的。在这里我们可以使用HttpClient这个第三方jar包。接下来我们使用HttpClient简单的写一个爬去百度的Demo:import java.io.FileOutputStream;im转载 2017-07-26 15:25:06 · 2548 阅读 · 2 评论 -
零基础写Java知乎爬虫之将抓取的内容存储到本地
说到Java的本地存储,肯定使用IO流进行操作。首先,我们需要一个创建文件的函数createNewFile:复制代码 代码如下:public static boolean createNewFile(String filePath) { boolean isSuccess = true; // 如有则将”\\”转为”/”,没有则不产生任何变化转载 2017-07-26 15:24:03 · 2197 阅读 · 1 评论 -
零基础写Java知乎爬虫之抓取知乎答案
前期我们抓取标题是在该链接下:http://www.zhihu.com/explore/recommendations但是显然这个页面是无法获取答案的。一个完整问题的页面应该是这样的链接:http://www.zhihu.com/question/22355264仔细一看,啊哈我们的封装类还需要进一步包装下,至少需要个questionDescription来存储问题描述:import j转载 2017-07-26 15:22:42 · 2204 阅读 · 2 评论 -
零基础写Java知乎爬虫之获取知乎编辑推荐内容
知乎是一个真实的网络问答社区,社区氛围友好、理性、认真,连接各行各业的精英。他们分享着彼此的专业知识、经验和见解,为中文互联网源源不断地提供高质量的信息。首先花个三五分钟设计一个Logo=。=作为一个程序员我一直有一颗做美工的心!好吧做的有点小凑合,就先凑合着用咯。接下来呢,我们开始制作知乎的爬虫。首先,确定第一个目标:编辑推荐。网页链接:http://www.zhihu.com/explo转载 2017-07-26 15:21:47 · 1457 阅读 · 0 评论 -
零基础写Java知乎爬虫之先拿百度首页练练手
上一集中我们说到需要用Java来制作一个知乎爬虫,那么这一次,我们就来研究一下如何使用代码获取到网页的内容。首先,没有HTML和CSS和JS和AJAX经验的建议先去W3C(点我点我)小小的了解一下。说到HTML,这里就涉及到一个GET访问和POST访问的问题。如果对这个方面缺乏了解可以阅读W3C的这篇:《GET对比POST》。啊哈,在此不再赘述。然后咧,接下来我们需要用Java来爬取一个网页转载 2017-07-26 15:20:21 · 2677 阅读 · 5 评论 -
零基础写Java知乎爬虫之准备工作
开篇我们还是和原来一样,讲一讲做爬虫的思路以及需要准备的知识吧,高手们请直接忽略。首先我们来缕一缕思绪,想想到底要做什么,列个简单的需求。需求如下:1.模拟访问知乎官网(http://www.zhihu.com/)2.下载指定的页面内容,包括:今日最热,本月最热,编辑推荐3.下载指定分类中的所有问答,比如:投资,编程,挂科4.下载指定回答者的所有回答5.最好有个一键点赞的变态功能(这样转载 2017-07-26 15:18:26 · 1004 阅读 · 0 评论
分享