网络爬虫
文章平均质量分 75
真快啊夏天
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
第3节---爬取知乎‘美女’
这一节,我们来实现爬取知乎‘美女’话题下的子问题以及相关问题回答的赞同数前三名。 上两节,我们爬取了百度首页的源码,实现了百度LOGO的抓取和下载。这一次我们的目标是知乎。 首先确定我们需要爬取的东西。 1.问题 2.问题描述 3.回答者 4.回答赞同数 5.回答内容(包括图片) 5.回答者个人首页链接原创 2017-05-23 17:35:48 · 1820 阅读 · 2 评论 -
利用URLConnection来发送POST和GET请求
URL的openConnection()方法将返回一个URLConnection对象,该对象表示应用程序和 URL 之间的通信链接。程序可以通过URLConnection实例向该URL发送请求、读取URL引用的资源。 通常创建一个和 URL 的连接,并发送请求、读取此 URL 引用的资源需要如下几个步骤: (1)通过调用URL对象openConnection()方法来创建URLConnecti转载 2017-05-14 20:31:26 · 516 阅读 · 0 评论 -
第4节---模拟登陆知乎
上一节爬取了知乎美女精华话题下的子问题,并不需要登陆,直接抓取页面就可以了。但有些页面需要登陆后才可见。 比如 https://www.zhihu.com/topic 登陆状态下是 非登陆状态, 当提到登陆,必须对Http协议有一些了解,推荐《图解Http》。 通俗的说,HTTP 是一种无状态的协议, 协议本身不保留之前的一切请求信息和响应信息,也就是原创 2017-05-25 21:07:21 · 541 阅读 · 0 评论 -
HttpURLConnection与HttpClient浅析
源地址:http://blog.youkuaiyun.com/zhliro/article/details/46877519 HttpURLConnection与HttpClient浅析 1. GET请求与POST请求 HTTP协议是现在Internet上使用得最多、最重要的协议了,越来越多的Java应用程序需要直接通过HTTP协议来访问网络资源。 在介绍HttpURLConnecti转载 2017-05-15 21:05:31 · 356 阅读 · 0 评论 -
第1节---分别用HttpURLConnection和HttpClient爬取百度首页
我们的第一节,抽取百度页面源码,分别使用HttpURLConnection和HttpClient实现。 需要了解HttpURLConnection和HttpClient有什么异同的点击这里 如果不清楚GET访问和POST访问的的同学可以看看W3的解释《GET与POST》 接下来,我们用java来实现一个爬取百度首页源码的程序 有前端基础的小伙伴肯定知道,这个页面是由HTML+CSS原创 2017-05-15 22:51:18 · 836 阅读 · 0 评论 -
第2节---小任务,爬取百度LOGO链接并下载图片
右键点击百度首页LOGO,审查元素,我们可以看到以下内容 在HTML处理中,经常会用到正则表达式,对内容进行过滤,提取目标内容 没有正则基础的小伙伴可以先了解下点击打开 在线正则表达式匹配测试点击打开 我们引入一个匹配模板 public static String RegexString(String targetStr,String patternStr)原创 2017-05-17 22:11:07 · 1564 阅读 · 0 评论 -
知乎爬虫---总结我的Java课程设计
这次课程设计的技术点 1.Java线程池、连接池 2.JDBC编程原创 2017-06-06 16:47:16 · 1845 阅读 · 0 评论
分享