
爬虫
记录使用Java爬取一些网站的实战和爬取技巧
代码忘烦恼
我很普通,擅长spring家族,梦想我爱你。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
java爬取前程无忧(51job)
什么是Jsoup jsoup是一款优秀的Java的HTML解析器,主要用来对HTML解析,就是dom的操作,有很多和js方法一样,如getElementById,select等,使用起来非常的方便,不清楚的朋友可以去学习下这里就不强调了。 爬取前程无忧准备工作 1.创建一个普通的maven工程 2.在 pom.xml文件中引入依赖 <dependencies> <...原创 2019-07-08 10:44:28 · 16912 阅读 · 22 评论 -
Java爬虫
为什么我们要爬取数据 在大数据时代,我们要获取更多数据,就要进行数据的挖掘、分析、筛选,比如当我们做一个项目的时候,需要大量真实的数据的时候,就需要去某些网站进行爬取,有些网站的数据爬取后保存到数据库还不能够直接使用,需要进行清洗、过滤后才能使用,我们知道有些数据是非常真贵的。 分析豆瓣电影网站 我们使用Chrome浏览器去访问豆瓣的网站如 https://movie.douban.com/exp...原创 2019-06-11 17:32:29 · 120980 阅读 · 128 评论