
爬虫
记录使用Java爬取一些网站的实战和爬取技巧
代码忘烦恼
我很普通,擅长spring家族,梦想我爱你。
展开
-
java爬取前程无忧(51job)
什么是Jsoupjsoup是一款优秀的Java的HTML解析器,主要用来对HTML解析,就是dom的操作,有很多和js方法一样,如getElementById,select等,使用起来非常的方便,不清楚的朋友可以去学习下这里就不强调了。爬取前程无忧准备工作1.创建一个普通的maven工程2.在 pom.xml文件中引入依赖 <dependencies> <...原创 2019-07-08 10:44:28 · 16834 阅读 · 22 评论 -
Java爬虫
为什么我们要爬取数据在大数据时代,我们要获取更多数据,就要进行数据的挖掘、分析、筛选,比如当我们做一个项目的时候,需要大量真实的数据的时候,就需要去某些网站进行爬取,有些网站的数据爬取后保存到数据库还不能够直接使用,需要进行清洗、过滤后才能使用,我们知道有些数据是非常真贵的。分析豆瓣电影网站我们使用Chrome浏览器去访问豆瓣的网站如https://movie.douban.com/exp...原创 2019-06-11 17:32:29 · 120838 阅读 · 128 评论