
Java爬虫
与爬虫技术相关的文章
凌飞安
点关注不迷路,大家好,我是凌飞安,一个专注于Java研发的程序猿。
展开
-
解决使用selenium+PhantomJs抓取数据导致内存溢出问题)
解决使用selenium+PhantomJs抓取数据导致内存溢出问题在使用selenium+PhantomJs爬取数据时,发现系统运行缓慢,后台一查发现很多phantomJs进程未被关闭。在java代码中,我们调用driver.close()方法并不能保证phantomJs进程会被kill掉。我使用了比较笨的办法,就是写一个.sh脚本,然后java执行该脚本来杀死这些进程以腾出内存空间的目的...原创 2019-12-10 10:24:31 · 1973 阅读 · 1 评论 -
使用webmagic+selenium+PhantomJS 提取加密js反爬虫的网站数据
使用webmagic+selenium+PhantomJS 提取加密js反爬虫的网站数据前言核心代码前言因为业务需要,我需要抓取欧盟商标查询网站的数据,经过分析发现,该网站通过混淆加密js写入cookie的方式进行反爬虫,js加密文件和cookie都有时限,通过破解js加密文件工作量太大,而且不一定成功。查了很多资料之后,我决定使用webmagic+selenium+PhantomJS 的方式...原创 2019-09-06 14:15:48 · 1401 阅读 · 0 评论 -
Selenium+chrome修改默认文件下载地址
Selenium+chrome修改默认文件下载地址写在前面的话demo写在前面的话使用selenium+chrome的方式爬取网络文件,文件下载默认路径为:C:\Users\user\Downloads。这不利于我们采集和分类,需要修改chrome的默认下载路径。demo HashMap<String, Object> chromePrefs = new HashMap&l...原创 2019-09-18 17:23:18 · 2812 阅读 · 0 评论