Java简单实现爬取一张图片

怎么用Java比较简单地去网上爬一些东西呢,比如一些图片。作为Java小白(在此之前,都不知道爬虫是个什么,hhh…)最近遇到这个问题,去网上找了一些思路。大致是这样的:

  • 先访问某网络得到它的网站原代码
  • 用正则表达式匹配出你想要的内容。
例子:

现在在https://pixabay.com/zh/images/search/%E5%BF%AB%E4%B9%90/这个网站爬一张图片试试看。

  • Java常规操作访问这个网站可以返回这个网站的原代码。
<head><meta charset="utf-8">
    <script>(function(w,d,s,l,i){w[l]=w[l]||[];w[l].push({'gtm.start':new 
    Date().getTime(),event:'gtm.js'});var f=d.getElementsByTagName(s)
    [0],j=d.createElement(s),dl=l!='dataLayer'?'&l='+l:'';j.async=true;j.src='https://www.googletagmanager.com/gtm.js?id='
    +i+dl;f.parentNode.insertBefore(j,f);})(window,document,'script','dataLayer','GTM-5CF9ZN');</script>
    ...

我们打印出返回的结果,发现就是一大段html代码。没学过,看不懂,但是我想要爬取的图片连接,经过观察发现,他的图片连接都在这一块:

div class="item" data-w="640" data-h="426">
	<img srcset="https://cdn.pixabay.com/photo/2019/03/05/12/26/toque-macaque-4036088__340.jpg 1x, https://cdn.pixabay.com/photo/2019/03/05/12/26/toque-macaque-4036088__480.jpg 2x" src="https://cdn.pixabay.com/photo/2019/03/05/12/26/toque-macaque-4036088__340.jpg" alt="">

发现只要是**srcset=""**引号里面的都是那个网站上面的图片连接。

  • 用正则表达式将我们需要的连接从返回的一大块代码中匹配出来
Pattern pattern1 = Pattern.compile("(?<=srcset=\").*?(?=\")"); 
Matcher matcher1 = pattern1.matcher(ResponseData);
//ResponseData是返回的结果,是一段字符串
ArrayList<String> list1 = new ArrayList<>();
while (matcher1.find()){
    String group1 = matcher1.group();
    list1.add(group1);
}
  • 最后可以把list里面的内容打印出来检验一下,这是爬出来的结果其中一条连接:https://cdn.pixabay.com/photo/2015/01/07/15/51/woman-591576__340.jpg
    当然这是一张缩略图(因为网站上面的是缩略图),想要找它的详图也简单
  • 匹配图片详情页链接(也在那一大段代码里面),逐一访问。
  • 访问返回的数据,再匹配出详情页的图片就OK了。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值