基于phash和汉明距离找出相似图片

总共有接近2000w的词条,其中几百万的词条有摘要图片,一天接到运营反馈有些词条的摘要图显示内容为暂无图片,下面是一个case:

所以,咱们需要找出几百万词条的摘要图片中显示为“暂无图片”的词条,并进行处理。

具体思路如下

第一步:

从文件系统中获取词条的id和摘要图的url

第二步:

下载摘要图片到本地,并存储本地图片的名称和词条id的对应关系到文件,这里展示下下载并存储的核心方法

public static String saveUrlAs(String fileUrl, String savePath, String folder) {
        DataInputStream in = null;
        DataOutputStream out = null;
        HttpURLConnection connection = null;
        ByteArrayOutputStream outstream = null;
         try {
             URL url = new URL(fileUrl);
             connection = (HttpURLConnection) url.openConnection();
          
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

生活不只*眼前的苟且

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值