爬取得到的数据是比较脏的,要进行整理,包括统一后缀和重命名。
统一后缀可以减少以后写数据API时的压力,也可以测试图片是不是可以正常的读取,及时防止未知问题的出现。这很重要。
首先我们看下爬取完些的数据有多少种数据格式。
https://blog.youkuaiyun.com/bevison/article/details/79126410
总之:
爬取下来的数据:
- 统一命名:数据更好观察。
- 预先读取一遍数据:测试图片是不是可以正常的读取
- 统一后缀名:方便下一步转换为其他格式。
本文介绍了在处理爬取数据时,如何进行文件后缀的统一和数据格式转换。通过统一文件后缀,能简化后续处理步骤,并便于检查数据的可用性。作者提供了C++和Python两种实现方式,利用OpenCV库将多种格式的图片转换为jpg或bmp格式,以确保数据一致性。
爬取得到的数据是比较脏的,要进行整理,包括统一后缀和重命名。
统一后缀可以减少以后写数据API时的压力,也可以测试图片是不是可以正常的读取,及时防止未知问题的出现。这很重要。
首先我们看下爬取完些的数据有多少种数据格式。
https://blog.youkuaiyun.com/bevison/article/details/79126410
总之:
爬取下来的数据:

被折叠的 条评论
为什么被折叠?