
数据
JaceinSalt
这个作者很懒,什么都没留下…
展开
-
python删除重复文件
让我们来分析一下这个问题:首先,文件个数非常多,手工查找是不现实的,再说,单凭我们肉眼,在几千张图片或文件里面找到完全相同的难度也是很大的。所以要用程序实现。那么用程序怎么实现呢?根据什么判断两个文件完全相同呢?1、首先,根据文件名判断是靠不住的,因为文件名可以被随意更改,但文件内容不变。再说在同一个文件夹下面,也不可能出现两个完全相同的文件名,操作系统不允许的。2、还有一种方法就是根据文件大...转载 2019-05-02 11:52:43 · 1823 阅读 · 1 评论 -
python爬虫抓取淘宝图片
训练模型需要data,于是从网上抓取相关图片集,之后进行筛选标注。import urllib.requestimport rekeyword = '骚猪'#定义搜索关键字keyword = urllib.request.quote(keyword)#对关键字编码headers = ('User-Agent',"Mozilla/5.0 (Windows NT 10.0; WOW64) ...原创 2019-02-27 14:52:41 · 2169 阅读 · 0 评论 -
自制翻页型爬虫(思路适用很多网站)
非“数据科学家”(挺烦别人自称数据科学家的,分析员就分析员,哪来这么多科学家)的我,还得负责数据这块,太难了。爬虫对我来说是玄学,用什么爬虫...原创 2019-04-23 23:11:15 · 910 阅读 · 0 评论 -
自制瀑布流型爬虫(思路适用很多网站)
文章目录BULLSHIT翻页网页源代码代码示例BULLSHIT之前误打误撞写过一篇《自制翻页型爬虫(思路适用很多网站)》,最近遇到瀑布流型的网站,于是继续整理一下有关瀑布流型网站的爬虫思路。举例网站:http://www.dunkhome.com/products/search翻页看一下瀑布流型的网页是如何翻页的:点击加载更多页面下方会加载更多的商品(有些网址是往下滚动的时候自动...原创 2019-05-08 18:06:41 · 2013 阅读 · 5 评论 -
利用imgaug进行数据增强data augmentation
在数据量不够的时候需要进行data augmentation即数据增强,对数据量进行扩充。在这里使用imgaug库,此python库可以为机器学习项目扩充图像,它将一组输入图像转换为一组新的,数量更多的略微改变的图像。库的安装使用这里不再赘述,官网 https://github.com/aleju/imgaug 上的描述很详尽,简单易用。若读取的图片数据为image,image应该有四个维度...原创 2019-05-18 15:48:54 · 3256 阅读 · 10 评论 -
神经网络训练中的batch,epoch,iteration
定义batch:使用训练集的部分数据对神经网络进行一次训练和反向传播参数更新。epoch:使用训练集的所有数据对神经网络完成一次训练。iteration:使用一个batch的数据对神经网络进行参数更新的过程。关系举例数据集有2000张训练图片,100张测试图片。现在选择 Batch Size=6对模型进行训练。每个Epoch要训练的图片数量:2000训练集具有的Batch个...原创 2019-06-10 11:08:50 · 2819 阅读 · 0 评论 -
validation set in neural network
Two effects.ONEworkflow like:for each epoch for each training data instance propagate error through the network adjust the weights calculate the accuracy over training d...原创 2019-08-10 15:31:39 · 218 阅读 · 0 评论