
深度学习数据相关
文章平均质量分 60
深夜虫鸣
这个作者很懒,什么都没留下…
展开
-
搜狗新闻语料库解析
搜集语料,考虑使用搜狗新闻语料库。但其采用了gbk编码,在ubuntu下打开为乱码,需要将编码格式转换为utf。 直接采用shell命令进行转码:cat news_tensite_xml.dat | iconv -f gbk -t utf-8 -c | grep "<content>" > a.txt但得到的txt文件中会有些许乱码想尝试在windows下打开(w...原创 2018-03-13 17:06:51 · 6805 阅读 · 11 评论 -
自行准备深度学习训练数据
深度学习的模型训练中,数据的收集十分重要,取得足够的数据集对于最终模型的表现有十分重要的意义。但是开源的数据集都指定了特定的目标进行标注,如行人,车辆。当要训练自己所需要的特定检测模型,却又没有开源数据集的时候,就需要自己去收集和标注图像数据用于训练了。1.数据收集目前主要通过从百度图片上爬图片来进行数据收集,爬虫脚本如下:#-*- coding:utf-8 -*- import re im原创 2017-08-11 15:52:31 · 3964 阅读 · 1 评论