
【机器学习】
deepindeed
https://github.com/cwlseu
展开
-
论文笔记:YOLO9000: Better,Faster,Stronger
摘要提出YOLO v2 :代表着目前业界最先进物体检测的水平,它的速度要快过其他检测系统(FasterR-CNN,ResNet,SSD),使用者可以在它的速度与精确度之间进行权衡。 提出了一种新的联合训练算法( Joint Training Algorithm ),使用这种联合训练技术同时在ImageNet和COCO数据集上进行训练。YOLO9000进一步缩小了监测数据集与识别数据集之...原创 2019-12-28 00:23:50 · 395 阅读 · 0 评论 -
BiTerm Topic Model
需求背景短文本,短视频的tag标签,如果使用图文的方法,显得力不从心,bad case太多。例如直接使用LDA算法对图文语料进行训练,取得不错的聚类效果,但是使用短视频的标签信息语料进行相同的操作,效果不佳。 直接使用word2vec进行关键词匹配的方式,很大程度上依赖视频标签的质量。而视频标签的标注信息不能依赖于信息上传者的标注信息与用户标注意图,这个不定因素不是我们能够控制的。主题模型...原创 2019-12-26 14:26:05 · 6480 阅读 · 1 评论 -
Google News Personalization:Scalable Online Collaborative Filtering
Abstract这篇论文介绍了google news推荐系统的实现。在用户量很大的前提下,原有的推荐算法适用性较差,需要对其进行改进,例如使用mapreduce,bigtable等技术提高运算速度,综合考虑多种推荐算法等等。google news的特点处理google news的一些难点scalability:google news访客较多,新闻数据也较多 item chur...原创 2019-12-25 11:48:20 · 742 阅读 · 0 评论 -
大规模训练数据的shuffle
必要性12以猫狗分类为例, 假如数据集是Dog,Dog,Dog,… ,Dog,Dog,Dog,Cat,Cat,Cat,Cat,… ,Cat,Cat所有的狗都在猫前面,如果不shuffle,模型训练一段时间内只看到了Dog,必然会过拟合于Dog,一段时间内又只能看到Cat,必然又过拟合于Cat,这样的模型泛化能力必然很差。 那如果Dog和Cat一直交替,会不会就不过拟合了呢?Dog,C...原创 2019-12-24 13:19:56 · 1827 阅读 · 0 评论