- 博客(9)
- 资源 (7)
- 收藏
- 关注
原创 tensornet源码调试解析
最近阅读了tensornet的源码,其设计思想很值得借鉴。对于架构设计的感兴趣的同学,强烈建议阅读一下。tensornet在tensorflow的基础上进行二次开发,针对广告推荐等大规模稀疏场景优化的分布式训练框架。相比之前的分布式框架,tensornet借助mpi集群管理,每个节点单独维护一个ps,省去了维护管理节点的成本。本文主要记录了我个人对tensornet源码的阅读以及理。1. 环境准备1.1 安装大家可以根据tensornet提供的dockerfile创建一个tensornet的镜像,我本
2021-01-12 14:09:30
816
3
原创 多任务学习在推荐中的探索
多任务学习(Multi-task learning)在cv和nlp领域已经得到广泛的应用,无论是经典的maskrcnn—同时预测bounding box的位置和类别,还是称霸nlp的bert—预测某个单词和句子是否相关联,都属于多任务模型。在推荐中是基于隐式反馈来进行推荐的,用户对于推荐结果是否满意通常依赖很多指标(点击,收藏,评论,购买等),因此在排序中,我们需要综合考虑多个目标,尽可能使所有目...
2020-03-11 19:08:36
21997
原创 理解Word Embedding,全面拥抱ELMO
提到Word Embedding,如果你的脑海里面冒出来的是Word2Vec,Glove,Fasttext等。那我猜你有80%的概率是从事和NLP相关的工作或者至少是一个算法爱好者(这貌似是一个真命题,哈哈)。其实简单来说Word Embedding就是把词转换成向量的形式。计算机只识别二进制,智能问答系统,我们需要计算机理解的是文字。此时我们就需要将文字转换成数字,向量的形式。最简单的一种方式就...
2019-06-06 18:00:59
6196
原创 DeepFM结合代码的理解
闲谈众所周知,自从人工智能火了以后,大家现在全民AI,连小学生中学生都在搞所谓的AI。AI的实现应该靠算法与硬件的结合,但是国内貌似搞算法的远超搞硬件的。现阶段来看,算法层面上,主要靠深度网络。我理解所谓的深度网络,就是用一系列的线性函数模拟复杂的非线性函数。举个简单例子,一个正弦函数,我们可以将他的作用域划分成一系列的小区间,将每个区间端点的函数值用直线连接起来。如果这些区间足够小,就...
2019-04-28 14:03:54
7583
5
原创 最近邻搜索:Product Quantization for Nearest Neighbor Search
最近邻搜索在搜索领域是常用给的算法,拿我们的1:N的人脸识别举例,假如我们底库中有200百万照片的特征向量(这个数字已经算小的了),每个特征向量是512维,如果用线性搜索的话,那么我们要进行200*512百万次的加法,乘法。这个随着底库的增加,算法复杂度是逐渐增加的。在实际的应用场景中,显然这个是不可以的。很直观的一个想法就是,我们能不能类似于二分查找那样,每就算一次就排除一部分呢。第二个想法就是...
2019-01-16 14:42:10
2155
原创 MaskRCNN源码解读
https://github.com/matterport/Mask_RCNN这个是一个基于Keras写的maskrcnn的源码,作者写的非常nice。没有多余的问文件,源码都放在mrcnn中,readme里面有详细的介绍,为了了解maskrcnn的运行流程,最好的办法就是将代码边运行边调试。从samples下面的coco文件开始运行:前面首先会加载一些配置文件的数据,暂时用不到没必...
2018-07-25 09:13:51
30012
17
原创 机器学习项目总结--Display Advertising Challenge
CriteoLabs 2014年7月份在kaggle上发起了一次关于展示广告点击率的预估比赛。获得比赛第一名的是号称”3 Idiots”的三个台湾人,最近研究了一下他们的开源的比赛代码,在此分享一下他们的思路。这个代码非常适合机器学习初学者研究一下,尤其对于跨行想做机器学习,但是这之前又没有做过相关的项目。从数据的处理到模型算法的选择,都非常的详细。读完这个代码,大家一定会对机器学习在工业上的应用有了解。
2017-12-25 13:02:14
6123
4
原创 机器学习系列--关于LR的两个问题
逻辑回归是应用非常广泛的一个分类机器学习算法,有关LR的算法推导以及计算过程有很多资料可以参考,在这里我们就不再赘述。这里我们主要关心两个问题,也是在面试的过程经常会被问到的, LR为什么使用sigmoid函数和 LR中损失函数为什么不能使用平方损失函数
2017-12-17 19:59:20
583
原创 机器学习系列--GBDT算法总结与源码分析
最近在看Kaggle2014年的一个比赛–Display Advertising Challenge。三个台湾人得了比赛的第一名,他们使用的是FFM算法(这个后面再做总结),在他们比赛的代码中,使用了GBDT算法进行了特征的处理。他们没有使用scikit-learn中封装好的算法,而是自己手撸了一个GBDT的实现。下面就GBDT的一些原理和源码进行分析总结。1. GBDT算法总结 2. GBDT源码分析
2017-12-12 19:49:37
7664
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人