
algorithm
Mr_哲
get ready
展开
-
多分类预估和auc评估
经典CTR预估场景,主要对是否曝光/点击(0/1)进行二分类。最近遇到多分类(类别之间互斥)问题,踩了一些坑,总结和整理下,希望能够加深对多分类理解和思考。区别 二分类 多分类 标签 0/1 c类,如c=10:[0,1,0,0,0,0,0,0,0,0] 损失函数 交叉熵 多分类交叉熵 预估输出 (0,1)值 c维向量,如c=10:[0.1,0.1,0.2,0.2,0.1,0.1,0.1,0.2,0.2,0.1] auc评估 随机.原创 2020-11-11 21:29:23 · 8091 阅读 · 0 评论 -
谈谈做算法中踩过的一些坑
目录产品形态需求和挑战规范性优化约束业务策略工程架构数据流流量分发降级服务告警数据特征数据归一化数据缺失数据稀疏数据不置信第三方数据校验和统一模型调参数据量级tensorboard参数随机初始化初始学习率激活函数选择学习率设定防止过拟合优化器选择残差块与BN层自动调参方法Grid Sea...原创 2019-10-20 13:07:49 · 1388 阅读 · 0 评论 -
强化学习进阶——DQN
目录预备知识基本概念目标和约束条件MDP马尔可夫决策过程假设基本概念计算价值函数Action-Value Function动作价值函数Optimal value function最优价值函数策略迭代和值迭代Q-LearningQ-Learning算法EE问题DQNQ-Learning神经网络化DQN算法及其改进NIPS DQN...原创 2019-10-04 17:14:53 · 2830 阅读 · 0 评论 -
强化学习基础——bandit
目录为选择而生为错误买单代价经典方法朴素Bandit算法ε-Greedy算法Thompson sampling算法Thompson sampling算法流程UCBUCB算法流程LinUCBContext Bandit-附加信息刻画决策过程Context Bandit如何学习LinUCB算法流程LinUCB代码LinUCB with Hyb...原创 2019-09-21 11:10:22 · 3485 阅读 · 0 评论 -
深度兴趣网络模型探索——DIN+DIEN+DSIN
目录DIN背景din模型结构提出自适应正则提出相关延伸系统概述推荐流程介绍特征工程基本模型结构DIN模型自适应正则DIEN背景DIEN模型提出DIEN关键点DIEN模型兴趣提取层兴趣演化层DIEN模型结构DSIN背景DSIN模型提出DSIN改进点DSIN模型会话划分层会话兴趣提取层会话兴趣...原创 2019-06-10 23:33:20 · 12515 阅读 · 1 评论 -
feed流个性化推荐架构和算法分享
目录一、场景1.应用场景2.feed流资讯应用场景二.架构1. 物理架构2.逻辑架构三、召回算法1.用户画像2. tag热度(tagCtr)3. LBS/时间轴4.关键词标签5.主题标签6.语义标签7.协同过滤8.SimRank9. BERT10. FFM11. Deep & Wide四、排序算...原创 2019-05-05 21:47:38 · 10668 阅读 · 3 评论 -
基于deepwalk图嵌入的match解读
目录一、deepwalk解读1. deepwalk介绍2. deepwalk优势2.1 online学习2.2 并行2.3 信息缺失2.4 graph embedding3. deepwalk算法和流程实现二、deepwalk在推荐应用1. 目标2. 代码说明2.1 数据格式2.2 代码说明3. 实验输出目前推荐系统常用的召回方法有ite...原创 2019-01-08 21:07:49 · 4411 阅读 · 2 评论 -
大规模分布式图学习框架Euler——安装和使用
目录一、Euler介绍1. 框架2. 应用2.1 大规模图的分布式学习2.2 支持复杂异构图的表征2.3 图学习与深度学习的结合2.4 分层抽象与灵活扩展3. 内置算法二、Euler安装1. 编译2. Euler安装 2.1 PyPI安装2.2 源码编译安装三、GraphSage模型训练1. PPI数据2. 模型训练3. 模型评估...原创 2019-01-21 20:51:45 · 7475 阅读 · 7 评论 -
推荐系统FM & FFM算法解读与实践
在推荐系统和计算广告业务中,点击率CTR(click-through rate)和转化率CVR(conversion rate)是衡量流量转化的两个关键指标。准确的估计CTR、CVR对于提高流量的价值,增加广告及电商收入有重要的指导作用。业界常用的方法有人工特征工程 + LR(Logistic Regression)、GBDT(Gradient Boosting Decision Tree) + ...原创 2018-11-13 19:07:43 · 38009 阅读 · 15 评论 -
基于ItemBased和ALS的协同过滤推荐算法
基于邻域的算法是个性化推荐系统中最基本的算法,该算法不仅在学术界得到了深入研究,而且在业界得到了广泛应用。基于邻域的算法分为两大类,一类是基于用户的协同过滤算法,另一类是基于物品的协同过滤算法。本文主要研究基于物品的协同过滤算法和基于ALS协同过滤算法。一、基于物品的协同过滤算法1.基本思想ItemCF算法通过计算用户的历史行为记录,来分析物品之间的相似度:如果喜欢物品A的用户大多数也...原创 2018-09-29 14:31:43 · 2154 阅读 · 0 评论 -
基于逻辑回归/决策树/随机森林/多层感知分类器/xgboost/朴素贝叶斯分类的资讯多分类性能对比
在上一篇(https://blog.youkuaiyun.com/baymax_007/article/details/82748544)中,利用逻辑回归实现资讯多分类。本文在之前基础上,又引入决策树、随机森林、多层感知分类器、xgboost和朴素贝叶斯分类算法,并对验证集和测试集分类正确率和耗时进行性能对比。ml支持决策树、随机森林、梯度提升决策树(GBDT)、线性支持向量机(LSVC)、多层感知分类器...原创 2018-09-27 17:18:09 · 5516 阅读 · 2 评论 -
Cross-validation优化资讯多分类模型参数
在上一篇(https://blog.youkuaiyun.com/baymax_007/article/details/82775180)中,只是简单选用逻辑回归、决策树、随机森林、多层感知分类器、xgboost、朴素贝叶斯分类对资讯进行分类。然而,实际分类模型效果受模型初始化的参数影响,选取合适参数可以提高分类效果。交叉验证(Cross-validation)是常用的模型参数优化方法。CrossVali...原创 2018-09-28 10:08:14 · 1974 阅读 · 2 评论 -
基于MLR资讯多分类
针对海量资讯,通过机器学习实现多分类,从而减轻人工打标工作量,具有重要意义。资讯分类可以拆解为两个问题:文本分词,提取特征 多分类模型针对文本分词,常见中文分词工具有:HanLP、ansj、jieba和fudannlp。这里选取HanLP。而多分类模型有逻辑回归(Logistic regression)、决策树(Decision tree classifier)、随机森林(Random...原创 2018-09-17 21:21:31 · 1933 阅读 · 0 评论 -
spark ml 实现tf-idf和word2vec
一、tf-idf介绍 tf-idf(term frequency-inverse document frequency) 一种广泛用于文本挖掘的特征向量方法,用户反映术语对语料库中文档重要性,tf(Term Frequency):表示一个term与某个document的相关性,idf(Inverse Document Frequency):表示一个term表示document的主题的权重...原创 2018-08-22 19:59:28 · 3668 阅读 · 1 评论