- 博客(36)
- 收藏
- 关注
原创 DIN算法
目录1、背景2、数据特性以及解决方案3、特征介绍和模型结构模型结构4、其他创新点4.1、Dice激活函数从Relu到PRelu:4.2、评价指标gauc4.3、自适应正则 Adaptive Regularization5、结果展示6、代码实战1、背景自Youtube 提出来基于 embedding 和 MLP 的基础模型后,近年来深度学习在CT...
2020-05-06 18:27:48
2715
原创 leetcode刷题记录
1. 爬楼梯import numpy as npclass Solution: def climbStairs(self, n: int) -> int: res=np.zeros(n+1,np.int) res[0],res[1]=1,1 for i in range(2,n+1): res[i] = ...
2020-04-12 12:32:13
1489
1
原创 推荐系统冷启动中的EE算法
目录1、推荐系统中的EE问题2、相关算法 2.1 Bandit算法简介 2.2 朴素Bandit算法 2.3 Thompson sampling(汤普森采样)算法 2.4 UCB算法(Upper Confidence Bound)3:Beta分布知识1、推荐系统中的EE问题Exploration and Exploitatio...
2020-01-08 18:09:08
2674
1
原创 wide and deep
一:简介Wide&Deep全文围绕着“记忆”(Memorization)与“扩展(Generalization)”两个词展开。实际上,它们在推荐系统中有两个更响亮的名字,Exploitation & Exploration,即著名的EE问题。分为wide和deep两个部分,其实就是LR和DNN的组合wide侧就是普通的LR模型,需要根据人工经验构建常用特征喂入模型中,让w...
2019-12-31 17:40:56
602
原创 Bert、Transformer模型详解清单
简介本文将会从BERT的原理开始讲起,并带领大家分析transformer的源码,最后分别介绍如何使用BERT做本文分类与句向量的生成。原理篇本章将会先给大家介绍BERT的核心transformer,而transformer又是由attention组合而成,希望这两篇博客能让大家对transformer有一个详细的了解。Attention机制讲解: Transrofmer模...
2019-12-31 16:17:40
618
原创 TF-IDF文本向量化
1.文本数据的向量化1.1名词解释CF:文档集的频率,是指词在文档集中出现的次数DF:文档频率,是指出现词的文档数IDF:逆文档频率,idf = log(N/(1+df)),N为所有文档的数目,为了兼容df=0情况,将分母弄成1+df。TF:词在文档中的频率TF-IDF:TF-IDF= TF*IDF1.2文本数据样本集为了讲解文本数据的向量化,假设我们有4个文本...
2019-12-30 20:26:35
6821
原创 Attention笔记
一:背景介绍 二:注意力机制直观理解 三:权重系数求法 四:score函数 五:模型结构分析 六:模型的数学推导一 七:模型的数学推导二 八:对齐机制 ...
2019-12-30 17:40:24
187
原创 Doc2vec
目录一:背景二:基本原理2.1:PV-DM2.2:PV-DBOW2.3:和word2vec区别2.4:预测新文本的向量三:代码实战3.1:接口介绍 3.2:主要代码一:背景之前总结了Word2vec训练词向量的细节,讲解了一个词是如何通过word2vec模型训练出唯一的向量来表示的。那接着可能就会想到,有没有什么办法能够将一个句子甚至一...
2019-12-30 15:40:18
711
原创 AUC和GAUC
1:ROC—AUC曲线AUC:一个正例,一个负例,预测为正的概率值比预测为负的概率值还要大的可能性。所以根据定义:我们最直观的有两种计算AUC的方法1:绘制ROC曲线,ROC曲线下面的面积就是AUC的值(积分)2:假设总共有(m+n)个样本,其中正样本m个,负样本n个,总共有m*n个样本对,计数,正样本预测为正样本的概率值大于负样本预测为正样本的概率值记为1,累加计数,然后除...
2019-12-26 17:27:37
1869
原创 DeepFM算法
一:背景与特点之前为了同时学习低阶和高阶组合特征,提出了Wide&Deep 模型。它混合了一个线性模型(Wide part)和Deep 模(Deep part)。这两部分模型需要不同的输入,而Wide part部分的输入,依旧依赖人工特征工程。但是,这些模型普遍都存在两个问题:偏向于提取低阶或者高阶的组合特征。不能同时提取这两种类型的特征。 需要专业的领域知识来做...
2019-12-26 14:55:53
1388
原创 fastText算法
一、简介1.1:fastText背景fasttext是facebook开源的一个词向量与文本分类工具,在2016年开源,典型应用场景是“带监督的文本分类问题”。提供简单而高效的文本分类和表征学习的方法,性能比肩深度学习而且速度更快。fastText结合了自然语言处理和机器学习中最成功的理念。这些包括了使用词袋以及n-gram袋表征语句,还有使用子字(subword)信息,并通过隐藏表...
2019-12-20 19:21:24
994
原创 SparkSQL编程
第1章 Spark SQL概述1.1 什么是Spark SQLSpark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和DataSet,并且作为分布式SQL查询引擎的作用。我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduc的程序的复杂性,由于MapReduce这种计算模型执...
2019-12-19 17:17:14
301
原创 SQL必知必会
基本知识:连接Mysql的命令:mysql -u name -p password -h serverIP -pport第三章:了解数据库和表CREATE DATABASE crashcourse;/*创建名为 crashcourse 的新数据库*/ SHOW DATABASES;/*显示全部数据库*/ USE crashcourse;/*选择数据库cras...
2019-12-15 22:16:52
347
原创 NFM算法
目录一:背景二:原理2.1Embedding Layer2.2 Bi-Interaction Layer三:代码实现四:总结NFM主要的特点:一:背景在CTR预估中,为了解决稀疏特征的问题,学者们提出了FM模型来建模特征之间的交互关系。但是FM模型只能表达特征之间两两组合之间的关系,无法建模两个特征之间深层次的关系或者说多个特征之间的交互关系,因此学者们通过D...
2019-12-15 17:37:47
1915
原创 basic MF矩阵分解
一 背景对于推荐系统来说存在两大场景即评分预测(rating prediction)与Top-N推荐(item recommendation,item ranking)。评分预测场景主要用于评价网站,比如用户给自己看过的电影评多少分(MovieLens),或者用户给自己看过的书籍评价多少分(Douban)。其中矩阵分解技术主要应用于该场景。Top-N推荐场景主要用于购物网站或者一般拿不到显式...
2019-12-11 22:55:23
898
原创 annoy向量检索算法
一:算法目标annoy 算法的目标是建立一个数据结构能够在较短的时间内找到任何查询点的最近点,在精度允许的条件下通过牺牲准确率来换取比暴力搜索要快的多的搜索速度。二:算法流程1:建立索引Annoy的目标是建立一个数据结构,使得查询一个点的最近邻点的时间复杂度是次线性。Annoy 通过建立一个二叉树来使得每个点查找时间复杂度是O(log n)。 看下面这个图,随机选择两个点,以...
2019-12-11 11:37:06
8352
1
原创 spark算子总结
目录一:转换算子1:Value类型1.1 map(func)1.2 mapPartitions(func)1.3mapPartitionsWithIndex(func)1.4 flatMap(func)1.5 glom案例1.6 groupBy(func)1.7filter(func)1.8sample(withReplacement, frac...
2019-12-10 15:25:48
175
原创 AFM算法
目录1:研究背景2:网络结构3:代码实战1:研究背景FM算法本身通过引入二阶feature interactions来提高线性回归模型的泛化表达能力,但它以相同的权重来对所有的特征组合进行建模。事实上很多无用特征的组合会引入噪声从而影响效果。基于这个背景下,论文提出Attentional Factorization Machine(AFM),通过neural attentio...
2019-12-10 00:16:20
1398
原创 word2vec算法
目录1:为什么要用词向量2:Word2Vec简介2.1:CBOW模型2.1.1:模型结构2.1.2:推导过程2.2:Skip-Gram模型2.2.1:模型结构2.2.2:推导过程3:分层Hierarchical Softmax4:Negative Sampling5:代码实战参考文章:1:为什么要用词向量自然语言处理系统通常将词汇作为...
2019-12-08 13:35:33
614
原创 GBDT+LR
目录1:背景1.1:GBDT作用1.2:GBDT训练流程1.3:模型缺点:1.4:GBDT orRF2:代码实战:1:背景这篇文章是Facebook在2014发表的“Practical Lessons from Predicting Clicks on Ads at Facebook”,在这篇文章中acebook提出了经典的GBDT(Gradient Boost...
2019-12-05 11:24:10
648
原创 FFM算法
目录1:FFM背景1.1为什么提出FFM1.2:FFM原理1.3:FFM公式1.4:损失函数:2:代码实现FFM1:FFM背景1.1为什么提出FFM在FM模型中,每一个原始特征经过onehot之后的特征会对应一个隐变量,但在FFM模型中,认为应该将特征分为多个field,每个特征对应每个field分别有一个隐变量,这里的field其实就是原始特征的个数。举个例...
2019-12-04 15:15:01
718
原创 tensorflow知识记载
1.tf.multiply()两个矩阵中对应元素各自相乘格式: tf.multiply(x, y, name=None)参数:x: 一个类型为:half, float32, float64, uint8, int8, uint16, int16, int32, int64, complex64, complex128的张量。y: 一个类型跟张量x相同的张量。返回值: x * y ele...
2019-12-03 14:13:01
115
原创 shell学习笔记二
Sed命令:1:vim编辑器gg跳到最前面,G跳到最后面2:grep -v是反义的意思,不匹配3:sort是排序的意思sort -n按照数值排序(sort number)sort -nr按照数值逆序排序(sort number reverse)4:tail -1显示最后一行内容5:set -e告诉bash如果任何语句的执行结果不是true则应该退出6:s...
2019-12-03 12:14:17
83
原创 FM算法
目录1.FM背景与简介1.1 稀疏数据1.2为什么进行特征组合1.3如何组合特征1.4二次项参数求解方法1.5公式推导1.6关于隐向量2:FM代码实现3:xlearn流程以及抽取embeding向量3.1:数据处理3.2:训练模型3.3抽取向量1.FM背景与简介FM目的主要是为了解决稀疏数据下的特征组合问题。2010年,日本大阪大学(Osa...
2019-12-02 14:38:17
787
原创 学习清单(主要是实战方面,同时加强基础)
1:pyspark学习2:shell脚本的全面学习3:redis数据库基本命令以及python操作常用的api4:全面复习和预习tensorflowtensorflow复现看过的经典论文,用公司或者通用数据集复现。1:FM2:GBDT&LR3:wide&deep4:deepFM5:MF6:youtubenet7:双塔模型8:DIN...
2019-11-30 22:44:12
175
原创 Redis笔记
目录1:String命令2:Hash命令3:List命令4:set命令5:zset命令Redis 是完全开源免费的,遵守BSD协议,是一个高性能(NOSQL)的key-value数据库,Redis是一个开源的使用ANSIC语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库Redis支持五种数据类型:string(字符串),hash(哈希)...
2019-11-30 22:25:05
203
原创 shell学习笔记(一)
视频1:shell是命令解释器,最常用的是bash查看bash所在位置echo $BASHdf -h查看分区情况第一行是环境,#!/bin/bash 第二行通常是注解脚本作用,第三行是注解,作者这类信息编辑后赋予执行权限 chmod +x filename视频2:shell变量可以是局部变量和全局变量,变量可以在创建该变量的脚本中使用,全局变量可以在全局环境中使用...
2019-11-30 16:45:26
186
原创 概率题
1:一个圆上三个点,组成锐角三角形概率。保证三个点在一个半圆内,概率是0.5*0.5=0.252:认为换一个盒子或是坚持拿原来的盒子,哪个选中小球的机率更高3:真硬币m个,假币n个。假币只有正面。真币投掷正面概率为p。其中某硬币投掷k次都是正面,求是正面的概率设事件A:选中的硬币是真的 事件B:现象本身抛一个不均匀硬币五次,两次正三次反,下一次正的概率p1是多少?抛一个不...
2019-10-26 22:55:20
766
原创 推荐算法面试题
1:BN机制,公式(前向和反向),BN怎么训练,以及作用BN不是凭空拍脑袋拍出来的好点子,它是有启发来源的:之前的研究表明如果在图像处理中对输入图像进行白化(Whiten)操作的话,所谓白化,就是对输入数据分布变换到0均值,单位方差的正态分布那么神经网络会较快收敛,那么BN作者就开始推论了:图像是深度神经网络的输入层,做白化能加快收敛,那么其实对于深度网络来说,其中某个隐层的...
2019-10-26 22:55:16
6021
原创 面试算法题
1:连续子序列最大乘积https://blog.youkuaiyun.com/seagal890/article/details/91358875有可能前面负数乘以负数很大package com.bean.algorithmbasic; public class MaximumProductSubarray { public static int maxProduct(int[] nums...
2019-09-09 19:53:09
644
1
原创 数据结构知识点(代码)
线性表头插和尾插插入和删除元素:双链表插入和删除循环链表(带头节点不带头节点)链表和顺序表的区别和联系4、空间分配(数组空间确定,连续,链表可以不连续)栈(顺序栈和链栈)特点:后进先出顺序栈代码:链栈的代码就是链表的头插入和头删。队列(链队列和顺序队列)...
2018-10-28 22:44:01
395
原创 计算机网络知识
计算机网络概念:**一个将分散的、具有独立的计算机系统,通过通信设备与线路连接起来,由功能完善的软件实现资源共享和信息传递的系统。**简言之,计算机网络就是一些互联的、自治的计算机系统集合。计算机遵循协议进行资源共享和数据传输。计算机网络的组成从三个角度来看1、工作方式:边缘部分和核心部分。边缘部分由连接在因特网上、供用户直接使用的主机组成。核心部分由大量的网络和连接这些网络的路由器组成。2...
2018-10-27 16:03:08
1081
原创 数据库重点复习
DDL DML DQL DCL编码规则:unicode中一个字节可以对应一个汉字,参照javaSe命名规则:数据类型讲解:char和varchar插入的区别nvarchar和varchar的区别(众多数据类型带n的原因,他们的区别):整数类型:时间类型:图片类型:一般我们不采用直接采用存储图片,内存较大。一般存储url,然后将图片存放在服务器中,参考淘宝。主键...
2018-10-26 09:01:28
278
原创 JavaSE基础
java基础第一章使用记事本编写简单的Java程序步骤:1:用记事本文本编辑器编写源文件,然后保存,其中后缀名为.java.(Hello.java程序中包含两个类,student和Hello)2: 用javac命令进行编译。在dos终端中进入源文件的保存目录。倘若在第一步骤中保存在c盘的chapter1中。c:\chapter1>javac. Hello.java。
2018-10-23 13:27:39
294
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人