- 博客(108)
- 资源 (10)
- 收藏
- 关注
原创 搜索QP算法-TermTagging
为了实现查询中的术语标签标注(如将“苹果手机”标注为[“品牌”, “品类”]),可以采用基于词典匹配与深度学习模型结合的混合方法。
2025-02-27 17:59:19
725
原创 【无标题】
在电商搜索的Query类目预测任务中,设计一个高效且准确的算法需要综合考虑层次化分类、模型架构选择和数据特性。通过上述设计,模型能够有效利用层级结构信息,结合预训练语言模型的强大表征能力,显著提升类目预测的准确率和鲁棒性。,显式建模类目层级关系,同时解决数据稀疏问题。
2025-02-27 16:53:02
585
原创 PID控制算法入门
简介PID控制器是一个在工业控制应用中常见的反馈回路部件。这个控制器把收集到的数据和一个参考值进行比较,然后把这个差别用于计算新的输入值,这个新的输入值的目的是可以让系统的数据达到或者保持在参考值。PID控制器可以根据历史数据和差别的出现率来调整输入值,使系统更加准确而稳定。PID控制器(比例-积分-微分控制器),由比例单元(Proportional)、积分单元(Integral)和微分单元(Derivative)组成。可以透过调整这三个单元的增益KpK_pKp,KiK_iKi和KdK_dKd来
2021-05-14 14:51:27
654
翻译 Self-Attention计算详解
第一步准备输入向量(本例子里是每个单词的embedding),对每个单词创建Query向量、Key向量、Value向量。这些向量是单词embedding和三个转换矩阵(W_Q、W_K、W_V)相乘得到,这三个矩阵是在训练中学习得到的。注意到这些新向量的维度比输入词向量的维度要小(512–>64),并不是必须要小的,这种结构是为了让multiheaded attention的计算更稳定。第二步self-attention计算的第二个步骤是一个计算分值。这里我们计算 “Thinking Matc
2021-03-06 22:28:42
3696
原创 排序算法-Learn To Rank
简介:目前广泛使用的一些排序算法,如点击率预估,本质上还是二分类算法,尽管线上效果还不错,但是距离实际需求还有差距:排序任务关心的是相对顺序正确与否,而不是对“单个物料的点击概率”预测得是否精准。算法:LambdaMART:组合了 LambdaRank 和 MART(Multiple Additive Regression Trees)。LambdaMART 使用 LambdaRan...
2019-07-31 16:08:54
756
原创 训练样本三层表设计模式
三层表设计模式:1.原始训练样本基础特征要覆盖全,特征值要最原始,后期基本不动。2.最终训练样本基于原始训练样本进行去噪、特征处理、标签构造等,后期经常变动。3.模型输入样本处理成模型接受的样本的格式(tfrecord、libsvm),拆分训练集、验证集、测试集。...
2019-07-21 20:51:22
276
原创 Word2Vec
Word2VecWord2Vec 用来计算单词的分布式向量表征。分布式表征的主要优点是相似的单词在向量空间中很接近,在很多自然语言处理应用中都被证明很有用,例如命名实体识别(NDR)、消歧、标注、机器翻译等。skip-gram Modelskip-gram 的训练目标是学习单词在同一句子中有效预测其上下文的向量表征。从数学上来说,给定一系列训练单词 w1,w2,…,wTw1,w2,…,wTw...
2019-07-15 13:49:08
271
原创 Graph Embedding
简介对于网络科学而言,世间万物都可以抽象成点,而事物之间的关系都可以抽象成边,并根据不同的应用场景,生成不同的网络,因此整个世界都可以用一个巨大的复杂网络来代表。Graph Embedding 是一种将复杂网络投影到低维空间的机器学习技术,典型的做法是将网络中的节点做向量化表达,使节点间的向量相似度接近原始节点间在网络结构、近邻关系、Meta信息等多维度上的相似性。应用在电商场景中,用户...
2019-06-12 17:18:35
823
原创 CVR 预估难点
1.Data sparsity点击到转化数据稀疏,特征训练不充分。解决办法:1.Informed Undersampling2.SMOTE(Synthetic Minority Oversampling Technique)2.Sample selection bias训练、预测使用的样本空间不一致。解决办法:...
2019-05-15 11:42:02
1924
原创 搜索排序系统的冷启动问题
在搜索排序系统中,冷启动问题表现为当新的商家、商品或新的用户进来时,没有足够的数据用来推测用户对产品的喜好。其中商品冷启动是主要问题,我们通过两方面手段来进行缓解。模型上,在模型中引入文本相关性、品类相关性等特征,确保在没有足够展示和反馈的前提下能较为准确地预测。策略上,引入Explore&Exploit机制,对新商家和商品给予适度的曝光机会,以收集反馈数据并改善预测。...
2019-05-07 14:14:55
1857
原创 数据结构与算法-动态规划
题目描述目前市面上的纸币主要有1元,5元,10元,20元,50元、100元六种,如果要买一件商品x元,有多少种货币组成方式?#include <vector>#include <iostream>using namespace std;class Solution {public: // 动态规划: // dp[i][sum] = 用前i种硬...
2019-05-07 10:46:25
471
原创 搜索与搜索广告
随着互联网发展,搜索广告已经成为一个庞大并且不断增长的产业。每一次搜索广告的展示、点击和转化都需要三个参与方(广告商、用户和平台)的密切合作。平台是用户搜索请求和广告商投放的广告之间的桥梁,进行着流量匹配、广告展现等工作。搜索和搜索广告的区别搜索搜索广告产品用户产品商业产品用户体验提升用户体验伤害用户体验参与者平台、用户广告主、平台、用户准则...
2019-05-06 10:55:59
598
原创 数据结构与算法-回溯法
题目描述请设计一个函数,用来判断在一个矩阵中是否存在一条包含某字符串所有字符的路径。路径可以从矩阵中的任意一个格子开始,每一步可以在矩阵中向左,向右,向上,向下移动一个格子。如果一条路径经过了矩阵中的某一个格子,则之后不能再次进入这个格子。 例如 a b c e s f c s a d e e 这样的3 X 4 矩阵中包含一条字符串"bcced"的路径,但是矩阵中不包含"abcb"路径,因为字符...
2019-04-28 16:17:25
305
原创 ID类特征使用小结
如何使用ID类特征ID类特征在搜索、推荐、计算广告等领域里有大量的应用。如何使用:ID类特征在预测中的命中率可能并不高,但这其实也不是问题。因为一个特征就是一个体系,**一个体系化的特征是通过层次化的特征设计来达到命中率和个性化的综合。**通过分层的、由细粒度到粗粒度的特征搭配来保证特征命中率。比如说在电商领域中设计一个体系化的特征来表示一个商品:商品id->店铺id->商品类...
2019-04-22 11:43:32
7196
原创 最大似然估计MLE(Maximum Likelihood Estimation)
L(θ∣x)=f(x∣θ)L(θ|x)=f(x|θ)L(θ∣x)=f(x∣θ)这个等式要表示的核心意思都是在给一个theta和一个样本x的时候,整个事件发生的可能性多大。f(x|θ)表示的就是在给定参数theta的情况下,x出现的可能性多大。L(θ|x)表示的是在给定样本x的时候,参数theta使得x出现的可能性多大。...
2019-04-17 13:24:38
1286
原创 DSSM及其在搜索领域的应用
1.使用query和doc的语义向量的余弦距离计算相关度:R(Q,D)=cos(yQ,yD)=yQTyD∣∣yQ∣∣yD∣∣R(Q,D)=\cos(y_Q,y_D) = \frac{y_Q^{\mathrm{T}}y_D}{||y_Q|| y_D||}R(Q,D)=cos(yQ,yD)=∣∣yQ∣∣yD∣∣yQTyD...
2019-03-28 15:18:32
1105
原创 协同过滤I2I的简单实现
基于物品的协同过滤是目前业界应用最多的算法。可以通过下面公式定义物品的相似度:wi,j=∣N(i)∩N(j)∣∣N(i)∣∣N(j)∣w_{i,j}=\frac{|N(i) \cap N(j)|}{\sqrt{|N(i)||N(j)|}} wi,j=∣N(i)∣∣N(j)∣∣N(i)∩N(j)∣这里,分母∣N(i)∩N(j)∣|N(i) \cap N(j)|∣N(i)∩N(j)∣是同时...
2019-03-27 22:28:14
1825
原创 数据结构与算法基础
数据结构与算法栈栈是一种动态集合,它是一种LIFO(last in first out后进先出)结构。队列队列是一种动态集合,它是一种FIFO(first in first out先进先出)结构。树二叉树http://blog.51cto.com/ahalei/1425314 http://blog.51cto.com/ahalei/1427156...
2019-03-25 22:33:08
176
原创 概率论基础
概率论与数理统计等可能概率事件A发生的概率P(A)=A中包含的基本事件数S中基本事件的总数P(A)=A中包含的基本事件数S中基本事件的总数P(A) = \frac{A中包含的基本事件数}{S中基本事件的总数}例1 将一枚硬币抛掷三次。(1)设事件A1为“恰有一次出现正面”,求P(A1);(2)设事件A2为“至少又一次出现正面”,求P(A2)。解 (1)P(A1)=C1323...
2019-03-25 22:30:14
1603
原创 信息熵(Information Entropy)及其在电商搜索领域中的应用
信息熵是衡量分布的混乱程度或分散程度的一种度量。分布越分散(或者说分布越平均),信息熵就越大。分布越有序(或者说分布越集中),信息熵就越小。计算公式给定的样本集X的信息熵的公式:entropy=−∑i=1Cpilog2(pi)entropy = -\sum_{i=1}^{C} p_{i} log_{2} (p_{i})entropy=−i=1∑Cpilog2(pi)参数的含义: ...
2019-03-21 11:02:23
1297
原创 Power-law Distributions(幂律分布)
f(x)=ax−kf(x)=ax^{-k}f(x)=ax−kAn example power-law graph, being used to demonstrate ranking of popularity. To the right is the long tail, and to the left are the few that dominate (also known as the...
2019-03-03 11:57:50
17181
原创 RankNet -> LambdaRank -> LambdaMART
RankNet -&amp;amp;amp;amp;gt; LambdaRank -&amp;amp;amp;amp;gt; LambdaMARTRankNet、LambdaRank 和 LambdaMART 是由微软提出的LTR的三个算法。它们将排序问题转化为 pairwise 的分类或者回归问题。RankNetRankNet最初是用神经网络开发的,但底层模型可以不局限于神经网络。RankNet的损失函数旨在最小化排序中的逆序数量。这里的逆序代表一对结...
2019-02-15 17:12:52
1615
原创 Java内存泄漏排查
Java内存泄漏排查1.内存溢出和内存泄露通俗点说: 内存溢出:申请了10个字节的空间,但是确在这个空间写入11或以上字节的数据,出现溢出。内存泄漏:new申请了一块内存,后来很长时间都不再使用了(按理应该释放),但是因为一直被某个或某些实例所持有导致 GC 不能回收,也就是该被释放的对象没有释放。1.1内存溢出(Out Of Memory)产生该错误的原因主要包括:JVM内存过小...
2019-01-03 16:34:58
574
原创 NLP基本概念及其应用
n-gram modeln元语法(n-gram)指文本中连续出现的n个语词。n元语法模型是基于(n-1)阶马尔可夫链的一种概率语言模型,通过n个语词出现的概率来推断语句的结构。当n分别为1、2、3时,又分别称为一元语法(unigram)、二元语法(bigram)与三元语法(trigram)。Skip-Gram modelSkip-Gram模型的训练输入是特定的一个词的词向量,而输出是特定词...
2018-12-04 17:55:57
713
原创 Exploit & Explore(探索与利用)
Exploit & Explore(探索与利用)举个栗子选餐厅:Exploitation : 去最喜欢的餐厅。Exploration: 尝试新餐厅。挖石油:Exploitation : 继续挖已有的。Exploration: 去新地方挖。在线广告:Exploitation : 展示最好的广告。Exploration: 展示些不同的广告。为什么如果模型没...
2018-11-19 16:37:11
7726
原创 DeepFM论文笔记
DeepFM论文笔记IntroductionFM(Factorization Machines) 将成对特征间的交叉建模为特征之间潜在向量的内积。Embedding layer embedding 层的输出表示为:a=[e1,e2,...em]a =[e_1,e_2,...e_m]a=[e1,e2,...em]m是field的数量,eie_iei是第i个field的embe...
2018-11-12 17:46:44
395
原创 Multi-task learning 中的Loss设计
Multi-task learning 中的Loss设计核心问题:在Multi-task learning的一个核心的问题是loss的设计: 1、如何控制各子任务loss的权重? 2、起始训练时各子任务loss的数量级不同会对收敛造成哪些影响? 这两个问题归结起来是Gradient Balancing(梯度平衡)的问题,不同任务的loss的梯度相差过大, 导致梯度小的loss在训练过程...
2018-11-01 20:37:32
7661
原创 训练过程中常见问题总结
问题1:Loss下降,但accuracy(或auc)不升。解答:正常,Loss和acc计算方式不同,是两个完全不同的东西。acc只关心预测正确,而不关心正确的程度(比如预测狗和猫,不论模型预测是猫的概率是51%还是99%,对acc来说是一样的)。但是loss函数(如cross_entropy_loss)考虑了预测的正确程度。所以会出现预测正确的数量不变,但是正确的置信度越来越高了。问题2:Lo...
2018-10-27 11:30:34
5835
1
原创 常用样本数据格式
常用样本数据格式1 libsvm格式每行文本表示一个样本,每个字段以" "(空格)分隔,每行的文本格式label index1:value1 index2:value1 index3:value3 ...其中label字段:字段类型:Int当输入数据是训练数据,label为样本的标签,二分类算法label是{0, 1},多分类算法label是{0, 1, 2, …, n} ;...
2018-10-03 11:40:47
3180
原创 GLM到FM到FFM到DeepFM
GLM(General Linear Model)y=w0+∑i=1nwixiy = w_0 + \sum_{i=1}^nw_ix_iy=w0+i=1∑nwixiFM(Factorization Machine)y=w0+∑i=1nwixi+∑i=1n∑j=i+1nwijxixjy = w_0 + \sum_{i=1}^nw_ix_i + \sum_{i=1}^{n}\sum_{j=...
2018-10-02 13:39:46
385
原创 店铺、商品质量分
店铺、商品质量分目标:成交、停留时长等特征:实体维度:商品、商家时间维度:1天、7天、30天、90天。行为维度:曝光、浏览、收藏、加购、购买、评价、退款、复购、详情页停留时间、IM回复。统计维度:pv、uv、点击率、转化率、GMV、时长。模型:XGBOOST可解释性,特征重要度。特征重要度Reference:https://zhuanlan.zhihu.com/p/355...
2018-10-02 13:37:00
626
原创 Logloss详解
定义:−(ylog(p)+(1−y)log(1−p))-{(y\log(p) + (1 - y)\log(1 - p))}−(ylog(p)+(1−y)log(1−p))yyy表示样本的真实标签(1或-1),ppp表示模型预测为正样本的概率。可视化:下图展示了lable=1时对数损失值的范围。当预测概率接近1时,对数损失缓慢下降。但随着预测概率的降低,对数损失迅速增加。对数损失对两种类...
2018-10-02 13:21:36
32845
4
原创 非均衡样本学习(Learning from Imbalanced Data)
非均衡样本学习(Learning from Imbalanced Data)1.Undersampling1.1Informed Undersampling2.Oversampling2.1SMOTE(Synthetic Minority Oversampling Technique)
2018-10-02 13:13:55
1004
原创 mac电脑重装tensorflow遇到的一个坑
从RNN到seq2seq思考: RNN的many to many和seq2seq都是多对多,感觉都能解决序列对序列的问题,为什么机器翻译使用seq2seq,而图像序列识别1直接使用RNN的many to many?语言模型和文本生成给定一个单词序列, 我们要预测在给出前面单词的条件下每个单词的概率。语言模型使我们能够计算一个句子的可能性。因为能够预测下一个单词, 我们也得到了一个...
2018-08-07 13:42:22
1961
原创 从HMM到RNN
从HMM到RNN马尔科夫的一阶、二阶无非是上1个2个状态。而RNN及其变种可以回溯到上N个状态。在功效上两者有冲突吗?RNN完败HMM吗?有什么非HMM不可的问题?1.HMM(隐马尔可夫模型)2.RNN(循环神经网络)3.HMM VS RNNHMM和RNN在基本结构上是挺像的,都是通过hidden state的演化来刻画序列间的依赖关系。不同是:RNN与HMM...
2018-07-16 18:54:12
4882
1
原创 tensorflow-模型保存和加载(二)
tensorflow-模型保存和加载(二)TensorFlow的模型格式有很多种,针对不同场景可以使用不同的格式。 格式 简介 Checkpoint 用于保存模型的权重,主要用于模型训练过程中参数的备份和模型训练热启动。 GraphDef 用于保存模型的Graph,不包含模型权重,加上checkpoint后就有模型上线的全部信息。 SavedM...
2018-07-03 20:50:07
1214
原创 Feature hashing(特征哈希)
Feature hashing(特征哈希)在机器学习中,特征哈希也称为哈希技巧(类比于核技巧),是一种快速且空间利用率高的特征向量化方法,即将任意特征转换为向量或矩阵中的索引。它通过对特征应用散列函数并直接使用特征的散列值作为索引来工作,而不是在关联数组中查找索引。例子在典型的文档分类任务中,机器学习算法(包括学习和分类)的输入是自由文本。 因此,构造了BOW表示:每个单词被抽取并...
2018-06-11 20:04:58
11453
4
原创 残差(Residual)-从GBDT到ResNet
在深度神经网络中,随着网络层级的加深,会出现两个问题:过多的参数容易导致过拟合。训练结果会在真值周围变化,导致网络震荡。借鉴GBDT和XGBoost的思路,ResNet借助残差来解决震荡问题。...
2018-06-06 19:49:08
1500
使用颜色纹理直方图来进行目标跟踪
2012-11-22
多目标行人检测
2012-11-22
PCA降维程序
2012-11-22
LAMP_HMM 隐马尔科夫模型
2012-05-22
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人