自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(200)
  • 收藏
  • 关注

原创 PLE详解

在做多目标建模的时候,摆在我们面前的主要在于各个任务的损失函数如何权衡baseline最简单的做法就是人工经验给每个任务分配一个权重系数,也就是其中n代表任务个数优点:简单,易懂缺点:对人工经验要求较高,需要多次人工尝试调参才能达到最佳效果这样做主要有这么几个问题不同任务的Loss差异非常大,如果某个任务的Loss比其他几个任务的Loss大一个量级,其实多任务学习就演变成单任务学习不同任务的梯度变化不同,有些任务参数更新快,有些任务参数更新慢。

2023-04-11 20:15:47 2417

原创 双塔模型实践

本文是我和双塔模型死磕了6个月之后的心得体会。如前文所述,双塔分离,既是保障线上快速serving、以适应召回+粗排场景的优点,也是不能使用交叉特征与结构、导致两侧信息交叉过晚、制约模型表达能力的最大缺点。user&item两侧信息交叉得太晚,等到最终能够通过dot或cosine交叉的时候,user & item embedding已经高度浓缩,一些细粒度的信息已经在塔中被损耗,永远失去了与对侧信息交叉的机会。为了克服这一缺点,业界同仁设计出许多改进方案。

2023-04-11 20:01:05 1701

原创 MMOE——多任务学习模型

近年来,深度神经网络模型已成功应用于许多现实世界的大规模应用,如推荐系统。这样的推荐系统通常需要同时优化多个目标。例如,在向用户推荐电影时,我们可能希望用户不仅购买并观看电影,还希望他们在观看后喜欢上电影,这样他们就会回来看更多的电影。也就是说,我们可以创建模型来同时预测用户的购买和他们的评级。

2023-04-05 17:05:59 1719

原创 0-1背包的四种解法

有句老话说得好,学会了0-1背包就学会了算法。本篇博客就来盘点一下0-1背包的4中常见解法。动态规划法既然要用动态规划法解0-1背包问题,就要能满足动态规划的两个特性:具有重叠子问题。具有最优子结构性。这两点应该很容易就可以看出,这里就不做过多赘述了。直接来看关键,之前说过,动态规划的本质就是填表,而解动态规划问题的关键是找出动态转移方程,一旦找出动态转移方程,就可以用方程把整个表都填满了。这里直接给出动态转移方程V(i, j)表示在前i(1≤i≤n)个物品中能够装入容量为j(1≤j≤C

2021-11-27 22:11:26 15007 4

原创 摄影技巧——人像篇

有些人拍人像的时候喜欢做些花里胡哨的动作,不明所以的摆姿会让人看起来特别“无厘头”,为了摆姿而摆姿,大家要明确一点,就是人像摄影,摆资只是辅助,主要表现的是人物情绪,这才是重中之重,根据照片传递的内容,根据模特表达的情绪,合理的安排相应的美姿就行,不用太复杂,简简单单的才是真!一个有故事的眼神是人像摄影里的画龙点情之笔,优秀的人像作品肯定是要“形神兼备”,通俗的讲就是你不光要把模特的外在拍的美,还要把内在的情绪,神态表现出来,这才能称之为优秀的作品,好看的皮食干篇一律,有趣的灵魂万里挑一。

2024-12-26 21:06:48 807

原创 大语言模型的常用微调方法

在深人介绍分词器之前,我们需要先回答一个重要问题:为何需要对文本进行分词?词在文本中是最小的独立单元,携带了一定的造又信息。在模型训练过程中,采用分词能够有效降低文本数据的维度,进而提高训练效率。分词器针对不同的粒度也有不同的分词方式,如字符级分词、单词级分词、子词级分词等。例如针对以下文本:Let’s go to work tomorrow!1)字符级分词:按照单字符进行分词,就是以char 为最小粒度。

2024-12-17 21:32:02 884

原创 诗词的格律

从格律上看,诗可分为古体诗和近体诗。古体诗又称古诗或古风;近体诗又称今体诗。从字数上看,有四言诗,五言诗,七言诗.唐代以后,四言诗很少见了,所以一般诗集只分为五言、七言两类。

2024-04-03 14:26:15 691

原创 MP中的常用注解

TableId:专门给主键使用进行映射。

2023-06-08 16:47:42 396

原创 myBatis-plus之CRUD

根据 Wrapper 条件,查询全部记录。根据 Wrapper 条件,查询全部记录(并翻页)根据 entity 条件,查询全部记录(并翻页)根据 whereEntity 条件,更新记录。根据 Wrapper 条件,查询全部记录。根据 Wrapper 条件,查询总记录数。根据 columnMap 条件,删除记录。根据 entity 条件,查询一条记录。根据 entity 条件,查询全部记录。查询(根据 columnMap 条件)根据 entity 条件,删除记录。查询(根据ID 批量查询)

2023-06-07 17:22:13 1302

原创 MyBatis

注:我出的答:虽然 MyBatis 解析 xml 映射文件是按照顺序解析的,但是,被引用的 B 标签依然可以定义在任何地方,MyBatis 都可以正确识别。原理是,MyBatis 解析 A 标签,发现 A 标签引用了 B 标签,但是 B 标签尚未解析到,尚不存在,此时,MyBatis 会将 A 标签标记为未解析状态,然后继续解析余下的标签,包含 B 标签,待所有标签解析完毕,MyBatis 会重新解析那些被标记为未解析的标签,此时再解析 A 标签时,B 标签已经存在,A 标签也就可以正常解析完成了。

2023-05-22 21:12:54 504

原创 springMVC

MVC 是模型(Model)、视图(View)、控制器(Controller)的简写,其核心思想是通过将业务逻辑、数据、显示分离来组织代码。网上有很多人说 MVC 不是设计模式,只是软件设计规范,我个人更倾向于 MVC 同样是众多设计模式中的一种。Spring MVC 是当前最优秀的 MVC 框架。相比于 Struts2 , Spring MVC 使用更加简单和方便,开发效率更高,并且 Spring MVC 运行速度更快。

2023-05-21 19:15:24 679

原创 JAVA IO 模型详解

I/O(Input/Outpu) 即输入/输出 。从计算机结构的视角来看的话, I/O 描述了计算机系统与外部设备之间通信的过程。从应用程序的视角来看的话,我们的应用程序对操作系统的内核发起 IO 调用(系统调用),操作系统负责的内核执行具体的 IO 操作。也就是说,我们的应用程序实际上只是发起了 IO 操作的调用而已,具体 IO 的执行是由操作系统的内核来完成的。当应用程序发起 I/O 调用后,会经历两个步骤:(1)内核等待 I/O 设备准备好数据(2)内核将数据从内核空间拷贝到用户空间。BIO

2023-04-28 09:39:15 1038

原创 JAVA基础

Java 中有 8 种基本数据类型,分别为:6 种数字类型: 4 种整数型:byte、short、int、long2 种浮点型:float、double1 种字符类型:char1 种布尔型:boolean。

2023-04-26 21:32:21 1748 1

原创 注意力机制在推荐模型中的应用——DIN

DIN 模型的应用场景是阿里最典型的电商广告推荐, DIN 模型本质上是一个点击率预估模型。

2023-04-05 16:43:27 470

原创 交互式推荐在美团的实现

交互式推荐是一种互动式实时推荐产品模块,主要通过理解用户需求、以互动的方式进行推荐。交互式推荐由Youtube在2018年提出,主要用于解决推荐系统的延迟和与用户互动偏弱的问题。从2021年下半年开始,美团外卖推荐技术团队在外卖首页Feed上持续进行探索,2022上半年完成全量。具体流程:用户从首页Feed进入商家详情页并退出之后,动态地插入新的推荐内容到用户推荐列表中。其主要优势是根据用户的实时需求动态插入卡片进行反馈,进而增强用户的使用体验。

2023-03-27 14:26:55 918

原创 GraphSAGE论文精读

我们提出了一个通用的框架,称为GraphSAGE(样本和聚合),用于归纳节点嵌入。与基于矩阵分解的嵌入方法不同,我们利用节点特征(例如,文本属性、节点概要信息、节点度)来学习一个将不可见节点泛化的嵌入函数。通过在学习算法中引入节点特征,我们同时学习了每个节点的邻域的拓扑结构以及节点特征在邻域中的分布情况。虽然我们关注特征丰富的图(例如,具有文本属性的引文数据,具有功能/分子标记的生物数据),但我们的方法也可以利用所有图中出现的结构特征(例如,节点度)。因此,我们的算法也可以应用于没有节点特征的图。

2023-03-21 10:44:03 593

原创 Tensorflow常用API

import 相关模块,如 import tensorflow as tf。

2023-02-21 20:24:43 700

原创 GBDT+LR

仅利用了用户与物品相互行为信息进行推荐, 忽视了用户自身特征, 物品自身特征以及上下文信息等,导致生成的结果往往会比较片面。FFM特征交叉能力有限:虽然 FFM 模型采用引入特征域的方式增强了模型的特征交叉能力,只能做二阶的特征交叉,如果继续提高特征交叉的维度,会不可避免地产生组合爆炸和计算复杂度过高的问题。表达能力不强, 无法进行特征交叉, 特征筛选等一系列“高级“操作(这些工作都得人工来干, 这样就需要一定的经验, 否则会走一些弯路), 因此可能造成信息的损失。

2023-02-13 13:09:00 357

原创 LS-PLM

LS-PLM是阿里巴巴曾经的主流推荐模型 “大规模分段线性模型”(Large Scale Piece-wise Linear Model,以下 简称LS-PLM)。早在2012年,它就是阿里巴巴主流的推荐模型,并在深度学习模型提出之前长时间应用于阿里巴巴的各类广告场景。

2022-12-12 20:03:54 552

原创 协同过滤CF

UserCF的核心思想是人以群分,现在我们得到了用户的向量表示,那么计算用户i和用户j的相似度问题,就是计算用户向量i和用户向量y之间的相似度,两个向量之间常用的相似度计算方法有余弦相似度、皮尔逊相关系数、欧氏距离等。以上介绍的协同过滤算法基于用户相似度进行推荐,因此也被称为基于用户的协同过滤(UserCF ),它符合人们直觉上的“兴趣相似的朋友喜欢的物品, 也喜欢”的思想,但从技术的角度,它也存在一些缺点,主要包括以下两点。对相似物品集合中的物品,利用相似度分值进行排序,生成最终的推荐列表。

2022-12-12 18:04:33 451

原创 Linux常用命令总结

(1)用户目录:位于/home/user,称之为用户工作目录;(2)ls:是英文单词list的简写,其功能为列出目录的内容;ls -a 列出隐藏文件,文件中以开头的均为隐藏文件,如:~/.bashrcls -l 列出文件的详细信息ls -R 连同子目录中的内容起列出​(3)cd:change dir 改变当前所在路径,使用“cd”命令跳转到相应目录。使用时要确认后面的目标目录是否存在。比如:cd file1;cd file1/file2;cd …(返回上一级目录);cd(返回根目录)(4)whi

2022-12-05 11:04:26 515

原创 TF-IDF详解

TF-IDF(term frequency–inverse document frequency,词频-逆向文件频率)是一种用于信息检索(information retrieval)与文本挖掘(text mining)的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF的主要思想是:如果某个单词在一篇文章中出现的频率TF高,并且在其他文章中很

2022-12-05 10:34:56 837

原创 SPARK数据分析

重点回顾今天这一讲,我们主要围绕数据的生命周期,学习了 Spark SQL 在不同数据阶段支持的处理算子,如下图所示图中涉及的算子很多,尽管大部分我们都举例讲过了,但要在短时间之内一下子掌握这么多内容,确实强人所难。不过,你不用担心,今天这一讲,最主要的目的,还是想让你对 Spark SQL 支持的算子有一个整体的把握。至于每个算子具体是用来做什么的,在日后的开发工作中,你可以反复地翻看这一讲,结合实践慢慢地加深印象,这样学习更高效。我也强烈建议你空闲时把官网的。

2022-11-28 20:18:08 2219

原创 如何入门spark

第一步,我们需要掌握 Spark 常用的开发 API 与开发算子。毕竟,通过这些 API 与开发算子,我们才能启动并驱使 Spark 的分布式计算引擎。接着,我们必须要深入理解它的工作原理。第三步,我们需要了解并熟悉 Spark 不同的计算子框架(Spark SQL、Spark MLlib 和 Structured Streaming),来应对不同的数据应用场景,比如数据分析、机器学习和流计算。

2022-11-28 16:30:06 1240

原创 使用SPARK进行特征工程

在机器学习领域,有一条尽人皆知的“潜规则”:Garbage in,garbage out。它的意思是说,当我们喂给模型的数据是“垃圾”的时候,模型“吐出”的预测结果也是“垃圾”。垃圾是一句玩笑话,实际上,它指的是不完善的特征工程。特征工程不完善的成因有很多,比如数据质量参差不齐、特征字段区分度不高,还有特征选择不到位、不合理,等等。作为初学者,我们必须要牢记一点:特征工程制约着模型效果,它决定了模型效果的上限,也就是“天花板”。而模型调优,仅仅是在不停地逼近这个“天花板”而已。因此,提升模型效果的第一步,就

2022-11-28 15:56:45 2322

原创 回溯框架总结

其实回溯算法和我们常说的 DFS 算法非常类似,本质上就是一种暴力穷举算法。回溯算法和 DFS 算法的细微差别是:回溯算法是在遍历「树枝」,DFS 算法是在遍历「节点」,本文就是简单提一下,等你看到后文图论算法基础 时就能深刻理解这句话的含义了。废话不多说,直接上回溯算法框架,解决一个回溯问题,实际上就是一个决策树的遍历过程,站在回溯树的一个节点上,你只需要思考 3 个问题:1、路径:也就是已经做出的选择。2、选择列表:也就是你当前可以做的选择。

2022-11-26 21:04:26 744

原创 动态规划做题总结

动态规划的本质是填表,自底向上的完成DP数组的构建。难点在于DP数组的定义以及状态转移方程的构建。

2022-11-19 19:14:52 114

原创 三种常见的特征选择方法

特征选择是特征工程里的一个重要问题,其目标是寻找最优特征子集。特征选择能剔除不相关(irrelevant)或冗余(redundant )的特征,从而达到减少特征个数,提高模型精确度,减少运行时间的目的。并且常能听到“数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已”,由此可见其重要性。

2022-11-15 15:07:53 8641 1

原创 Spark、Filnk简单介绍

作为业界主流的大数据处理利器,Spark 的地位毋庸置疑。所以,今天我先带你了解一下 Spark 的特点,再一起来看怎么用 Spark 处理推荐系统的特征。Spark 是一个分布式计算平台。所谓分布式,指的是计算节点之间不共享内存,需要通过网络通信的方式交换数据。Spark 最典型的应用方式就是建立在大量廉价的计算节点上,这些节点可以是廉价主机,也可以是虚拟的 Docker 容器。理解了 Spark 的基本概念,我们来看看它的架构。

2022-11-12 16:11:05 972

原创 推荐系统的数据流

动辄TB乃至PB级別的训练数据,让推荐系统的数据流必须和大数据处理与存储的基础设施紧密结合,才能完成推荐系统的高效训练和在线预估。大数据平台的发展经历了从批处理到流计算再到全面融合进化的阶段。架构模式的不断发展带来的是数据处理实时性和灵活性的大幅提升。按照发展的先后顺序,大数据平台主要有批处理、流计算、Lambda. Kappa 4种架构模式。

2022-11-12 14:49:52 1064

原创 BERT论文精读

我们引入了一种新的语言表示模型BERT,它使用了来自Transformer的双向编码器。与最近的语言表示模型不同,Bert的设计目的是结合左右双向的信息,使用预训练模型来生成文本的深度双向表示。预训练的Bert模型可以通过一个额外的输出层进行优化,从而为广泛的任务(如问题回答和语言推理)创建最先进的模型,而无需对特定于任务的体系结构进行实质性修改。它在11个自然语言处理任务上获得了最新的结果。

2022-11-07 10:27:09 820

原创 Transformer论文精读

主要的序列转换模型是基于复杂的递归或卷积神经网络,包括一个编码器和一个解码器。性能最好的模型还通过注意力机制连接编码器和解码器。我们提出了一种新的网络结构Transformer,它完全基于注意力机制,完全省去了重复和卷积。在两个机器翻译任务上的实验表明,这些模型在质量上是优越的,同时具有更高的并行性,需要更少的训练时间。

2022-11-07 09:53:32 658

原创 dataframe常用API(python)

数据收集到驱动器中进行计算,就不是分布式并行计算了,而是串行计算,会更慢,所以,除了常看小数据,一般吧建议使用。map方法可以对dataframe数据集中的数据进行逐个操作,他与flatMap的不同之处在于,flatMap是将数据集中的数据作为一个整体去处理,之后再对其中的数据做计算,map则是直接对数据集中的数据做单独处理。这里的重复项指的是两行的数据完全相同。filter方法是一个常用的方法,用条件来过滤数据集,如果想选择某列中大于或小于某数的数据,就可以使用filter方法。

2022-10-18 21:24:24 1272

原创 DataFrame简介

DataFrame实质上是存储在不同节点计算机中的一张关系型数据表。分布式存储最大的好处是:可以让数据在不同的工作节点上并行存储,以便在需要数据的时候并行运算。

2022-10-14 16:12:32 3436

原创 十二、集成学习

目前集成学习可以分成Boosting和Bagging两大流派。

2022-10-09 11:25:25 498

原创 十、循环神经网络

Seq2Seq模型的核心思想是,通过深度神经网络将一个作为输入的序列映射为一个作为输出的序列,这一过程由编码输入与解码输出两个环节构成。在经典的实现中,编码器和解码器各由一个循环神经网络构成,既可以选择传统循环神经网络结构,也可以使用长短期记忆模型、门控循环单元等。在Seq2Seq模型中,两个循环神经网络是共同训练的。假想一个复习和考试的场景。我们将学到的历史信息经过了一系列加工整理,形成了所谓的知识体系,这便是编码过程。然后在考试的时候, 将高度抽象的知识应用到系列问题中进行求解,这便是解码过程。

2022-10-05 16:54:50 709

原创 九、前向神经网络

深度前馈网络(Deep Feedforward Networks)是一种典型的深度学习模型。其目标为拟合某个函数f,即定义映射y=f (x;θ)将输入x转化为某种预测的输出y,并同时学习网络参数θ的值,使模型得到最优的函数近似。由于从输入到输出的过程中不存在与模型自身的反馈连接,此类模型被称为“前馈”。深度前馈网络是一类网络模型的统称,我们常见的多层感知机、自编码器、 限制玻尔兹曼机,以及卷积神经网络等,都是其中的成员。

2022-10-03 20:51:12 1421

原创 八、采样

MCMC采样法的核心点是构造合适的马尔可夫链,不同的马尔可夫链对应着不同的MCMC采样法,常见的有Metropolis-Hastings采样法和吉布斯采样法。

2022-09-30 15:01:33 414

原创 七、优化算法

优化是应用数学的一个分支,也是机器学习的核心组成部分。实际上,机器 学习算法 = 模型表征 + 模型评估 + 优化算法。其中,优化算法所做的事情就是在 模型表征空间中找到模型评估指标最好的模型。不同的优化算法对应的模型表征 和评估指标不尽相同,比如经典的支持向量机对应的模型表征和评估指标分别为 线性分类模型和最大间隔,逻辑回归对应的模型表征和评估指标则分别为线性分 类模型和交叉熵。

2022-09-22 15:29:18 1103 1

原创 四、PCA降维

PCA旨在找到数据中的主成分,并利用这些主成分表征原始数据,从而达到 降维的目的。举一个简单的例子,在三维空间中有一系列数据点,这些点分布在 一个过原点的平面上。如果我们用自然坐标系x,y,z三个轴来表示数据,就需要使用 三个维度。而实际上,这些点只出现在一个二维平面上,如果我们通过坐标系旋 转变换使得数据所在平面与x,y平面重合,那么我们就可以通过x′,y′两个维度表达原始数据,并且没有任何损失,这样就完成了数据的降维。而x′,y′两个轴所包含的信息就是我们要找到的主成分。

2022-09-18 15:05:56 1864

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除