自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(128)
  • 收藏
  • 关注

原创 回溯(组合型):剪枝

【代码】回溯(组合型):剪枝。

2025-04-05 00:15:00 132 1

原创 搜广推面经六十七

见【搜广推校招面经四十六设真实分布为PPP,预测分布为QQQHPQ−∑xPxlog⁡QxHPQ−x∑​PxlogQx是使用预测分布QQQ来编码真实分布PPP所需的平均 bit 数。在分类问题中,PPP通常是 one-hot 向量(只有一个元素为1,其余为0)。

2025-04-05 00:15:00 579 3

原创 Pyspark学习二:快速入门基本数据结构

实际工作中其实不需要自己安装和配置,更重要的是会用。所以就不研究怎么安装配置了。前面介绍过:简单来说,Spark是一款分布式的计算框架,用于调度成百上千的服务器集群,计算TB、PB乃至EB级别的海量数据。Spark作为全球顶级的分布式计算框架,支持众多的编程语言进行开发。

2025-04-04 00:02:21 1052 86

原创 搜广推校招面经六十六

在 Transformer 结构中,由于模型(不像 RNN 那样有时间步的顺序依赖),需要通过**位置编码(Positional Encoding, PE)**来提供位置信息,使得模型能够区分不同 token 的相对位置。

2025-04-04 00:01:07 1386 47

原创 力扣hot100_动态规划(2)_python版本

【代码】力扣hot100_动态规划(2)_python版本。

2025-04-03 00:52:38 256 7

原创 搜广推校招面经六十五

Focal Loss 是一种。

2025-04-03 00:52:09 899 1

原创 Pyspark学习一:概述

允许 Python 开发者轻松使用 Spark 进行大规模数据处理。,比 Hadoop MapReduce 更快,适用于。的 Python API,提供了。Spark 本身是一个。

2025-04-02 02:00:00 892 102

原创 搜广推校招面经六十四

逆天啊,上来就是暴击。

2025-04-02 01:30:00 1275 52

原创 回溯(子集型):分割回文串

【代码】回溯(子集型):分割回文串。

2025-04-01 00:15:00 354 87

原创 搜广推校招面经六十三

L1 正则化适用于特征选择,会让部分参数变为 0,从而得到稀疏模型。L2 正则化适用于防止过拟合,不会让参数变 0,而是让它们趋于较小的值,提高模型的泛化能力。在深度学习中,L2(权重衰减)更常用,而在稀疏特征数据中,L1 更合适。

2025-03-31 00:15:00 877 69

原创 搜广推校招面经六十二

信息熵(Entropy)HX−∑ipilog⁡2piHX−i∑​pi​log2​pi​pip_ipi​是类别iii的概率,即该类别样本数占总样本数的比例。信息熵越大,表示数据的混乱程度越高;信息熵越小,表示数据越纯净。

2025-03-30 00:15:00 1569 14

原创 搜广推校招面经六十一

4.1. 哈利波特效应概念“哈利波特效应”(Harry Potter Effect)指的是头部效应,即极少数头部内容获得大量关注,而长尾内容则难以被发现。这种现象广泛存在于图书、电影、音乐、短视频、游戏等文娱产业,表现为爆款作品迅速吸引大部分用户的注意力,而其他内容则被冷落。原因马太效应(强者愈强,弱者愈弱):热门作品的知名度越高,越容易获得额外流量。社交传播效应:热门内容容易被社交媒体讨论和推荐,形成病毒式传播。平台推荐机制:算法倾向于推荐已有较高互动的内容,进一步放大头部效应。影响。

2025-03-29 00:10:13 1142 125

原创 搜广推校招面经六十

多路召回(Multi-Recall)指的是在信息检索或推荐系统中,通过多种召回策略(例如基于内容的召回、基于协同过滤的召回等)获取候选集,然后将这些候选集进行融合,以提高整体的召回质量和准确性。融合的目标是将不同策略的优点结合起来,从而得到更高质量的最终推荐结果。不太理解为啥问这么多word2vec,索性直接整理一遍。

2025-03-28 00:15:00 1114 13

原创 搜广推校招面经五十九

Gini 指标(或 Gini 系数)是衡量模型预测性能的一种常见指标,尤其适用于不平衡数据集,广泛应用于信用评分、保险风险预测等领域。它与 AUC(Area Under the Curve)密切相关,但更强调对排序的评价。

2025-03-27 01:45:00 1023 9

原创 力扣hot100_堆_python版

【代码】力扣hot100_堆_python版。

2025-03-26 00:45:00 385 15

原创 搜广推校招面经五十八

Batch Normalization(批归一化,BN)是一种加速深度神经网络训练的技术,它通过对每个 mini-batch 计算均值和方差来归一化输入特征,从而稳定训练过程,减少梯度消失/梯度爆炸问题。

2025-03-25 00:30:00 1543 114

原创 搜广推校招面经五十七

负采样:通过随机采样负样本简化 softmax 计算,提高训练效率,适合高频词。霍夫曼树:通过词频构建二叉树,减少计算复杂度,适合低频词。选择方法:根据语料库的特点(如词频分布、规模)选择合适的训练方法。

2025-03-24 00:15:00 1283 72

原创 搜广推校招面经五十六

One-vs-Rest (OvR) 方法:将多分类问题转化为多个二分类问题,每个类别分别计算AUC,最后取平均。One-vs-One (OvO) 方法:对每两个类别计算AUC,最后取平均。

2025-03-23 00:05:13 894 11

原创 力扣hot100_二分查找(2)_python版本

【代码】力扣hot100_二分查找(2)_python版本。

2025-03-22 00:30:00 979 18

原创 搜广推校招面经五十五

自动化特征交叉:无需人工设计交叉特征,模型可自动学习高阶交互。自注意力机制:利用 Multi-Head Self-Attention(MHSA)对特征进行建模,能够捕捉全局依赖关系。层次化建模:可以堆叠多个自注意力层,以捕捉更深层的特征交互信息。Embedding 层:将稀疏的类别型特征映射到低维的稠密向量表示。Self-Attention 层:使用多头自注意力机制(Multi-Head Self-Attention, MHSA)学习特征之间的高阶交互关系。MLP 预测层。

2025-03-21 02:30:00 1199 114

原创 搜广推校招面经五十三

MAP 估计在贝叶斯框架下,结合了似然函数和先验分布,找到使后验概率最大化的参数。

2025-03-20 02:00:00 2345 13

原创 搜广推校招面经五十四

Word2Vec 是一种用于学习词向量的模型,其核心思想是通过上下文预测目标词(Skip-gram)或通过目标词预测上下文(CBOW)。Word2Vec 的目标是将每个词映射到一个低维稠密向量空间中,使得语义相似的词在向量空间中距离较近。

2025-03-19 00:15:00 1004 12

原创 力扣hot100_二分查找(1)_python版本

思路:复用二分查找(二分查找是返回等于target的第一个位置)代码:# 循环不变量if nums[mid] < target: # 循环不变量对齐left = midelse:= target:# 如果 start 存在,那么 end 必定存在。

2025-03-18 00:26:00 361 14

原创 搜广推校招面经五十二

窗口大小: 需要根据任务需求选择合适的窗口大小,平衡局部和全局信息的捕捉。向量维度: 选择合适的维度以平衡模型表达能力和计算复杂度。迭代轮数: 确保模型充分训练,但避免过拟合。

2025-03-18 00:21:39 935 2

原创 搜广推校招面经五十一

正负样本取决于自己的项目。

2025-03-17 00:15:00 990 102

原创 搜广推校招面经五十

处理连续数据,以加速决策树的训练。这种方法避免了对所有特征值进行遍历,大幅提升计算效率,同时对模型精度影响很小。,避免传统 GBDT 在遍历所有样本时的高昂计算开销。见【搜广推校招面经九、十】LightGBM 使用。这种方式的核心目标是。

2025-03-16 00:15:00 1198 64

原创 搜广推校招面经四十九

具体使用方法见【搜广推校招面经三十六】倒排索引(Inverted Index)是信息检索系统中常用的一种数据结构,用于快速查找包含某个关键词的文档。以下是倒排索引的原理及Map中Key的处理方式的详细说明。

2025-03-15 00:06:10 938 6

原创 搜广推校招面经四十八

感觉直接开始吟唱吧。

2025-03-15 00:05:11 660 4

原创 搜广推校招面经四十七

特性PostLNPreLNLN 位置子层输出后子层输入前训练稳定性较差,需要 warm-up较好,无需 warm-up深层模型表现较差较好实现复杂度简单简单推荐使用:在深层 Transformer 模型中,PreLN 通常是更好的选择。见【搜广推校招面经二十八】、【搜广推校招面经十二】SIM(Search-based Interest Model)是由阿里妈妈提出的一种基于搜索的用户兴趣建模方法,旨在解决如何利用用户的长期行为序列数据进行点击率(CTR)预测的问题。在推荐系统和广告系统中,

2025-03-14 01:00:00 1870 11

原创 力扣hot100_二叉树(5)_python版本

【代码】力扣hot100_二叉树(5)_python版本。

2025-03-14 01:00:00 282 6

原创 搜广推校招面经四十六

假设模型为逻辑回归,输入特征为 x∈Rd\mathbf{x} \in \mathbb{R}^dx∈Rd,权重参数为 w∈Rd\mathbf{w} \in \mathbb{R}^dw∈Rd,偏置为 b∈Rb \in \mathbb{R}b∈R。模型输出为:z=wTx+bz = \mathbf{w}^T \mathbf{x} + bz=wTx+b通过 Sigmoid 函数得到概率:p=σ(z)=11+e−zp = \sigma(z) = \frac{1}{1 + e^{-z}}p=σ(z)=1+

2025-03-13 00:15:00 1221 15

原创 搜广推校招面经四十四

存在一个中介变量MMM,它完全介导了处理变量XXX对结果变量YYY的因果效应。处理变量XXX和结果变量YYY之间存在未观测的混杂因素UUU。后门准则用于确定一组变量ZZZ,使得在控制ZZZ后,处理变量XXX对结果变量YYY的因果效应可以被无偏地估计。具体来说,ZZZ需要阻断XXX和YYY之间的所有后门路径。后门准则提供了一种在存在混杂因素的情况下识别因果效应的方法,通过控制一组适当的变量ZZZ来阻断后门路径,从而获得无偏的因果估计。

2025-03-12 00:15:00 1865 17

原创 搜广推校招面经四十五

倾向分消偏主要通过计算个体的倾向分来调整不同组别的样本,使其在统计上更加可比。IPS 和 DR 消偏提供了一种基于加权和双重稳健的方法来进一步减少偏差。消偏塔采用分层处理的方式,从原始数据到最终模型,逐步减少选择偏差,提升模型的稳健性。使用显式特征的在线交互感知提升网络(EFIN)

2025-03-12 00:15:00 1141 76

原创 搜广推校招面经四十三

因果推荐(Causal Recommendation)是指利用因果推断的方法来理解和优化推荐系统的行为。不同于传统的基于关联分析的推荐方法,因果推荐旨在揭示用户行为背后的真正原因,从而提供更加准确和个性化的推荐。

2025-03-11 02:45:00 914 17

原创 搜广推校招面经四十二

ESU在GSU筛选的基础上,进一步精确选择与当前候选物品最相关的用户行为。其目标是找到与候选物品最匹配的行为,以更准确地预测用户兴趣。GSU负责从用户的历史行为中进行初步筛选,选择出可能与当前候选物品相关的行为。其目标是减少序列长度。GSU输出一个经过初步筛选的用户行为子集,供ESU进一步处理。ESU输出一个经过精确筛选的用户行为子集,用于最终的推荐预测。GSU通常采用简单的规则或启发式方法进行筛选。ESU通常采用更复杂的模型或算法进行精确匹配。

2025-03-11 00:35:50 930 1

原创 力扣hot100_二叉树(4)_python版本

【代码】力扣hot100_二叉树(4)_python版本。

2025-03-10 00:15:00 653 10

原创 搜广推校招面经四十一

当优化一个任务时,另一个任务的性能下降。任务之间的损失函数相互竞争,导致模型难以同时优化所有任务。

2025-03-10 00:15:00 1159 64

原创 搜广推校招面经三十九

Python 装饰器(Decorator)是一种用于修改或扩展函数或方法行为的特殊语法。它本质上是一个高阶函数,接受一个函数作为输入,并返回一个新的函数。装饰器通常用于在不修改原函数代码的情况下,为函数添加额外的功能(如日志记录、权限检查、性能测试等)。

2025-03-09 00:15:00 11194 19

原创 力扣hot100_二叉树(3)_python版本

【代码】力扣hot100_二叉树(3)_python版本。

2025-03-09 00:15:00 260 4

原创 力扣hot100_二叉树(2)_python版本

【代码】力扣hot100_二叉树(2)_python版本。

2025-03-08 04:00:00 212 4

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除