- 博客(128)
- 收藏
- 关注
原创 搜广推面经六十七
见【搜广推校招面经四十六设真实分布为PPP,预测分布为QQQHPQ−∑xPxlogQxHPQ−x∑PxlogQx是使用预测分布QQQ来编码真实分布PPP所需的平均 bit 数。在分类问题中,PPP通常是 one-hot 向量(只有一个元素为1,其余为0)。
2025-04-05 00:15:00
579
3
原创 Pyspark学习二:快速入门基本数据结构
实际工作中其实不需要自己安装和配置,更重要的是会用。所以就不研究怎么安装配置了。前面介绍过:简单来说,Spark是一款分布式的计算框架,用于调度成百上千的服务器集群,计算TB、PB乃至EB级别的海量数据。Spark作为全球顶级的分布式计算框架,支持众多的编程语言进行开发。
2025-04-04 00:02:21
1052
86
原创 搜广推校招面经六十六
在 Transformer 结构中,由于模型(不像 RNN 那样有时间步的顺序依赖),需要通过**位置编码(Positional Encoding, PE)**来提供位置信息,使得模型能够区分不同 token 的相对位置。
2025-04-04 00:01:07
1386
47
原创 Pyspark学习一:概述
允许 Python 开发者轻松使用 Spark 进行大规模数据处理。,比 Hadoop MapReduce 更快,适用于。的 Python API,提供了。Spark 本身是一个。
2025-04-02 02:00:00
892
102
原创 搜广推校招面经六十三
L1 正则化适用于特征选择,会让部分参数变为 0,从而得到稀疏模型。L2 正则化适用于防止过拟合,不会让参数变 0,而是让它们趋于较小的值,提高模型的泛化能力。在深度学习中,L2(权重衰减)更常用,而在稀疏特征数据中,L1 更合适。
2025-03-31 00:15:00
877
69
原创 搜广推校招面经六十二
信息熵(Entropy)HX−∑ipilog2piHX−i∑pilog2pipip_ipi是类别iii的概率,即该类别样本数占总样本数的比例。信息熵越大,表示数据的混乱程度越高;信息熵越小,表示数据越纯净。
2025-03-30 00:15:00
1569
14
原创 搜广推校招面经六十一
4.1. 哈利波特效应概念“哈利波特效应”(Harry Potter Effect)指的是头部效应,即极少数头部内容获得大量关注,而长尾内容则难以被发现。这种现象广泛存在于图书、电影、音乐、短视频、游戏等文娱产业,表现为爆款作品迅速吸引大部分用户的注意力,而其他内容则被冷落。原因马太效应(强者愈强,弱者愈弱):热门作品的知名度越高,越容易获得额外流量。社交传播效应:热门内容容易被社交媒体讨论和推荐,形成病毒式传播。平台推荐机制:算法倾向于推荐已有较高互动的内容,进一步放大头部效应。影响。
2025-03-29 00:10:13
1142
125
原创 搜广推校招面经六十
多路召回(Multi-Recall)指的是在信息检索或推荐系统中,通过多种召回策略(例如基于内容的召回、基于协同过滤的召回等)获取候选集,然后将这些候选集进行融合,以提高整体的召回质量和准确性。融合的目标是将不同策略的优点结合起来,从而得到更高质量的最终推荐结果。不太理解为啥问这么多word2vec,索性直接整理一遍。
2025-03-28 00:15:00
1114
13
原创 搜广推校招面经五十九
Gini 指标(或 Gini 系数)是衡量模型预测性能的一种常见指标,尤其适用于不平衡数据集,广泛应用于信用评分、保险风险预测等领域。它与 AUC(Area Under the Curve)密切相关,但更强调对排序的评价。
2025-03-27 01:45:00
1023
9
原创 搜广推校招面经五十八
Batch Normalization(批归一化,BN)是一种加速深度神经网络训练的技术,它通过对每个 mini-batch 计算均值和方差来归一化输入特征,从而稳定训练过程,减少梯度消失/梯度爆炸问题。
2025-03-25 00:30:00
1543
114
原创 搜广推校招面经五十七
负采样:通过随机采样负样本简化 softmax 计算,提高训练效率,适合高频词。霍夫曼树:通过词频构建二叉树,减少计算复杂度,适合低频词。选择方法:根据语料库的特点(如词频分布、规模)选择合适的训练方法。
2025-03-24 00:15:00
1283
72
原创 搜广推校招面经五十六
One-vs-Rest (OvR) 方法:将多分类问题转化为多个二分类问题,每个类别分别计算AUC,最后取平均。One-vs-One (OvO) 方法:对每两个类别计算AUC,最后取平均。
2025-03-23 00:05:13
894
11
原创 搜广推校招面经五十五
自动化特征交叉:无需人工设计交叉特征,模型可自动学习高阶交互。自注意力机制:利用 Multi-Head Self-Attention(MHSA)对特征进行建模,能够捕捉全局依赖关系。层次化建模:可以堆叠多个自注意力层,以捕捉更深层的特征交互信息。Embedding 层:将稀疏的类别型特征映射到低维的稠密向量表示。Self-Attention 层:使用多头自注意力机制(Multi-Head Self-Attention, MHSA)学习特征之间的高阶交互关系。MLP 预测层。
2025-03-21 02:30:00
1199
114
原创 搜广推校招面经五十四
Word2Vec 是一种用于学习词向量的模型,其核心思想是通过上下文预测目标词(Skip-gram)或通过目标词预测上下文(CBOW)。Word2Vec 的目标是将每个词映射到一个低维稠密向量空间中,使得语义相似的词在向量空间中距离较近。
2025-03-19 00:15:00
1004
12
原创 力扣hot100_二分查找(1)_python版本
思路:复用二分查找(二分查找是返回等于target的第一个位置)代码:# 循环不变量if nums[mid] < target: # 循环不变量对齐left = midelse:= target:# 如果 start 存在,那么 end 必定存在。
2025-03-18 00:26:00
361
14
原创 搜广推校招面经五十二
窗口大小: 需要根据任务需求选择合适的窗口大小,平衡局部和全局信息的捕捉。向量维度: 选择合适的维度以平衡模型表达能力和计算复杂度。迭代轮数: 确保模型充分训练,但避免过拟合。
2025-03-18 00:21:39
935
2
原创 搜广推校招面经五十
处理连续数据,以加速决策树的训练。这种方法避免了对所有特征值进行遍历,大幅提升计算效率,同时对模型精度影响很小。,避免传统 GBDT 在遍历所有样本时的高昂计算开销。见【搜广推校招面经九、十】LightGBM 使用。这种方式的核心目标是。
2025-03-16 00:15:00
1198
64
原创 搜广推校招面经四十九
具体使用方法见【搜广推校招面经三十六】倒排索引(Inverted Index)是信息检索系统中常用的一种数据结构,用于快速查找包含某个关键词的文档。以下是倒排索引的原理及Map中Key的处理方式的详细说明。
2025-03-15 00:06:10
938
6
原创 搜广推校招面经四十七
特性PostLNPreLNLN 位置子层输出后子层输入前训练稳定性较差,需要 warm-up较好,无需 warm-up深层模型表现较差较好实现复杂度简单简单推荐使用:在深层 Transformer 模型中,PreLN 通常是更好的选择。见【搜广推校招面经二十八】、【搜广推校招面经十二】SIM(Search-based Interest Model)是由阿里妈妈提出的一种基于搜索的用户兴趣建模方法,旨在解决如何利用用户的长期行为序列数据进行点击率(CTR)预测的问题。在推荐系统和广告系统中,
2025-03-14 01:00:00
1870
11
原创 搜广推校招面经四十六
假设模型为逻辑回归,输入特征为 x∈Rd\mathbf{x} \in \mathbb{R}^dx∈Rd,权重参数为 w∈Rd\mathbf{w} \in \mathbb{R}^dw∈Rd,偏置为 b∈Rb \in \mathbb{R}b∈R。模型输出为:z=wTx+bz = \mathbf{w}^T \mathbf{x} + bz=wTx+b通过 Sigmoid 函数得到概率:p=σ(z)=11+e−zp = \sigma(z) = \frac{1}{1 + e^{-z}}p=σ(z)=1+
2025-03-13 00:15:00
1221
15
原创 搜广推校招面经四十四
存在一个中介变量MMM,它完全介导了处理变量XXX对结果变量YYY的因果效应。处理变量XXX和结果变量YYY之间存在未观测的混杂因素UUU。后门准则用于确定一组变量ZZZ,使得在控制ZZZ后,处理变量XXX对结果变量YYY的因果效应可以被无偏地估计。具体来说,ZZZ需要阻断XXX和YYY之间的所有后门路径。后门准则提供了一种在存在混杂因素的情况下识别因果效应的方法,通过控制一组适当的变量ZZZ来阻断后门路径,从而获得无偏的因果估计。
2025-03-12 00:15:00
1865
17
原创 搜广推校招面经四十五
倾向分消偏主要通过计算个体的倾向分来调整不同组别的样本,使其在统计上更加可比。IPS 和 DR 消偏提供了一种基于加权和双重稳健的方法来进一步减少偏差。消偏塔采用分层处理的方式,从原始数据到最终模型,逐步减少选择偏差,提升模型的稳健性。使用显式特征的在线交互感知提升网络(EFIN)
2025-03-12 00:15:00
1141
76
原创 搜广推校招面经四十三
因果推荐(Causal Recommendation)是指利用因果推断的方法来理解和优化推荐系统的行为。不同于传统的基于关联分析的推荐方法,因果推荐旨在揭示用户行为背后的真正原因,从而提供更加准确和个性化的推荐。
2025-03-11 02:45:00
914
17
原创 搜广推校招面经四十二
ESU在GSU筛选的基础上,进一步精确选择与当前候选物品最相关的用户行为。其目标是找到与候选物品最匹配的行为,以更准确地预测用户兴趣。GSU负责从用户的历史行为中进行初步筛选,选择出可能与当前候选物品相关的行为。其目标是减少序列长度。GSU输出一个经过初步筛选的用户行为子集,供ESU进一步处理。ESU输出一个经过精确筛选的用户行为子集,用于最终的推荐预测。GSU通常采用简单的规则或启发式方法进行筛选。ESU通常采用更复杂的模型或算法进行精确匹配。
2025-03-11 00:35:50
930
1
原创 搜广推校招面经三十九
Python 装饰器(Decorator)是一种用于修改或扩展函数或方法行为的特殊语法。它本质上是一个高阶函数,接受一个函数作为输入,并返回一个新的函数。装饰器通常用于在不修改原函数代码的情况下,为函数添加额外的功能(如日志记录、权限检查、性能测试等)。
2025-03-09 00:15:00
11194
19
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人