Y1nhl-优快云博客

原创回溯（组合型）：剪枝

【代码】回溯（组合型）：剪枝。

2025-04-05 00:15:00 132 1

原创搜广推面经六十七

见【搜广推校招面经四十六设真实分布为PPP，预测分布为QQQHPQ−∑xPxlog⁡QxHPQ−x∑PxlogQx是使用预测分布QQQ来编码真实分布PPP所需的平均 bit 数。在分类问题中，PPP通常是 one-hot 向量（只有一个元素为1，其余为0）。

2025-04-05 00:15:00 579 3

原创 Pyspark学习二：快速入门基本数据结构

实际工作中其实不需要自己安装和配置，更重要的是会用。所以就不研究怎么安装配置了。前面介绍过：简单来说，Spark是一款分布式的计算框架，用于调度成百上千的服务器集群，计算TB、PB乃至EB级别的海量数据。Spark作为全球顶级的分布式计算框架，支持众多的编程语言进行开发。

2025-04-04 00:02:21 1052 86

原创搜广推校招面经六十六

在 Transformer 结构中，由于模型（不像 RNN 那样有时间步的顺序依赖），需要通过**位置编码（Positional Encoding, PE）**来提供位置信息，使得模型能够区分不同 token 的相对位置。

2025-04-04 00:01:07 1386 47

原创力扣hot100_动态规划(2)_python版本

【代码】力扣hot100_动态规划(2)_python版本。

2025-04-03 00:52:38 256 7

原创搜广推校招面经六十五

Focal Loss 是一种。

2025-04-03 00:52:09 899 1

原创 Pyspark学习一：概述

允许 Python 开发者轻松使用 Spark 进行大规模数据处理。，比 Hadoop MapReduce 更快，适用于。的 Python API，提供了。Spark 本身是一个。

2025-04-02 02:00:00 892 102

原创回溯（子集型）：分割回文串

【代码】回溯（子集型）：分割回文串。

2025-04-01 00:15:00 354 87

原创搜广推校招面经六十三

L1 正则化适用于特征选择，会让部分参数变为 0，从而得到稀疏模型。L2 正则化适用于防止过拟合，不会让参数变 0，而是让它们趋于较小的值，提高模型的泛化能力。在深度学习中，L2（权重衰减）更常用，而在稀疏特征数据中，L1 更合适。

2025-03-31 00:15:00 877 69

原创搜广推校招面经六十二

信息熵（Entropy）HX−∑ipilog⁡2piHX−i∑pilog2pipip_ipi是类别iii的概率，即该类别样本数占总样本数的比例。信息熵越大，表示数据的混乱程度越高；信息熵越小，表示数据越纯净。

2025-03-30 00:15:00 1569 14

4.1. 哈利波特效应概念“哈利波特效应”（Harry Potter Effect）指的是头部效应，即极少数头部内容获得大量关注，而长尾内容则难以被发现。这种现象广泛存在于图书、电影、音乐、短视频、游戏等文娱产业，表现为爆款作品迅速吸引大部分用户的注意力，而其他内容则被冷落。原因马太效应（强者愈强，弱者愈弱）：热门作品的知名度越高，越容易获得额外流量。社交传播效应：热门内容容易被社交媒体讨论和推荐，形成病毒式传播。平台推荐机制：算法倾向于推荐已有较高互动的内容，进一步放大头部效应。影响。

2025-03-29 00:10:13 1142 125

原创搜广推校招面经六十

多路召回（Multi-Recall）指的是在信息检索或推荐系统中，通过多种召回策略（例如基于内容的召回、基于协同过滤的召回等）获取候选集，然后将这些候选集进行融合，以提高整体的召回质量和准确性。融合的目标是将不同策略的优点结合起来，从而得到更高质量的最终推荐结果。不太理解为啥问这么多word2vec，索性直接整理一遍。

2025-03-28 00:15:00 1114 13

原创搜广推校招面经五十九

Gini 指标（或 Gini 系数）是衡量模型预测性能的一种常见指标，尤其适用于不平衡数据集，广泛应用于信用评分、保险风险预测等领域。它与 AUC（Area Under the Curve）密切相关，但更强调对排序的评价。

2025-03-27 01:45:00 1023 9

原创力扣hot100_堆_python版

【代码】力扣hot100_堆_python版。

2025-03-26 00:45:00 385 15

原创搜广推校招面经五十八

Batch Normalization（批归一化，BN）是一种加速深度神经网络训练的技术，它通过对每个 mini-batch 计算均值和方差来归一化输入特征，从而稳定训练过程，减少梯度消失/梯度爆炸问题。

2025-03-25 00:30:00 1543 114

原创搜广推校招面经五十七

负采样：通过随机采样负样本简化 softmax 计算，提高训练效率，适合高频词。霍夫曼树：通过词频构建二叉树，减少计算复杂度，适合低频词。选择方法：根据语料库的特点（如词频分布、规模）选择合适的训练方法。

2025-03-24 00:15:00 1283 72

原创搜广推校招面经五十六

One-vs-Rest (OvR) 方法：将多分类问题转化为多个二分类问题，每个类别分别计算AUC，最后取平均。One-vs-One (OvO) 方法：对每两个类别计算AUC，最后取平均。

2025-03-23 00:05:13 894 11

原创力扣hot100_二分查找(2)_python版本

【代码】力扣hot100_二分查找(2)_python版本。

2025-03-22 00:30:00 979 18

原创搜广推校招面经五十五

自动化特征交叉：无需人工设计交叉特征，模型可自动学习高阶交互。自注意力机制：利用 Multi-Head Self-Attention（MHSA）对特征进行建模，能够捕捉全局依赖关系。层次化建模：可以堆叠多个自注意力层，以捕捉更深层的特征交互信息。Embedding 层：将稀疏的类别型特征映射到低维的稠密向量表示。Self-Attention 层：使用多头自注意力机制（Multi-Head Self-Attention, MHSA）学习特征之间的高阶交互关系。MLP 预测层。

2025-03-21 02:30:00 1199 114

原创搜广推校招面经五十三

MAP 估计在贝叶斯框架下，结合了似然函数和先验分布，找到使后验概率最大化的参数。

2025-03-20 02:00:00 2345 13

原创搜广推校招面经五十四

Word2Vec 是一种用于学习词向量的模型，其核心思想是通过上下文预测目标词（Skip-gram）或通过目标词预测上下文（CBOW）。Word2Vec 的目标是将每个词映射到一个低维稠密向量空间中，使得语义相似的词在向量空间中距离较近。

2025-03-19 00:15:00 1004 12

原创力扣hot100_二分查找(1)_python版本

思路：复用二分查找（二分查找是返回等于target的第一个位置）代码：# 循环不变量if nums[mid] < target: # 循环不变量对齐left = midelse:= target:# 如果 start 存在，那么 end 必定存在。

2025-03-18 00:26:00 361 14

原创搜广推校招面经五十二

窗口大小: 需要根据任务需求选择合适的窗口大小，平衡局部和全局信息的捕捉。向量维度: 选择合适的维度以平衡模型表达能力和计算复杂度。迭代轮数: 确保模型充分训练，但避免过拟合。

2025-03-18 00:21:39 935 2

原创搜广推校招面经五十一

正负样本取决于自己的项目。

2025-03-17 00:15:00 990 102

原创搜广推校招面经五十

处理连续数据，以加速决策树的训练。这种方法避免了对所有特征值进行遍历，大幅提升计算效率，同时对模型精度影响很小。，避免传统 GBDT 在遍历所有样本时的高昂计算开销。见【搜广推校招面经九、十】LightGBM 使用。这种方式的核心目标是。

2025-03-16 00:15:00 1198 64

原创搜广推校招面经四十九

具体使用方法见【搜广推校招面经三十六】倒排索引（Inverted Index）是信息检索系统中常用的一种数据结构，用于快速查找包含某个关键词的文档。以下是倒排索引的原理及Map中Key的处理方式的详细说明。

2025-03-15 00:06:10 938 6

原创搜广推校招面经四十八

感觉直接开始吟唱吧。

2025-03-15 00:05:11 660 4

原创搜广推校招面经四十七

特性PostLNPreLNLN 位置子层输出后子层输入前训练稳定性较差，需要 warm-up较好，无需 warm-up深层模型表现较差较好实现复杂度简单简单推荐使用：在深层 Transformer 模型中，PreLN 通常是更好的选择。见【搜广推校招面经二十八】、【搜广推校招面经十二】SIM（Search-based Interest Model）是由阿里妈妈提出的一种基于搜索的用户兴趣建模方法，旨在解决如何利用用户的长期行为序列数据进行点击率（CTR）预测的问题。在推荐系统和广告系统中，

2025-03-14 01:00:00 1870 11

原创力扣hot100_二叉树(5)_python版本

【代码】力扣hot100_二叉树(5)_python版本。

2025-03-14 01:00:00 282 6

原创搜广推校招面经四十六

假设模型为逻辑回归，输入特征为 x∈Rd\mathbf{x} \in \mathbb{R}^dx∈Rd，权重参数为 w∈Rd\mathbf{w} \in \mathbb{R}^dw∈Rd，偏置为 b∈Rb \in \mathbb{R}b∈R。模型输出为：z=wTx+bz = \mathbf{w}^T \mathbf{x} + bz=wTx+b通过 Sigmoid 函数得到概率：p=σ(z)=11+e−zp = \sigma(z) = \frac{1}{1 + e^{-z}}p=σ(z)=1+

2025-03-13 00:15:00 1221 15

原创搜广推校招面经四十四

存在一个中介变量MMM，它完全介导了处理变量XXX对结果变量YYY的因果效应。处理变量XXX和结果变量YYY之间存在未观测的混杂因素UUU。后门准则用于确定一组变量ZZZ，使得在控制ZZZ后，处理变量XXX对结果变量YYY的因果效应可以被无偏地估计。具体来说，ZZZ需要阻断XXX和YYY之间的所有后门路径。后门准则提供了一种在存在混杂因素的情况下识别因果效应的方法，通过控制一组适当的变量ZZZ来阻断后门路径，从而获得无偏的因果估计。

2025-03-12 00:15:00 1865 17

原创搜广推校招面经四十五

倾向分消偏主要通过计算个体的倾向分来调整不同组别的样本，使其在统计上更加可比。IPS 和 DR 消偏提供了一种基于加权和双重稳健的方法来进一步减少偏差。消偏塔采用分层处理的方式，从原始数据到最终模型，逐步减少选择偏差，提升模型的稳健性。使用显式特征的在线交互感知提升网络（EFIN）

2025-03-12 00:15:00 1141 76

原创搜广推校招面经四十三

因果推荐（Causal Recommendation）是指利用因果推断的方法来理解和优化推荐系统的行为。不同于传统的基于关联分析的推荐方法，因果推荐旨在揭示用户行为背后的真正原因，从而提供更加准确和个性化的推荐。

2025-03-11 02:45:00 914 17

原创搜广推校招面经四十二

ESU在GSU筛选的基础上，进一步精确选择与当前候选物品最相关的用户行为。其目标是找到与候选物品最匹配的行为，以更准确地预测用户兴趣。GSU负责从用户的历史行为中进行初步筛选，选择出可能与当前候选物品相关的行为。其目标是减少序列长度。GSU输出一个经过初步筛选的用户行为子集，供ESU进一步处理。ESU输出一个经过精确筛选的用户行为子集，用于最终的推荐预测。GSU通常采用简单的规则或启发式方法进行筛选。ESU通常采用更复杂的模型或算法进行精确匹配。

2025-03-11 00:35:50 930 1