自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(71)
  • 收藏
  • 关注

原创 touch ~/.ssh/config创建空的 SSH 配置文件

如果你有多个服务器需要 SSH 连接,可以为每个服务器配置不同的条目。文件中,你可以为不同的主机(Host)设置不同的 SSH 选项。这样,SSH 会自动使用你为每个主机配置的参数(如用户名、私钥等)。创建空的 SSH 配置文件(如果该文件不存在的话)。

2024-11-18 14:05:37 420

原创 `ls -l ~/.ssh` 命令将列出 `.ssh` 目录中所有文件

最后一列显示文件或目录的名称。例如 `id_rsa`、`id_rsa.pub`、`authorized_keys` 等。- **公钥文件 (`id_rsa.pub`) 权限**:通常设置为 `644`(所有用户都可以读取)。- **`~/.ssh` 目录权限**:通常应设置为 `700`(只有文件所有者可以读、写、执行)。- **私钥文件 (`id_rsa`) 权限**:应该设置为 `600`(只有文件所有者可以读写)。- **`id_rsa.pub`**:与 `id_rsa` 对应的公钥文件。

2024-11-18 13:59:27 475

原创 shell基本命令入门

Linux的Shell基本命令(按功能分类整理)_linux shell-优快云博客

2024-11-18 13:59:05 121

原创 macbook git 设置和远程克隆项目

step1: git安装。step2: git配置。step3: ssh配置。

2024-11-15 17:28:03 508

原创 互联网黑话大全(术语篇)扫盲

互联网产品经理,是互联网公司中的一种职能,负责互联网产品的计划和推广,以及互联网产品生命周期的演化。后端开发,属于软件研发工程师的一种,主要职责是后台系统设计与开发、接口设计和功能实现。前端开发,属于软件研发工程师的一种,使用 HTML、CSS、JavaScript 等专业技能和工具将产品UI设计稿实现成用户可视的app页面、网站页面等。测试工程师,属于软件测试工程师,工作职责包括:检查软件有没有缺陷(Bug)、测试软件是否具有稳定性(Robustness)、安全性、易操作性等性能。

2024-11-14 17:16:16 1464

原创 特征交叉04 SENet 和 Bilinear 交叉

SENet 和 Bilinear 交叉这两种模型用在排序上都有收益。

2024-10-22 14:31:42 369

原创 特征交叉03 LHUC (PPNet)

LHUC 只能用于精排。多目标模型中的神经网络可以用全连接网络 、深度交叉网络 或者LHUC等。

2024-10-22 13:54:34 676

原创 特征交叉02 DCN 深度交叉网络

DCN可以用来排序或者召回。召回:双塔模型是一种框架,不是具体的神经网络,两个塔可以用任意的神经网络结构,最简单的结构是全连接网络,DCN效果比全连接好。多目标排序模型MMOE排序模型。

2024-10-22 13:43:55 324

原创 特征交叉01 Factorized Machine (FM) 因式分解机

推荐系统中,交叉项很有用。线性模型没有交叉项。

2024-10-22 13:24:22 130

原创 排序06 粗排模型

前面讲的多目标模型主要是用于精排。粗排:尽量减少推理的计算量,牺牲准确性确保线上推理的速度足够快。

2024-10-21 21:46:48 203

原创 排序05 排序模型的特征

id embedding,通常用32或64维向量。

2024-10-21 21:21:53 270

原创 排序04 视频播放建模

用p拟合y,t是用户的实际观看时长,用y和p熵作为损失函数,使得p接近y。输出z,对z做sigmoid变换。exp(z)可以视为对播放时长的预估。

2024-10-21 20:35:47 209

原创 排序03 预估分数融合

α1 α2超参数,线上做ab test选取合适的。α1 2 3 4 全取1,计算的就是营收。预估观看时长p time。

2024-10-21 20:25:10 131

原创 排序02 Multi-gate Mixture-of-Experts (MMoE)

输入向量(包含四种特征)到三个神经网络(专家),不共享参数。实践中超参数专家神经网络个数需要调,会尝试4个或者8个专家。左边另一个神经网络softmax输出的向量,三个元素均为正数,合为1,作为权重,计算x1 x2 x3 的加权平均。右边的一样输出作为权重。

2024-10-21 20:19:27 260

原创 排序01 多目标模型

使用机器学习方法对指标做预估,再对预估分数做融合。融合方法:加权和方法给不同指标赋予不同的权重,权重是做A/B test调试得到的。还有更好地融合方法。

2024-10-02 16:20:42 314

原创 召回12 曝光过滤 & Bloom Filter

Bloom Filter是一种数据结构 。K=0的情况:K=3的情况:误伤概率:即每个曝光物品需要占几个bit的存储,用户历史上有n个曝光物品,只需要m=10n bits就可以把误伤概率降低到1%以下。把曝光物品写入kafka消息队列,用fink做实时计算,fink实时读取Kafka消息队列,计算曝光物品的哈希值,把结果写到Bloom Filter的二进制向量上。用这样的实时更新链路,在曝光发生几秒之后,用户的Bloom Filter就会被修改,就可以避免重复曝光。但如果挂掉或者延迟较大,会失误。曝光过滤具

2024-09-29 21:50:27 276

原创 召回11 地理位置召回、作者召回、缓存召回

有用但重要性不高GeoHash把经纬度编码成二进制哈希码方便检索。召回只根据经纬度这个地理位置,返回一批优质笔记,完全不考虑用户兴趣,也是因此返回优质笔记,大概率还是会感兴趣,不然通不过精排粗排。感兴趣的作者包括关注的和有交互的针对进入精排但没有被随机抽到的笔记。可以细化规则,例如,想要扶持曝光比较低的笔记,可以根据曝光次数来设置规则,让低曝光笔记在缓存存更长的时间。

2024-09-29 21:22:42 366

原创 召回10 Deep Retrieval召回

双塔模型是将向量表征作为用户和物品之间的中介。Deep Retrieval是将路径作为用户和物品之间的中介。

2024-09-29 21:06:29 509

原创 召回09 双塔模型+自监督学习

让不同物品的向量表征尽量spread out ,分散在整个特征空间上,而不是集中在一起。指标有改善。第一个batch训练双塔,包括用户塔和物品塔;第二个batch做自监督学习,只训练物品塔。最后做梯度下降使损失函数减小。Lmain 是双塔的损失, Lself是自监督的损失,分别取平均。α是超参数,决定自监督学习起到的作用。

2024-09-28 18:01:20 292

原创 召回08 双塔模型——线上服务、模型更新

模型训练好之后,部署到线上做召回,快速找到用户感兴趣的物品。对训练好的两个塔,线上服务前,先用右边的物品塔提取物品的特征做离线存储,记作特征向量b,把(b , id)二元组保存到数据库(Milvus、Faiss等)。然后对数据库建立索引,即划分几个区域,一个区域用一个向量表示,这样可以加速最近邻查找用户塔不需要事先计算和存储用户向量,而是当用户发起推荐请求的时候,调用神经网络在线上现算特征向量a,然后把向量a作为quary取数据库中做检索,查找最近邻,即和用户相似度最高的k个红色向量。每一个红色向量对应一篇

2024-09-28 16:42:14 426

原创 召回07 双塔模型——正负样本

二八法则,少部分物品占据了大多数点击,会导致正样本大多是热门物品。以一定的概率抛弃一些热门物品,抛弃的概率与样本的点击次数正相关。

2024-09-27 18:18:54 513

原创 召回06 双塔模型two-tower(DSSM)

这是粗排和精排,前期融合,将特征在神经网络之前就拼接融合,不适用于召回,适用于排序模型;召回使用双塔模型,是在最终输出相似度的时候才融合。

2024-09-27 17:48:16 716

原创 召回05 矩阵补充、最近邻查找

工业界使用更先进的双塔模型。query查询。

2024-09-24 15:02:06 422

原创 召回04 离散特征的处理

推荐系统会将一个id映射成一个向量。

2024-09-24 14:03:27 252

原创 数据结构与算法(Python)01

抽象数据类型(ADT)的含义是指一个数学模型以及定义在此数学模型上的一组操作。即把数据类型和数据类型上的运算捆在一起,进行封装。引入抽象数据类型的目的是把数据类型的表示和数据类型上运算的实现与这些数据类型和运算在程序中的引用隔开,使它们相互独立。插入删除修改查找排序。

2024-09-18 21:06:04 1115

原创 Github打不开解决方法

Github打不开解决方法_github打不开链接-优快云博客

2024-09-18 14:39:28 418

原创 召回03 基于用户的协同过滤 UserCF

2024-09-15 21:38:55 153

原创 召回02 Swing 召回通道

降低小圈子对相似度的影响。

2024-09-15 16:13:14 213

原创 召回01 基于物品是协同过滤 ItemCF

相似度,类似机器学习里面常用的cosine相似度。

2024-09-15 16:03:08 226

原创 概述03 A/B test

分层实验:

2024-09-14 20:37:16 201

原创 概述02 链路

2024-09-14 20:20:42 105

原创 概述01基本概念

上述为短期指标,更重要的是北极星指标。

2024-09-14 20:13:37 138

原创 sql刷题常用函数

是一个窗口函数,用于生成每个分组内的唯一行号。这个函数非常适合在分组数据中进行排序,并为每一行分配一个序号。

2024-09-13 18:32:06 515 1

原创 SQL-多表查询

【代码】SQL-多表查询ing。

2024-08-28 16:47:17 775

原创 SQL-约束

【代码】SQL-约束ing。

2024-08-28 11:18:24 191

原创 SQL-函数

【代码】SQL-函数ing。

2024-08-26 16:56:09 898

原创 Python入门刷题整理ing

1、通过调用内置函数hex()、bin()、oct()、int()这四种方式进行常见的进制转换。原理:先将读入的字符串x进行转换为十进制,再由十进制进行相关的转换。

2024-08-26 13:35:40 262

原创 datagrip侧边不显示数据表【已解决】

点击‘小眼睛’调整一下筛选。

2024-08-23 15:29:21 690

原创 SQL-DCL-数据控制语言

一、 DCL-管理用户。二、DCL-权限控制。

2024-08-23 10:55:37 359

原创 JetBrains 开发工具——学生授权免费申请指南

2022 JetBrains 开发工具——学生授权免费申请指南 | JetBrains 博客。DataGrip 快速入门 |DataGrip 文档 (jetbrains.com.cn)在读学生申请试用期1年,可续期。

2024-08-22 15:05:51 1006

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除