- 博客(71)
- 收藏
- 关注
原创 touch ~/.ssh/config创建空的 SSH 配置文件
如果你有多个服务器需要 SSH 连接,可以为每个服务器配置不同的条目。文件中,你可以为不同的主机(Host)设置不同的 SSH 选项。这样,SSH 会自动使用你为每个主机配置的参数(如用户名、私钥等)。创建空的 SSH 配置文件(如果该文件不存在的话)。
2024-11-18 14:05:37
420
原创 `ls -l ~/.ssh` 命令将列出 `.ssh` 目录中所有文件
最后一列显示文件或目录的名称。例如 `id_rsa`、`id_rsa.pub`、`authorized_keys` 等。- **公钥文件 (`id_rsa.pub`) 权限**:通常设置为 `644`(所有用户都可以读取)。- **`~/.ssh` 目录权限**:通常应设置为 `700`(只有文件所有者可以读、写、执行)。- **私钥文件 (`id_rsa`) 权限**:应该设置为 `600`(只有文件所有者可以读写)。- **`id_rsa.pub`**:与 `id_rsa` 对应的公钥文件。
2024-11-18 13:59:27
475
原创 互联网黑话大全(术语篇)扫盲
互联网产品经理,是互联网公司中的一种职能,负责互联网产品的计划和推广,以及互联网产品生命周期的演化。后端开发,属于软件研发工程师的一种,主要职责是后台系统设计与开发、接口设计和功能实现。前端开发,属于软件研发工程师的一种,使用 HTML、CSS、JavaScript 等专业技能和工具将产品UI设计稿实现成用户可视的app页面、网站页面等。测试工程师,属于软件测试工程师,工作职责包括:检查软件有没有缺陷(Bug)、测试软件是否具有稳定性(Robustness)、安全性、易操作性等性能。
2024-11-14 17:16:16
1464
原创 特征交叉02 DCN 深度交叉网络
DCN可以用来排序或者召回。召回:双塔模型是一种框架,不是具体的神经网络,两个塔可以用任意的神经网络结构,最简单的结构是全连接网络,DCN效果比全连接好。多目标排序模型MMOE排序模型。
2024-10-22 13:43:55
324
原创 排序04 视频播放建模
用p拟合y,t是用户的实际观看时长,用y和p熵作为损失函数,使得p接近y。输出z,对z做sigmoid变换。exp(z)可以视为对播放时长的预估。
2024-10-21 20:35:47
209
原创 排序02 Multi-gate Mixture-of-Experts (MMoE)
输入向量(包含四种特征)到三个神经网络(专家),不共享参数。实践中超参数专家神经网络个数需要调,会尝试4个或者8个专家。左边另一个神经网络softmax输出的向量,三个元素均为正数,合为1,作为权重,计算x1 x2 x3 的加权平均。右边的一样输出作为权重。
2024-10-21 20:19:27
260
原创 排序01 多目标模型
使用机器学习方法对指标做预估,再对预估分数做融合。融合方法:加权和方法给不同指标赋予不同的权重,权重是做A/B test调试得到的。还有更好地融合方法。
2024-10-02 16:20:42
314
原创 召回12 曝光过滤 & Bloom Filter
Bloom Filter是一种数据结构 。K=0的情况:K=3的情况:误伤概率:即每个曝光物品需要占几个bit的存储,用户历史上有n个曝光物品,只需要m=10n bits就可以把误伤概率降低到1%以下。把曝光物品写入kafka消息队列,用fink做实时计算,fink实时读取Kafka消息队列,计算曝光物品的哈希值,把结果写到Bloom Filter的二进制向量上。用这样的实时更新链路,在曝光发生几秒之后,用户的Bloom Filter就会被修改,就可以避免重复曝光。但如果挂掉或者延迟较大,会失误。曝光过滤具
2024-09-29 21:50:27
276
原创 召回11 地理位置召回、作者召回、缓存召回
有用但重要性不高GeoHash把经纬度编码成二进制哈希码方便检索。召回只根据经纬度这个地理位置,返回一批优质笔记,完全不考虑用户兴趣,也是因此返回优质笔记,大概率还是会感兴趣,不然通不过精排粗排。感兴趣的作者包括关注的和有交互的针对进入精排但没有被随机抽到的笔记。可以细化规则,例如,想要扶持曝光比较低的笔记,可以根据曝光次数来设置规则,让低曝光笔记在缓存存更长的时间。
2024-09-29 21:22:42
366
原创 召回10 Deep Retrieval召回
双塔模型是将向量表征作为用户和物品之间的中介。Deep Retrieval是将路径作为用户和物品之间的中介。
2024-09-29 21:06:29
509
原创 召回09 双塔模型+自监督学习
让不同物品的向量表征尽量spread out ,分散在整个特征空间上,而不是集中在一起。指标有改善。第一个batch训练双塔,包括用户塔和物品塔;第二个batch做自监督学习,只训练物品塔。最后做梯度下降使损失函数减小。Lmain 是双塔的损失, Lself是自监督的损失,分别取平均。α是超参数,决定自监督学习起到的作用。
2024-09-28 18:01:20
292
原创 召回08 双塔模型——线上服务、模型更新
模型训练好之后,部署到线上做召回,快速找到用户感兴趣的物品。对训练好的两个塔,线上服务前,先用右边的物品塔提取物品的特征做离线存储,记作特征向量b,把(b , id)二元组保存到数据库(Milvus、Faiss等)。然后对数据库建立索引,即划分几个区域,一个区域用一个向量表示,这样可以加速最近邻查找用户塔不需要事先计算和存储用户向量,而是当用户发起推荐请求的时候,调用神经网络在线上现算特征向量a,然后把向量a作为quary取数据库中做检索,查找最近邻,即和用户相似度最高的k个红色向量。每一个红色向量对应一篇
2024-09-28 16:42:14
426
原创 召回07 双塔模型——正负样本
二八法则,少部分物品占据了大多数点击,会导致正样本大多是热门物品。以一定的概率抛弃一些热门物品,抛弃的概率与样本的点击次数正相关。
2024-09-27 18:18:54
513
原创 召回06 双塔模型two-tower(DSSM)
这是粗排和精排,前期融合,将特征在神经网络之前就拼接融合,不适用于召回,适用于排序模型;召回使用双塔模型,是在最终输出相似度的时候才融合。
2024-09-27 17:48:16
716
原创 数据结构与算法(Python)01
抽象数据类型(ADT)的含义是指一个数学模型以及定义在此数学模型上的一组操作。即把数据类型和数据类型上的运算捆在一起,进行封装。引入抽象数据类型的目的是把数据类型的表示和数据类型上运算的实现与这些数据类型和运算在程序中的引用隔开,使它们相互独立。插入删除修改查找排序。
2024-09-18 21:06:04
1115
原创 Python入门刷题整理ing
1、通过调用内置函数hex()、bin()、oct()、int()这四种方式进行常见的进制转换。原理:先将读入的字符串x进行转换为十进制,再由十进制进行相关的转换。
2024-08-26 13:35:40
262
原创 JetBrains 开发工具——学生授权免费申请指南
2022 JetBrains 开发工具——学生授权免费申请指南 | JetBrains 博客。DataGrip 快速入门 |DataGrip 文档 (jetbrains.com.cn)在读学生申请试用期1年,可续期。
2024-08-22 15:05:51
1006
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人