自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 腾讯音乐推荐系统

业务背景:全民K歌:给用户进行内容推荐:优质UGC(平台原创的优质素材)推荐用户关注的内容同城社交货找人 阶段 目的 具体操作 召回 从海量的item中筛选小量级的用户可能感兴趣的内容 基于用户画像召回(用户感兴趣的歌曲/作者) 基于社交(用户社交圈的特点) 基于模型 粗排 把召回的十万量级的作品,缩减到万量级 因为算力的约束,精排的数量不大(千量级

2021-05-26 14:34:16 352

原创 Lookalike

Look-alike 技术总结https://zhuanlan.zhihu.com/p/103642022 目标 推荐算法中扩大召回池 广告投放中实现人群扩充 (场景举例: 广告主需要对100w人投放,但是,从选取的基础数据包中,只有30w,那么如何满足100w的投放需求,这时,就需要通过lookalike的方式进行扩充,既要保证人群数量,又要确保人群的相似。 如果只是简单的从公共池中选取70w,完成100w的匹配,很有可能出现无...

2021-05-26 14:29:44 340

原创 推荐系统简介

2021-05-26 14:23:50 132

原创 传统推荐算法

模型名称 基本原理 例子 优缺点 协同过滤 根据用户的行为历史生成用户--物品共现矩阵,以共线矩阵中的每一行作为用户向量,每一列作为商品向量。利用用户相似性和物品相似性进行推荐 Ex: 基于用户的观看历史,找到和目标用户看过同样视频的用户,然后找到这些相似用户喜欢看的其他视频,推荐给目标用户 共现矩阵 基于用户的协同过滤(UserCF) 如果用户兴趣相似,则他们对物品的喜好也相似 通过构建用户和商.

2021-05-26 14:22:36 243

原创 深度学习在推荐系统中的应用

模型 基本原理 具体细节 优缺点 AutoRec 单隐层神经网络 将协同过滤中的共线矩阵的每一列(商品的初始向量),通过单隐层神经网络,完成商品向量的自编码,即商品向量的embedding (但是并没有实现降维度) 再利用自编码的结果得到用户对于物品的预估评分,进而进行推荐排序 AutoRec 模型结构 输入 共...

2021-05-26 14:14:05 257

原创 DFS/BFS

695 岛屿的最大面积DFS 深度优先,就是一条路走到黑。和stack(先进后出)一起使用。深度优先搜索算法(英语:Depth-First-Search,DFS)是一种用于遍历或搜索树或图的算法。沿着树的深度遍历树的节点,尽可能深的搜索树的分支。当节点v的所在边都己被探寻过,搜索将回溯到发现节点v的那条边的起始节点。这一过程一直进行到已发现从源节点可达的所有节点为止。如果还存在未被发现的节点,则选择其中一个作为源节点并重复以上过程,整个进程反复进行直到所有节点都被访问为止。属于盲目搜索。..

2021-05-26 13:52:58 87

原创 RNN

NLP相关:nlp中的Attention注意力机制+Transformer详解https://zhuanlan.zhihu.com/p/53682800NLP中的Attention原理和源码解析https://zhuanlan.zhihu.com/p/43493999【NLP】Transformer模型原理详解https://zhuanlan.zhihu.com/p/44121378https://zhuanlan.zhihu.com/p/46652512一文读懂BERT(原理...

2021-05-26 11:31:41 139

原创 深度学习算法调优

加速训练 权重:用较小的随机值进行赋值, 可以加快梯度下降的收敛,也提高了模型获得更低训练错误的可能性。有效防止了梯度爆炸和梯度消失。 随机的目的在于打破对称性,避免每一层的每个节点都在学习相同的东西。导致神经网络即使很深,其性能也不一定比线性分类器好 如果用很大的随机值进行赋值,那么可能导致梯度下降或者爆炸 data vanishing and exploding gradients...

2021-05-26 11:15:47 753

原创 CNN

Aller directement à la fin des métadonnéesCréé par郑炜铭, dernière modification le2021-03-04Aller au début des métadonnées 是什么 解决了什么问题 主要设计理念 CNN CNN 是神经网络的一种,主要用于图像/视频分类或者自然语言处理。 它通过卷积操作来降低参数个...

2021-05-26 10:53:07 109

原创 衡量模型的指标

用于解决什么问题 分类 计算公式 用于衡量模型的好坏 accuracy:预测正确的结果占总样本的百分比 受类不均衡的影响 precision:预测为正的人群中有多少真正为正 recall:真正为正的人群中有多少被预测出来 F1 AUC:ROC曲线下的面积,对类是否均衡不敏感 什么是性能度量:性能度量就是衡量模型性能好坏(模型的泛化能力...

2021-05-26 10:35:53 1990

原创 有监督学习模型总结

模型 概念 model (X → Y 的映射关系) 假设空间:决策函数的集合 F = {f|Y=f(X)} 策略(从假设空间中选取最优的model) 损失函数:一次预测的好坏 风险函数:平均意义下的好坏 计算方法(计算求解最佳参数) eg. 梯度下降 线性回归 线性回归是监督学习方法之一,可以用来解决分类和回归问题。 ...

2021-05-25 10:33:12 2745

原创 pyspark 随机森林训练和预测项目

pyspark 项目训练配置spark环境import jsonimport datetimeimport pandas as pdfrom pyspark.sql import SparkSessionimport pyspark.sql.functions as Ffrom pyspark.sql.functions import colfrom pyspark.sql.types import StructType,StructField, StringType, Integer

2021-05-24 17:46:22 1077

原创 Spark RDD 操作 Transformation/Action 以及示例

目录前言一、TransformationPair RDD二、Action 操作Pair RDD三、WordCount统计每个学科中最受欢迎的老师分组统计多次过滤自定义分区器自定义分区器总结前言RDD 基本概念RDD是什么 为什么需要RDD RDD特性 RDD 是一个可读的可分区的分布式数据集,RDD中保存着数据的转换关系,真正的数据存储在各个分区上。分区的设计可以让RDD中的数据被并行操作。 Resili..

2021-05-24 16:44:26 530

原创 Spark总述

目录前言一、Spark 基本定义Spark 相对于 MapReduce 的优势二、Spark 的组成三、Spark 运作时架构四、任务层定义五、RDD间依赖关系:宽窄依赖(shuffle)pom 文件总结前言学会用一个技术只是第一步,最重要的是要追问自己:这个技术解决了哪些痛点? 别的技术为什么不能解决? 这个技术用怎样的方法解决问题? 采用这个技术真的是最好的方法吗? 如果不用这个技术,你会怎样独立解决这类问题?一、Spark...

2021-05-17 18:14:53 301

原创 Hive SQL 常用命令和知识点

目录前言一、SELECT 语句的处理顺序二、建表建立orc表通过select 建立orc表(不能建成分区表)复制表结构(复制大法好啊!!!!!)通过text文本建表(可以自造数据,但是只能建成text表,多为测试使用)三、删除表和分区删除表删除分区删除某行数据四、修改五、常用函数字符串函数时间函数row_number 函数使用方法六、动态分区七、行转列 和 列转行explode 行转列列转行 collect_set(col.

2021-05-13 18:01:04 392

原创 Hive简介和Hive SQL优化

Hive 基本概念Hive SQL 的优化方式Hive 基本概念hive是什么 为什么需要hive hive的作用 hive是由Facebook开源用于解决海量结构化日志的数据统计; hive是一个基于hadoop的数据库工具,可以将结构化数据映射成一张数据表,并提供类SQL的查询功能 hive的本质是将SQL语句转化成MapReduce程序,然后在hdfs上运行MapREduce,并返回结果 没有hive,我们只能通过写m.

2021-05-13 10:41:08 136

原创 HDFS基本命令

目录HDFS基本概念HDFS 常用命令HDFS基本概念概念 作用 特性 1. HDFS是一个文件系统,用于存储文件,通过统一的命名空间--目录树来定位文件; 2. HDFS是分布式的,有很多服务器联合起来实现其功能,集群中的服务器有各自的角色; 重点概念:文件切块,副本存放,元数据(目录结构及文件分块信息) 设计思想:分而治之 将大文件、大批量文件分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进...

2021-05-11 17:11:26 135

原创 pandas dataframe 和 pyspark dataframe

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、pandas是什么?二、使用步骤1.创建DataFrame2.选取数据列选取行选取条件选择(根据A列值选择B列)统计全局分组排序总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考一、pandas是什么?示例:pandas 是基于NumPy 的一种工

2021-05-10 20:31:38 792

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除