一.系统概啥
推荐系统,如果用形式化的方式去描述实际上是拟合一个用户对内容满意度的函数,这个函数需要输入三个维度的变量。第一个维度是内容、第二个维度是用户特征、第三个维度是环境特征。
推荐模型中,点击率、阅读时间、点赞、评论、转发都是可以量化的目标,能够用模型直接拟合数据做评估,看线上提升情况可以知道做的好不好。但一个大体量的推荐系统、服务用户众多,不能完全由指标评估,引入数据指标外的要素也很重要。
1.典型推荐算法:协调过滤、Logistic Regression、DNN、Factorization Machine、GBDT
2.典型推荐特征:
1)相关性特征:关键词匹配、分类匹配、主题匹配、来源匹配;
2)环境特征:地理位置、时间;
3)热度特征:全局热度、分类热度、主题热度、关键词热度;
4)协调特征:点击相似用户、兴趣分类相似用户、兴趣主题相似用户、兴趣词相似用户;
3.推荐系统的数据依赖:
1)推荐模型的特征抽取需要用户侧和内容侧的各种标签;
2)召回策略需要用户侧和内容侧的各种标签;
3)内容分析和用户标签挖掘是搭建推荐系统的基石
二.内容分析
内容分析包括文本分析、图片分析和视频分析。
1.文本分析在推荐系统中一个很重要的作用是用户兴趣建模,文本分析在推荐系统的应用:
1)用户兴趣建模(user profile):比如,给喜欢阅读【互联网】文章的用户打上【互联网】标签、给喜欢【小米】新闻的用户打上【小米】标签;
2)帮助内容推荐:【魅族】的内容推荐给关心【魅族】的用户、【Dota】的内容推荐给【Dota】的用户;
3)生成频道内容:【德甲】的内容进【德甲频道】、【瘦身】的内容进【瘦身频道】;
2)隐式语义特征,主要是topic特征和关键词特征,其中topic特征是对词概率分布的描述,无明确意义;而关键词特征会基于一些统一特征描述,无明确集合;
2)协同类特征无法解决文章冷启动问题;
3)粒度越细的文本特征,冷启动能力越强。例如:【拜仁慕尼黑】VS【体育】;
4.语义标签:
1)分类:user profile、过滤频道内容、推荐召回、推荐特征;
2)概念:过滤频道内容、标签搜索、推荐召回(like);
3)实体:过滤频道内容、标签搜索、推荐召回(like);
4.为什么分层:
1)每个层级粒度不一样,要求也有区别;
2)分类体系要求全覆盖,希望任何一篇文章,总能找到合适的分类,精确性要求不高;
3)实体体系不要求覆盖全,只要覆盖每个领域热门的人物、机构、作品、产品即可;
4)概念体系负责表达比较精确,但是又属于抽象概念的语义,也不需要覆盖全;
三.用户标签
内容分析和用户标签是推荐系统的两大基石。内容分析涉及到的机器学习的内容多一点,相比而言,用户标签工程挑战更大。
1.用户标签概览:
1)兴趣标签:感兴趣的类别和主题、感兴趣的关键词、感兴趣的来源、基于兴趣的用户聚类、各种垂直兴趣特征(车型、体育球队、感兴趣股票);
2)身份特征:性别、年龄、常驻地点;
3)行为特征:晚上才看视频;
2.数据处理策略:
1)过滤噪声:通过停留时间短的点击、过滤标题党;
2)热点惩罚:对用户在一些热门文章(如PGONE的新闻)上的动作做降权处理。理论上,传播范围较大的内容,置信度会下降;
3)时间衰减:随着用户动作的增加,老的特征权重会随着时间衰减,新动作贡献的特征权重会加大;
4)惩罚展现:如果一篇推荐给用户的文章没有被点击,相关特征(类别、关键词、来源)权重会被惩罚;
5)考虑全局背景:考虑给定特征的人均点击比例;
四.评估分析
1.对推荐效果可能产生影响的因素:
1)候选内容集合的变化;
2)召回模块的改进和增加;
3)推荐特征的增加;
4)推荐系统架构的改进;
5)算法参数的优化;
6)规则策略的改变;
2.一个良好的评估体系建立需要遵循的原则:
1)首先是兼顾短期指标与长期指标;
2)其次,要兼顾用户指标和生态指标;
3)需注意协调效应的影响;
五.内容安全
1.风险内容识别技术:
1)鉴黄模型:构建了千万张图片样本集,通过深度学习算法(ResNet)训练;
2)低俗模型:对文本和图片同时分析;
3)谩骂模型:净化产品评论氛围,识别出不当评论;
推荐系统,如果用形式化的方式去描述实际上是拟合一个用户对内容满意度的函数,这个函数需要输入三个维度的变量。第一个维度是内容、第二个维度是用户特征、第三个维度是环境特征。
推荐模型中,点击率、阅读时间、点赞、评论、转发都是可以量化的目标,能够用模型直接拟合数据做评估,看线上提升情况可以知道做的好不好。但一个大体量的推荐系统、服务用户众多,不能完全由指标评估,引入数据指标外的要素也很重要。
1.典型推荐算法:协调过滤、Logistic Regression、DNN、Factorization Machine、GBDT
2.典型推荐特征:
1)相关性特征:关键词匹配、分类匹配、主题匹配、来源匹配;
2)环境特征:地理位置、时间;
3)热度特征:全局热度、分类热度、主题热度、关键词热度;
4)协调特征:点击相似用户、兴趣分类相似用户、兴趣主题相似用户、兴趣词相似用户;
3.推荐系统的数据依赖:
1)推荐模型的特征抽取需要用户侧和内容侧的各种标签;
2)召回策略需要用户侧和内容侧的各种标签;
3)内容分析和用户标签挖掘是搭建推荐系统的基石
二.内容分析
内容分析包括文本分析、图片分析和视频分析。
1.文本分析在推荐系统中一个很重要的作用是用户兴趣建模,文本分析在推荐系统的应用:
1)用户兴趣建模(user profile):比如,给喜欢阅读【互联网】文章的用户打上【互联网】标签、给喜欢【小米】新闻的用户打上【小米】标签;
2)帮助内容推荐:【魅族】的内容推荐给关心【魅族】的用户、【Dota】的内容推荐给【Dota】的用户;
3)生成频道内容:【德甲】的内容进【德甲频道】、【瘦身】的内容进【瘦身频道】;
2.推荐系统主要抽取的文本特征包括:
1)语义标签类特征,显式为文章打上语义标签。这部分标签是由人定义的特征,每个标签都有明确的意义,标签体系式预定义的;2)隐式语义特征,主要是topic特征和关键词特征,其中topic特征是对词概率分布的描述,无明确意义;而关键词特征会基于一些统一特征描述,无明确集合;
3.文本特征对推荐的独特价值:
1)没有文本特征,推荐引擎无法工作;2)协同类特征无法解决文章冷启动问题;
3)粒度越细的文本特征,冷启动能力越强。例如:【拜仁慕尼黑】VS【体育】;
4.语义标签:
1)分类:user profile、过滤频道内容、推荐召回、推荐特征;
2)概念:过滤频道内容、标签搜索、推荐召回(like);
3)实体:过滤频道内容、标签搜索、推荐召回(like);
4.为什么分层:
1)每个层级粒度不一样,要求也有区别;
2)分类体系要求全覆盖,希望任何一篇文章,总能找到合适的分类,精确性要求不高;
3)实体体系不要求覆盖全,只要覆盖每个领域热门的人物、机构、作品、产品即可;
4)概念体系负责表达比较精确,但是又属于抽象概念的语义,也不需要覆盖全;
三.用户标签
内容分析和用户标签是推荐系统的两大基石。内容分析涉及到的机器学习的内容多一点,相比而言,用户标签工程挑战更大。
1.用户标签概览:
1)兴趣标签:感兴趣的类别和主题、感兴趣的关键词、感兴趣的来源、基于兴趣的用户聚类、各种垂直兴趣特征(车型、体育球队、感兴趣股票);
2)身份特征:性别、年龄、常驻地点;
3)行为特征:晚上才看视频;
2.数据处理策略:
1)过滤噪声:通过停留时间短的点击、过滤标题党;
2)热点惩罚:对用户在一些热门文章(如PGONE的新闻)上的动作做降权处理。理论上,传播范围较大的内容,置信度会下降;
3)时间衰减:随着用户动作的增加,老的特征权重会随着时间衰减,新动作贡献的特征权重会加大;
4)惩罚展现:如果一篇推荐给用户的文章没有被点击,相关特征(类别、关键词、来源)权重会被惩罚;
5)考虑全局背景:考虑给定特征的人均点击比例;
四.评估分析
1.对推荐效果可能产生影响的因素:
1)候选内容集合的变化;
2)召回模块的改进和增加;
3)推荐特征的增加;
4)推荐系统架构的改进;
5)算法参数的优化;
6)规则策略的改变;
2.一个良好的评估体系建立需要遵循的原则:
1)首先是兼顾短期指标与长期指标;
2)其次,要兼顾用户指标和生态指标;
3)需注意协调效应的影响;
五.内容安全
1.风险内容识别技术:
1)鉴黄模型:构建了千万张图片样本集,通过深度学习算法(ResNet)训练;
2)低俗模型:对文本和图片同时分析;
3)谩骂模型:净化产品评论氛围,识别出不当评论;