- 博客(10)
- 收藏
- 关注
转载 流式计算的三种框架:Storm、Spark和Flink
我们知道,大数据的计算模式主要分为批量计算(batch computing)、流式计算(stream computing)、交互计算(interactive computing)、图计算(graph computing)等。其中,流式计算和批量计算是两种主要的大数据计算模式,分别适用于不同的大数据应用场景。目前主流的流式计算框架有Storm、Spark Streaming、Flink三种,其基本...
2019-09-11 14:07:11
3688
转载 什么是流式计算?
一、流式计算的背景在日常生活中,我们通常会先把数据存储在一张表中,然后再进行加工、分析,这里就涉及到一个时效性的问题。如果我们处理以年、月为单位的级别的数据,那么多数据的实时性要求并不高;但如果我们处理的是以天、小时,甚至分钟为单位的数据,那么对数据的时效性要求就比较高。在第二种场景下,如果我们仍旧采用传统的数据处理方式,统一收集数据,存储到数据库中,之后在进行分析,就可能无法满足时效性的要求。...
2019-09-09 19:04:59
1115
转载 案例|推荐系统的评估指标
推荐系统能够为用户提供个性化体验,现在基本上各大电商平台、资讯平台都会用推荐系统为自家评价下的用户提供千人千面的服务。平均精度均值(Mean Average Precision,MAP)便是评估推荐系统性能的度量标准之一。但是,使用其他诊断指标和可视化工具可以让模型评估更加深入,甚至还会带来一些其他启发。本文探讨了召回率、覆盖率、个性化和表内相似性,并使用这些指标来比较三个简单的推荐系统。Mo...
2019-09-04 10:48:40
522
转载 用于推荐系统评估的概念与指标
在上一篇文章《用于推荐系统评估的概念与指标》中,我们介绍了用于推荐系统评估的概念:实用性。在接下来的文章中,我们会介绍新颖性与多样性。新颖性新颖性通常指在推荐中出现新的物品,这在不同文献中有不同的定义。在此,我们将新颖性的定义和指标分为三个层次,如下表所示。本文中把新颖性指标称为...
2019-08-30 11:04:42
167
转载 如何解决推荐系统中的冷启动问题?
当新用户或新项目进入内容平台时,就会出现冷启动(Cold Start)问题。以协同过滤这样的经典推荐系统为例,假设每个用户或项目都有评级,这样我们就可以推断出类似用户/项目的评级,即使这些评级没办法调用。但是,对于新进入的用户/项目,实现这一点很困难,因为我们没有相关的浏览、点击或下载等数据,也就没办法使用矩阵分解技术来“填补空白”。不过,研究人员已经提出了各种方法来解决冷启动问题。在这篇文章...
2019-08-22 18:05:57
893
转载 推荐系统的工作流程
在互联网飞速发展的现代社会,人们每天都要受到成百上千条信息的轰炸,APP推送、新闻热点、信息流广告……一个有效的“信息过滤器”已经成为了人们日常生活的刚需,也是信息供应商在激烈的市场环境中脱颖而出的必杀技。推荐系统正扮演着这样一个角色,它如同筛子一般,帮我们找到最想要的内容。但是,推荐系统过高的技术门槛和研发成本把很多企业挡在了门外。第四范式基于机器学习技术推出的智能推荐产品先荐,专注于内容行业...
2019-08-15 16:07:52
474
转载 推荐系统的工作流程(一)
在互联网飞速发展的现代社会,人们每天都要受到成百上千条信息的轰炸,APP推送、新闻热点、信息流广告……一个有效的“信息过滤器”已经成为了人们日常生活的刚需,也是信息供应商在激烈的市场环境中脱颖而出的必杀技。推荐系统正扮演着这样一个角色,它如同筛子一般,帮我们找到最想要的内容。但是,推荐系统过高的技术门槛和研发成本把很多企业挡在了门外。第四范式基于机器学习技术推出的智能推荐产品先荐,专注于内容行业...
2019-08-08 18:57:44
684
转载 如何用Python搭建一个简单的推荐系统?
推荐系统的相关知识我们已在前文中提到,在这篇文章中,我们会介绍如何用Python来搭建一个简单的推荐系统。本文使用的数据集是MovieLens数据集,该数据集由明尼苏达大学的Grouplens研究小组整理。它包含1,10和2亿个评级。 Movielens还有一个网站,我们可以注册,撰写评论并获得电影推荐。接下来我们就开始实战演练。在这篇文章中,我们会使用Movielens构建一个基于item的...
2019-08-06 19:24:26
268
转载 没有用户数据时如何搭建推荐系统?用这三种办法!
即使没有用户数据,我们仍能搭建高效的推荐系统,向用户展示更多优质内容,让用户参与其中。太长不看版:第一步便是搭建基于内容的推荐系统,这种推荐系统会给用户推荐其他类似的商品,但并不依赖其他用户的数据。这些特征(即数学表达式,推荐算法需借助内容条目不同方面的表达式才能得以运算)来自于内容条目本身,并非用户行为。有了书面文本,我们便可以使用语义技术提取文本特征。以上述推荐系统为基准模型,我们可以引...
2019-07-16 16:14:15
323
转载 快手商业副总裁严强:AI+DA驱动短视频社交商业高速增长
本账号为第四范式智能推荐产品先荐的官方账号。账号立足于计算机领域,特别是人工智能相关的前沿研究,旨在把更多与人工智能相关的知识分享给公众,从专业的角度促进公众对人工智能的理解;同时也希望为人工智能相关人员提供一个讨论、交流、学习的开放平台,从而早日让每个人都享受到人工智能创造的价值。日前,第四范式先荐在北京举办2019“人工智能+新内容”论坛,快手商业副总裁严强在现场发表了名为《AI+DA驱...
2019-07-05 17:35:42
177
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人