
推荐系统
文章平均质量分 95
da_journeyer
这个作者很懒,什么都没留下…
展开
-
06_02_Spark Streaming
它是一个可扩展,高吞吐具有容错性的流式计算框架吞吐量:单位时间内成功传输数据的数量之前我们接触的spark-core和spark-sql都是处理属于离线批处理任务,数据一般都是在固定位置上,通常我们写好一个脚本,每天定时去处理数据,计算,保存数据结果。这类任务通常是T+1(一天一个任务),对实时性要求不高。但在企业中存在很多实时性处理的需求,例如:双十一的京东阿里,通常会做一个实时的数据大屏,显示实时订单。这种情况下,对数据实时性要求较高,仅仅能够容忍到延迟1分钟或几秒钟。实时计算框架对比Storm。原创 2023-03-09 17:52:02 · 466 阅读 · 0 评论 -
06_01_Spark SQL
Spark SQL概念它是spark中用于处理结构化数据的一个模块Spark SQL历史Hive是目前大数据领域,事实上的数据仓库标准。Shark:shark底层使用spark的基于内存的计算模型,从而让性能比Hive提升了数倍到上百倍。底层很多东西还是依赖于Hive,修改了内存管理、物理计划、执行三个模块2014年6月1日的时候,Spark宣布了不再开发Shark,全面转向Spark SQL的开发Spark SQL优势。原创 2023-03-09 17:43:57 · 430 阅读 · 0 评论 -
04 Hive&HBase
Hive 由 Facebook 实现并开源,是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据映射为一张数据库表,并提供 HQL(Hive SQL)查询功能,底层数据是存储在 HDFS 上。Hive 本质: 将 SQL 语句转换为 MapReduce 任务运行,使不熟悉 MapReduce 的用户很方便地利用 HQL 处理和计算 HDFS 上的结构化的数据,是一款基于 HDFS 的 MapReduce计算框架主要用途用来做离线数据分析,比直接用 MapReduce 开发效率更高。UDF。原创 2023-03-09 14:54:37 · 215 阅读 · 0 评论 -
05 Spark_Core
1、什么是spark基于内存的计算引擎,它的计算速度非常快。但是仅仅只涉及到数据的计算,并没有涉及到数据的存储。2、为什么要学习sparkMapReduce框架局限性1,Map结果写磁盘,Reduce写HDFS,多个MR之间通过HDFS交换数据2,任务调度和启动开销大3,无法充分利用内存4,不适合迭代计算(如机器学习、图计算等等),交互式处理(数据挖掘)5,不适合流式处理(点击日志分析)6,MapReduce编程不够灵活,仅支持Map和Reduce两种操作Hadoop生态圈。原创 2023-03-09 15:10:16 · 169 阅读 · 0 评论 -
03 Hadoop
作者:Doug cuttingHadoop项目作者的孩子给一个棕黄色的大象样子的填充玩具的命名Yet Another Resource Negotiator, 另一种资源协调者通用资源管理系统为上层应用提供统一的资源管理和调度,为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处源于Google的MapReduce论文(2004年12月)Hadoop的MapReduce是Google论文的开源实现MapReduce优点: 海量数据离线处理&易开发。原创 2023-03-07 00:13:36 · 558 阅读 · 0 评论 -
02 推荐算法-(03) 基于关联规则的推荐
基于关联规则的推荐思想类似基于物品的协同过滤推荐关联分析中最有名的例子就是“啤酒与尿布”。据报道,在美国沃尔玛超市会发现一个很有趣的现象:货架上啤酒与尿布竟然放在一起售卖,这看似两者毫不相关的东西,为什么会放在一起售卖呢?原来,在美国,妇女们经常会嘱咐她们的丈夫下班以后给孩子买一点尿布回来,而丈夫在买完尿布后,大都会顺手买回一瓶自己爱喝的啤酒(由此看出美国人爱喝酒)。商家通过对一年多的原始交易记录进行详细的分析,发现了这对神奇的组合。原创 2023-03-05 18:20:20 · 582 阅读 · 0 评论 -
02 推荐算法-(02) 基于内容的推荐算法(Content-Based)
word2vec是google在2013年开源的一个NLP(Natural Language Processing自然语言处理) 工具,它的特点是将所有的词向量化,这样词与词之间就可以定量的去度量他们之间的关系,挖掘词之间的联系。animalpetdog-0.40.02lion0.20.35animal那一列表示的就是左边的词与animal这个概念的”距离“原创 2023-03-05 18:19:15 · 1754 阅读 · 0 评论 -
02 推荐算法-(01) Model-Based 协同过滤算法
随着机器学习技术的逐渐发展与完善,推荐系统也逐渐运用机器学习的思想来进行推荐。将机器学习应用到推荐系统中的方案真是不胜枚举。以下对Model-Based CF算法做一个大致的分类:接下来我们重点学习以下几种应用较多的方案:基于K最近邻的协同过滤推荐其实本质上就是MemoryBased CF,只不过在选取近邻的时候,加上K最近邻的限制。这里我们直接根据MemoryBased CF的代码实现修改以下地方修改所有的选取近邻的地方的代码,根据相似度来选取K个最近邻但由于我们的原始数据较少,这里我们的KNN方法的原创 2023-03-05 18:17:24 · 441 阅读 · 0 评论 -
01_推荐系统简介
个性化推荐(推荐系统)经历了多年的发展,已经成为互联网产品的标配,也是AI成功落地的分支之一,在电商(淘宝/京东)、资讯(今日头条/微博)、音乐(网易云音乐/QQ音乐)、短视频(抖音/快手)等热门应用中,推荐系统都是核心组件之一。没有明确需求的用户访问了我们的服务, 且服务的物品对用户构成了信息过载,系统通过一定的规则对物品进行排序,并将排在前面的物品展示给用户,这样的系统就是推荐系统没有明确需求的用户访问了我们的服务, 且服务的物品对用户构成了信息过载,原创 2023-02-28 15:20:57 · 3115 阅读 · 2 评论