大数据推荐系统(7)推荐系统与Lambda架构

大数据推荐系统算法(1)大数据框架介绍
大数据推荐系统算法(2) lambda架构
大数据推荐系统算法(3) 用户画像
大数据推荐系统(4)推荐算法
大数据推荐系统(5)Mahout
大数据推荐系统(6)Spark
大数据推荐系统(7)推荐系统与Lambda架构
大数据推荐系统(8)分布式数据收集和存储
大数据推荐系统(9)实战
推荐平台基本架构
在这里插入图片描述
HDFS 日志数据
MySQL Oracle 结构化数据 JDBG数据源
MapReduce : mahout Spark:ml、mllib(从HBase中读取数据)
HBase::数据做选择, 数据需要大数据平台,能建模,能大规模数据访问。 (表结构)
服务层前有redis 内存的存储。(生成的推荐的列表)
Web Service 图形展示结果

数据加载
数据源多样性
HDFS:用户点击日志等
MySQL/Oracle:用户基本信息、用户购买记录等

数据加载
将不同的数据源中的数据导入Hbase(构建表)
Hbase中以用户为单位组织数据

实现方案
MapReduce并行导入
问题:与MySQL并发连接数过多,怎么办?(代理!AmoebaforMySQL)
多线程自己实现

HBase数据组织(用户做行,特征做列)
以用户为单位组织数据
Rowkey 为Uid

将表分成多个column family
Basic features :age ,birthday ,address,….
Click/buy behavior: ids

利用hbase 特有的特性
设置最大版本数 , 自动删除过期数据
根据uid 获取某用户所有信息
易于扩展

导入服务层(提供分布式存储,提供对外服务效率不高)
为什么不直接让Hbase提供服务
RegionServer挂掉,一段时间内不能对外服务
HBase负载过重

可选的服务层
Memcached、redis
自己进行sharding,replication等
Cassandra、couchbase
自动sharding和replication
如何调优,运维等

推荐平台基本架构改进:LA
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值