oryx 推荐系统的使用

https://github.com/cloudera/oryx   在这里的readme.md文件中能看到有哪些jar包。

很惊讶的是这些jar包竟然不能在search.maven.org中找到。

于是决定到git里下载oryx源代码。

通过一下代码安装  其实安装oryx也要看相应的hadoop版本的,如果是hadoop2.3.0以前的版本的话,可以参照https://github.com/cloudera/oryx/wiki/Building-from-Source里面的方法安装,其实和安装mahout有点类似。

mvn -DskipTests install

探索的最后结果是这个oryx其实不是一个library,这其实是一个写好的产品,能够直接发布的推荐引擎。他支持collaborative filtering / recommendation, classification / regression, and clustering这几种推荐。用户能够直接通过rest ful接口得到推荐结果。

oryx 90%的代码是来自Myrrix,Myrrix其实是Mahout的一个改进。

Mahout是一个Library。


这个是如何使用oryx的使用说明,https://github.com/halida9cxm/workbench/wiki/oryx-quickstart-guide

例如:

以下是文件的存放位置

在/home/training/oryx_test下放:

example(文件夹), oryx.config(文件), oryx-computation-1.0.0.jar, oryx-serving-1.0.0.jar



然后执行

java -Dconfig.file=oryx.config -jar oryx-computation-1.0.0.jar

sudo java -Dconfig.file=oryx.config -jar oryx-serving-1.0.0.jar  //因为80端口必须要有root权限才能使用


oryx.config的文件的设置:


model=${als-model}
model.instance-dir=/home/training/oryx-test/example
model.local-computation=true
model.local-data=true
model.features=25
model.lambda=0.065

目前,oryx只写了聚类(kmeans),分类(rdf)和协同过滤(als)三个方面的算法,另外也不能进行分布式计算,只能将这些jar包发布到装有hadoop的机子上,才能正常运行起来。并不能将oryx包和hadoop分开在不同的机子上面。虽然说代码中貌似有涉及进行分布式计算,但是config文件里并没有明确提出来怎么区分这两种状态。所以仍然认为只能进行单击计算。



CDH5.8+Oryx2.2推荐系统环境搭建 1 一、 安装准备 1 1 准备4台主机搭建集群 1 2 在/etc/hosts增加(所有主机) 1 3 禁用IPV6(所有主机) 1 4 关闭防火墙(所有主机) 1 5 禁用selinux(所有主机) 2 6 配置时钟同步(所有主机) 2 7 配置.ssh免密码登录(所有主机) 2 二、 CDH安装 3 1 安装方式选择(PATH B方式,配置本地yum源安装): 3 2 软件、安装包下载 4 3 安装Oracle JDK1.8(全部主机) 4 4 安装mysql数据库(server60159) 4 5 配置mysql数据库为InnoDB模式 4 6 创建CDH相关数据库 6 7 下载mysql-jdbc驱动并做相应配置 7 8 搭建本地yum源 7 9 安装cloudera-manager-server(server60159) 7 10 安装cloudera-manager-agent(所有主机) 7 11 将mysql-jdbc驱动拷贝到需要的目录(server60159) 8 12 初始化mysql数据库-重要(server60159) 8 13 在agent主机上修改连接server主机的主机名(所有主机) 8 14 主机参数配置-附加部分(所有主机) 8 15 启动CDH服务 9 三、 安装CDH-Parcels(组件服务) 9 1 访问安装页面 9 2 配置本地Parcels(server60159) 9 3 选择安装的组件(一些步骤没有截图) 10 4 安装过程中需要配置相关数据库 10 5 安装完成,提示成功 11 四、 安装kafka 11 1 下载软件 11 2 修改配置 11 3 启动服务 11 五、 安装Oryx 11 1 下载软件 12 2 下载配置文件oryx.conf 12 3 创建kafka主题(topic) 12 4 启动Oryx 12 5 遇到错误处理解决(可能远不止这些错误) 13 6 推送kafka数据 13 7 访问Oryx 13 六、 联系作者 14
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值