
大数据
oufu
这个作者很懒,什么都没留下…
展开
-
Kettle 设置变量
1) 设置变量步骤2) 通过属性文件(常用)在C:\Users\${userName}\.kettle\kettle.properties 中添加变量(key=value)3) 命令行参数可以在pan中设置变量(pan的位置为${Kettle_Home}\Pan.bat)可以通过Pan /file:I:/DataGuru/Kettle/0原创 2016-03-03 21:44:53 · 4146 阅读 · 0 评论 -
推荐系统原理介绍
最近在做推荐系统,在项目组内做了一个分享。今天有些时间,就将逻辑梳理一遍,将ppt内容用文字沉淀下来,便于接下来对推荐系统的进一步研究。推荐系统确实是极度复杂,要走的路还很长。 A First Glance 为什么需要推荐系统——信息过载 随着互联网行业的井喷式发展,获取信息的方式越来越多,人们从主动获取信息逐渐变成了被动接受信息,转载 2017-10-31 17:36:59 · 532 阅读 · 0 评论 -
hadoop 等一系列问题
一.简介 Windows下的 Eclipse上调试Hadoop2代码,所以我们在windows下的Eclipse配置hadoop-eclipse-plugin-2.6.0.jar插件,并在运行Hadoop代码时出现了一系列的问题,搞了好几天终于能运行起代码。接下来我们来看看问题并怎么解决,提供给跟我同样遇到的问题作为参考。 Hadoop2的WordCount.java转载 2017-10-27 15:05:06 · 436 阅读 · 0 评论 -
ZooKeeper 统一配置管理
大型应用通常会按业务拆分成一个个业务子系统,这些大大小小的子应用,往往会使用一些公用的资源,比如:需要文件上传、下载时,各子应用都会访问公用的Ftp服务器。如果把Ftp Server的连接IP、端口号、用户名、密码等信息,配置在各子应用中,然后这些子应用再部署到服务器集群中的N台Server上,突然有一天,Ftp服务器要换IP或端口号,那么问题来了?不要紧张,不是问 挖掘机哪家强:),而是如何快速原创 2016-10-11 09:47:15 · 2900 阅读 · 0 评论 -
mongodb- Java API 增删改操作
[java] view plain copy print?package com.x.mongodb; import java.net.UnknownHostException; import java.util.HashMap; import java.util.List; import java.util.Map;转载 2016-09-07 15:57:02 · 850 阅读 · 0 评论 -
8天学通MongoDB——第八天 驱动实践
作为系列的最后一篇,得要说说C#驱动对mongodb的操作,目前驱动有两种:官方驱动和samus驱动,不过我个人还是喜欢后者,因为提供了丰富的linq操作,相当方便。 官方驱动:https://github.com/mongodb/mongo-csharp-driver/downloads。下载后,还提供了一个酷似msdn的帮助文档。samus驱动:https://转载 2016-07-31 12:16:19 · 409 阅读 · 0 评论 -
8天学通MongoDB——第七天 运维技术
这一篇我们以管理员的视角来看mongodb,作为一名管理员,我们经常接触到的主要有4个方面:1. 安装部署2. 状态监控3. 安全认证4. 备份和恢复,下面我们就一点一点的讲解。 一:安装部署 我之前的文章都是采用console程序来承载,不过在生产环境中这并不是最佳实践,谁也不愿意在机器重启后满地找牙似找mon转载 2016-07-31 12:15:33 · 357 阅读 · 0 评论 -
8天学通MongoDB——第六天 分片技术
在mongodb里面存在另一种集群,就是分片技术,跟sql server的表分区类似,我们知道当数据量达到T级别的时候,我们的磁盘,内存就吃不消了,针对这样的场景我们该如何应对。 一:分片 mongodb采用将集合进行拆分,然后将拆分的数据均摊到几个片上的一种解决方案。 下面我对这张图解释一下: 人脸: 代转载 2016-07-31 12:15:05 · 266 阅读 · 0 评论 -
8天学通MongoDB——第五天 主从复制
从这一篇开始我们主要讨论mongodb的部署技术。 我们知道sql server能够做到读写分离,双机热备份和集群部署,当然mongodb也能做到,实际应用中我们不希望数据库采用单点部署,如果碰到数据库宕机或者被毁灭性破坏那是多么的糟糕。 一:主从复制1: 首先看看模型图 2: 从上面的图形中我们可以分析出这种架构有如下的好处转载 2016-07-31 12:14:13 · 269 阅读 · 0 评论 -
8天学通MongoDB——第四天 索引操作
这些天项目改版,时间比较紧,博客也就没跟得上,还望大家见谅。 好,今天分享下mongodb中关于索引的基本操作,我们日常做开发都避免不了要对程序进行性能优化,而程序的操作无非就是CURD,通常我们又会花费50%的时间在R上面,因为Read操作对用户来说是非常敏感的,处理不好就会被人唾弃,呵呵。 从算法上来说有5种经典的查找,具体的可以参见我的算法速成系列,这其中转载 2016-07-31 12:13:46 · 299 阅读 · 0 评论 -
8天学通MongoDB——第三天 细说高级操作
今天跟大家分享一下mongodb中比较好玩的知识,主要包括:聚合,游标。一: 聚合 常见的聚合操作跟sql server一样,有:count,distinct,group,mapReduce。 count count是最简单,最容易,也是最常用的聚合工具,它的使用跟我们C#里面的count使用简直一模一样。 dist转载 2016-07-31 12:13:19 · 220 阅读 · 0 评论 -
8天学通MongoDB——第二天 细说增删查改
看过上一篇,相信大家都会知道如何开启mongodb了,这篇就细说下其中的增删查改,首先当我们用上一篇同样的方式打开mongodb,突然傻眼了,擦,竟然开启不了,仔细观察“划线区域“的信息,发现db文件夹下有一个类似的”lock file”阻止了mongodb的开启,接下来我们要做的就是干掉它,之后,开启成功,关于mongodb的管理方式将在后续文章分享。 一转载 2016-07-31 12:12:55 · 246 阅读 · 0 评论 -
KETTLE远程执行任务
利用kettle远程调用linux平台的shell脚本两个平台都配置好kettle1、在job的view处右键点击slave server,进行新建子服务器server name自己命名一个输入linux子服务器IP,还有端口(这个端口也是子服务器carte服务的端口)username写clusterpassword写cluster2、在原创 2016-03-17 22:57:41 · 5551 阅读 · 1 评论 -
kettle中设置日志表
kettle中给ktr设置日志表需要注意的细节目的,无论是本地的.ktr文件或者是资源库的ktr模型,只要模型被调用运行的日志就保存到一张日志表,当模型在外部调用出错时,方便查看日志文件查找原因,话不多说,直接入主题;step1:打开ktr选择ktr属性:step2:选择日志选项注意点:1:最左边,四个选项Transformation,Step,Performanc原创 2016-03-17 22:28:58 · 16578 阅读 · 0 评论 -
java调用kettle向job(任务)和transformation(转换)传递参数实例
最近要对一个系统的数据同步到另一个系统中,要求新系统的数据结果完成之后,实时同步到另一个系统数据表中。 也就是动态的传一个关联的ID。由于旧系统是vb做的,无法提供webservice接口,并且同步的表涉及到十几张表,并且两个系统表结构完全不一样,所以想到了kettle。 java集成kettle网上有现成的实例,很简单。如:http://bakcom.iteye.co转载 2016-03-03 22:27:14 · 4655 阅读 · 0 评论 -
推荐系统的架构
本文从互联网收集并整理了推荐系统的架构,其中包括一些大公司的推荐系统框架(数据流存储、计算、模型应用),可以参考这些资料,取长补短,最后根据自己的业务需求,技术选型来设计相应的框架。后续持续更新并收集。。。 图1 界面UI那一块包含3块东西:1) 通过一定方式展示推荐物品(物品标题、缩略图、简介等);2) 给的推荐理由;3) 数据反馈改进个性化推荐;关转载 2017-11-02 17:49:44 · 8848 阅读 · 0 评论