
BI
longshenlmj
这个作者很懒,什么都没留下…
展开
-
myfirstBI项目总结
app 应用信息统计: saiku安装:http://blog.youkuaiyun.com/longshenlmj/article/details/17359645workbench解压即用,http://blog.youkuaiyun.com/longshenlmj/article/details/17530379流程:1,从hive上导入每天的app应用信息,来自各个网站,基本字段根据经验。原创 2013-12-30 15:58:48 · 1258 阅读 · 0 评论 -
Saiku去掉登录模块
1、修改applicationContext-saiku-webapp.xml2、在saiku-beans.xml中添加allowAnonymous属性转载 2014-02-12 10:53:08 · 1939 阅读 · 1 评论 -
saiku 网站简介
Saiku web:http://docs.analytical-labs.com/saiku/documentation/2013/08/15/datasources.htmlClick “saiku”,the simple illustration will help you use saiku quickly. Others is providing services of de原创 2014-02-13 18:22:28 · 2508 阅读 · 0 评论 -
saiku运行时报错max_length_for_sort_data 需要set higher
infiniDB或者mysql数据库,运行时,按某个字段排序会出错。报错:max_length_for_sort_data 。。。 set higher。saiku报错, 也是这样。这是数据库错误,需要设置max_length_for_sort_data的值。infiniDB里,设置文件在 安装路径在 Calpad/mysql/下 my.cnf 文件。(这个路径名错了原创 2014-03-06 19:01:09 · 1998 阅读 · 0 评论 -
项目报错查询记录
saiku数据查询结果错误,是hive中源数据的3倍。问题定位: saiku执行的mdx有问题SELECT NON EMPTY {[Measures].[Downloads]} ON COLUMNS,NON EMPTY FILTER(CrossJoin(CrossJoin([appname.default].[appname].Members, CrossJoin([dev原创 2014-04-04 18:17:56 · 1384 阅读 · 0 评论 -
kettle简介(整体架构,运行方式,使用方法)
项目负责人Matt的说法:把各种数据放到一个壶里,然后呢,以一种你希望的格式流出。呵呵,外国人都很有联想力。看了提供的文档,然后对发布程序的简单试用后,可以很清楚得看到Kettle的四大块:Chef——工作(job)设计工具 (GUI方式)Kitchen——工作(job)执行器 (命令行方式)Spoon——转换(transform)设计工具(GUI方式)pan——转换(tr转载 2014-04-01 11:30:54 · 10449 阅读 · 0 评论 -
saiku中文查询(鉴于有人提问:saiku执行mdx,有中文报错)
有人问我saiku的中文查询问题:saiku默认执行英文,很多人,在mysql里录入了中文,使用sql语言查询没有问题。可是,用saiku的mdx查询,就会报错。这是因为mysql默认支持中文查询。而saiku不行,尤其是utf-8编码格式。一般gbk编码可能还可以。 所以出现:mdx执行报错。而把mdx转换成的sql语言,却能在mysql里查出结果。 解决:saiku原创 2014-04-02 11:01:36 · 2643 阅读 · 0 评论 -
kettle文件自动化部署(shell脚本执行):命令行参数传入
shell脚本(crontab 定期执行),调用kitchen 和 pan去执行,job和transformation文件。分 windows和 dos系统两种。太简单不写了。 shell脚本懒得贴了,不懂百度原创 2014-02-27 17:19:23 · 18347 阅读 · 4 评论 -
计算机编码方式详解(Unicode、UTF-8、UTF-16、ASCII)
整理这篇文章的动机是两个问题:问题一: 使用Windows记事本的“另存为”,可以在GBK、Unicode、Unicode big endian和UTF-8这几种编码方式间相互转换。同样是txt文件,Windows是怎样识别编码方式的呢?我很早前就发现Unicode、Unicode big endian和UTF-8编码的txt文件的开头会多出几个字节,分别是FF、FE(Unic转载 2014-04-11 14:37:22 · 1536 阅读 · 0 评论 -
ROC曲线的AUC(以及其他评价指标的简介)知识整理
相关评价指标在这片文章里有很好介绍信息检索(IR)的评价指标介绍 - 准确率、召回率、F1、mAP、ROC、AUC:http://blog.youkuaiyun.com/marising/article/details/6543943ROC曲线得此名的原因在于曲线上各点反映着相同的感受性,它们都是对同一信号刺激的反应,只不过是在几种不同的判定标准下所得的结果而已。接受者操作特性原创 2014-11-18 12:49:08 · 10169 阅读 · 1 评论 -
OLAP工作的基本概念(结合个人工作)
OLTP和OLAP传统的数据库系统都是OLTP,只能提供数据原始的操作。不支持分析工作。OLTP系统::执行联机事务和查询处理。一般超市进销存系统,功能:注册,记账,库存和销售记录等等,OLAP系统:数据分析与决策服务,组织不同格式数据,满足不同用户需求。区别:面向性。OLTP面向顾客,就是操作员,如超市收银员,银行柜台人员。OLAP面向市场,用于数据分析,分析人员包括数据原创 2014-12-02 18:19:28 · 2107 阅读 · 0 评论 -
saiku的安装教程
简介Saiku是一个模块化的开源分析套件,它提供轻量级的OLAP(联机分析处理),并且可嵌入、可扩展、可配置。环境准备1、JDK5及以上版本。2、Saiku Server,当前最新版本为2.4,下载地址:http://analytical-labs.com/downloads.php。安装1、安装JDK并配置JAVA_HOME环境变量。2、解压saiku-ser原创 2013-12-16 20:02:06 · 20264 阅读 · 25 评论 -
最近很多人问我:saiku下载不下来
saiku的前段团队 在UI设计方面很专业。但是兼容性差到让人无语。不知道为什么,是不是不给钱,人家故意黑它。一直忙别的工作,现在整理一些saiku相关网站,百度不到的,google又要翻墙。看个合法网站也这么麻烦,那么我来造福你们了,凡人们。我是不是应该出本书,saiku设计与实践。不错,看有人出版么?乱乱的读写:http://blog.analytical-labs.com原创 2014-12-08 18:02:44 · 4682 阅读 · 6 评论 -
主流列式数据库评测:InfiniDB
)。本文测试的InfiniDB版本是2010年12月20日发布的2.02版,下载文件名分别为InfiniDB64-2.0.2-2.exe 和InfiniDB64-ent-2.0.2-2.exe。安装文件大约在30兆字节。32位最新版只提供了InfiniDB社区版,企业版只有64位,包括Windows和Linux平台。 64位InfiniDB在Windows 2008 x64上安装总是失败,但转载 2014-02-10 11:12:09 · 2938 阅读 · 0 评论 -
列式数据库总结(特点)
简单罗列了一些选择行数据库还是列数据库的权衡依据。当然,如果能够把数据全放在内存中,那么使用内存数据库性能会更好。在只需要根据某几列来聚合数据的时候按列的数据组织方式更有效。因为这样只需要读取一部分数据,要比读取全部数据更快.当只需要修改某一列值的时候按列的数据组织方式更有效。因为可以直接找到某列数据并修改,而与行中的其他列无关。当需要某行的多列数据的时候按行的数据组织方式更有效。当行中数转载 2014-02-10 11:38:47 · 3015 阅读 · 0 评论 -
kettel的stream lookup报错
kettel的stream lookup报错:you can't use the 'integer-pair' algorithm when you have more than one key or value-field or value in not an integer. 去外国网站看了wiki基本没用http://wiki.pentaho.com/display/EA原创 2014-01-26 18:13:41 · 1732 阅读 · 0 评论 -
kettle内存溢出
ETL工具kettle,在老版设计后,使用新版时,居然发生了内存溢出的错误:出现: java heap 或者 OutOfMemory等字样 这是kettle分配的内存不足。在kettle的运行路径中,用文本编辑器打开Spoon.bat,找到: REM *************************************************************原创 2013-12-19 20:11:19 · 4921 阅读 · 0 评论 -
kettle 的表输出 table output
kettle的表输出:双击后,看设置,1,在connecttion后面,点击new里新建一个。设定各个选项值,如选择mysql类型,则配置hostname,database name,端口,用户名,密码,一般java里用jdbc连接。2,然后,可以设定是否truncate table3,最后 在database fields标签页,获得表中对应字段,同时enter field原创 2013-12-20 16:53:28 · 7210 阅读 · 1 评论 -
saiku查询出错如何debug(saiku查询过程的本质),以及相关workbench的schema设置
workbench :维度设置:事实表外键维度表主键column 什么意思namecolumn不设定,默认为用column 表出错:表最后一列(日期字段)匹配出错,用“like %日期%”可以。说明入库时写入多余的空白符,因为直接看不出。原因:windows表数据,放到linux下,后面也是\a\0,要用dos2unix命令转换。 用saiku查原创 2014-01-07 18:53:18 · 2988 阅读 · 8 评论 -
saiku应用的调试
ubuntu下解压saiku包后使用:运行.sh命令(.bat是windows命令)。运行时注意权限。可以先chmod a+x *.sh提示,catali?.sh出错。 这是tomcat的一个文件,服务器不行,先查权限,当前用户。一般是java配置的不对。JAVA_HOME配置对不,或者,CLASSPATH,PATH(菜鸟后面要加上:$PATH)。安装后,如果不能只配~/.bash原创 2014-01-10 11:34:22 · 2296 阅读 · 1 评论 -
schema workbench的操作
schema workbench连不上sql,如下: 看不懂,这是驱动的问题,你只要使用最新的驱动,将对应驱动放入schema workbench.bat文件所在目录中,drivers目录下,然后直接设置改为: 就行了。原创 2013-12-24 15:46:32 · 2272 阅读 · 0 评论 -
kettle控件 add a checksum
This step calculates checksums for one or more fields in the input stream and adds this to the output as a new field.为数据流输入的列计算校验码,并将输出作为新的一列。 wiki中介绍:http://wiki.pentaho.com/display/EAI/Add+a+c原创 2013-12-27 17:10:57 · 2957 阅读 · 0 评论 -
BI过程简述
BI流程: 需求分析->维度设计->查询service->ETL倒数据->CDC监听数据库 需求分析:首先确定好的数据来源(多个数据库+excel文件+日志+...),需要的数据查询项(measure值) 维度设计: 分析维度出发点,几个w:who ,where,when,what,how,why 建维度表 通过画总线矩阵来减少事实表个数 查询ser转载 2013-12-27 19:33:02 · 1253 阅读 · 0 评论 -
数据挖掘123
最近做数据处理,看了相关的工作,颇有感触。 1,数据分析的目的 提出方案,解决问题。所以,面对海量数据,先不要着急去分析。大致了解数据构成,内容,字段就可以了。否则,在数据沙漠里行走,不累死,也拖拉致死。 2,确定目标后,再筛选数据。选择你需要的数据,过滤掉无效数据(包括去除非必要字段,清洗脏数据,如去重,去空),如果是高手,可以分析出噪声数据,去掉对分析是大大有利的。原创 2014-01-10 11:06:26 · 1361 阅读 · 0 评论 -
数据cube的schema与sql的对应的关系
用schema workbench 设置cube的维度结构saiku 使用的cube,会将不同维度的查询转化为sql语句。 schema中,cube的事实表和dimension表进行自然连接,具体的dimension设置是,dimension设置界面上foreign key(事实表的某一列)与hierarchy设置界面上primaryKey(dimension表的主键)。关联是通过原创 2014-01-22 17:48:31 · 1664 阅读 · 0 评论 -
Mondrian Schema workbench工作界面 简介(实在懒得写,居然有人弄了,收藏了)
转自:http://hi.baidu.com/dinguangx/item/37e78be29aebc1adcf2d4f89SchemaSchema 定义了一个多维数据库。包含了一个逻辑模型,而这个逻辑模型的目的是为了书写 MDX 语言的查询语句。这个逻辑模型实际上提供了这几个概念: Cubes (立方体)、维度( Dimensions )、层次( Hierarchies )、级别( Le转载 2014-01-24 14:08:57 · 3104 阅读 · 0 评论 -
MDX的实例讲解(排名前15的小例子)
MDX语句的特点:大小写不分。members等于Members;downloads等于Downloads维度的统计量指定要选择准确。downloads等于[Downloads][]可以少,不能多。members外部不能有[],否则报错TopCount函数格式。members是属性中所有成员的枚举。 同一维度下的属性组合,用Hierarchize:SELECT原创 2014-01-16 17:06:32 · 3425 阅读 · 3 评论 -
workbench的schema讲解一:(维度dimension设置的基本内容)
(1)维度dimension设置:事实表外键和维度表主键关联:从不同维度查询,实际就是两个表联合查询,本质是两个表做自然连接,因此事实表主键和维度表外键要一致,一一对应。如果类型不一致,报错:SQLException: IDB-1002: 'factdownloadsnew' and 'dimstore' have incompatible column type specified fo原创 2014-01-08 16:45:21 · 4975 阅读 · 2 评论 -
数据挖掘十大算法
什么是机器学习;机器学习的主要任务: 分类,回归。 分类:是将实例数据划分到合适的分类中。 回归:是用于预测数值型数据。比如:数据拟合曲线(通过给定数据点的最优拟合曲线)。 如何选择合适的算法; 如何保证算法的正确性: (1)确保算法应用可以正确处理简单数据。 (2)将现实世界中得到的数据格式化为算法可以处理的格式。 (3)将步骤2得到的数据输入到步骤1的算转载 2013-12-18 18:03:12 · 1999 阅读 · 0 评论