
数据挖掘-数据仓库-商业智能(BI)
aiweker
AI 10年从业者,记录我的AI成长历程!InfoQ写作社区和阿里云开发者社区签约作者,长期跟踪和分享人工智能前沿技术、应用、领域知识,不定期的发布相关产品和应用,欢迎关注和转发
展开
-
什么是BI
(1) 老板,你要这么多数据做什么? 假如你是一个商品零售公司的老板。 你的公司很先进,已经实现了业务信息化,每一笔销售单据都保存在数据库中,日积月累,已经保存了十余年的销售数据,上亿条销售记录。 这时如果我问你:“反正三年前的数据留着也白白占地方,耗费存储成本,索性把它们全删掉吧,这样不用买硬转载 2007-11-27 21:27:00 · 2236 阅读 · 1 评论 -
Cognos 安装配置(实际操作总结)
发了两周挂迅雷下了个cognos 8.3,心里很高兴。马不停蹄又找了个安装配置说明,安装了oracle 10g数据,配置cognos老是不成功,甚是郁闷。坚持不懈查看资料,不同的服务器都试过(apatch,IIS,tomcat)。功夫不负有心人,successful!(发现时自己少配置了一步,笨啊!晕)。 现将配置过程贴出来分享,与各位同仁共同进步。具体见我的资源:http://dnnyyq.download.youkuaiyun.com/ (没分的或者有问题的,可以联系我) 下面是原创 2010-08-15 11:05:00 · 2146 阅读 · 0 评论 -
数据挖掘牛人 一览
Jiawei Han 个人主页:http://www-sal.cs.uiuc.edu/~hanj/Professor, Department of Computer ScienceUniv. of Illinois at Urbana-ChampaignRm 2132, Siebel Center for Computer Science201 N. Goodwin Ave原创 2010-01-24 15:10:00 · 8323 阅读 · 1 评论 -
数据仓库学习笔记
(一) 退化维度在维度建模的数据仓库中,有一种维度叫Degenerate Dimension,中文一般翻译为“退化维度”。这种退化维度一般都是事务的编号,如订单编号、发票编号等。这类编号需要保存到事实表中,但是不需要对应的维度表,所以称为退化维度。退化维度是维度建模领域中的一个非常重要的概念,它对理解维度建模有着非常重要的作用,尤其是对维度建模的入门者。退化维度作用:l原创 2009-05-26 21:52:00 · 678 阅读 · 0 评论 -
★转换业务数据(四)
在对业务数据进行抽取和简单的处理后,需要根据分析的需要对业务数据进行转换,扩充业务数据的信息,使之更适合分析和可视化。基本的转换分为两种:※ 表级别的转换★ 转换带权重的数据集合★ 转换时间序列的数据集★ 数据集聚合★ 过滤数据集※ 字段级别的转换★ 删除字段★ 添加字段。可能根据需要添加若干个字段。比如原来有个账户激活日期字段,我们想查看年,月原创 2009-03-21 10:54:00 · 1526 阅读 · 0 评论 -
★选择业务数据集合(三)
在确定关键性业务问题后,根据映射的数据挖掘问题,来选择原始业务数据集合。通常要理解业务数据的表结构和说明。※ 需要注意的是在选择数据之前,要确定目标的实验单元,即数据的主题,或者粒度等。比如客户,账目就是不同的主题,但是都是从两张表中抽取的。※ 可以用可视化,如直方图,分布图,统计图(箱式图)来查看数据集的连续和离散字段,检查可能出现的异常值,NULL值,空值等。※ 字段离散原创 2009-03-19 18:47:00 · 969 阅读 · 0 评论 -
★识别关键性业务问题(可视化数据挖掘)(二)
在VDM项目可行性分析后,确定数据挖掘的目标后,就要识别关键性业务问题。业务问题很多,要选择关键性的业务问题,并将业务问题改述和映射成数据挖掘定义的问题,如分类,预测,关联,估值,聚类和细分。并明确OLAP与数据挖掘问题的定义。对与预测模型,需要定义模型什么时候才是好的。可以根据定义投资回报率ROI来定义此类问题。可以描述成 给定一个ROI目标,模型的准确度在什么点是没有收益,不可用的。ROI原创 2009-03-17 21:00:00 · 1252 阅读 · 0 评论 -
★ 验证和规划可视化数据挖掘项目(VDMP)(一)
我们在开始一个可视化数据挖掘项目时,首先要做的事情就是进行项目的可行性分析。可行性分析包括:业务动机,分析的目标以及数据挖掘项目的目标和项目的投资回报率(ROI)。同时包括制定项目的进度计划和参与项目的人员安排(包括在项目充当的角色和责任)。我们可以通过闭环的业务建模方法来确定项目持续的时间等。1. 确定你要做的项目的类型:概念证明型,导航型,产品型。2.原创 2009-03-16 14:23:00 · 3779 阅读 · 1 评论 -
Clemetine学习笔记
一. 数据源(Data SOURCE) Clementine里面有很多数据源,包括:VAR FILE 可变文件,FIXED FILE 固定文件,数据库文件,EXCEL文件,SPSS文件,SAS文件,用户输入文件,DIMENSION维文件。这里描述下关于数据库文件的ODBC连接过程。 添加数据库节点--->选择数据源--->添加新的数据源原创 2009-03-10 11:27:00 · 1307 阅读 · 0 评论 -
ETL读书报告---数据仓库设计的关键部分-Extraction+Transform+Load 之Extraction(数据抽取)
最近在学数据仓库的知识,看了一些关于ETL的英文书,写一些读书报告供大家批评+指正+分享。先写些关于数据抽取的报告吧。 数据仓库简单的说是基于主题(subject),集成(integration),历史(history)的数据的有效组织。构建一个数据仓库,集成数据是非常关键的部分。因为构建数据仓库所需要的数据源(Data Resource)可能来自不同的平台,不同的系统,而且原创 2009-02-28 11:14:00 · 996 阅读 · 0 评论 -
Teradata 中WITH RECURSIVE 应用的一个实例
需求:对一个位数固定使用分隔符连接的字符串的拆分,如将记录215|482|850|870拆分为215,482,850,870四条记录结果:WITH RECURSIVE 语句能够实现此功能,测试如下: CREATE TABLE dwsdata.gift_info (gf_id varchar(50),channels varchar(100));select * from dwsdata.gift_info;gf_id channels1071070转载 2010-09-12 11:44:00 · 2769 阅读 · 0 评论