
DW
文章平均质量分 80
mousever
这个作者很懒,什么都没留下…
展开
-
2012年商业智能的6大预测
1.内存中的分析内存分析技术在2011年以其对日益增长的大量数据的快速思考分析能力继续占领着舞台中心。SAP的内存设备,HANA,于六月广泛面市。Oracle随后在10月的Oracle开放世界大会上发布了它自己的内存设备, Exalytics。该设备将内存数据库TimesTen与新的可视化发现能力相结合。本来预计在去年晚些时候公布, 但它仍然未能实现,而Oracle尚未提供最新的发布计划。IB转载 2012-04-22 15:40:23 · 968 阅读 · 0 评论 -
Yahoo数据仓库架构简介
1. Yahoo数据仓库的整体架构Yahoo数据仓库在基础架构上由hadoop集群和Oracle集群组成,hadoop集群是一个计算平台,完成所有ETL数据处理过程;Oracle集群只是一个查询环境。数据通过Data highway从源系统加载进入数据仓库的ODS层,ODS层数据保持与源系统数据结构一样。EDW数据层并没有严格意义的数据层次的逻辑细分,它可能有多层的ETL加工过程;转载 2012-04-22 16:25:39 · 551 阅读 · 0 评论 -
IBM公司全新的数据仓库解决方案——面向制造零售快速消费品行业的案例
生产力水平的提高使得制造零售快消品行业供大于求的矛盾越来越突显;同时,由于人力成本上升、物价上涨、人民币贬值等因素,国内企业的成本优势逐渐丧失,出口的拉动效应越来越差;加上同类产品的同质化竞争非常严重,国内企业面临着非常严峻的挑战。为了在竞争中获胜,优秀的企业需要不断加强在品牌管理、人员管理、费用控制、计划和预测机制等方面的管理来提升企业营销体系的核心竞争力。IBM 的全新数据仓库解决方案转载 2012-04-22 15:54:25 · 3264 阅读 · 0 评论 -
EMC Greenplum 技术浅析
说起Greenplum这个产品,最早是SUN来推他们的数据仓库产品DWA时接触到的,对这个由PgSQL堆叠出来的数据库产品还不是很了解,当时的焦点还在DWA本身的硬件上,当然不可否认,DWA还是有一些特点的。后来,我们发现普通的PC+SAS磁盘具备非常好的吞吐能力,完全不逊于某些昂贵的存储设备。这样我们就尝试用PC+Greenplum搭建了一个环境,效果完全超出了我们的预期,吞吐量完全超过转载 2012-04-22 16:05:50 · 1148 阅读 · 0 评论 -
大数据架构及行业大数据应用
今天要和大家分享一 些南大通用CTO武新所总结的底层数据处理技术的发展趋势和正在经历的巨大变革。 这个领域过去5年发展很快、热度很高,目前还在起步阶段。1.数据价值的发现与使用先不说什么是大数据,这个争议很多,我也说不清楚。不过我个人认为在大数据的4个V中,最显著的特征应该是Value(价值),其他几个V都很模糊。也就是说,不管数据多大,是什么结构,来源如何,能给使用者带来价值转载 2014-11-18 16:53:38 · 2829 阅读 · 1 评论 -
各种距离算法汇总
1. 欧氏距离,最常见的两点之间或多点之间的距离表示法,又称之为欧几里得度量,它定义于欧几里得空间中,如点 x = (x1,...,xn) 和 y = (y1,...,yn) 之间的距离为:(1)二维平面上两点a(x1,y1)与b(x2,y2)间的欧氏距离:(2)三维空间两点a(x1,y1,z1)与b(x2,y2,z2)间的欧转载 2015-05-25 11:26:37 · 54696 阅读 · 1 评论 -
数据挖掘之lsh minhash simhash
在项目中碰到这样的问题:互联网用户每天会访问很多的网页,假设两个用户访问过相同的网页,说明两个用户相似,相同的网页越多,用户相似度越高,这就是典型的CF中的user-based推荐算法。算法的原理很简单,只要两两计算用户的相似性,针对每个用户,获取最相似的K个用户即可。但是在实际的工程上,假定用户规模在亿的规模N,计算复杂度为N*N,即使是分布式,也是非常可怕的复杂转载 2016-09-09 22:39:50 · 1070 阅读 · 0 评论 -
协同过滤中item-based与user-based选择依据
此文总结的不错。协同过滤是大家熟知的推荐算法。 总的来说协同过滤又可以分为以下两大类:Neighborhood-based:计算相似item 或user后进行推荐Model-based: 直接训练模型预测Rating在Neighborhoold-based算法中,又细分为user-based CF(Collaborative Filtering)和item-based CF转载 2016-09-12 22:22:23 · 1176 阅读 · 0 评论