
云计算
山水佳音
来自千古龙飞地,关注互联网,大数据、数据仓库及创新应用。
展开
-
虚拟 高性能计算 ScaleMP- HPC:- PC搭建超级计算机
云计算离不开虚拟技术,把一台高性能计算机虚拟成多台计算机,以满足应用需求,并实现系统维护的灵活性。此外,在应用中特别强调稳定、高性能的时候,如果条件允许,可以用Unix主机甚至集群来解决,也可以采用PC集群来解决。主机集群稳定、开发、部署简单,但投入大;PC应用集群不太稳定、开发、部署复杂,投入较小。能否把两者的优点结合起来呢?答案是:可以的。ScaleMP提出了一种用软件把若干台PC虚拟原创 2011-06-29 13:07:00 · 7030 阅读 · 0 评论 -
Trafodion:Transactional SQL on HBase
HBase的SQL能力一直不足。Phoenix缺乏Join能力,eBay提出的kylin还不够简洁,facebook Presto的HBase连接器还没公开。那么,Trafodion来了。它在HBase上提供了标准SQL功能,并支持事务OLTP。Trafodion是HP的开源举措,培养在惠普实验室和HP-IT开发一个企业级的SQL上的HBase解决方案。惠普拥有超过20年的积累,针对大数据的事务或业务工作负载,已经开发事务的SQL技术进入数据库technologyand解决方案。 Trafodion给Had翻译 2014-10-24 14:44:02 · 7022 阅读 · 1 评论 -
低调、奢华、有内涵的敏捷式大数据方案:Flume+Cassandra+Presto+SpagoBI
“Ad-hoc analysis over Cassandra data with Facebook Presto”一文,对Cassandra+Presto结合实现大数据即席分析进行了介绍。Presto是为满足交互式即席查询需求而优化的分布式SQL查询引擎。它支持标准ANSI SQL,包括复杂查询,聚合,连接和窗口函数。Cassandra以前缺少交互式即席查询功能,甚至在CQL中不支持聚合函数。因为这个原因,Cassandra在作为数据库使用时经常被混淆。分析Cassandra中的数据有下边两个框架:原创 2014-10-10 18:40:22 · 9314 阅读 · 1 评论 -
中小企业的大数据技术路线选择
目前,大数据主要应用在互联网、电商领域,电信、电力行业也在逐步使用。对广大的中小企业来说,大数据也听得太多了。然而,大数据的技术门槛还是很高的。从技术路线上来说,选择大公司使用的技术方案可能是不能承受之重。 笔者所在的公司,选择的是行业通用的Hadoop方案。历经一年之久,前后三拨人员,一个Demo版还没出来。大数据真的让人望眼欲穿啊。 对中小企业而言,要选择适合自己的大数据技术路线。跟着大公司,人云亦云,还真玩不起。那么,有没有适合中小企业的大数据方案呢?笔者用心收集了几个原创 2014-11-04 10:14:45 · 4871 阅读 · 2 评论 -
Ubuntu: GlusterFS+HBase安装教程
HBase通常安装在Hadoop HDFS上,但也可以安装在其他实现了Hadoop文件接口的分布式文件系统上,如KFS。glusterfs是一个集群文件系统可扩展到几peta-bytes。它集合了各种存储在infiniband rdma或互连成一个大型并行网络文件系统。存储可以由任何商品等硬件x86_64服务器和sata-ii和infiniband HBA。GlusterFS比Hadoop HDFS可以提供更高的性能,HBase也因此可以获得更高的性能。将HBase安装在GlusterFS上,是可行的。该方原创 2014-10-19 21:51:54 · 2262 阅读 · 0 评论 -
搭建独立大数据实验室的设想
南京第一家开放大数据实验室原创 2014-10-17 12:57:06 · 1852 阅读 · 0 评论 -
盘点SQL on Hadoop中用到的主要技术
盘点SQL on Hadoop中用到的主要技术发表于1小时前|165次阅读| 来源github|0 条评论| 作者肥男爱肉转载自:http://www.youkuaiyun.com/article/2015-01-06/2823450HadoopSQL大数据架构摘要:自打Hive出现之后,SQL on Hadoop相关的系统已经百花齐放,速度越来越快,功能也越来越齐全。本文不是要去转载 2015-01-07 12:46:59 · 3828 阅读 · 0 评论 -
Spark发布1.2.0 - 支持Netty NIO / SQL增强
Spark 1.2.0是在1.X线的第三个版本。此版本带来了Spark的核心引擎性能和可用性方面的改进,一个重要的MLlib新API,Python的扩展ML支持,一个完全高可用的Spark流模式,等等。 GraphX已经看到主要性能和API改进,已经从alpha组件毕业。Spark 1.2代表来自60多个机构的172贡献者的1000个补丁的工作。翻译 2014-12-20 13:57:36 · 2749 阅读 · 0 评论 -
2014年大数据年终工作总结
今天是圣诞节,2014年马上要过去了。回顾这一年在大数据研发上的点点滴滴,总结如下三个方面:一、大数据研发技术路线 目前,存在太多的大数据技术,商业软件,如Teradata、Oracle、SAP、IBM等。开源的,如Hadoop、Spark、MPP DB、NewSQL等。在大数据领域,Hadoop呈一支独大势。经过这段时间的学习和了解,发现Hadoop技术复杂,架构复杂,社区版成熟度可能也就80%左右。要想把Hadoop玩转起来,可能需要投入巨大的成本来完善。Cloudera的CDH也仅原创 2014-12-25 10:20:35 · 7788 阅读 · 0 评论 -
星环科技CTO孙元浩:统一、廉价、实时、融合,2015大数据趋势
星环科技CTO孙元浩:统一、廉价、实时、融合,2015大数据趋势摘要:星环科技CTO孙元浩的演讲主题是“2015年大数据基础技术的演进趋势”。期间,他分享了Spark的一个数据:全球已有近50家企业围绕Spark提供产品和服务,11家提供商业Spark版本。【优快云现场报道】2014年12月12-14日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,转载 2014-12-15 12:56:28 · 2142 阅读 · 0 评论 -
Presto实现原理和美团的使用实践
Presto实现原理和美团的使用实践 转载自:http://tech.meituan.com/presto.html木叶丸 本文已发表在《程序员》2014.6月刊2014-06-16 10:45Facebook的数据仓库存储在少量大型Hadoop/HDFS集群。Hive是Facebook在几年前专为Hadoop打造的一款数据仓库工具。在以前,Facebook的科学家和分析师转载 2015-01-05 14:09:32 · 1794 阅读 · 0 评论 -
中小企业的大数据技术路线选择(二)-Cassandra+Presto方案
我前面曾经写过:中小企业的大数据技术路线选择 和 低调、奢华、有内涵的敏捷式大数据方案:Flume+Cassandra+Presto+SpagoBI 。前面用两个月的时间验证了Presto JDBC驱动、Prestogres和SHIB三种方案。Prestogres,可以使用PostgreSQL 客户端和JDBC驱动,支持SpagoBI等BI工具。但这种方式架构复杂,可能有性能瓶颈,无法发挥该方案的优势。SHIB现在代码量较小,在Team中有报表开发经验的成员即可上手。如果时间和人力允许,开发一个轻量级的Bi原创 2015-03-16 14:21:49 · 3834 阅读 · 2 评论 -
Facebook Bigdata - Presto 0.82 版本说明
Facebook Bigdata - Presto 0.82 版本说明翻译 2014-11-10 13:33:50 · 1060 阅读 · 0 评论 -
Facebook Bigdata - Presto 0.81 版本说明
Facebook Bigdata - Presto 0.81 版本说明 http://prestodb.io/docs/current/release/release-0.81.html翻译 2014-11-10 13:21:45 · 1122 阅读 · 0 评论 -
学习 HeroKu 的架构设计
这几天给我印象比较深的是 HeroKu ,提供 Ruby 快速部署环境并提供托管能力,他们的架构图做得十分漂亮,一幅图胜过千言万语,要是对 Web 架构感兴趣,都别问架构师了,看看 HeroKu 的架构估计就明白个差不多了 :) http://www.dbanotes.net/a转载 2011-07-06 21:50:01 · 532 阅读 · 0 评论 -
内存云- 一个伪命题!
前几天,在csdn上看到了内存云的文章。初看,感觉挺新颖的,再仔细看,发现这是个噱头。文中,作者提出在内存中实现文件系统,以此实现HDFS的分布式文件系统。其实,在DOS时代已经有了ramdisk这个命令,即是把内存虚拟成硬盘。以下引用自内存文件系统使用及示例LINUX下我所原创 2011-08-04 13:55:04 · 2010 阅读 · 3 评论 -
用Erlang实现MapReduce算法(一)
用Erlang实现MapReduce算法(一)出处:由于cnblogs的代码着色系统不支持erlang,所以就直接从博客上贴过来了,如果大家看的不习惯的话,就直接来我的博客上看吧本文章为本人个人博客相应文章的镜像:原文地址: http://转载 2011-08-04 20:34:02 · 2437 阅读 · 1 评论 -
淘宝数据魔方技术架构解析
淘宝数据魔方技术架构解析 淘宝网拥有国内最具商业价值的海量数据。截至当前,每天有超过30亿的店铺、商品浏览记录,10亿在线商品数,上千万的成交、收藏和评价数据。如何从这些数据中挖掘出真正的商业价值,进而帮助淘宝、商家进行企业的数据化运营,帮助消费者进行理性的购物转载 2011-08-08 13:28:29 · 1298 阅读 · 0 评论 -
只有在民营互联网公司技术才是最重要的!
今天下午五点时,在我的群“让大象飞上云端”里一个朋友发了一个消息NoSQL大热 DataStax融资1100万。看过后,感到这样的事情只能发生在国外。国内,在财大气粗的有关系、有背景、有实力的企业看来技术向来是不重要的。因为,这样的企业或单位不差钱,高昂的软件、设备由这样的企业垄原创 2011-09-27 22:33:44 · 1155 阅读 · 0 评论 -
实时数据分析平台、大数据分析、MPP数据仓库 - vertica (二)实时加载 & 查询
今天,世界各地的信息是连续产生的。因此,隔夜批量加载数据已经成为奢侈的过去。组织必须能够不停顿地加载到信息到他们的分析平台,同时允许进行数据丰富的分析。 信息的时间价值是非常重要的,在数据产生后,用户越早处理就越有价值。对于零售商来说,这可能意味着即时的促销和库存的摆放。对于金融公司,这会影响到及时的交易决策。对于网络游戏公司,这提供了更加个性化和引人入胜的游戏体验。这个最小延迟的翻译 2012-10-12 20:16:26 · 5128 阅读 · 0 评论 -
实时数据分析平台、大数据分析、MPP数据仓库 - vertica (一)分析平台
数据分析平台分析平台实时加载 & 查询高级库内分析数据设计 & 管理工具列式存储 & 执行强劲的数据压缩扩展的MPP架构自动的高可用性优化器, 执行引擎 & 负载管理内在的 BI, ETL, & Hadoop/MapReduce 集成 Vertica的分析平台为特定目的建造的,以使公司从他们的数据中提取价值,他们需要在今天的经济环境中茁壮成长的速度和规模。翻译 2012-10-12 11:47:35 · 6200 阅读 · 0 评论 -
Cloud Edge:2013年国际“云先锋”系列报道
出处:http://www.youkuaiyun.com/article/2013-08-22/2816670-birstCloud Edge:2013年国际“云先锋”系列报道序号公司名称成立时间CEO/CTO风险投资公司产品/方向1.HStreaming2011年Jana Uhlig转载 2013-08-27 13:12:04 · 20638 阅读 · 0 评论 -
移动基于Percona XTRADB Cluster的大数据解决方案
最近因为“棱镜门”事件的曝光,引起了国家对信息安全问题的注意,各大行业也开展起来去“IOE”的行动。对移动而言, 一方面是对信息安全的担心,另一方面是对降低成本的考量,对开源体系架构的引入也成为一种现实的方案。 在互联网行业,MySQL的使用成为主流,但随着Oracle对Sun的收购,MySQL的控制权落入Oracle手中,对MySQL可能闭源的风险也成为业界的共识。 由此,产生了各种MySQL的分支。本文主要对其中的PerconaXtraDB进行了分析。原创 2014-05-16 16:38:04 · 11040 阅读 · 2 评论 -
perconaXTRADB Cluster在Redhat Linux上的安装
installing-percona XTRADB Cluster 5.6For Redhat 6.4一、 服务器版本查看Root# cat /etc/redhat-release Red Hat Enterprise Linux Server release 6.4 (Santiago)二、 新建目录:Root#mkdir -p /softwares三、 下载RPM包1、下载XTRADB Cluster包2、下载XTRABACKUP包四、 安装依赖包1、 安装包准备2、 安原创 2014-05-09 20:38:09 · 3037 阅读 · 0 评论 -
percona XTRADB Cluster 5.6在ubuntu安装
Percona XTRADB Cluster 5.6在Ubuntu Server 14.04上的安装文档,参考了官方安装文档和国外网友的安装记录才安装成功。确保可以安装成功。原创 2014-05-09 20:46:50 · 2770 阅读 · 0 评论 -
彪悍开源的分析数据库-ClickHouse
Yandex在2016年6月15日开源了一个数据分析的数据库,名字叫做ClickHouse,这对保守俄罗斯人来说是个特大事。更让人惊讶的是,这个列式存储数据库的跑分要超过很多流行的商业MPP数据库软件,例如Vertica。如果你没有听过Vertica,那你一定听过 Michael Stonebraker,2014年图灵奖的获得者,PostgreSQL和Ingres发明者(Sybase和SQL Server都是继承 Ingres而来的), Paradigm4和SciDB的创办者。Michael Stonebr转载 2016-09-28 09:25:34 · 29967 阅读 · 1 评论