hadoop
文章平均质量分 89
亚信联创大数据平台li
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
TDW开源:腾讯的分布式数据仓库
腾讯分布式数据仓库 ( Tencent distributed Data Warehouse,简称TDW) 是腾讯基于开源软件研发的大数据处理平台,它基于Hadoop、Hive、PostgreSQL之上进行研发,历经4年多的研发和运营。目前,TDW已经开源。腾讯分布式数据仓库(Tencent distributed Data Warehouse,简称 TDW),是腾讯工程技术事业群数据平台转载 2014-05-23 10:03:11 · 10996 阅读 · 0 评论 -
OnlineLogisticRegression
mahout源码分析AdaptiveLogisticRegression.java 实现了OnlineLearner接口。维护一个普通的OnlineLogisticRegression学习器池,池中的每一个元素都有不同的学习率。一个主意是学习器池实际维护一个CrossFoldLearners(包含数个OnlineLogisticRegression对象)。这些池允许我们进行转载 2014-06-05 14:29:06 · 2003 阅读 · 0 评论 -
国外医疗行业大数据应用解决之道
国外医疗行业大数据应用解决之道医疗保健不乏大数据分析应用案例,其中包括减少再住院、更好的药物治疗管理、提高战略规划和防欺诈行为。这些意愿都很好,但关键在于从何开始?大多数医疗数据仍然非结构化的专有的和孤立的——为此创建一个临床数据仓库是一件非常复杂的事情,这让医疗行业CIO常常不能自圆其说。幸运的是,可以从医疗行业大数据实践中来吸取教转载 2014-06-04 18:29:32 · 3516 阅读 · 1 评论 -
马云大数据布局
马云大数据布局 当你明白何为大数据,就知道这次马云又在布一个很大的局,他也开始向大数据领域发力了。可以预料,大数据将会成为未来产业财富扩张的重要引擎。 为何大家对大数据表现出如此的激情呢? 看看外面精彩的世界便知一二。 大数据最近很火爆!马云收购恒生终于在传言不久后,被恒生电子股份有限公司股东股权变动的提示性公告证实。马云不好好经营电商打通线上线下,他花33亿收购恒生干嘛?转载 2014-06-04 18:20:06 · 1818 阅读 · 0 评论 -
Hadoop MapReduce两种常见的容错场景分析
本文将分析Hadoop MapReduce(包括MRv1和MRv2)的两种常见的容错场景,第一种是,作业的某个任务阻塞了,长时间占用资源不释放,如何处理?另外一种是,作业的Map Task全部运行完成后,在Reduce Task运行过程中,某个Map Task所在节点挂了,或者某个Map Task结果存放磁盘损坏了,该如何处理?第一种场景:作业的某个任务阻塞了,长时间占用资源不释放,如何处转载 2014-03-26 23:55:10 · 1422 阅读 · 0 评论 -
Apache Hive 0.13发布,新增ACID特性
4月16日在http://mirror.bit.edu.cn/apache/hive/hive-0.13.0/网址就可以下载Hive 0.13,这个版本在Hive执行速度、扩展性、SQL以及其他方面做了相当多的修改:一、执行速度 用户可以选择基于Tez的查询,基于Tez的查询可以大大提高Hive的查询速度(官网上上可以提升100倍)。下面一些技术对查询速度的提升: (1)、转载 2014-05-08 09:31:25 · 1495 阅读 · 0 评论 -
DPark安装及相关资料整理
最近需要处理海量数据的分布式计算及数据挖掘,经过多次选择(hadoop,Spark,DPark),最后还是选择了DPark,主要是看中DPark的轻量级及python的灵活性,且除了豆瓣外,在几个友公司都有成功的应用案例。不过很痛苦的是DPark的资料太少了,连github上的官方wiki都不够详细,暂时只能主要靠自己摸索。这篇文章主要记录DPark的一些资料及我在安装时的一些问题转载 2014-03-23 21:23:08 · 5135 阅读 · 0 评论 -
让hadoop远程调试飞
读hadoop源代码时,经常需要调试源代码。hadoop几乎所有的进程的启动最终全部依靠$HADOOP_HOME/bin/hadoop 脚本实现,开始就简单的在需要的地方添加JDWP的debug选项,做的多了,感觉不够自动化,简单修改了一下hadoop这个脚本,让自动化远程调试飞!修改的脚本如下: 在$HADOOP_HOME/bin/hadoop中后添加:转载 2014-04-16 09:35:12 · 1172 阅读 · 0 评论 -
大数据分析及处理
从所周知,大数据已经不简简单单是数据大的事实了,而最重要的现实是对大数据进行分析,只有通过分析才能获取很多智能的,深入的,有价值的信息。那么越来越多的应用涉及到大数据,而这些大数据的属性,包括数量,速度,多样性等等都是呈现了大数据不断增长的复杂性,所以大数据的分析方法在大数据领域就显得尤为重要,可以说是决定最终信息是否有价值的决定性因素。基于如此的认识,大数据分析普遍存在的方法理论有哪些呢?转载 2014-03-27 22:33:27 · 2815 阅读 · 0 评论 -
Social Network 社交网络分析
一:什么是SNA-社交网络分析社交网络分析的威力何在?我想几个案例来说明。案例1:对一个毫无了解的组织(这个组织可以是一个公司,亦或是一个组织),如果能够拿到这个组织成员之间的信息流动记录(例如通话记录/或邮件记录),那么通过SNA可以分析出谁是这个组织的实际控制者(要知道有必要加上实际二字),谁是这些成员中有影响力的人,那些成员更倾向于聚集在一起。对上述问题的回答可以用来做公关-转载 2014-12-01 13:17:49 · 3514 阅读 · 0 评论
分享