- 博客(30)
- 收藏
- 关注
转载 从问题域出发认识Hadoop生态系统
近些年来Hadoop生态系统发展迅猛,它本身包含的软件越来越多,同时带动了周边系统的繁荣发展。尤其是在分布式计算这一领域,系统繁多纷杂,时不时冒出一个系统,号称自己比MapReduce或者Hive高效几十倍,几百倍。有一些无知的人,总是跟着瞎起哄,说Impala将取代Hive,Spark将取代Hadoop MapReduce等。本文则从问题域触发,解释说明Hadoop中每个系统独特的作用/魅力以及
2013-12-09 22:44:06
592
转载 Cloudera Hue Issues
在使用Cloudera Hue时遇到一问题: 1. 使用Sqoop导入功能时,由于配置错误,使得“保存运行”后Job并不能正常提交,且界面上没有相关提示: 使用Hue的Sqoop shell -》 start job --jid * 提交会出现一些错误提示然后再去/var/log/sqoop/里面查看log2. 第二个问题是在使用Job Designer设计Sqoop任务,
2013-12-08 23:37:06
1049
转载 什么是大数据随谈
什么是比高达他?比高达他?呵呵,其实我想输入“什么是大数据”,一不小心大数据敲成了英文Big Data,就成了上面的“什么是比高达他?”,你大概猜到了我用的是什么中文输入法,呵呵,兄弟姐妹大叔大婶们,我们有很多共同点啊。今天突然想起来前段时间一个在深圳工作的美国朋友问我,什么是大数据,多大才算大以至于我们公司才需要大数据技术?我当时给了他一些参考,他还不是很明确。很有意
2013-12-08 23:01:34
599
转载 做一名“数据科学家”,规划您未来5至10年的职业发展
神奇的始推动至今还仍然是个谜,不过,如今的世界正在被“数据”所“驱动”却是一个被越来越多双企业家和经理们的眼睛所有目共睹的事实。大数据带来大需求,意味着大价值!越来越多的企业意识到数据就是“石油”,而数据科学家(data scientist)就是能为企业带来黑色金子的“石油勘探员”,“矿工”或者“钻井员”,或者其他你能想到的名称。可是随之而来的问题是,能为企业挖掘黑色金矿的数据科学家却
2013-12-08 23:01:07
3632
转载 Cloudera Community Forum: 用户分享和交流大数据技术的网上社区
为了更好地为遍布世界各地的广大CDH用户,Cloudera Manager用户及Cloudera其他产品及服务的用户服务,帮助用户解决从认识大数据,发现应用案例,POC,产品试验到部署Hadoop,系统 迁徙,过程及队伍建设,Hadoop软硬件认证以及涉及各种技术支持与咨询等各种问题,听取用户意见与建议,在原有产品及服务的邮件列表基础上,Cloudera又最新隆重推出在线社区论坛。
2013-12-08 22:52:16
918
转载 Cloudera Search: 轻松实现Hadoop全文检索
近期Cloudera Search的推出,对于曾经做信息检索和使用过Lucene/Solr的我来讲,虽然不是那种令人乍舌的新技术,但从应用层面来考虑,我相信,对于业界而言,毫无疑问是一个相当令人兴奋的消息。想想看,有了集一整套解决方案在手的Cloudera Search在手,现在任何人都可以轻而易举地像使用谷歌百度那样对存储在Hadoop里面的数据进行全文检索了!Cloud
2013-12-08 22:51:11
3386
转载 CDH4.1
继6月份推出CDH4后,Cloudera于本月推出了CDH4.1版(注:Cloudera每年会推出一个新的CDH版本,并且大约每隔3个月会对当前的CDH作一次更新)。除了常规的补丁和性能改善,这一更新包含了关于HDFS和安全性方面的几个特性,值得关注一下。- Quorum-based Storage HA在CDH4提供的HDFS HA实现机制里,一对Name Node共享N
2013-12-08 22:45:30
861
转载 CDH4简介
We believe that during 2012, enterprise distributions of Hadoop will mature enough that enterprises will accelerate production deployments and begin to yield tangible organizational value.— Ben W
2013-12-08 22:38:54
635
转载 Hadoop生态图谱
当下Hadoop已经成长为一个庞大的体系,貌似只要和海量数据相关的,没有哪个领域缺少Hadoop的身影,下面是一个Hadoop生态系统的图谱,详细的列举了在Hadoop这个生态系统中出现的各种数据工具。这一切,都起源自Web数据爆炸时代的来临数据抓取系统 - Nutch海量数据怎么存,当然是用分布式文件系统 - HDFS数据怎么用呢,分析,处理MapReduce框架,让你编写代码来实现对大
2013-11-26 16:53:36
463
转载 大数据工程人员知识图谱
在企业里面从事大数据相关的工作到底需要掌握哪些知识呢?我认为需要从两个角度来看:一个是技术;一个是业务。技术上主要涉及到概率和数理统计,计算机系统、算法和编程等;而业务的角度呢则是因公司业务的不同而异。对于从事大数据的工程人员来说,需要学会使用数据挖掘方法在计算机系统和编程工具的帮助下解决实际的问题,这样才能够在海量数据中挖掘出业务增长的助推剂,才能在激烈的市场竞争中为企业创造更多的价值。
2013-11-14 11:29:28
867
转载 轻量级分布式系统-moosefs介绍
MooseFS是一种分布式文件系统,MooseFS文件系统结构包括以下四种角色:1 管理服务器(master)2 元数据日志服务器(Metalogger)3 数据存储服务器 (chunkservers)4 客户机挂载使用各种角色作用: 1 管理服务器:负责各个数据存储服务器的管理,文件读写调度,文件空间回收以及恢复.多节点拷贝 2 元数据日志服务器: 负
2013-10-31 19:02:08
669
转载 漫谈大数据仓库与挖掘系统
任何比较关注业界新闻的人,都会知道近两年数字信息领域的几个关键字: 移动端、LBS、SNS和大数据(Big Data)。前边三个,大家应该是很熟悉的,因为身边早已充斥着相关的应用。唯独最后一个大数据,在大部分人眼中却是非常陌生的,除了知道如数据挖掘、智能推荐等几个看似非常高深的词汇之外,却是不知其里的。 本文作者 忽悠真人 是阿里巴巴集团数据平台事业部数据产品开发工程师,从专业角度告诉你什么是
2013-10-19 23:23:02
1394
转载 Ad Network、Ad Exchange、DSP、SSP、RTB 和DMP 是什么?
Ad Network、Ad Exchange、DSP、SSP、RTB、DMP 这些模式之间存在着内在的关系,所以在理解的时候,我们需要联系起来进行理解,不能分开。1、RTB(Real Time Bidding,实时竞价):定义:是一种利用第三方技术在数以百万计的网站上针对每一个用户展示行为进行评估以及出价的竞价技术。个人理解:如果把互联网比作蜘蛛网,那么当任何一只小生物触碰到这张网
2013-09-12 17:50:08
2816
转载 新浪发布首款全媒体覆盖广告平台“龙渊”
【小编:新浪此次的“龙渊”广告平台称“全面向第三方监测开放”,这对第三方监测是利好,手机与PC对起来这种机会各大数据公司应该都尝试也监测下,拉下数据。提醒一下从业人员哦,新浪这个“龙渊”哦,其实是个DSP耶,类似腾讯腾果,龙渊与独立DSP又在抢生意了,所以DSP江湖从此形成了一种新的生态Private DSP】y新浪科技讯 9月6日下午消息,“2013 新浪商业思想OpenDay
2013-09-12 17:05:01
1016
转载 storm 原理简介及单机版安装指南
目录:[ - ]1、准备工作2、一个Storm集群的基本组件3、Topologies4、Stream5、数据模型(Data Model)6、一个简单的Topology7、流分组策略(Stream grouping)8、使用别的语言来定义Bolt9、可靠的消息处理10、单机版安装指南本文翻译自: https://github.com/n
2013-09-03 08:48:35
861
转载 当浏览器默认禁用第三方cookie
前一阵子,我们发现高版本的Safari中默认会阻止第三方cookie,如下图所示。问题什么是第三方cookie呢?在访问一个网站A时,网站A算作第一方,如果网站A中引用了另一个网站X(网站X的域名与网站A的域名不同)的资源,这时这个网站X就被认为是第三方。需要注意的是,这儿区分不同网站的标准是域名是否相同,而不是这两个网站是否由同一个公司运营。比如,taobao.com和t
2013-08-26 17:07:00
7042
转载 你真的懂【售罄率】吗?
【售罄率】是以期货制销售为主的行业(如服装行业)的一个常规指标, 它的计算公式如下: 售罄率=某段时间内的销售数量÷(期初库存数量+期中进货数量)×100% 售罄率是检验商品消化速度的一个指标,一般采取期货制订货的企业,如鞋服行业用得比较多。根据销售期的不一样,一般有周售罄率、月售罄率、季售罄率、季末售罄率等。季末售罄率指的是整个商品消化期的销售数量和商品的总到货数量的比值。例如某
2013-08-24 10:01:20
3032
转载 淘宝搜索算法现状
淘宝搜索排序的目的是帮助用户快速的找到需要的商品。从技术上来说,就是在用户输入关键词匹配到的商品中,把最符合用户需求的商品排到第一位,其它的依次排在后续相应的位置。为了更好的实现这个目标,算法排序系统基本按三个方面来推进:一.算法模型当用户输入关键词进行搜索的时候,系统依据算法模型来给匹配到的每个商品进行实时的计算,并按照分数的大小对商品进行排序。对于好的算法模型,首先需要
2013-08-16 09:20:05
662
转载 数据的游戏:冰与火
我对数据挖掘和机器学习是新手,从去年7月份在Amazon才开始接触,而且还是因为工作需要被动接触的,以前都没有接触过,做的是需求预测机器学习相关的。后来,到了淘宝后,自己凭兴趣主动地做了几个月的和用户地址相关数据挖掘上的工作,有一些浅薄的心得。下面这篇文章主要是我做为一个新人仅从事数据方面技术不到10个月的一些心得,也许对你有用,也许很傻,不管怎么样,欢迎指教和讨论。另外,注明一下,这篇文
2013-07-31 09:08:51
1148
转载 数据如何帮助业务
文 / 阿里巴巴集团商业智能部资深经理 欧吉良(勾践) 数据的重要性已经被越来越多的公司、个人所熟知与接受,甚至于有过犹不及之势头。大数据的概念满天飞,似乎一夜之间人人都在谈论大数据,见了面不用 大数据打招呼,好像就不是在数据圈子里混的了。那么,被外界传得神乎其神的数据,到底可以在哪些方面促进业务的腾飞?或者换种说法,业务对数据有哪
2013-07-30 21:53:46
598
转载 不懂商业就别谈数据
前一段日子见到一位数据发烧友,我们两个有一个一致的观点:电子商务发展速度越来越快,这个行业的趋势变化也越来越快。对于电子商务公司老板来说,想要自己永远跟着趋势走,学会数据驱动是必然的了。庆幸的是,今年搞电子商务的人对数据分析开始重视起来了,就连夫妻店起来的淘宝卖家也开始招数据分析师,更别谈一些再大些的电子商务公司。但是,这让我心存隐忧:现在不是缺数据,而是数据太多。据统计,在今天的
2013-07-30 21:53:00
486
转载 企业掘金大数据的两种选择
究竟如何才能把数据转化为利润呢? 对大多数公司来说, 有两种选择, 一是数据导向的流程, 二是数据导向的产品。 如今,你到哪儿都能听到大数据。别说是亚马逊这样的公司,现在就是一个小的Startup, 每天也能有几个G的数据量。 而像Instagram 这样的照片分享网站,每天轻松就能产生出500T的数据量。 不少企业的CEO们都会问一个问题:“好,现在我有这么多数据,下一步我该怎么做呢
2013-07-12 09:30:44
737
转载 贝叶斯算法会是破解“App刷票”的良方
近日,沸沸扬扬的360 App刷排名事件及其背后黑色产业链的浮现让公众对App Store的公正性引发质疑。尽管苹果官方已于2月7日针对其应用程序开发者发出一份带有警告意味的声明,劝告开发者不要试图操纵App Store排行榜,并表示将加大审查和处罚力度。但不难看出在App Store现有的应用排名和评分机制下,苹果很难对刷票者及其带来的负面影响做到全盘精确掌控。截至2011年5月,苹果App
2013-07-09 23:02:08
563
转载 用算法来防范水军评分站点的福音
(先观影者)看了电影后的打分在4分以上(5分满分)或8.8分与9.1分之间(10分满分),但是上画第一天,电影评分就从9.1分直降至3分”《王的盛宴》事件引发了不少对评分类网站水军的讨论。不管是电影评分还是游戏评分类站点,都可能遇到这种麻烦,那么对于用户和站点来说,怎样的算法才能相对更好的避免水军带来的干扰呢?工具/原料豆瓣评分算法
2013-07-09 23:01:15
602
转载 BI项目中常见问题---模型设计
各位BI大侠大家好,好久没写点东西了,今天由于得了重感冒,无法工作,但有不希望浪费时间在无聊的网络中,写点东西来打发时间吧。 今天讨论的话题是《BI项目中常见问题—非技术类》 大家出于不同的公司,做的也当然是不同规模、不同行业、不同企业、不同区域的BI项目。每个人可能对BI项目的理解也不尽相同(稍后我的后续文章重点讨论)。但在项目的实施过程中,常见问题以及我个人认为
2013-06-17 21:02:24
1025
转载 海量数据面试题整理
1. 给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url?方案1:可以估计每个文件安的大小为50G×64=320G,远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。s 遍历文件a,对每个url求取,然后根据所取得的值将url分别存储到1000个小文件(记为)中。这样每个小文件的大约为3
2013-05-16 14:18:30
897
转载 做数据挖掘的步骤
1. 理解业务与理解数据; 2. 获取相关技术与知识; 3. 整合与查询数据; 4. 去除错误或不一致及不完整的数据; 5. 由数据选取样本先行试验; 6. 建立数据模型 7. 实际Data Mining的分析工作; 8. 测试与检验; 9. 找出假设并提出解释; 10. 持续应用于企业流程
2013-03-24 14:56:23
452
转载 十大数据挖掘算法及各自优势
国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART.不仅仅是选中的十大算法,其实参加评选的18种算法,
2013-03-24 14:54:59
547
转载 Google Dremel vs. Apache Hadoop
Naresh Kumar在介绍两者之间的区别之前,首先针对Google Dremel进行简单的描述:什么是Google Dremel?Google Dremel是个可扩展的、交互式的即时查询系统,专注于只读嵌套(nested)数据的分析。通过集合不同层次的执行树和柱状的数据布局,他能够在几秒内完成在万亿张表上的聚合查询。系统可以扩展到成千上万的CPU上,满足Google上万用户操作
2013-03-10 22:46:48
637
转载 用Map/Reduce来做好友推荐
SNS网站都有一个功能,就是好友推荐(或者Follower推荐)。例如,在人人网上出现的“你可能认识的人”。怎么来实现呢,有一个很简单的办法。如果小刚和小明不是好友,但是他们有很多的共同好友。那么可以认为,A和B很可能相识。从图论的讲法上看,就是先列出一个人(记为小A)的所有朋友的朋友,在寻找小A和这些人之间有多少长度为2的通路。将这些通路数排序,寻找最高的那几个就可以了。所以我们
2013-03-10 20:40:46
649
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人