
Data Mining
文章平均质量分 80
hadoop17173
这个作者很懒,什么都没留下…
展开
-
Google Dremel vs. Apache Hadoop
Naresh Kumar在介绍两者之间的区别之前,首先针对Google Dremel进行简单的描述:什么是Google Dremel?Google Dremel是个可扩展的、交互式的即时查询系统,专注于只读嵌套(nested)数据的分析。通过集合不同层次的执行树和柱状的数据布局,他能够在几秒内完成在万亿张表上的聚合查询。系统可以扩展到成千上万的CPU上,满足Google上万用户操作转载 2013-03-10 22:46:48 · 638 阅读 · 0 评论 -
十大数据挖掘算法及各自优势
国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART.不仅仅是选中的十大算法,其实参加评选的18种算法,转载 2013-03-24 14:54:59 · 549 阅读 · 0 评论 -
做数据挖掘的步骤
1. 理解业务与理解数据; 2. 获取相关技术与知识; 3. 整合与查询数据; 4. 去除错误或不一致及不完整的数据; 5. 由数据选取样本先行试验; 6. 建立数据模型 7. 实际Data Mining的分析工作; 8. 测试与检验; 9. 找出假设并提出解释; 10. 持续应用于企业流程转载 2013-03-24 14:56:23 · 453 阅读 · 0 评论 -
海量数据面试题整理
1. 给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url?方案1:可以估计每个文件安的大小为50G×64=320G,远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。s 遍历文件a,对每个url求取,然后根据所取得的值将url分别存储到1000个小文件(记为)中。这样每个小文件的大约为3转载 2013-05-16 14:18:30 · 898 阅读 · 0 评论 -
数据的游戏:冰与火
我对数据挖掘和机器学习是新手,从去年7月份在Amazon才开始接触,而且还是因为工作需要被动接触的,以前都没有接触过,做的是需求预测机器学习相关的。后来,到了淘宝后,自己凭兴趣主动地做了几个月的和用户地址相关数据挖掘上的工作,有一些浅薄的心得。下面这篇文章主要是我做为一个新人仅从事数据方面技术不到10个月的一些心得,也许对你有用,也许很傻,不管怎么样,欢迎指教和讨论。另外,注明一下,这篇文转载 2013-07-31 09:08:51 · 1155 阅读 · 0 评论 -
漫谈大数据仓库与挖掘系统
任何比较关注业界新闻的人,都会知道近两年数字信息领域的几个关键字: 移动端、LBS、SNS和大数据(Big Data)。前边三个,大家应该是很熟悉的,因为身边早已充斥着相关的应用。唯独最后一个大数据,在大部分人眼中却是非常陌生的,除了知道如数据挖掘、智能推荐等几个看似非常高深的词汇之外,却是不知其里的。 本文作者 忽悠真人 是阿里巴巴集团数据平台事业部数据产品开发工程师,从专业角度告诉你什么是转载 2013-10-19 23:23:02 · 1404 阅读 · 0 评论 -
Hadoop生态图谱
当下Hadoop已经成长为一个庞大的体系,貌似只要和海量数据相关的,没有哪个领域缺少Hadoop的身影,下面是一个Hadoop生态系统的图谱,详细的列举了在Hadoop这个生态系统中出现的各种数据工具。这一切,都起源自Web数据爆炸时代的来临数据抓取系统 - Nutch海量数据怎么存,当然是用分布式文件系统 - HDFS数据怎么用呢,分析,处理MapReduce框架,让你编写代码来实现对大转载 2013-11-26 16:53:36 · 465 阅读 · 0 评论