
MindThink
文章平均质量分 86
dufman
学而不思等于白学,重点在于思
展开
-
怎样花两年时间去面试一个人
怎样花两年时间去面试一个人 第一次,从哥哥那里知道一篇博客,就是文章的题目。一开始我并没有太注意文章的作者,后来到了第一家公司开始实习,在一次学习报告会上,知道一本书《暗时间》,知道一个人,刘未鹏。但我并不知道他是谁,直到后来我再次看这篇博客,我才知道,从一开始,我就在按照这个人说的写的在做:如果说,一篇博客你多了多少遍,这篇,我不知道自己读了多少遍。但每一次,我都转载 2013-04-21 10:40:51 · 1503 阅读 · 0 评论 -
Thinking in BigData(九)大数据hadoop集群下离线数据存储和挖掘架构
基于大数据hadoop集群下离线数据存储和挖掘分析架构: 可以分为五个层次:1、数据存储层;2、集群架构层;3、分布式计算引擎层;4、算法合成层;5、数据可视化层;五个层次,组成了,如何把基于传统数据挖掘过程,移植到Hadoop集群中。还有重要的一点,说了这么多废话,其实就是为了引出,基于传统离线数据存储和挖掘架构图。这是为我们自己接下来的工作梳理好要做的内容,提供方向。 在五个核心的范畴中,没有过多的涉及细节,只是提供方案,提供方向。原创 2014-03-03 16:37:03 · 6324 阅读 · 3 评论 -
Thinking in BigData(五)大数据之统计学与数据挖掘
原文章来自于《Statistics and Data Mining: Intersecting Disciplines》作者:David J. Hand文章中指出统计学与数据挖掘的区别。开始认识它们,开始了解大数据处理的最基本的技术概念吧。 说明:前段时间这篇文章,对于数据挖掘工作者来所,很有价值的一篇文章,但是翻译的很拗口。希望通过自己的语言总结一下,可以把一些概念理清。如有错误, 后会继续完善。 今天回来,在原来的文章中,添加了一些数据挖掘方面的概念。原创 2014-01-28 23:09:22 · 10131 阅读 · 2 评论 -
Thinking in BigData(二)大数据时代下的变革
大数据时代的思维变革 A Revolution That Will Transform How WeLive, Work, and Think. 不期而遇的一本《大数据时代》将我引进大数据的领域。这个浪里淘沙的时代,我们都站在这个时代改革的前沿,而作为互联网最具爆发力的一种媒介,它给我传递着什么资讯?如果说我们错过了2000左右的互联网浪潮,错过电商竞争的时代,但我们赶上了云计算和大数据的兴起,这将是一次难得的转型与立足机会。而它的到来,会给我们带来什么转变?原创 2014-01-25 20:28:00 · 6766 阅读 · 0 评论 -
Thinking in BigData(一)前序
Thinking in BigDate 前序 谁也无法说服他人改变,因为我们每一个人都守着一扇只能从内开启的改变之门,不论动之以情或说之以理,我们都不能替别人开门。 ——弗格森 BigDate这一名词,第一次蹦出脑袋应该是13年3月份,一次地铁悄然而遇。自此11个月之后至今,它可能俨然成为这个时代阶段性的代言词。也在你的思维与轨迹中产生深远的影响,以至于你的生活与生存方式也将为此改变。这之中,它蕴含着什么信息、又蕴含着什么。乃至整个圈子都在讨论,都在揣测,它到底是什么?到底带来的什么?原创 2014-01-23 16:57:06 · 7254 阅读 · 4 评论 -
Thinking in BigData(八)大数据Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解
纯干货:Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解。 通过这一阶段的调研总结,对Hadoop分布式计算平台最核心的分布式文件系统HDFS、MapReduce处理过程,以及数据仓库工具Hive和分布式数据库Hbase的介绍。基本涵盖了Hadoop分布式平台的所有技术核心。从体系架构到数据定义到数据存储再到数据处理,从宏观到微观的系统介绍,为Hadoop平台上大规模的数据存储和任务处理打下基础。原创 2014-02-14 00:13:40 · 21605 阅读 · 6 评论 -
Thinking in BigData(三)大数据运作机理与趋势
Thinking in BigData(三)大数据运作机理与趋势 2013年12月5-6日,在北京召开的,中国大数据技术大会。从一开始,这个名词似乎已经预示着,这将是再一次将大数据的影响力进一步拉大。集结上百名国内外技术专家,在一起谈到它带给我们的价值。在这里,我们不去过多的探讨,会议将会对14年大数据的转型带来什么风向标,但有一点必须肯定,一年的疯狂乱抄过后,必是开始技术实施的阶段。这也就是,为什么印刷时代经历了几百年的积累,在工业革命只需要几十年的技术革新,再到如今的互联网、移动互联网时代,原创 2014-01-26 17:57:52 · 7524 阅读 · 0 评论 -
Thinking in BigData(十)大数据之数据挖掘技术(1)
我们的定位,是将传统数据挖掘的数据转移到达数据平台上去处理,去节省时间,节省资源。但问题是,当我们没有这么大的数据,或我们又这么大数据,我们应该从哪一步入手。这就是我们接下来的几篇博客,要探讨的问题。也是大数据的核心:数据挖掘。从头至尾我们都脱离不了数据挖掘。其实从大学到现在一直都接触数据挖掘,但是我们不关心是什么是数据挖掘,我们关心的是我们如何通过数据挖掘过程中找到我们需要的东西,而我们更关心的是这个过程是什么?如何开始? 作为初学者的概念梳理是很有必要的。如果是大牛,这些博客就略过吧。原创 2014-03-05 23:30:17 · 5544 阅读 · 0 评论 -
Thinking in BigData(七)大数据技术核心之NoSql(一)
为什么,传统关系型数据库开始遇到瓶颈,哪些瓶颈?为什么数据增多,会伴随着非结构性数据的的增多?什么是非结构性数据?NoSql是什么?支持NoSql数据的数据库有哪些?NoSql数据库与关系型数据库的区别?NoSql挑战是什么?为何它会引起关注?什么样的人更应该关注NoSql?等等。 大致介绍了三种不同风格的面向聚合的数据模型。三者共同点:集群上运行,聚合是中心环节,因为数据库必须保证将聚合内的数据存放在同一个节点上。聚合是“更新”操作的最小数据单位,对事务控制来说,以聚合为操作单元。原创 2014-02-11 14:41:51 · 10337 阅读 · 0 评论 -
Thinking in BigData(六)大数据技术核心之ETL
接下来的四篇文章,抛开大数据的概念与基本知识,进入核心。我们从:数据采集、数据存储、数据管理、数据分析与挖掘,四个方面讨论大数据在实际应用中涉及的技术与知识点。核心技术:架构挑战、分析技术、存储、解决方案、大数据与云计算、大数据平台架构、大数据技术之数据采集ETL; 在这里涉及到ETL中,我们只要有一个清晰的认识,它不是想象中的简单一蹴而就,在实际的过程,你可以会遇到各种各样的问题,甚至是沟通的问题。在给它定义到占据整个数据挖掘或分析的过程中50%-70%是不足为过的。后期项目涉及ETL过程,会原创 2014-02-10 18:45:27 · 20490 阅读 · 1 评论 -
Thinking in BigData(四)大数据之“大”的来源与价值
大数据之“大”的来源与价值 在上篇博客中,我们仅仅是从一个简单的利用案例,谈到了大数据的机理和趋势。但我们更多的人,还是对大数据模糊。究竟多少算是“大”?大数据究竟来源于哪些产业?大数据在哪些公司应用更广泛?大数据的价值是什么?大数据阻碍了哪些商业的发展?又究竟给哪些产业带来新的活力? 大数据的兴起,正是在人工智能、机器学习和数据挖掘等技术基础之上发展起来的。而AI、ML又是在为DM服务。致使在整个过程形成了:将信号转化为数据,将数据分析为信息,将信息提炼为知识,以知识促成决策和行动。所原创 2014-01-27 23:26:12 · 7145 阅读 · 0 评论 -
一件事情,如果你不能说清楚,十有八九你就作不好
一件事情,如果你不能说清楚,十有八九你就作不好 杨军杨军在 TopLanguage 上也曾分享了三篇非常棒的学习心得的文章,字字珠玑:[1] 有些事情做起来比想象中容易[2] 有关读书方法的一点想法[3] 一件事情如果你没有说清楚,十有八九不能做转载 2013-04-14 11:33:43 · 3070 阅读 · 0 评论 -
知识图谱技术的演进
知识图谱技术的演进简述 “图谱”是指进过系统编辑并根据实物描述或摄制的图,是研究某一学科所用的资料。“图谱”中的“图”指的是地图,“谱”指系统,图与谱合一则是空间与时间动态变化的统一表述。图谱主要表现事物和现象的形态结构、成因机制、组成物质、动态变化等综合性、复杂性规律,往往以系列图的形式表示时空动态变化[12]。 知识图谱,也被称为科学知识图谱、知识域可视化或原创 2013-11-28 21:35:57 · 7220 阅读 · 0 评论 -
Thinking in BigData(11)大数据之有指导数据挖掘方法模型序(2)
数据挖掘的目的,就是从数据中找到更多的优质用户。接着上篇博客继续探讨有指导数据挖掘方法模型。什么是有指导的数据挖掘方法模型,以及数据挖掘如何构建模型。在构建一个有指导的数据挖掘模型,首先要理解和定义一些模型试图估计的目标变量。一个典型的案例,二元响应模型,如为直接邮寄和电子邮件营销活动选择客户的模型。模型的构建选择历史客户数据,这些客户响应了以前类似的活动。有指导数据挖掘的目的就是找到更多类似的客户,以提高未来活动的响应。这构造有指导的数据挖掘模型的过程中,首先要定义模型的结构和目标。二、增加响应建模。三、原创 2014-03-06 12:40:27 · 3421 阅读 · 0 评论