
BigDate
文章平均质量分 88
dufman
学而不思等于白学,重点在于思
展开
-
基于fluentd和mongod实现CloudFoundry的日志收集过程中遇到的问题!(切身感受,遇到什么写什么了)
1、在启动fluentd 的时候,进入到fluent.conf 目录下,执行fluentd -c fluent.conf 如果启动失败,出现error 大概问题有: (1)unexpected error error="Address already in use - bind(2)" 说明你fluentd 可能已经启动起来了。很多时候都是因为你已经启动了fluent 在不知道原创 2013-11-27 16:13:36 · 3120 阅读 · 0 评论 -
Thinking in BigData(三)大数据运作机理与趋势
Thinking in BigData(三)大数据运作机理与趋势 2013年12月5-6日,在北京召开的,中国大数据技术大会。从一开始,这个名词似乎已经预示着,这将是再一次将大数据的影响力进一步拉大。集结上百名国内外技术专家,在一起谈到它带给我们的价值。在这里,我们不去过多的探讨,会议将会对14年大数据的转型带来什么风向标,但有一点必须肯定,一年的疯狂乱抄过后,必是开始技术实施的阶段。这也就是,为什么印刷时代经历了几百年的积累,在工业革命只需要几十年的技术革新,再到如今的互联网、移动互联网时代,原创 2014-01-26 17:57:52 · 7524 阅读 · 0 评论 -
Thinking in BigData(十)大数据之数据挖掘技术(1)
我们的定位,是将传统数据挖掘的数据转移到达数据平台上去处理,去节省时间,节省资源。但问题是,当我们没有这么大的数据,或我们又这么大数据,我们应该从哪一步入手。这就是我们接下来的几篇博客,要探讨的问题。也是大数据的核心:数据挖掘。从头至尾我们都脱离不了数据挖掘。其实从大学到现在一直都接触数据挖掘,但是我们不关心是什么是数据挖掘,我们关心的是我们如何通过数据挖掘过程中找到我们需要的东西,而我们更关心的是这个过程是什么?如何开始? 作为初学者的概念梳理是很有必要的。如果是大牛,这些博客就略过吧。原创 2014-03-05 23:30:17 · 5544 阅读 · 0 评论 -
Thinking in BigData(14)大数据之DM经典模型(5)
数据挖掘与统计学之间的区别,我在上面的一篇博客中细细谈到过,这里不多赘述。实际上,所有的数据挖掘技术都是以概率论和统计学为基础的。 下面我们将探讨如何用模型来表示简单的、描述性的统计数据。如果我们可以描述所要找的事物,那么想要找到它就会变得很容易。这就是相似度模型的来历——某事物与所要寻找的事物越相似,其得分就越高。 主要介绍:相似度模型、表查询模型、RFM、朴素贝叶斯模型、线性回归、多元回归、逻辑回归分析等模型原创 2014-03-09 23:24:44 · 7122 阅读 · 2 评论 -
Thinking in BigData(九)大数据hadoop集群下离线数据存储和挖掘架构
基于大数据hadoop集群下离线数据存储和挖掘分析架构: 可以分为五个层次:1、数据存储层;2、集群架构层;3、分布式计算引擎层;4、算法合成层;5、数据可视化层;五个层次,组成了,如何把基于传统数据挖掘过程,移植到Hadoop集群中。还有重要的一点,说了这么多废话,其实就是为了引出,基于传统离线数据存储和挖掘架构图。这是为我们自己接下来的工作梳理好要做的内容,提供方向。 在五个核心的范畴中,没有过多的涉及细节,只是提供方案,提供方向。原创 2014-03-03 16:37:03 · 6324 阅读 · 3 评论 -
Thinking in BigData(二)大数据时代下的变革
大数据时代的思维变革 A Revolution That Will Transform How WeLive, Work, and Think. 不期而遇的一本《大数据时代》将我引进大数据的领域。这个浪里淘沙的时代,我们都站在这个时代改革的前沿,而作为互联网最具爆发力的一种媒介,它给我传递着什么资讯?如果说我们错过了2000左右的互联网浪潮,错过电商竞争的时代,但我们赶上了云计算和大数据的兴起,这将是一次难得的转型与立足机会。而它的到来,会给我们带来什么转变?原创 2014-01-25 20:28:00 · 6766 阅读 · 0 评论 -
hadoop学习(七)WordCount+Block+Split+Shuffle+Map+Reduce技术详解
纯干货:通过WourdCount程序示例:详细讲解MapReduce之Block+Split+Shuffle+Map+Reduce的区别及数据处理流程。 在上篇博客中简单给出了Shuffle的概念,稍提了一下split,但没有谈block。在了解Shuffle之间我们要先了解一下block与split。Shuffle给出的定义是copy,copy一片数据,这里的一片数据你可以理解成一个split数据。但数据上传到HDFS中,数据被分块,被分成一个个的block块,这就引出了什么是block,什原创 2014-03-24 01:04:10 · 5973 阅读 · 2 评论 -
hadoop学习(五)Hadoop2.2.0完全分布式安装详解(1)
如果你决定花点时间去读这篇文章了,请大家仔细读一下,因为每一个点,我们都在上面耽误了一些时间,梳理一下,大家如果遇到相应的问题,也算给大家提供了一个解决方案。前言 在寒假前的一段时间,开始调研Hadoop2.2.0搭建过程,当时苦于没有机器,只是在3台笔记本上,简单跑通一些数据。一转眼一两个月过去了,有些东西对已经忘了。现在学校这边实验室申请下来了,分了10台机器(4G+500G),这足够我们玩的了。开始搭建Hadoop2.2.0分布式集群,也趁着这个机会把整个流程梳理一下。在很多博客中有关于原创 2014-03-20 17:59:22 · 4389 阅读 · 2 评论 -
hadoop学习(八)Hadoop2.2.0+HA+zookeeper3.4.5详细配置过程+错误处理(1)
Hadoop2.2.0+HA+zookeeper3.4.5+体系结构+错误处理 心血之作,在熟悉hadoop2架构的过程耽误了太长时间,在搭建环境过程遇到一些问题,这些问题一直卡在那儿,不得以解决,耽误了时间。最后,千寻万寻,把问题解决,多谢在过程提供帮助的大侠。这篇文章中,我也会把自己遇到的问题给列出来,帮助后来者进一步的学习。这篇文章结合自己实际测试过程,花费太多心血整理。转载注明出处:原创 2014-04-13 00:31:07 · 8606 阅读 · 3 评论 -
hadoop学习(九)Hadoop2.2.0+HA+zookeeper3.4.5详细配置过程+错误处理(2)
这篇文章,主要是针对zookeeper和hadoop集群的整体测试,以及自己在实际过程遇到的问题和解决思路。 整个过程是,痛苦、无奈和纠结的。伴随着N多夜晚。总结的过程就超过10个小时。还有很多问题都没有写完,后续会继续跟近,也欢迎与读者讨论交谈。 读者有益,写着有劳。关爱身边每一个人,热爱身体,珍惜生命,且行且珍惜。原创 2014-04-13 13:09:44 · 10853 阅读 · 5 评论 -
Thinking in BigData(11)大数据之有指导数据挖掘方法模型序(2)
数据挖掘的目的,就是从数据中找到更多的优质用户。接着上篇博客继续探讨有指导数据挖掘方法模型。什么是有指导的数据挖掘方法模型,以及数据挖掘如何构建模型。在构建一个有指导的数据挖掘模型,首先要理解和定义一些模型试图估计的目标变量。一个典型的案例,二元响应模型,如为直接邮寄和电子邮件营销活动选择客户的模型。模型的构建选择历史客户数据,这些客户响应了以前类似的活动。有指导数据挖掘的目的就是找到更多类似的客户,以提高未来活动的响应。这构造有指导的数据挖掘模型的过程中,首先要定义模型的结构和目标。二、增加响应建模。三、原创 2014-03-06 12:40:27 · 3421 阅读 · 0 评论 -
Thinking in BigData(四)大数据之“大”的来源与价值
大数据之“大”的来源与价值 在上篇博客中,我们仅仅是从一个简单的利用案例,谈到了大数据的机理和趋势。但我们更多的人,还是对大数据模糊。究竟多少算是“大”?大数据究竟来源于哪些产业?大数据在哪些公司应用更广泛?大数据的价值是什么?大数据阻碍了哪些商业的发展?又究竟给哪些产业带来新的活力? 大数据的兴起,正是在人工智能、机器学习和数据挖掘等技术基础之上发展起来的。而AI、ML又是在为DM服务。致使在整个过程形成了:将信号转化为数据,将数据分析为信息,将信息提炼为知识,以知识促成决策和行动。所原创 2014-01-27 23:26:12 · 7145 阅读 · 0 评论 -
Thinking in BigData(一)前序
Thinking in BigDate 前序 谁也无法说服他人改变,因为我们每一个人都守着一扇只能从内开启的改变之门,不论动之以情或说之以理,我们都不能替别人开门。 ——弗格森 BigDate这一名词,第一次蹦出脑袋应该是13年3月份,一次地铁悄然而遇。自此11个月之后至今,它可能俨然成为这个时代阶段性的代言词。也在你的思维与轨迹中产生深远的影响,以至于你的生活与生存方式也将为此改变。这之中,它蕴含着什么信息、又蕴含着什么。乃至整个圈子都在讨论,都在揣测,它到底是什么?到底带来的什么?原创 2014-01-23 16:57:06 · 7254 阅读 · 4 评论 -
一位数据挖掘成功人士给数据挖掘在读研究生的建议
关于数据挖掘方面的研究,我原来也走过一些弯路。其实从数据挖掘的起源可以发现,它并不是一门崭新的科学,而是综合了统计分析、机器学习、人工智能、数据库等诸多方面的研究成果而成,同时与专家系统、知识管理等研究方向不同的是,数据挖掘更侧重于应用的层。关于数据挖掘方面的研究,我原来也走过一些弯路。其实从数据挖掘的起源可以发现,它并不是一门崭新的科学,而是综合了统计分析、机器学习、人工智能、数据库等诸多方转载 2013-11-27 23:07:46 · 5348 阅读 · 0 评论 -
知识图谱技术的演进
知识图谱技术的演进简述 “图谱”是指进过系统编辑并根据实物描述或摄制的图,是研究某一学科所用的资料。“图谱”中的“图”指的是地图,“谱”指系统,图与谱合一则是空间与时间动态变化的统一表述。图谱主要表现事物和现象的形态结构、成因机制、组成物质、动态变化等综合性、复杂性规律,往往以系列图的形式表示时空动态变化[12]。 知识图谱,也被称为科学知识图谱、知识域可视化或原创 2013-11-28 21:35:57 · 7220 阅读 · 0 评论 -
MySQL百万级数据库优化
1.对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引。2.应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索引而进行全表扫描,如:select id from t where num is null可以在num上设置默认值0,确保表中num列没有null值,然后这样查询:select id f转载 2014-01-22 17:34:30 · 1940 阅读 · 1 评论 -
Thinking in BigDate(13)大数据之DM经典模型(4)
数据挖掘与统计学之间的区别,我在上面的一篇博客中细细谈到过,这里不多赘述。实际上,所有的数据挖掘技术都是以概率论和统计学为基础的。 下面我们将探讨如何用模型来表示简单的、描述性的统计数据。如果我们可以描述所要找的事物,那么想要找到它就会变得很容易。这就是相似度模型的来历——某事物与所要寻找的事物越相似,其得分就越高。 主要介绍:相似度模型、表查询模型、RFM、朴素贝叶斯模型、线性回归、多元回归、逻辑回归分析等模型原创 2014-03-08 09:42:07 · 4892 阅读 · 0 评论 -
Thinking in BigData(五)大数据之统计学与数据挖掘
原文章来自于《Statistics and Data Mining: Intersecting Disciplines》作者:David J. Hand文章中指出统计学与数据挖掘的区别。开始认识它们,开始了解大数据处理的最基本的技术概念吧。 说明:前段时间这篇文章,对于数据挖掘工作者来所,很有价值的一篇文章,但是翻译的很拗口。希望通过自己的语言总结一下,可以把一些概念理清。如有错误, 后会继续完善。 今天回来,在原来的文章中,添加了一些数据挖掘方面的概念。原创 2014-01-28 23:09:22 · 10131 阅读 · 2 评论 -
Thinking in BigData(七)大数据技术核心之NoSql(一)
为什么,传统关系型数据库开始遇到瓶颈,哪些瓶颈?为什么数据增多,会伴随着非结构性数据的的增多?什么是非结构性数据?NoSql是什么?支持NoSql数据的数据库有哪些?NoSql数据库与关系型数据库的区别?NoSql挑战是什么?为何它会引起关注?什么样的人更应该关注NoSql?等等。 大致介绍了三种不同风格的面向聚合的数据模型。三者共同点:集群上运行,聚合是中心环节,因为数据库必须保证将聚合内的数据存放在同一个节点上。聚合是“更新”操作的最小数据单位,对事务控制来说,以聚合为操作单元。原创 2014-02-11 14:41:51 · 10337 阅读 · 0 评论 -
Thinking in BigData(八)大数据Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解
纯干货:Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解。 通过这一阶段的调研总结,对Hadoop分布式计算平台最核心的分布式文件系统HDFS、MapReduce处理过程,以及数据仓库工具Hive和分布式数据库Hbase的介绍。基本涵盖了Hadoop分布式平台的所有技术核心。从体系架构到数据定义到数据存储再到数据处理,从宏观到微观的系统介绍,为Hadoop平台上大规模的数据存储和任务处理打下基础。原创 2014-02-14 00:13:40 · 21605 阅读 · 6 评论 -
Thinking in BigData(六)大数据技术核心之ETL
接下来的四篇文章,抛开大数据的概念与基本知识,进入核心。我们从:数据采集、数据存储、数据管理、数据分析与挖掘,四个方面讨论大数据在实际应用中涉及的技术与知识点。核心技术:架构挑战、分析技术、存储、解决方案、大数据与云计算、大数据平台架构、大数据技术之数据采集ETL; 在这里涉及到ETL中,我们只要有一个清晰的认识,它不是想象中的简单一蹴而就,在实际的过程,你可以会遇到各种各样的问题,甚至是沟通的问题。在给它定义到占据整个数据挖掘或分析的过程中50%-70%是不足为过的。后期项目涉及ETL过程,会原创 2014-02-10 18:45:27 · 20490 阅读 · 1 评论 -
Thinking in BigData(12)大数据之有指导数据挖掘方法模型序(3)
数据挖掘的目的,就是从数据中找到更多的优质用户。接着上篇博客继续探讨有指导数据挖掘方法模型。什么是有指导的数据挖掘方法模型,以及数据挖掘如何构建模型。在构建一个有指导的数据挖掘模型,首先要理解和定义一些模型试图估计的目标变量。一个典型的案例,二元响应模型,如为直接邮寄和电子邮件营销活动选择客户的模型。模型的构建选择历史客户数据,这些客户响应了以前类似的活动。有指导数据挖掘的目的就是找到更多类似的客户,以提高未来活动的响应。这构造有指导的数据挖掘模型的过程中,首先要定义模型的结构和目标。二、增加响应建模。三、原创 2014-03-07 11:13:59 · 3599 阅读 · 0 评论 -
hadoop学习(六)WordCount示例深度学习MapReduce过程(1)
本篇博客主要是想通过一个简单的Wordcount程序,来认识Hadoop,并深入了解MapReduce的详细过程。在Thinking in BigDate(八)大数据Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解 文中我们已经很大概梳理一下,Hadoop内部集群架构,并对MapReduce也有初步的了解,这里我们以WourdCount程序来深入的探讨MapReduce的过程。 通过对WourdCount的介绍示例,总结Map、Reduce的整个过程。大致把整个原创 2014-03-22 18:15:31 · 6147 阅读 · 0 评论