
大数据技术分享
文章平均质量分 83
大数据,将创造出更新更具竞争力的超级企业!
大王算法
主要做机器人,操作系统,算法及AI方面的研发工作,有感兴趣的朋友可以私信加我好友,一起探讨交流!
展开
-
Spark的Utils工具类
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。 Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够...原创 2018-03-18 21:34:27 · 2762 阅读 · 0 评论 -
CentOS6.5_X64下安装配置MongoDB数据库
环境准备:硬件要求:50G硬盘 8G内存 4核CPU软件要求:Linux操作系统:CentOS6.5_X64 mongodb-linux-x86_64-2.7.0.tgz 目的:安装配置MongoDB数据库具体操作:一、关闭SElinux、配置防火墙1.vi /etc/selinux/config#SELINUX=enforcing #注释掉原创 2016-06-04 09:55:23 · 8468 阅读 · 0 评论 -
MongoDB数据导出、导入及索引建立
MongoDB数据导出、导入及索引建立(1) 数据导出——每个表一个文件:# mongoexport --db project --collection 表名 --out 输出文件名,如:# mongoexport --db project --collectionstock --out stock.json,导出所有F10数据到文件/root/stock.json中(2)原创 2016-06-04 09:54:55 · 14204 阅读 · 0 评论 -
大数据最具潜力的12大应用领域
1. 人工智能(Artificial intelligence)。看了人机围棋大战,是不是为人工智能的威力而感叹?方寸纹枰之间,谷歌智能系统阿尔法狗(AlphaGo)霸气侧漏,以4:1的绝对性优势战胜韩国顶级棋手李世石。围棋,这个原本被视为最难被人工智能超越人类的博弈游戏,此时俨然变成了AI的天下。AlphaGo的胜出让人惊叹人工智能的进化速度,而未来Cloudera的大数据会使得机器产生巨大的质原创 2017-11-26 21:58:52 · 3663 阅读 · 0 评论 -
十种大数据技术方案
http://zhuanlan.51cto.com/art/201608/516102.htm?edm时至今日,大数据目前已经在企业中得到快速推广,也有大量开源及成熟技术方案可供客户选择。对于企业管理层而言,尽早迈入大数据时代也成为提振自身竞争力、甚至决定未来命运的重要决策。在这一重要起步阶段,我们必须从以下十种大数据技术方案入手,帮助自身将数据快速转化为有价值结论。1. Ha原创 2017-01-25 09:27:37 · 2909 阅读 · 0 评论 -
大数据核心技术
Common:在2.2.0以前的大多数版本中,包含HDFS、MapReduce和其他项目公共内容,从2.2.0开始HDFS和MapReduce被分离为独立的子项目,其余内容为Hadoop Common。 Avro:新的数据序列化格式与传输工具,将逐步取代Hadoop原有的IPC机制。 MapReduce:并行计算框架,0.20前使用org.apache.hadoop.map原创 2017-03-31 12:44:14 · 1129 阅读 · 0 评论 -
大数据时代-- 一个创造超级竞争力企业的时代
这是一个快速发展的时代,随着互联网的普及,数据成指数倍增长,相同类型的企业也如雨后春笋般越来越多!那么如何在这个快速发展的时代,脱颖而出,把握时代的脉搏?提高企业的生存和竞争力,大数据无疑是一把利剑,可以决胜千里之外,是企业在同行中,更具竞争力的一大利器。大数据近年的崛起和发展已经初现其巨大的作用,据分析 拥有优秀大数据能力的企业,做出正确决策的可能性高出竞争对手3倍、决策速度比竞争对手快5倍。转载 2016-06-19 22:57:04 · 9974 阅读 · 0 评论 -
Hadoop源码分析下载、最新最全资料分享
apache_hadoop源码,下载:http://archive.apache.org/dist/Hadoop 工具下载:http://hadoop.apache.org/Hadoop大数据最新最全资料下载地址:http://download.youkuaiyun.com/album/detail/3047Hadoop大数据最新经典资料下载地址:http://do原创 2016-05-05 14:12:59 · 5333 阅读 · 0 评论 -
引爆Spark大数据引擎的七大工具
原文名称:7 tools to fire up Spark's big data engine Spark正在数据处理领域卷起一场风暴。让我们通过本篇文章,看看为Spark的大数据平台起到推波助澜的几个重要工具。Spark生态系统众生相Apache Spark不仅仅让大数据处理起来更快,还让大数据处理起来更简单、功能更强大、更方便。Spark并非只是一翻译 2016-04-05 14:05:20 · 5023 阅读 · 0 评论 -
Hadoop RPC远程过程调用源码解析及实例
RPC简介:RPC(Remote Procedure Call)远程过程调用,它允许一台计算机程序远程调用另外一台计算机的子程序,而不用去关心底层的网络通信细节,对我们来说是透明的。经常用于分布式网络通信中。Hadoop的进程间交互都是通过RPC来进行的,比如Namenode与Datanode之间,Jobtracker与Tasktracker之间等。RPC协议假定某些传输协议的存在,如原创 2016-03-24 10:31:10 · 1461 阅读 · 0 评论 -
Hadoop Shell命令详解
说明:调用文件系统(FS)Shell命令应使用bin/hadoop fs 的形式。所有的的FS shell命令使用URI路径作为参数。1、cat说明:将路径指定文件的内容输出到stdout。用法:hadoop fs -cat URI [URI …]范例:hadoop fs -cat hdfs://host1:port1/file1 hdfs://host2:port2/fi原创 2016-03-21 14:36:30 · 2838 阅读 · 4 评论 -
高效分布式计算系统:Spark
一. 什么是Spark?Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需翻译 2016-03-18 11:29:07 · 4596 阅读 · 0 评论 -
浅谈Storm流式处理框架
Hadoop的高吞吐,海量数据处理的能力使得人们可以方便地处理海量数据。但是,Hadoop的缺点也和它的优点同样鲜明——延迟大,响应缓慢,运维复杂。 有需求也就有创造,在Hadoop基本奠定了大数据霸主地位的时候,很多的开源项目都是以弥补Hadoop的实时性为目标而被创造出来。而在这个节骨眼上Storm横空出世了。 Storm带着流式计算的标签华丽丽滴出场了,看转载 2016-03-18 11:14:27 · 32060 阅读 · 6 评论 -
Hadoop MapReduce框架详解
Mapreduce初析 Mapreduce是一个计算框架,既然是做计算的框架,那么表现形式就是有个输入(input),mapreduce操作这个输入(input),通过本身定义好的计算模型,得到一个输出(output),这个输出就是我们所需要的结果。 重点就是这个计算模型的运行规则。在运行一个mapreduce计算任务时候,任务过程被分为两个阶段:map阶段原创 2016-03-18 11:07:46 · 2255 阅读 · 0 评论 -
Hadoop在线分析处理(OLAP)
数据处理与联机分析处理 ( OLAP ) 联机分析处理是那些为了支持商业智能,报表和数据挖掘与探索等业务而开展的工作。这类工作的例子有零售商按地区和季度两个维度计算门店销售额,银行按语言和月份两个维度计算手机银行装机量,设备制造商定位有哪些零部件的故障率比期望值高,以及医院研究有哪些事件会引起高危婴儿紧张等。 如果原始数据来源于 OLTP 系统,典型的做法原创 2016-03-18 10:37:01 · 6341 阅读 · 0 评论 -
Hadoop 系统的存储引擎和在线事务处理
Hadoop 引擎上的 SQL 有许多广泛的应用领域:数据处理与在线分析处理(OLAP)改进优化在线事务处理(OLTP)存储引擎:今天 Hadoop 主要有三个存储引擎:分别是 Apache HBase、Apache Hadoop HDFS 和 Hadoop Accumulo。Apache Accumlo与 Hbase 非常相似,但它本是由 NSA 组织创建的项目,历史上特原创 2016-03-18 10:32:31 · 3370 阅读 · 0 评论 -
大数据递归思维
在初学计算机编程时,我想大多数人的经历会和作者一样,学校为我们挑选一门语言,大多为 C 或 Java,先是基本的数据类型,然后是程序控制语句,条件判断,循环等,书上会教我们如何定义一个函数,会说程序就是一条一条的指令,告诉计算机该如何操作。同时,我们还会看到如何定义一个递归函数,用来计算阶乘或斐波那契数列。工作以后,其他的这些基础还在日复一日的使用,但递归却很少再被用到,以致我们很难再用递归的方式原创 2016-03-17 12:41:47 · 2396 阅读 · 0 评论 -
spark闭包
定义关于闭包有太多种解释,但基本上都很难用一两句解释清楚,下面这句简短的定义是我见过的最精炼且准确的解释了:A closure is a function that carries an implicit binding to all the variables referenced within it. In other words, the function (or method)原创 2016-03-17 12:29:21 · 3634 阅读 · 0 评论 -
Scala之主构造函数
主构造函数 首先,我们必须要非常清晰明确的认识到:主构造函数不是你看到的class后面跟的参数列表,那怎么可能是主构造函数呢?那只是主构造函数的函数列表!那主构造函数的函数体在那里呢?答案是:class body里所有除去字段和方法声明的语句,剩下的一切都是主构造函数的,它们在class实例化时一定会被执行。所以说,Scala的主构造函数包含这些部分:原创 2016-03-17 12:25:38 · 1357 阅读 · 0 评论 -
JVM 并发性: Java 和 Scala 并发性基础
Java 并发性支持在 Java 平台诞生之初,并发性支持就是它的一个特性,线程和同步的实现为它提供了超越其他竞争语言的优势。Scala 基于 Java 并在 JVM 上运行,能够直接访问所有 Java 运行时(包括所有并发性支持)。所以在分析 Scala 特性之前,我首先会快速回顾一下 Java 语言已经提供的功能。Java 线程基础在 Java 编程过程中创建和使用线程原创 2016-03-17 11:28:30 · 3983 阅读 · 0 评论 -
Scala语言开发入门
在本系列的第一篇文章 《使用递归的方式去思考》中,作者并没有首先介绍 Scala 的语法,这样做有两个原因:一是因为过多的陷入语法的细节当中,会分散读者的注意力,反而忽略了对于基本概念,基本思想的理解;二是因为 Scala 语法非常简洁,拥有其他语言编程经验的程序员很容易读懂 Scala 代码。现在我们将回过头来,从基本的语法开始学习 Scala 语言。大家会发现 Scala 语言异常精炼,实原创 2016-03-17 11:23:44 · 1316 阅读 · 0 评论 -
大数据R语言简析
R语言是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。R是统计领域广泛使用的诞生于1980年左右的S语言的一个分支。可以认为R是S语言的一种实现。而S语言是由AT&T贝尔实验室开发的一种用来进行数据探索、统计分析和作图的解释型语言。最初S语言的实现版本主要是S-PLUS。S-PLUS是一个商业软件,它基于翻译 2016-03-17 11:13:43 · 4683 阅读 · 0 评论 -
大数据常用十种开发语言
随着大数据热潮持续延烧,几乎每个产业都有如洪水般倾泻的信息,面对上万笔的顾客浏览纪录、购买行为数据,如果要用 Excel 来进行数据处理真是太不切实际了,Excel 相较于其他统计软件的功能已相去甚远;但如果只会操作统计软件而不会用逻辑分析数据背后的涵义与事实现况相应证的话,那也不过只能做数据处理,替代性很高的工作,而无法深入规划策略的核心。 当然,基本功是最不可忽略的环节,想要成为数据原创 2016-03-17 11:10:47 · 44986 阅读 · 2 评论 -
大数据处理的三种框架:Storm,Spark和Samza
许多分布式计算系统都可以实时或接近实时地处理大数据流。下面对三种Apache框架分别进行简单介绍,然后尝试快速、高度概述其异同。Apache Storm在Storm中,先要设计一个用于实时计算的图状结构,我们称之为拓扑(topology)。这个拓扑将会被提交给集群,由集群中的主控节点(master node)分发代码,将任务分配给工作节点(worker node)执行。一个原创 2016-03-17 11:02:05 · 1659 阅读 · 0 评论 -
大数据全栈式开发语言 – Python
Python可以称为大数据全栈式开发语言。因为Python在云基础设施,DevOps,大数据处理等领域都是炙手可热的语言。 就像只要会JavaScript就可以写出完整的Web应用,只要会Python,就可以实现一个完整的大数据处理平台。云基础设施这年头,不支持云平台,不支持海量数据,不支持动态伸缩,根本不敢说自己原创 2016-03-17 10:55:10 · 1509 阅读 · 0 评论 -
大数据应用开发八大基本原则
· 大数据应用正在从概念走向现实,而企业在大数据应用开发时,软件的弹性(Resilient)正在成为决定大数据应用成败的关键因素。弹性差的应用无法应对大规模的数据集,在测试和运营中也缺乏透明度,而且也不安全。· 避免大数据应用在生产环境中掉链子的最佳办法就是在开发阶段就开发弹性应用,例如:健壮性、经过测试、可改变、可审计、高安全、可监控。· 可以说原创 2016-03-17 09:31:43 · 5141 阅读 · 0 评论 -
自动分析工具:数据科学家职业的终结者
数据科学家目前可谓是炙手可热的职业。 关于数据科学家的职业发展的讨论有很多。最近Louis Dorard在GigaOM上发表了一篇关于数据科学家职业发展的博文。观点是随着数据科学的发展, 目前数据科学家的许多工作将被自动化的工具取代。 而数据科学家这个职业也将不复存在。原创 2016-03-16 16:55:09 · 1068 阅读 · 0 评论 -
6个用于大数据分析的最好工具
大数据是一个含义广泛的术语,是指数据集,如此庞大而复杂的,他们需要专门设计的硬件和软件工具进行处理。该数据集通常是万亿或EB的大小。这些数据集收集自各种各样的来源:传感器,气候信息,公开的信息,如杂志,报纸,文章。大数据产生的其他例子包括购买交易记录,网络日志,病历,军事监控,视频和图像档案,及大型电子商务。 在大数据和大数据分析,他们对企业的影响有一个兴趣高涨。大数原创 2016-03-16 13:25:05 · 1474 阅读 · 0 评论 -
大数据开发必备工具
大数据应用开发的12个辅助开发工具: 在大数据应用的开发中,除了基础的Hadoop或者R语言之外,还有很多优秀的开发工具,能使开发者如虎添翼。 “兵欲善其事,必先利其器”,无论你是从事大数据应用的开发,还是希望分析你的移动应用,这些工具都可以帮助你更快更好的发展。 1) Bi原创 2016-03-16 11:00:32 · 4255 阅读 · 0 评论 -
大数据的顶级开源工具
大数据的顶级开源工具: 大数据方面的顶级开源工具,分为四个领域:数据存储,开发平台,开发工具和集成,分析和报告工具。随着大数据与预测分析的成熟,开源作为底层技术授权解决方案的最大贡献者的优势越来越明显。如今,从小型初创企业到行业巨头,各种规模的供应商都在使用开源来处理大数据和运行预测分析。借助开源与云计算技术,新兴公司甚至在很多方面都可以与大厂商抗衡。原创 2016-03-16 10:48:12 · 1833 阅读 · 0 评论 -
最实用大数据可视化分析工具
近年来,随着云和大数据时代的来临,数据可视化产品已经不再满足于使用传统的数据可视化工具来对数据仓库中的数据抽取、归纳并简单的展现。传统的数据可视化工具仅仅将数据加以组合,通过不同的展现方式提供给用户,用于发现数据之间的关联信息。新型的数据可视化产品必须满足互联网爆发的大数据需求,必须快速的收集、筛选、分析、归纳、展现决策者所需要的信息,并根据新增的数据进行实时更新。因此,在大数据时代,数据可视化工原创 2016-03-16 10:42:34 · 9520 阅读 · 2 评论