
2018年11月
IT时代周刊
IT最新资讯分享,大数据是未来时代的产物
展开
-
10个大数据思维原理,你了解多少?
1、数据核心原理从“流程”核心转变为“数据”核心大数据时代,计算模式也发生了转变,从“流程”核心转变为“数据”核心。Hadoop体系的分布式计算框架已经是“数据”为核心的范式。非结构化数据及分析需求,将改变IT系统的升级方式:从简单增量到架构变化。大数据下的新思维——计算模式的转变。例如:IBM将使用以数据为中心的设计,目的是降低在超级计算机之间进行大量数据交换的必要性。大数据下,云计...原创 2019-05-18 11:50:22 · 1858 阅读 · 0 评论 -
大数据时代为什么都在谈Hadoop?
“为什么很多公司都采用Hadoop方案处理大数据业务”,引来很多回答,笔者整理如下,其观点或有时而可商,欢迎讨论。先说一说什么样的公司比较倾向于使用Hadoop。有人认为,使用Hadoop的前提是自身有没有收集并分析数据的需要,并且数据量是否一直在增长并且不可丢弃。目前看起来,此类数据多数为日志数据,分析用户习惯,或者就是传感器之类的数据,分析环境等监控内容的变化规律。也有很多公司不使用...原创 2019-05-17 10:27:53 · 391 阅读 · 0 评论 -
大数据未来七大发展趋势
大数据处理离不开云计算技术,云计算为大数据提供弹性可扩展的基础设施支撑环境以及数据服务的高效模式,大数据则为云计算提供了新的商业价值。趋势一:与云计算深度融合大数据处理离不开云计算技术,云计算为大数据提供弹性可扩展的基础设施支撑环境以及数据服务的高效模式,大数据则为云计算提供了新的商业价值,因此,从2013年开始,大数据技术与云计算技术必然进入更完美的结合期。总体而言,云计算、物联网、移动互联...原创 2019-05-13 10:23:36 · 2080 阅读 · 0 评论 -
大数据与云计算:进入技术爆发期
被称作第三次IT浪潮的云计算,带来生活、生产方式和商业模式的根本性改变,成为当前全社会关注的热点。随着“宽带中国”战略的落地,云计算与大数据技术作为信息化转型升级的新引擎,已逐渐进入技术爆发期。IDC日前对2014年的科技行业9大趋势进行了预测,云计算榜上有名。权威机构将我国云计算的发展分为三个阶段,而目前国内的云计算市场正由成长期逐渐迈入成熟期。2014年同样是大数据发展更加迅速的一年,越来...原创 2019-05-13 10:22:17 · 3587 阅读 · 1 评论 -
如何有效利用大数据?
从不为人知,再到被神化,过度的炒作已经偏离了对大数据本质的认识。从本质上说,数据本身并不具有意义,有时尽管数据量庞大,但是使用价值却不大。可以说谷歌拥有最多的数据来源,它一直想知道每个媒介在一个人对品牌从认识到考虑到最后购买,分别起到了怎样的作用。但即便像谷歌在广告和搜索方面下了很大的努力,也无法描绘出一幅完整的视图,因为还有更多其他媒介是它无法掌握的。因此如何能够打通所有的媒体,从广告商的角...原创 2019-05-13 10:20:41 · 1751 阅读 · 0 评论 -
最好的大数据处理工具--Hadoop
架构大数据解决方案的软件工程师们都知道,业务分析有一项技术跨越了SQL数据库、NoSQL数据库,非结构化数据、面向文档数据存储及大型处理。如果你猜到了Hadoop,那你回答正确。Hadoop也是许多巨头公司具有的一个共性,如亚马逊、雅虎、AOL、Netflix、eBay、微软、谷歌、 Twitter和Facebook。IBM甚至是走在时常的前沿,促进Hadoop进行企业分析。此开源模型无处不在,它...原创 2019-05-13 10:19:25 · 322 阅读 · 0 评论 -
大数据入门学习,如何定义大数据?
大数据(Big Data)指的是“不能现有的工具对于复杂、海量的数据集合进行提取、存储、搜索、分析、处理等”。在业界经常会用4个V(即Volume、Variety、Value、Velocity)来总结大数据的主要特征。大数据(Big Data)指的是“不能现有的工具对于复杂、海量的数据集合进行提取、存储、搜索、分析、处理等”。在业界经常会用4个V(即Volume、Variety、Value、Ve...原创 2019-05-13 10:16:41 · 364 阅读 · 0 评论 -
大数据、物联网、智慧城市三者之间的关系
大数据的发展源于物联网技术的应用,并用于支撑智慧城市的发展。物联网技术作为互联网应用的拓展,正处于大发展阶段。大数据、物联网、智慧城市三者之间的关系简单来说就是:大数据的发展源于物联网技术的应用,并用于支撑智慧城市的发展。物联网技术作为互联网应用的拓展,正处于大发展阶段。物联网是智慧城市的基础,但智慧城市的范畴相比物联网而言更为广泛;智慧城市的衡量指标由大数据来体现,大数据促进智慧城市的发展;物...原创 2019-05-13 10:15:03 · 2595 阅读 · 0 评论 -
什么样的大数据才具有价值?
在短短的几十年里,“技术天才”与社会的关系已经改变:他们从关在屋里的孤独者变成救世主,从反社会者变成社会的最大希望。许多人现在似乎相信,理解我们这个世界的最佳方式,就是坐在电脑屏幕前分析我们称之为“大数据”的海量信息。关于这一点,我们只要看看 “谷歌流感趋势(Google Flu Trends)”。2008年,当谷歌推出这项服务时,硅谷的许多人将它鼓吹为表明大数据将很快淘汰传统分析方式的一个标志...原创 2019-05-13 10:13:33 · 921 阅读 · 0 评论 -
大数据和云计算是如何结合
由云计算提供的弹性和按需配置,为让企业组织能够试验和尝试解决大数据的新方法提供了核心力量。企业可以根据供应的基础设施,用不同的迭代方式尝试和操纵他们的数据。大数据的出现使业务智能真正地走入了21世纪。但事实上“大数据”词代表的并不是解决方案,而是一类问题。在这些PB数量级的数据中,隐藏着怎样的价值?我们从中能得什么,并且使之指导业务部署的方方面面。但这一巨大量数据实际上有用的没有多少。所以为了利...原创 2019-05-13 10:12:33 · 5574 阅读 · 0 评论 -
大数据和数据中心的对比分析
数据中心智能软件供应商CIRBA公布其效率和风险都在CIRBA6 1版上部署。CIRBA的效率和风险仪表盘包含了效率和频谱风险,提供了数据中心在环境上主机和虚拟机或客户独特的供应水平状态的视觉表现。PB级是多大?EB的确切位置从哪里来的?把这样的问题弄清楚大数据仍然是大生意。虽然有大量的话炒作"大数据".我不得不承认EMC的ChuckHollis的在规模和信息工厂效益的价值。统计 这有大量的博...原创 2019-05-13 10:11:04 · 2035 阅读 · 0 评论 -
大数据计算架构Hadoop、Spark和Storm 三者技术比较
从人工统计分析到电脑 大型机再到今天的分布式计算平台,数据处理速度飞速提高的背后则是整体架构的不断演进。今天大数据架构最火热的莫过于Hadoop,Spark和Storm这三种,而Spark和Storm这两个后起之秀更是抢了不少Hadoop的风头,也让网上逐渐开始有一种声音说Hadoop的日子已经快到头了。但究竟这三者之间是什么关系,未来大数据架构究竟该走向何方呢?短短几年时间,大数据这个词便已家...原创 2019-05-13 10:08:58 · 286 阅读 · 0 评论 -
Hadoop中的一些基本操作
先粗略说一下“hadoop fs”和“hadoop dfs”的区别:fs是各比较抽象的层面,在分布式环境中,fs就是dfs,但在本地环境中,fs是local file system,这个时候dfs不可用。1、列出HDFS文件:hadoop fs –lsa) –ls后面不跟任何内容的话是列出HDFS的"/user/用户名/"目录下的内容b) 如果要列出某个文件...原创 2019-05-12 16:52:39 · 329 阅读 · 2 评论 -
大数据不等于Hadoop 国内Hadoop生态系统亟待完善
近期发布的《中国Hadoop MapReduce生态系统分析》报告指出,在中国,Hadoop 应用正在从互联网企业,逐渐拓展到电信,金融,政府,医疗这些传统行业。虽然目前Hadoop应用场景还是以日志存储、查询和非结构化数据处理为主,但是Hadoop技术的不断成熟以及生态系统相关产品的完善,包括Hadoop对SQL不断加强的支持,以及主流商业软件厂商对Hadoop支持的不断增强,会带动Hadoop...原创 2019-05-12 16:50:34 · 454 阅读 · 2 评论 -
互联网时代:云计算助推大数据分析
大数据的出现使业务智能真正地走入了21世纪。但事实上“大数据”代表的并不是解决方案,而是一类问题。在这些PB数量级的数据中,隐藏着怎样的价值?我们从中能得什么,并且使之指导业务部署的方方面面。但这一巨大量数据实际上有用的没有多少。所以为了利用其隐藏的价值,企业需要收集、过滤,并通过情感分析应用、定位工具以及其它的技术来分析它,从中产生有用的信息,从而为今后的业务发展服务。云作为大数据分析...原创 2019-05-12 16:49:36 · 503 阅读 · 1 评论 -
大数据时代:hadoop对大数据处理的意义
Hadoop得以在大数据处理应用中广泛应用得益于其自身在数据提取、变形和加载(ETL)方面上的天然优势。Hadoop的分布式架构,大数据处理引擎尽可能的靠近存储,对例如像ETL这样的批处理操作相对合适,因为类似这样操作的批处理结果可以直接走向存储。Hadoop的MapReduce功能实现了将单个任务打碎,并将碎片任务发送(Map)到多个节点上,之后再以单个数据集的形式加载(Reduce)到数据仓库...原创 2019-05-12 16:47:43 · 5711 阅读 · 1 评论 -
关于Hadoop前景、毕业薪酬,你所关心的问题答案在这
主要学习hadoop中的四大框架:hdfs、mapreduce、hive、hbase。这四大框架是hadoop最最核心的,学习难度最大的,也是应用最广泛的。HadoopHadoop能学到什么主要学习hadoop中的四大框架:hdfs、mapreduce、hive、hbase。这四大框架是hadoop最最核心的,学习难度最大的,也是应用最广泛的。除此之 外,还有其他的框架,目前的教学大...原创 2019-05-17 10:29:52 · 261 阅读 · 0 评论 -
一份关于Hadoop的面试问答题
Hadoop是什么?Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算,下面看看一般情况下,关于Hadoop的面试是会问哪些问题,以及该怎么回答。1. 简单描述如何安装配置一个apache开源版hadoop,只描述即可,无需列出完整步骤,能列出步骤更好。1) 安装JDK并配置环境变量...原创 2019-05-17 10:30:50 · 226 阅读 · 0 评论 -
大数据操纵下的10大顶级黑科技
1.智能睡眠眼镜:通过大数据调节睡眠一直以来,人们认为视网膜上只有两种细胞,视锥细胞和视杆细胞,这两类细胞作用于我们的神经,让我们得以看见东西。2002年,美国布朗大学发现,视网膜上还有另外一种细胞,也就是非成像视觉细胞,这种细胞与人类能看见什么没有关系,但是它能感受到时间的变化,感受到光的变化。该类细胞被发现后,美国顶尖医学院的约翰霍普金斯大学医学院通过更深入的研究发现,人体视网膜上...原创 2019-05-18 11:49:03 · 2451 阅读 · 0 评论 -
大数据基础知识问答----spark篇
dfsSpark基于mapreduce算法实现的分布式计算,拥有HadoopMapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。1.Spark基础知识1.Spark是什么?UCBerkeley AMPlab所开源的类HadoopM...原创 2019-05-18 11:47:35 · 649 阅读 · 0 评论 -
Presto?还是 Hive? 你们知道大数据查询性能谁更强吗?
技术控们,你们知道大数据查询性能谁更强吗?经过对 Presto 和 Hive 的性能做了大量的对比测试,最终结果表明: Presto 的平均查询性能是 Hive 的 10 倍!由于 Presto 的数据源具有完全解耦、高性能,以及对 ANSI SQL 的支持等特性,使得 Presto 在 ETL、实时数据计算、 Ad-Hoc 查询和实时数据流分析等多个业务场景中均能发挥重要的作用。一、...原创 2019-05-18 11:45:49 · 750 阅读 · 0 评论 -
大数据工程师,你必须熟练运用的性能优化技术
最近几年一直参与大数据产品的研发,同时大数据产品在海量数据场景下其处理性能又是其主要的卖点和突破,所以个人在这几年经常忙于如何对大数据产品进行性能上面的优化,并且想通过本文和大家聊聊具体的几种比较常见大数据性能优化技术。常见的大数据性能优化技术一般分为两部分,其一是硬件和系统层面的观测,从而来发现具体的瓶颈,并进行硬件或者系统级的调整;其二是主要通过对软件具体使用方法的调整来实现优化。硬件...原创 2019-05-18 11:42:43 · 565 阅读 · 0 评论 -
Hadoop大数据系统的七大危险信号
大多数企业大数据应用案例尚处于实验和试点阶段,对于少数首次在生产环境部署Hadoop系统的用户来说,最常遇到的就是扩展问题,此类问题往往导致企业因噎废食,终止大数据应用项目。部署和扩展Hadoop系统是一件高度复杂的事情,如果用户能提前对Hadoop扩展可能会遇到的各种问题和危险信号有所了解,就能避免很多“救火”场面。在这里我还是要推荐下我自己建的大数据学习交流qq裙:5221893...原创 2019-05-18 11:41:11 · 172 阅读 · 0 评论 -
五大步骤帮你实现Hadoop价值最大化
你可能准备在公司启动一个大数据项目,但是你对Hadoop并不熟悉,并且不确定这样的项目是否可以带来价值。别着急,许多企业都会遇到类似的问题。企业在部署Hadoop时总会遇到一些问题。例如,企业要在生产环境中使用Hadoop,但是很难找到熟悉Sqoop、Hive、Pig和MapReduce编程语言的开发人员。为了使大数据项目中Hadoop的价值最大化,企业需要重视一些关键步骤。你可能准备在公司...原创 2019-05-18 11:40:17 · 135 阅读 · 0 评论 -
人人都需要知道 关于大数据最常见的10个问题
大数据正是因为数据的爆发式增长带来的一个新的课题内容,如何存储如今互联网时代所产生的海量数据,如何有效的利用分析这些数据等等。1、云计算与大数据是什么关系?云计算的关键词在于“整合”,无论你是通过现在已经很成熟的传统的虚拟机切分型技术,还是通过google后来所使用的海量节点聚合型技术,他都是通过将海量的服务器资源通过网络进行整合,调度分配给用户,从而解决用户因为存储计算资源不足所带来的问题...原创 2019-05-18 11:39:15 · 700 阅读 · 0 评论 -
大数据职位面试需要准备的知识
在面试大数据职位的时候,你会遇到多种问题(hdfs、map reduce、zookeeper、hadoop、hbase等等),当时你的内心是崩溃的。写下这篇文章的意义是提高你的面试成功率,让你用出洪荒之力,职业生涯进一步发展。1. hdfs原理,以及各个模块的职责Namenode 的目录结构:对于 任何对文件系统元数据产生修改 的操作, Namenode 都会...原创 2019-05-18 11:37:39 · 712 阅读 · 0 评论 -
Java程序员使用的20几个大数据工具
最近我问了很多Java开发人员关于最近12个月内他们使用的是什么大数据工具。这是一个系列,主题为:语言 web框架 应用服务器 SQL数据访问工具 SQL数据库 大数据 构建工具 云提供商今天我们就要说说大数据。根据维基百科,大数据是数据集的一个广义的术语,并且该数据集是如此庞大和复杂,以致于传统的数据处理应用程序无法胜任。在许多情况下,使用SQL数据库用于存储/检索数据就足...原创 2019-05-18 11:43:32 · 262 阅读 · 0 评论 -
关于Hadoop,你需要了解的一些相关大数据工具
如今Apache Hadoop已成为大数据行业发展背后的驱动力。Hive和Pig等技术也经常被提到,但是它们都有什么功能,为什么会需要奇怪的名字(如Oozie、ZooKeeper、Flume)。Hadoop带来了廉价的处理大数据(大数据的数据容量通常是10-100GB或更多,同时数据种类多种多样,包括结构化、非结构化等)的能力。但这与之前有什么不同?现今企业数据仓库和关系型数据库擅长处理结构...原创 2019-05-17 10:38:05 · 281 阅读 · 0 评论 -
解读6个用好大数据的秘诀
有三位来自不同公司的大数据运营人员各自分享了他们运用大数据的经验。这三位是来自维亚康姆(Viacom)的Luzzi、Globys公司的Olly Downs以及知名市场顾问公司Dunnhumby的CEO Andy Hill。秘诀一:目标要明确就算一个公司拥有再多的数据,也不能代表它就一定会获得商业上的成功。只有真正懂得如何利用大数据,了解到公司利用大数据可以达到什么目标,公司最终才有可能真正...原创 2019-05-17 10:37:10 · 452 阅读 · 0 评论 -
管理大数据之初探Hadoop发行版
Hadoop是一项开源技术,它是当今与大数据应用最为息息相关的数据管理平台。该分布式处理框架主要由Yahoo创建于2006年,部分是基于由Google在一些技术论文中所阐述的思想;很快,诸如Facebook,Linkedln以及Twitter之类的互联网公司采用该技术并开始对其发展贡献力量。在过去几年,Hadoop已经演变成一种有着基础设施组件和相关工具的复杂生态系统,而且它被各家供应商打包在一起...原创 2019-05-17 10:36:11 · 253 阅读 · 0 评论 -
7种最常见的Hadoop和Spark项目
如果您的Hadoop项目将有新的突破,那么它必定与下边介绍的七种常见项目很相像。有一句古老的格言是这样说的,如果你向某人提供你的全部支持和金融支持去做一些不同的和创新的事情,他们最终却会做别人正在做的事情。如比较火爆的Hadoop、Spark和Storm,每个人都认为他们正在做一些与这些新的大数据技术相关的事情,但它不需要很长的时间遇到相同的模式。具体的实施可能有所不同,但根据我的经验,它们是最...原创 2019-05-17 10:35:09 · 244 阅读 · 0 评论 -
Hadoop集群应用于大数据分析优势和挑战
大数据分析在近几年里非常火热,即便如此,很多组织发现,现有的数据挖掘和分析技术还是不能胜任大数据的处理任务。对于这个question,一个可能的解决方案就是搭建Hadoop集群,但它并不适合所有情况。让我们了解一下使用Hadoop集群的优缺点。Hadoop集群是什么?Hadoop集群是一种专门为存储和分析海量非结构化数据而设计的特定类型的集群。本质上,它是一种计算集群,即将数据分析的工作分...原创 2019-05-17 10:34:07 · 946 阅读 · 0 评论 -
Hadoop生态系统在壮大:十大炫酷大数据项目
信息从社交媒体、连接到物联网中“物件”的传感器、结构化数据、非结构化数据以及可以收集的其他一切数据收集而来。为了应对这项任务,开发人员已开发了一系列新的开源技术。旗舰软件Apache Hadoop是Apache软件基金会的一个项目,它在上个月迎来了十周年。这十年已发生了很大的变化。如今,另外许多技术也是大数据和Hadoop生态系统的一员,它们大多数都归属Apache软件基金会。开发人员和企...原创 2019-05-17 10:33:11 · 324 阅读 · 0 评论 -
大数据时代:大数据引擎或改变大数据竞争格局
对于传统企业而言,无需任何繁杂的技术手段,只需要接入百度大数据引擎,即可利用大数据去帮助现有业务进行升级和创新了。峰哥认为百度此举是在加大此次大数据台风的风力。换一种角度看,这也是百度为了快速丰富各行业数据库的做法。其实早些时候,另一个互联网巨头阿里巴巴也宣布过有关大数据的战略,将会重点挖掘大数据的商业价值,也就是所谓的“云端+大数据”。当然了,这样的机会腾讯也不会落下,从早期的QQ圈子...原创 2019-05-12 16:46:21 · 584 阅读 · 1 评论 -
大数据规划所需的五个步骤和三种能力
大数据规划有五个步骤,首先从业务驱动的角度,相关部门选择要解决和产生的业务场景。针对需求处理和采取整合这些场景需要的大数据。当然选择的重点是怎么使信息快速产生价值。大数据分析的未来将朝着更为普及化、更为实时的数据分析去迈进,也就是说“针对正确的人,在正确的时间,获得正确的信息”,从这个意义来说,它已经超越了技术本身,是更为接近业务层面的实时分析。对于一个成功企业来说,数据整合能...原创 2019-05-12 16:44:20 · 3056 阅读 · 0 评论 -
15个全球最有影响力的大数据公司
大数据公司早已具有影响世界的能力,只不过这些现实并没有放到正面的大舞台上才让人们觉得这些公司很低调。而如今,低调已不再需要,是时候展现大数据在这个时代的威力了。目前全球大数据企业主要分为两大阵营。一部分属于单纯以大数据技术为核心的新兴企业,希望为市场带来创新方案并推动技术发展。另有一些原本打理数据库/数据仓储业务的老牌厂商,他们打算利用自身优势地位冲击大数据领域,将现有安装基础及产...原创 2019-05-15 10:28:40 · 15787 阅读 · 1 评论 -
大数据与人工智能,未来计算决定着智能水平的发展
百度研究院副院长,深度学习实验室主任,图片搜索部高级总监余凯发表的演讲“大数据人工智能”。百度研究院副院长,深度学习实验室主任,图片搜索部高级总监 余凯以下为演讲实录:下面,我可能更多从实践的方面去跟大家分享一下百度在大数据、人工智能我们最近的一些工作,包括我们对这些方面的一些思考。2014年8月14日,麻省理工学院科技评论杂志介绍百度的人工智能之梦,文章题目叫《一个中国互联网...原创 2019-05-15 10:26:46 · 832 阅读 · 0 评论 -
Spark是Hadoop生态中新的处理和分析引擎
英特尔大数据首席架构师 戴金权在戴金权看来,Hadoop将MapReduce分布式计算和大数据技术带入主流应用。但随着大数据需求和使用模式的推广,Hadoop已经暴露诸多局限性。特别是越来越多的数据应用,如需要对数据进行准实时的深度挖掘和分析时,业内需要超越MapReduce的全新大数据分析模式。也正是看准了Spark的发展趋势,英特尔早在2-3年前就已经和UC Berkeley一起紧密合...原创 2019-05-15 10:25:40 · 377 阅读 · 0 评论 -
大数据入门学习必备十大工具
随着互联网技术的快速发展,移动互联网和电商的日益普及,使得数据也在日益增长,给企业管理大量的数据带来了挑战的同时也带来了一些机遇。下面是用于信息化管理的大数据工具列表:1. Apache HiveHive是一个建立在Hadoop上的开源数据仓库基础设施,通过Hive可以很容易的进行数据的ETL,对数据进行结构化处理,并对Hadoop上大数据文件进行查询和处理等。 Hive提供了一种简单的...原创 2019-05-15 10:21:33 · 353 阅读 · 0 评论 -
大数据到底是什么?教你快速读懂大数据
全社会都对大数据的概念很痴迷,动辄“大数据告诉你……”但是大数据到底是什么呢?说到定义,恐怕仁者见仁、智者见智。不过从处理技术上来看,大数据意味着大量的和复杂的数据,它是不能够使用传统的数据库管理工具进行管理的。而且,要被划分为大数据范畴,那数据的大小应该在pb级以上,且呈现指数级增长。大数据已经吸引了大多数企业的注意力,,因为它颠覆了传统的商业策略,以适应不断变化的时代,这个过程中产生了更...原创 2019-05-15 10:18:48 · 483 阅读 · 0 评论