
大数据
文章平均质量分 75
专业大数据
从事大数据行业,分析大数据
展开
-
怎么理解什么是大数据呢?
如果你说大数据就是数据大,或者侃侃而谈4个V,也许很有深度的谈到BI或预测的价值,又或者拿Google和Amazon举例,技术流可能会聊起hadoop和Cloud Computing,不管对错,只是无法勾勒对大数据的整体认识,不说是片面,但至少有些管窥蠡测、隔衣瘙痒了。……也许,“解构”是最好的方法。 首先,我认为大数据就是互联网发展到现今阶段的一种表象或特征而已,没有必要神话它或对它原创 2017-09-04 11:57:56 · 427 阅读 · 0 评论 -
zookeeper原理学习
如果想有一群“臭味相投”的朋友来一起交流学习的话,欢迎大家搜索群460570824,让我们共同进步!一、ZooKeeper的背景 1.1 认识ZooKeeper ZooKeeper---译名为“动物园管理员”。动物园里当然有好多的动物,游客可以根据动物园提供的向导图到不同的场馆观赏各种类型的动物,而不是像走在原始丛林里,心惊胆颤的被动物所观赏。为了让各种不同的动物呆在它们应该呆原创 2017-12-03 13:13:29 · 308 阅读 · 0 评论 -
zookeeper集群安装
一、zookeeper集群简介 Zookeeper集群中只要有过半的节点是正常的情况下,那么整个集群对外就是可用的。正是基于这个特性,要将 ZK 集群的节点数量要为奇数(2n+1),如 3、5、7 个节点)较为合适。 二、环境准备 服务器 1:192.168.31.154 端口:2181、2881、3881 安装用户:dreyer03服务器 2:192.168.31.1原创 2017-12-03 13:44:07 · 436 阅读 · 0 评论 -
zookeeper下载安装
如果想有一群“臭味相投”的朋友来一起交流学习的话,欢迎大家搜索群460570824,让我们共同进步!官网操作手册:http://zookeeper.apache.org/doc/r3.4.6/zookeeperStarted.html 单机单实例安装部署: 1)wgethttp://apache.fayea.com/zookeeper/zookeeper-3.4.9/zoo原创 2017-12-03 14:25:50 · 597 阅读 · 0 评论 -
Zookeeper和etcd使用场景
如果想有一群“臭味相投”的朋友来一起交流学习的话,欢迎大家搜索群460570824,让我们共同进步!1、Zookeeper和etcd共同点 Zookeeper和etcd的功能和使用场景都很类似。 2、Zookeeper选主方法 Paxos & fastpaxos 3、Zookeeper复制数据方法 Zab Zab协议有两种模式,分别是恢复模式原创 2017-12-03 15:01:19 · 390 阅读 · 0 评论 -
学习spark遇到的问题汇总(一)
1.Spark Streaming包含三种计算模式:nonstate.stateful .window 2.kafka可通过配置文件使用自带的zookeeper集群 3.Spark一切操作归根结底是对RDD的操作 4.部署Spark任务,不用拷贝整个架包,只需拷贝被修改的文件,然后在目标服务器上编译打包。 5.kafka的log.dirs不要设置成/tmp下的目录,原创 2017-12-04 11:34:01 · 547 阅读 · 0 评论 -
spark性能优化指南(一)
满满干货,慢慢看,交流学习加群4605708241开发调优 1.1 调优概述 Spark性能优化的第一步,就是要在开发Spark作业的过程中注意和应用一些性能优化的基本原则。开发调优,就是要让大家了解以下一些Spark基本开发原则,包括:RDD lineage设计、算子的合理使用、特殊操作的优化等。在开发过程中,时时刻刻都应该注意以上原则,并将这些原则根据具体的业务以及实际的应原创 2017-12-04 13:36:40 · 282 阅读 · 0 评论 -
spark性能优化指南(二)
交流学习加群460570824资源调优1 调优概述 在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的不合理,可能会导致没有充分利用集群资源,作业运行会极其缓慢;或者设置的原创 2017-12-04 13:49:36 · 272 阅读 · 0 评论 -
hive学习笔记
自己学习总结,学习交流加群460570824什么是Hive: Hive是基于Hadoop之上的数据仓库,数据存放在HDFS上,它同样可以通过ETL来进行数据的抽取、转换和加载。同时Hive可以自己开发Mapreduce程序来完成本身不能提供的数据处理操作。Hive本身就是一个SQL的解析引擎,他将SQL 语句转成Mapreduce任务在hadoop之上执行。 什么是数据仓库:原创 2017-12-05 10:53:35 · 275 阅读 · 0 评论 -
spark集群安装
交流学习加QQ群460570824.安装环境:linuxcentos6.x 注意:此处直接使用spark是可以不需要安装hadoop的 1、修改hosts文件(集群节点都要关闭,这里是3台),修改地址为/etc/hosts 172.16.101.60 namenode 172.16.101.74 datanode1 172.16.原创 2017-12-05 11:12:58 · 335 阅读 · 0 评论 -
Hbase学习笔记(一)
1.HBase介绍 HBase 是一个高可靠、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建大规模结构化存储集群。 HBase 是Google Bigtable 的开源实现,与GoogleBigtable 利用GFS作为其文件存储系统类似,HBase利用Hadoop HDFS 作为其文件存储系统;Google 运行MapReduce原创 2017-12-05 13:26:46 · 416 阅读 · 0 评论 -
Hbase学习笔记(二)
【Table和Region的关系】 table 默认最初只有一个region,随着记录数的不断增加而变大,起初的region会逐渐分裂成多个region,一个region有【startkey,endkey】表示,不同的region会被master分配给相应的regionserver管理, region 是hbase分布式存储和负载均衡的 最小单元,不同的region分不到不同的region原创 2017-12-05 13:29:08 · 353 阅读 · 0 评论 -
Spark学习笔记
交流学习加群460570824DataSource->Kafka->Spark Streaming->Parquet->Spark SQL(SparkSQL可以结合ML、GraphX等)->Parquet->其它各种Data Mining等1.1 Spark集群的安装Spark的运行是构建在hadoop集群之上(默认hadoop集群已经安装好了),在spark集群集群上必须要安装对应版本的scal原创 2017-12-01 20:35:49 · 1095 阅读 · 0 评论 -
你知道这些关于大数据与数据分析的学习网站吗?
一.数据分析 1.数据分析网 网址:www.afenxi.com 主要内容包括:大数据相关的最新的资讯、业内人物的点评文章、数据分析相关的技术文章、大量的数据分析的相关免费的学习资源以及相关的线下线上活动。 其中,网站的技术文章主要包括 大数据(商业智能、机器学习) 数据分析(统计学、原创 2017-09-30 11:06:34 · 880 阅读 · 0 评论 -
是什么制约着中国的大数据发展?
首先我们要知道现在越来越多的国家开始从战略层面认识大数据,中国亦如此。那么,制约我国大数据发展的因素有哪些呢? 1.很少有优质可用的数据 这几年数据交易机构如雨后春笋,“数据变现”成为很多拥有数据积累的传统企业的新的生财法。目前,我国大数据需求端以互联网企业为主,覆盖面不广,在O2O趋势下,大型互联网厂商尝试引入外部数据支撑金融、生活、语音、旅游、健康和教育等多种服务原创 2017-09-05 10:08:11 · 758 阅读 · 0 评论 -
大数据方面的核心技术
目前,大数据领域每年都会涌现出大量新的技术,成为大数据获取、存储、处理分析或可视化的有效手段。大数据技术能够将大规模数据中隐藏的信息和知识挖掘出来,为人类社会经济活动提供依据,提高各个领域的运行效率,甚至整个社会经济的集约化程度。那么下面我们就说说大数据方面的核心技术有哪些: 1. 大数据生命周期 · 底层是基础设施,涵盖计算资源、内存与存储和网络互联,具体原创 2017-09-06 14:14:06 · 8270 阅读 · 0 评论 -
简单介绍Hadoop
Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(largedata set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问原创 2017-09-07 09:19:44 · 321 阅读 · 0 评论 -
简单介绍spark
ApacheSpark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一,与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势: · 首先, Spark非常好用。由于高级 API剥离了对集群本身的关注,你可以专注于你所要做的计算原创 2017-09-07 11:15:53 · 340 阅读 · 0 评论 -
大数据的核心价值是什么
生活在这样一个万事万物高速发展的时代,包括人工智能、区块链等高科技在内的前沿技术都让我们的生活越来越便利,这便利正是社会对我们每个人极尽透彻的了解而产生的结果,换句话说,在这样的时代里,每个人都将成为越来越透明的存在,因为足够了解,所以才能够提供足够的便利。而这一切,正是大数据所催生。大数据研究专家维克托·迈尔-舍恩伯格曾经说过:世界的本质是数据。在他看来,认识大数据之前,世界原本就是一个数据原创 2017-08-30 10:59:44 · 1516 阅读 · 0 评论 -
怎样才能成为一名合格的数据分析师?
首先我们需要明白为什么要做数据分析师:在通信、互联网、金融等这些行业每天产生巨大的数据量(长期更是积累了大量丰富的数据,比如客户交易数据等等),据说到2020年,全球每年产生的数据量达到3500万亿GB;海量的历史数据是否有价值,是否可以利用为领导决策提供参考依据?随着软件工具、数据库技术、各种硬件设备的飞快发展,使得我们分析海量数据成为可能。而数据分析也越来越受到领导层的重视,借助报表告原创 2017-09-08 09:44:20 · 2071 阅读 · 0 评论 -
大数据还能火多久?
我想在搞清楚这个问题前,我们先得明白大数据为什么这几年火热情势不减呢?互联网行业是大数据的起爆点,除了互联网/电子商务行业,传统的诸如计算机服务/软件、金融/基金/证券/投资、通讯行业以及其他专业服务领域等,都在热火朝天的搞大数据。大数据 大数据价值的发现与其所处的应用场景密切相关。概括起来,大数据价值发现可以划分为三大类:数据服务、数据分析和数据探索。 数据服务是原创 2017-08-31 10:56:37 · 3302 阅读 · 1 评论 -
Python有那么神吗?
这个问题其实简单点说 就是讲Python到底能做什么?它的优点在哪? 1、数据库:Python在数据库方面很优秀,可以和多种数据库进行连接,进行数据处理,从商业型的数据库到开放源码的数据库都提供支持。例如:Oracle, My SQL Server等等。有多种接口可以与数据库进行连接,至少包括ODBC。有许多公司采用着Python+MySQL的架构。因此,掌握了Python使你原创 2017-09-01 10:28:06 · 829 阅读 · 0 评论 -
目前大数据在金融行业的应用主要体现在哪些方面?
现在大数据的应用领域非常广泛,它几乎已经涵盖各个行业,包括但不限于金融、政府、零售、交通、制造、电信、医疗卫生以及政府的很多部门的各个领域。然而,金融行业一直是大数据应用的前沿和领航者,这与金融行业的激烈竞争和“有钱”是分不开的。 我认为大数据现在在金融行业的应用主要体现在以下方面: 1. 客户的管理 金融机构内部也拥有大量具有原创 2017-09-03 10:33:14 · 11415 阅读 · 0 评论 -
分布式与集群有什么区别
在开始的时候,网站都是一个简单的架构,例如LAMP的架构,就在一台服务器上部署了各种应用程序,访问的人少,服务器能轻松应对。 当请求量增大的时候,服务器的资源已经扛不住这种压力了,从而将相关的应用放在不同的服务器上,提供更好的性能,当请求量进一步增大的时候,应用jboss和mysql可能都不能抗住这种请求压力了,从而也就引出了集群的由来。集群主要的使用场景是为了分担请求的压力,也就是在几个服务原创 2017-09-12 14:49:55 · 468 阅读 · 0 评论 -
Hbase学习笔记(三)
交流学习加群460570824【HBase 设计】 HBase 中的每一张表就是所谓的 BigTable。BigTable 会存储一系列的行记录,行记录有三个基本类型的定义:Row Key、Time Stamp、Column。 Row Key 是行在 BigTable 中的唯一标识。Time Stamp 是每次数据操作对应关联的时间戳,可以看作 SVN 的版本。Colu原创 2017-12-05 13:31:06 · 410 阅读 · 0 评论