
大数据实践
文章平均质量分 94
主要用于分享大数据、云计算方面的内容,包含但不限于分享hadoop,hive,hbase,zookeeper,spark,stom等内容!欢迎关注!
朱培
爱学习,爱生活,努力让自己成为一名更优秀的工程师,奋斗吧骚年!
展开
-
Spring+SpringMVC+MongoDB案例
MongoDB是一个NoSql数据库,MongoDB 是一个基于分布式文件存储的数据库。由 C++ 语言编写。旨在为 WEB 应用提供可扩展的高性能数据存储解决方案。 MongoDB 是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。其存储结构为BSON。下面是通过一个Spring+SpringMVC+MongoDB的案例来说明mongodb的基本使用。原创 2017-03-22 21:35:49 · 5010 阅读 · 2 评论 -
基于openstack构建私有云实践
主要分享的是云计算、openstack的使用、私有云平台建设、云服务器云硬盘的构建和使用。从基本概念入手到私有云建设,信息量非常大。对于openstack的安装部署都是从官方文档中一步步的介绍,内容非常详细。云计算(cloud computing)是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源...原创 2017-02-02 13:35:58 · 26458 阅读 · 1 评论 -
KVM虚拟化技术实践
今天分享的文章是关于云计算中的kvm(虚拟化技术),通过本文你可以知道的是kvm是干什么的,如何使用kvm,如何通过java操作xml从而生成生成虚拟机。KVM 全称是 基于内核的虚拟机(Kernel-based Virtual Machine),它是一个 Linux 的一个内核模块,该内核模块使得 Linux 变成了一个 Hypervisor。我们需要知其然也要知其所以然。那么我们是怎样做到在VMware Work原创 2017-02-01 16:01:01 · 28526 阅读 · 0 评论 -
Elasticsearch+Hbase实现海量数据秒回查询
首先祝大家2017新年快乐,我今天分享的是通过ElasticSearch与hbase进行整合的一个搜索案例,这个案例涉及的技术面比较广,首先你得有JAVAEE的基础,要会SSM,而且还要会大数据中的hdfs、zookeeper、hbase以及ElasticSearch和kibana。环境部署在4台centos7上。ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apa原创 2017-01-01 16:38:06 · 64564 阅读 · 25 评论 -
MongoDB实用教程
MongoDB 是一个基于分布式文件存储的数据库。旨在为 WEB 应用提供可扩展的高性能数据存储解决方案。本文主要内容包括nosql的简介、mongodb的简介、mongodb的体系结构、mongodb在linux和window中的安装配置、安全控制、mongodb的基本数据操作(包括创建数据库,建表,增删改查等)、索引(查询索引、全文索引,地理位置索引等7大索引方式)的使用等主要内容。要求掌握mongodb的双平台配置,基本数据操作,索引的使用,安全控制,索引分析等...原创 2016-06-27 16:27:47 · 10642 阅读 · 2 评论 -
海量数据挖掘之中移动流量运营系统
通过本文的学习主要是进一步了解海量数据挖掘的框架流程,对数据采集流程、内容识别、知识库的建立以及行为轨迹增强有初步的了解,学会简单的url清洗以及能够开发出简单的分类MapReducer程序。对于运营商来说,使用海量数据挖掘对客户移动互联网行为进行采集,分析,发现用户关注的内容,为开展营销提供号码支持。当然,也不局限于这些功能。例如一个用户在用手机看小说,那么肯定有一个url的网址啦,用户所有访问的网址,ip,时间戳,上下行流量,基站,网络模式,手机型号等一大串信息都会被记录下来并在运营商的的云端进行存储原创 2016-06-16 17:30:38 · 13060 阅读 · 0 评论 -
HBase的环境配置及其应用
hbase是bigtable的开源山寨版本。是建立的hdfs之上,提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统。它介于nosql和RDBMS之间,仅能通过主键(row key)和主键的range来检索数据,仅支持单行事务(可通过hive支持来实现多表join等复杂操作)。主要用来存储非结构化和半结构化的松散数据。与hadoop一样,Hbase目标主要依靠横向扩展,通过不断增加廉价的商用服务器,来增加计算和存储能力。原创 2016-06-16 10:47:18 · 15202 阅读 · 0 评论 -
HA机制下的Hadoop配置
hdfs的HA机制 NameNode服务器一台是ACTIVE和一台是STANDBY。通过Qjournal(日志管理系统) 使用zkfc(基于zookeeper失败切换控制)如何防止脑裂现象: 当ACTIVE假死的时候,STANDBY的zkfc会发出指令 ssh kill-9 namenode 返回0(成功杀死,返回1则杀死失败)的时候再去通知第二台namenode去切换状态。 若无返回码的时候(超时未响应),则启动proweroff.sh(用户自定义的脚本)给第一台namenode断电,返回0则执行正原创 2016-06-15 12:24:24 · 8443 阅读 · 0 评论 -
Zookeeper的安装配置及基本开发
一、简介 Zookeeper 是分布式服务框架,主要是用来解决分布式应用中经常遇到的一些数据管理问题,如:统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。ZooKeeper包含一个简单的原语集,[1] 提供Java和C的接口。原创 2016-05-27 16:50:12 · 12640 阅读 · 1 评论 -
Hive基本原理及环境搭建
今天我主要是在折腾这个Hive,早上看了一下书,最开始有点凌乱,后面慢慢地发现,hive其实挺简单的,以我的理解就是和数据库有关的东西,那这样的话对我来说就容易多啦,因为我对sql语法应该是比较熟悉了,而这个是HQL的,其实很多都差不多。先来看一下Hive的基本介绍:一、Hive基本原理 hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表原创 2016-05-27 10:39:13 · 9812 阅读 · 0 评论 -
Hadoop开发环境搭建
之前稍微了解了一下大数据方面的知识,在搭建环境的时候我很惆怅的,因为那时候没有弄好,刚好这几天有时间,于是把以前没有弄好的又来配置了一下,没想到居然成功了,这个过程走了很多的弯路,查阅了网上大量资料,终于直接也来整理一下了。 hadoop是分为3种安装模式的,单机模式,伪分布模式和完全分布模式。众所周知,完全分布模式是企业真实开发用的,会需要多台电脑,这里没有条件,原创 2016-05-25 16:27:47 · 22471 阅读 · 0 评论 -
HDFS基本原理及数据存取实战
本文主要介绍了hdfs的基本原理、hdfs基本操作、hdfs的读取数据流程、namenode工作机制,rpc编程以及常见的两种必会的面试题等,旨在于全面深入的理解HDFS的基本工作流程并可以开发出简易的HDFS的程序。一、HDFS简介Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。HDFS体系结构中有两类节点,一类原创 2016-06-10 11:58:01 · 23624 阅读 · 0 评论 -
大数据实战:用户流量分析系统
本文是结合hadoop中的mapreduce来对用户数据进行分析,统计用户的手机号码、上行流量、下行流量、总流量的信息,同时可以按照总流量大小对用户进行分组排序等。是一个非常简洁易用的hadoop项目,主要用户进一步加强对MapReduce的理解及实际应用。文末提供源数据采集文件和系统源码。以下是一个待分析的文本文件,里面有非常多的用户浏览信息,保扩用户手机号码,上网时间,机器序列号,访问的IP,访问的网站,上行流量,下行流量,总流量等信息。这里只截取一小段,具体文件在文末提供下载链接。原创 2016-06-11 13:14:49 · 14527 阅读 · 1 评论 -
数据分析之共同好友统计
今天主要分享一个统计共同好友的案例,非常简单也非常实用的一个小案例,对于数据分析初级开发人员是很好的入门资料。上面这段数据的意思是:A的好友有B,C,D,F,E,O,B的好友有A、C、E、K,其他的按理类推。其中:用户和好友之间在这里以冒号分隔开,好友之间用逗号隔开。当我们拿到这段数据的时候,该如何下手呢?首先可以先两两合并为一组,然后找有相同的元素。例如可以分为AB、AC、AD、BC、BD.....等找共同好友就是可以把AB求交集,然而这种方法在这里是不太可行的,那么我们可以逆向思维,反过来找,原创 2016-06-12 16:46:55 · 8582 阅读 · 0 评论 -
Hive的HQL语句及数据倾斜解决方案
[版权申明:本文系作者原创,转载请注明出处]文章出处:http://blog.youkuaiyun.com/sdksdk0/article/details/51675005作者: 朱培 ID:sdksdk0Hive环境的搭建在这里也不重复说了,安装配置可以查看我的这篇文章:http://blog.youkuaiyun.com/sdksdk0/article/details/51512031。在这里主要是原创 2016-06-14 23:05:39 · 23986 阅读 · 3 评论 -
Zookeeper动态更新服务器列表
zookeeper内部就是一个集群,主节点是选举出来的,外部看起来就像只有一台一样,保存的是一份状态数据。 做分布式应用协调的时候,可以降低开发难度。具有高可用性,松耦合交互方式。主要应用1、集群管理:规定编号最小的为master,所以当我们对SERVERS节点做监控的时候,得到服务器列表,只要所有集群机器逻辑认为最小编号节点为master,那么master就被选出,而这个master宕机的时候,相应的znode会消失,然后新的服务器列表就被推送到客户端,然后每个节点逻辑认为最小编号节点为master,这原创 2016-06-15 07:49:53 · 8984 阅读 · 0 评论