
大数据学习
文章平均质量分 94
old_小书童
这个作者很懒,什么都没留下…
展开
-
16节、hbase安装及常用指令和javaAPI操作
hbase1.hbase简介 1.1.什么是hbase HBASE是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群。 HBASE的目标是存储并处理大型的数据,更具体来说是仅需使用普通的硬件配置,就能够处理由成千上万的行和列所组成的大型数据。 HBASE是Goo...原创 2018-12-20 11:28:51 · 308 阅读 · 0 评论 -
11节、Hive基础学习
一、Hive简介 1、什么是Hive Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 2 、为什么使用Hive 直接使用hadoop所面临的问题 人员学习成本太高 项目周期要求太短 MapReduce实现复杂查询逻辑开发难度太大 3、为什么要使用...转载 2018-12-10 14:20:19 · 205 阅读 · 0 评论 -
hive安装
Hive只在一个节点上安装即可yum安装mysql 5.1.73卸载系统自带的mysql执行以下命令查看是否有自带mysql:rpm -qa | grep mysql如果发现有输出结果,那么执行以下命令依次删除:rpm -e **** --nodeps开始安装mysql首先安装mysql客户端:yum install mysql然后安装mysql服务端:yum inst...原创 2018-12-05 13:46:23 · 136 阅读 · 0 评论 -
mapreduce参数优化
MapReduce重要配置参数1 资源相关参数mapreduce.map.memory.mb: 一个Map Task可使用的资源上限(单位:MB),默认为1024。如果Map Task实际使用的资源量超过该值,则会被强制杀死。 mapreduce.reduce.memory.mb: 一个Reduce Task可使用的资源上限(单位:MB),默认为1024。如果Reduce Task实际使用...原创 2018-11-23 13:41:18 · 761 阅读 · 0 评论 -
MapReduce序列化及分区的java代码示例
需求统计每一个用户(手机号)所耗费的总上行流量、下行流量,总流量,将统计结果按照总流量倒序排序 hadoop jar wordcount.jar cn.itcast.bigdata.mr.flowsum.FlowCount /wordcount/input /wordcount/output8public class FlowCount { static clas...原创 2018-11-19 11:40:50 · 301 阅读 · 0 评论 -
hadoop 常见问题整理
ntp时间服务同步第一种方式:同步到网络时间服务器 # ntpdate time.windows.com将硬件时间设置为当前系统时间。 #hwclock –w 加入crontab: 30 8 * * * root /usr/sbin/ntpdate 192.168.0.1; /sbin/hwclock -w 每天的8:30将进行一次时间同步。重启crond服务:servi...原创 2018-11-14 17:14:22 · 398 阅读 · 0 评论 -
hdfs常用命令 讲解
常用命令参数介绍 -help(功能:输出这个命令参数手册)-ls (功能:显示目录信息)示例: hadoop fs -ls hdfs://hadoop-server01:9000/备注:这些参数中,所有的hdfs路径都可以简写-->hadoop fs -ls / 等同于上一条命令的效果-mkdir (功能:在hdfs上创建目录)示例:hado...原创 2018-11-14 10:08:29 · 150 阅读 · 0 评论 -
hadoop环境安装
一、服务器系统设置 1、添加HADOOP用户 useradd hadoop passwd hadoop 2、为HADOOP用户分配sudoer权限 用root用户修改visudo,在(root ALL=(ALL) ALL)下面添加( hadoop ALL=(ALL) ALL ) 3、设置主机名master hadoop1 h...原创 2018-11-13 14:30:00 · 175 阅读 · 0 评论 -
解决:The import org.springframework.test cannot be resolved
The import org.springframework.test cannot be resolved 报错解决 <dependency> <groupId>org.springframework</groupId> <artifactId>spring-context</a...原创 2018-11-09 17:58:51 · 4929 阅读 · 0 评论 -
ssh免密 多台机器自动安装jdk
机器需要安装expect httpd服务需要开启/etc/hosts 需要配置127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4::1 localhost localhost.localdomain localhost6 localhost6.localdomai...原创 2018-11-05 11:25:38 · 168 阅读 · 0 评论 -
12节、HIVE辅助系统
前言在一个完整的大数据处理系统中,除了hdfs+mapreduce+hive组成分析系统的核心之外,还需要数据采集、结果数据导出、任务调度等不可或缺的辅助系统,而这些辅助工具在hadoop生态体系中都有便捷的开源框架,如图所示:1. 日志采集框架Flume1.1 Flume介绍官方文档地址: http://flume.apache.org/FlumeUserGuide.html1....转载 2018-12-10 14:24:16 · 1537 阅读 · 0 评论 -
hive/azkaban/hadoop/zookeeper/flume的简单配置和启动,以及工具下载。整理。
一、hive启动方式 下载地址 https://download.youkuaiyun.com/download/ieiqny1/10843154 方式(1) hive/bin/beeline 回车,进入beeline的命令界面 输入命令连接hiveserver2 beeline> !connect jdbc:hive2//mini1:10000 (had...原创 2018-12-11 15:31:25 · 335 阅读 · 0 评论 -
03节 Zookeeper
软件下载地址:https://download.youkuaiyun.com/download/ieiqny1/108431011、Zookeeper概念简介: Zookeeper是一个分布式协调服务;就是为用户的分布式应用程序提供协调服务 A、zookeeper是为别的分布式程序服务的 B、Zookeeper本身就是一个分布式程序(只要有半数以上节点存活,zk就能正常服务) ...原创 2018-12-15 09:58:18 · 140 阅读 · 0 评论 -
18节、sotrm学习 (Storm背景介绍)
Storm背景介绍 1、离线计算是什么? 离线计算:批量获取数据、批量传输数据、周期性批量计算数据、数据展示 代表技术:Sqoop批量导入数据、HDFS批量存储数据、MapReduce批量计算数据、Hive批量计算数据、***任务调度 1,hivesql 2、调度平台 3、Hadoop集群运维 4、...原创 2018-12-27 16:55:08 · 414 阅读 · 0 评论 -
18节、sotrm学习 (Storm集群部署及单词技术)
1、集群部署的基本流程 集群部署的流程:下载安装包、解压安装包、修改配置文件、分发安装包、启动集群 注意: 所有的集群上都需要配置hosts vi /etc/hosts 192.168.239.128 storm01 zk01 hadoop01 192.168.239.129 storm02 zk02 hadoop0...原创 2018-12-27 17:11:57 · 400 阅读 · 0 评论 -
13节、离线计算系统(离线综合案例)
示例代码地址https://download.youkuaiyun.com/download/ieiqny1/108531321. 网站点击流数据分析项目业务背景1.1 什么是点击流数据1.1.1 WEB访问日志 即指用户访问网站时的所有访问、浏览、点击行为数据。比如点击了哪一个链接,在哪个网页停留时间最多,采用了哪个搜索项、总体浏览时间等。而所有这些信息都可被保存在网站日志中。通过分析这些数据...原创 2018-12-15 22:07:08 · 764 阅读 · 0 评论 -
10 节、离线计算系统(hadoop高可用)
Hadoop的HA机制 前言:正式引入HA机制是从hadoop2.0开始,之前的版本中没有HA机制1.1 HA的运作机制(1)hadoop-HA集群运作机制介绍 所谓HA,即高可用(7*24小时不中断服务) 实现高可用最关键的是消除单点故障 hadoop-ha严格来说应该分成各个组件的HA机制——HDFS的HA、YARN的HA(2)HDFS的HA机制详解 ...原创 2018-12-15 21:54:08 · 232 阅读 · 0 评论 -
09节、离线计算系统(mapreduce加强)
所需案例代码https://download.youkuaiyun.com/download/ieiqny1/10853089 流量统计相关需求1、对流量日志中的用户统计总上、下行流量 技术点: 自定义javaBean用来在mapreduce中充当value 注意: javaBean要实现Writable接口,实现两个方法 //序列化,将对象的字段信息写入输出流 ...原创 2018-12-15 21:51:14 · 220 阅读 · 0 评论 -
08节、离线计算系统 MAPREDUCE详解
所需案例代码https://download.youkuaiyun.com/download/ieiqny1/10853089 MAPREDUCE原理篇(1) Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架; Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop...原创 2018-12-15 21:48:36 · 448 阅读 · 0 评论 -
07节、HDFS详解
示例代码下载https://download.youkuaiyun.com/download/ieiqny1/10853073HDFS前言 设计思想分而治之:将大文件、大批量文件,分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析; 在大数据系统中作用:为各类分布式运算框架(如:mapreduce,spark,tez,……)提供数据存储服务 重点...原创 2018-12-15 21:37:33 · 200 阅读 · 0 评论 -
06节、离线计算系统_第1天(HADOOP快速入门)
示例代码下载https://download.youkuaiyun.com/download/ieiqny1/108530631. HADOOP背景介绍1.1 什么是HADOOP 1. HADOOP是apache旗下的一套开源软件平台 2. HADOOP提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理 3. HADOOP的核心组件有...原创 2018-12-15 21:30:34 · 456 阅读 · 0 评论 -
05节、轻量级RPC框架开发
实例中所有代码下载地址https://download.youkuaiyun.com/download/ieiqny1/108530511. RPC原理学习1.1. 什么是RPC RPC(Remote Procedure Call Protocol)——远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在,如T...原创 2018-12-15 21:18:36 · 227 阅读 · 0 评论 -
HBase 性能优化
1.修改Linux最大文件数 Linux系统最大可打开文件数一般默认的参数值是1024,如果你不进行修改并发量上来的时候会出现“Too Many Open Files”的 错误,导致整个HBase不可运行 查看: ulimit -a 结果:open files (-n) 1024 临时修改: ulimit -n 4096 持久修改: vi ...原创 2018-12-25 15:03:29 · 222 阅读 · 0 评论