
大数据
文章平均质量分 77
JP-Destiny
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大数据-安装CDH
安装CDH一、关闭防火墙(1)关闭防火墙systemctl stop firewalld(2)禁止防火墙开机启动systemctl disable firewalld(3)查看防火墙状态firewall-cmd --state二、配置节点的名称和ip地址映射(1)配置主机名称vi /etc/hostname IP Address HostName ...原创 2019-11-12 22:30:39 · 469 阅读 · 0 评论 -
大数据-Spark的任务执行
执行Spark的任务Spark-submit(1)修改conf/slaves配置文件hadoop1(2)启动spark的伪分布式集群./sbin/start-all.sh(3)spark-submit提交任务(以蒙特卡洛求圆周率为例)spark-submit --master spark://hadoop1:7077 --class org.apache.spark.exampl...原创 2019-07-02 23:37:59 · 366 阅读 · 0 评论 -
大数据-Logstash
logstash安装logstash(1)网站https://www.elastic.co/cn/downloads/past-releases/logstash-7-1-0下载logstash(2)解压logstash-7.1.0.tar.gz压缩包tar -xvzf logstash-7.1.0.tar.gz(3)启动logstashlogstash -e 'input{stdi...原创 2019-06-09 23:21:33 · 292 阅读 · 0 评论 -
大数据-Elasticsearch的API操作
Elasticsearch的API操作(1)连接Elasticsearch客户端public void getClient() throws UnknownHostException { //设置连接的集群名称 Settings setting = Settings.builder().put("cluster.name", CLUSTER_NAME).build(); ...原创 2019-06-08 23:26:19 · 304 阅读 · 0 评论 -
大数据-Elasticsearch
Elasticsearch简介Elasticsearch,基于lucene,隐藏复杂性,提供简单易用的restful API接口、Java API接口Elasticsearch:一个实时分布式搜索和分析引擎,它用于全文搜索、结构话搜索、分析特点 (1)可以处理PB级数据 (2)将全文检索、数据分析以及分布式技术合并 (3)操作简单,容易部署,数据量不大 (4)提供了数据库所不能提...原创 2019-05-28 22:51:54 · 574 阅读 · 0 评论 -
大数据-HBase
HBaseApache HBase是一个一个开源的,分布式的,可扩展的非关系数据库HBase的集群角色:HMaster和RegionServerHMaster 对RegionServer监控 处理一些元数据的变更 对RegionServer进行故障转移 空闲时对数据进行负载均衡 对region进行管理 发布位置到客户端借助于zookeeperRegionServer 存...原创 2019-05-11 23:47:47 · 269 阅读 · 0 评论 -
大数据-HBas操作
HBase操作(1)查看表操作list(2)显示当前服务器状态status 'hostname'(3)显示当前用户whoami(4)创建表create 'table_name','column_id:column_name'(5)向表中添加数据put 'table_name','rowkey','column_id:column_name','value'(6)查询...原创 2019-05-15 22:38:37 · 1009 阅读 · 0 评论 -
Azkaban报错-azkaban.executor.ExecutorManagerException: No active executors found
Issue2019/05/09 21:50:07.380 +0800 ERROR [ExecutorManager] [Azkaban] No active executors found2019/05/09 21:50:07.380 +0800 ERROR [StdOutErrRedirect] [Azkaban] Exception in thread "main" 2019/05/09...原创 2019-05-11 00:35:32 · 6955 阅读 · 0 评论 -
大数据-MOOC日志分析
MOOC日志分析日志网络设备、系统及服务程序等,在运作时都会产生一个叫log的事件记录。它的每一行都记载着日期、时间、使用者及动作等相关操作的描述网站日志网站在运行过程中所产生的日志,包括系统日志和程序日志 系统日志:网站听基于的服务器容据所自动生成的日志,如访问日志,系统错误日志等等 程序日志:由用户在程序中定义构建网站日志分析流程数据采集,数据处理,数据展现,结果处理 ...原创 2019-05-07 23:26:33 · 1096 阅读 · 0 评论 -
大数据-HBase读写流程
HBase读写流程一、HBase读数据流程(1)Client向Zookeeper发送读数据的请求(2)Zookeeper响应请求,允许Client访问Zookeeper(3)Zookeeper返回-ROOT-表所在的位置信息给Client(4)Client根据Zookeeper返回的信息找到对应的HRegionServer以及HRegionServer下对应的-ROOT-表(5)Cl...原创 2019-05-19 13:17:42 · 1029 阅读 · 0 评论 -
Sqoop报错-Could not load org.apache.hadoop.hive.conf.HiveConf. Make sure HIVE_CONF_DIR is correctly
Issue19/04/29 21:34:31 ERROR hive.HiveConfig: Could not load org.apache.hadoop.hive.conf.HiveConf. Make sure HIVE_CONF_DIR is set correctly.19/04/29 21:34:31 ERROR tool.ImportTool: Import failed: ja...原创 2019-04-29 22:21:11 · 1322 阅读 · 0 评论 -
大数据-Sqoop命令
sqoop命令注意:需要将mysql的jar包放在lib文件夹下一、Import命令import到HDFSsqoop import \>--connect jdbc:mysql://hadoop1:3306/data \>--username root \>--password root \>--table test \>--target-dir...原创 2019-04-29 18:31:34 · 672 阅读 · 0 评论 -
基于阿里云数加构建企业级数据分析平台
基于阿里云数加构建企业级数据分析平台数据分析是基于商业目的,有目的的进行收集、整理、加工和分析数据,提炼有价值信息的过程DataV具有丰富的图表库:能够绘制包括海量数据的地理轨迹、地理飞线、热力分布、地域区块、3D地图、3D地球,地理数据的多层叠加,还接入了ECharts,AntV-G2等第三方...原创 2019-05-04 22:49:27 · 9165 阅读 · 0 评论 -
大数据-Spark的RDD
Spark的RDDRDD:弹性分布式数据集特性 RDD由分区组成,每个分区运行在不同的Worker上,通过这种方式来实现分布式计算(A list of partitions) 在RDD中,提供算子处理每个分区中的数据(A function for computing each split) RDD存在依赖关系:宽依赖和窄依赖(A list of dependencies on othe...原创 2019-07-14 00:07:37 · 178 阅读 · 0 评论 -
大数据-Spark
SparkApache Spark是一种快速通用的集群计算系统。它提供Java,Scala,Python和R中的高级API,以及支持通用执行图的优化引擎。它还支持一组丰富的更高级别的工具,包括Spark SQL用于SQL和结构化数据的处理,MLlib机器学习,GraphX用于图形处理和Spark Streaming特点:速度快、支持多种语言、生态系统全、兼容HadoopSpark体系结构...原创 2019-06-29 23:06:02 · 219 阅读 · 0 评论 -
大数据-Spark SQL
Spark SQLSpark SQL是Spark的一个模块,处理结构化数据,不能处理非结构化数据特点 容易集成(不需要单独安装) 统一的数据访问方式(结构化数据的类型:JDBC、Json、Hive、Parquer文件都可以做为Spark SQL的数据源) 完全兼容Hive(把Hive中的数据,读取到Spark SQL中运行) 支持标准的数据连接...原创 2019-07-18 23:28:49 · 320 阅读 · 0 评论 -
大数据-Flume拦截器
Flume拦截器当Source读取events发送到Sink的时候,在events header中加入一些有用的信息,或者对events的内容进行过滤,完成初步的数据清洗。Flume自带有六种拦截器,分别为时间拦截器、主机拦截器、UUID拦截器、查询拦截器、正则过滤拦截器、正则抽取拦截器。时间拦截器a1.sources=r1a1.sinks=k1a1.channels=c1# ...原创 2019-09-18 23:23:14 · 755 阅读 · 0 评论 -
大数据-Storm
StormStorm:分布式实时计算,可被用于“流处理”之中,实时处理消息并更新数据库。Storm也可被用于连续计算,对数据流做连续查询,在计算时就将结果以流的形式输出给用户。它还可被用于“分布式RPC”,以并行的方式运行昂贵的运算。Storm保证每个消息都会得到处理,而且它很快,每秒可以处理数以百万计的消息,还可以使用任意编程语言来开发一、离线计算和流式计算1、离线计算离线计算:批量获取...原创 2019-08-18 00:59:03 · 205 阅读 · 0 评论 -
大数据-Kafka
KafkaKafka(分布式消息队列),用来缓存数据同一个消费组下多个消费者互相协调消费工作,Kafka会将所有的分区平均地给所有的消费者实例,这样每个消费者都可以分配到数量均等的分区。Kafka的消费组管理协议会动态地维护消费组的成员列表,当一个新消费者加入消费者组,或者有消费者离开消费组,都会触发再平衡操作Kafka的消费者消费消息时,只保证在一个分区内的消息的完全有序性,并不保证同一个...原创 2019-08-17 00:35:39 · 359 阅读 · 0 评论 -
大数据-Git
Git版本控制是一种记录一个或若干文件内容变化,以便将来查阅特定版本修订情况的系统一、特点 记录文件的所有历史变化 随时可恢复到任何一个历史状态 错误恢复 多功能并行开发二、分类 本地版本控制系统 集中式版本控制系统 分布式版本控制系统三、基本概念repository:存放所有文件及其历史信息checkout:取出或切换到执行版本的文件version:表示一个版...原创 2019-08-12 23:23:23 · 386 阅读 · 0 评论 -
大数据-HA
HARedis HA(1)复制sentinel.conf文件到conf文件夹下cp sentinel.conf /usr/local/redis/conf/(2)修改sentinel.conf文件sentinel monitor mymaster 192.168.138.130 6379 1(3)启动Redis集群redis-server conf/redis6379.conf...原创 2019-08-11 00:47:47 · 407 阅读 · 0 评论 -
大数据-Redis
RedisRedis和Memcached的区别(1)持久化Redis可以做缓存,也可以做存储,支持ADF和RDB两种持久化方式;Memcached只能缓存数据(2)数据结构Redis有丰富的数据类型:字符串、链表,Hash、集合,有序集合;Memcached一般就是字符串和对象安装Redis(1)下载并解压Redis压缩包tar -xvzf redis-5.0.5.tar.gz...原创 2019-08-06 23:11:22 · 502 阅读 · 0 评论 -
大数据-Spark Streaming
Spark Streaming可实现可扩展、高吞吐量、可容错的实时数据流处理在Spark Streaming中发送字符串,Spark接收到以后,进行计数注意:虚拟机的处理器的内核总数必须大于等于2Spark Streaming启动命令run-example streaming.NetworkWordCount IP Port启动消息服务器命令nc -l port手写Spark ...原创 2019-07-28 17:47:09 · 329 阅读 · 0 评论 -
大数据-Memcached
MemcachedMemcache是一套开源,高性能的分布式的内存对象缓存系统。Memcache将所有数据存储在内存中,并在内存里维护一个统一的巨大的Hash表,它能存储任意类型的数据,包括图像、视频、文件以及数据库检索的结果等。将数据调用到内存中,然后从内存中读取,从而大大提高读取速度安装Memcached(1)下载和安装libeventgit clone https://github....原创 2019-08-05 23:17:14 · 232 阅读 · 0 评论 -
大数据-Spark SQL性能优化
Spark SQL性能优化一·、内存中缓存表的数据scala代码spark-shell --master spark://hadoop1:7077 --jars /root/temp/mysql-connector-java-8.0.13.jar --driver-class-path /root/temp/mysql-connector-java-8.0.13.jarval mysql ...原创 2019-07-27 10:55:29 · 1211 阅读 · 0 评论 -
大数据-Spark性能优化
Spark性能优化主要针对内存的使用调优Spark性能优化的技术 使用高性能序列化类库 优化数据结构 对于多次使用的RDD进行持久化、checkpoint 持久化级别:MEMORY_ONLY --> MEMORY_ONLY_SER序列化 Java虚拟机垃圾回收调优 Shuffle调优一·、判断Spark内存使用首先要看到内存使用情况,才能进行针对性的优化(1)内存花...原创 2019-07-31 23:24:12 · 542 阅读 · 0 评论 -
大数据-高级SparkSQL
高级Spark SQLJDBC接连通过JDBC操作关系型数据库,加载到Spark中进行分析和处理启动spark-shell(加载mysql驱动)spark-shell --master spark://hadoop1:7077 --jars /root/temp/mysql-connector-java-8.0.13.jar --driver-class-path /root/temp/m...原创 2019-07-22 23:26:23 · 314 阅读 · 0 评论 -
大数据-Spark Graphx
Spark GraphxSpark Graphx是Spark的一个模块,主要用于进行以图为核心的计算,还有分布式图计算。Graphx底层基于RDD计算,和RDD共用一种存储形态。在展示形态上,可以用数据集来表示,也可以用图来表示Spark Graphx的抽象(1)顶点RDD[(VertexId,VD)]表示VertexId代表了顶点的ID,是Long类型VD是顶点的属性,可以是任何类型...原创 2019-08-04 16:10:18 · 416 阅读 · 0 评论 -
大数据-Spark实例
Spark解析日志需求一:求出访问图片最多的前两张tomcat日志110.52.250.126 - - [30/May/2018:17:38:20 +0800] "GET /source/plugin/wsh_wx/img/wsh_zk.css HTTP/1.1" 200 148227.19.74.143 - - [30/May/2018:17:38:20 +0800] "GET /sta...原创 2019-07-16 23:21:48 · 3600 阅读 · 0 评论 -
Quick BI企业报表
Quick BI企业报表报表:用表格、图表等格式来显示数据。报表是商业智能(BI)的基础应用数据可视化:指将相对复杂的数据通过可视的、交互的方式进行展示,从而形象、直观地表达数据蕴含的信息和规律图形化报表:是报表的一种,也是数据可视化最常见的方法,通过一些图表将数据更直观的展示出来,将数据中关键的信息转化成可快速获得的易懂的信息图表的作用:(1)数据展示;(2)数据分析图表设计的步骤:...原创 2019-05-04 22:18:12 · 1361 阅读 · 0 评论 -
大数据-Hive压缩
Hive压缩(一)Map输出阶段压缩方式开启Hive的压缩功能set hive.exec.compress.intermediate = true;开启Map的压缩功能set mapreduce.map.output.compress = true;原创 2019-04-20 00:22:44 · 230 阅读 · 0 评论 -
大数据-MapReduce应用一
案例student A 06140412 05 08 102 110 106student B 06140407 02 06 60 98 80student C 06140404 10 07 98 31 63student D 06140403 07 10 105 109 107student E 06140406 03 03 57 87 92student F 06140408 1...原创 2019-03-15 21:33:18 · 337 阅读 · 0 评论 -
大数据-Yarn工作机制
Yarn工作机制Yarn是资源管理系统,是典型的 Master-Slave 架构ResourceManager(Master)控制整个集群并管理应用程序向基础计算资源的分配 (1)处理客户端请求 (2)启动或监控ApplicationMaster (3)监控NodeManager (4)资源的分配与调度NodeManager(Slave)管理一个YARN集群中的每个节点 (1)单个...原创 2019-03-31 09:42:41 · 349 阅读 · 0 评论 -
大数据-WordCount
Hadoop数据类型Hadoop序列化类型与Java数据类型 Java数据类型 Hadoop序列化类型 int IntWritable string Text long LongWritable boolean BooleanWritable byte ByteWritable float...原创 2019-03-03 13:52:03 · 1070 阅读 · 0 评论 -
大数据-Hadoop完全分布式安装
Hadoop完全分布式安装(1)解压Hadoop的压缩包(2)修改hadoop-env.sh文件(3)修改core-site.xml文件,配置HDFS(4)修改hdfs-site.xml文件,配置元数据和数据的存储位置...原创 2019-02-26 22:16:52 · 307 阅读 · 0 评论 -
大数据-HDFS工作机制
HDFS的工作机制(1)HDFS写数据客户端要向HDFS写数据,首先要跟namenode通信以确认可以写文件并获得接收文件block的datanode,然后客户端按顺序将文件逐个block传递给相应datanode,并由接收到block的datanode负责向其他datanode复制block的副本(1)HDFS客户端向NameNode发送上传文件的请求(2)NameNode检查上传文...原创 2019-02-19 23:03:22 · 431 阅读 · 0 评论 -
大数据-MapReduce
MapReduce概述分布式程序的编程框架,是基于Hadoop的数据分析应用的核心框架。其功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布是运算程序,并发的运行在Hadoop集群上特点优点: 易于编程 良好的拓展性 高容错性 适合处理PB级别以上的离线处理缺点: 不擅长做实时计算 不擅长做流式计算(MapReduce的数据源是静态的) 不支持DAG(有...原创 2019-03-01 20:52:16 · 413 阅读 · 0 评论 -
大数据-RPC框架
RPC框架RPC是一个远程过程调用RPC框架主要由客户端、服务端和协议三个组成RPCProtocol接口package com.Protocol.util;import org.apache.hadoop.ipc.VersionedProtocol;/* * @author Administrator * @version 1.0 */public interface R...原创 2019-02-24 21:46:48 · 581 阅读 · 0 评论 -
大数据-DataNode工作机制
DataNode工作机制DataNode的工作职责(1)存储管理用户的文件块数据(2)定期向namenode汇报自身所持有的block信息(通过心跳信息上报)(1)DataNode 启动成功后首先到 NameNode 里注册(2)DataNode 注册成功(3)DataNode 每隔一段时间上传所有块信息(4) 如果超过 10 分钟没有收到某个 datanode 的心跳,则认为该节...原创 2019-02-23 14:08:27 · 555 阅读 · 0 评论