
大数据
文章平均质量分 52
Supper宝宝
自我评价
性格开朗、稳重,待人热情、真诚,做事认真负责,吃苦耐劳,积极、主动、及时、彻底、速度、效率、超越的思想是我的人生态度。有较强的组织能力和团体协作精神。人生格言——“多一分经历,多一分成熟
展开
-
Storm概述以及集群搭建
Apache Storm是一个免费的开源分布式实时计算系统。 Storm可以轻松可靠地处理无限数据流,实现Hadoop对批处理所做的实时处理。 Storm非常简单,可以与任何编程语言一起使用,并且使用起来很有趣! Storm有许多用例:实时分析,在线机器学习,连续计算,分布式RPC,ETL等。 风暴很快:一个基准测试表示每个节点每秒处理超过一百万个元组。 它具有可扩展...原创 2019-01-13 13:24:15 · 128 阅读 · 0 评论 -
Storm核心组件介绍
Nimbus: 主控节点用于接收,提交任务,来分配集群任务,集群的监控Zookeeper:存储storm集群的数据存储、心跳、集群状态Nimbus任务分配到supervisor分组策略1)fields Grouping 按照字段分组,相同字段发送到同一个task中2)shuffle Grouping 随机分组 轮询分组、随机分发tuple,保证每个bolt中的tup...原创 2019-01-13 20:17:22 · 470 阅读 · 0 评论 -
Kafka知识点(一)
概念:ApacheKafka®是一个分布式流媒体平台地址:http://kafka.apache.org/功能介绍:1)流媒体平台有三个关键功能:发布和订阅记录流,类似于消息队列或企业消息传递系统。 以容错的持久方式存储记录流。 记录发生时处理流。 Kafka通常用于两大类应用: 构建可在系统或应用程序之间可靠获取数据的实时流数据管道 构建转换或响应数据流的实...原创 2019-01-08 23:02:12 · 349 阅读 · 0 评论 -
Hadoop序列化
序列化:系列化就是把内存当中的对象,转换成字节序列以便于存储和网络传输反序列化:就是将收到的字节序或硬盘的持久化数据转换成内存中的对象java的序列化Serializable不适用java的序列化的原因: java的序列化时一个重量级的序列化框架 一个对象被序列化会附带大量的消息hadoop的序列化 Writable...原创 2019-06-15 16:12:32 · 167 阅读 · 0 评论 -
SparkStreaming
SparkStreaming概述Spark Streaming可以轻松构建可扩展的容错流应用程序1)便于使用2) 容错3)Spark集成计算框架log-》flume-》kafka-》sparkStreaming-》hdfs || mysql -》hive||hbaseDstream数据源来源于分布式多台机器,多台计算Dframe 属于离散数据流,在streaming中 以Dst...原创 2019-04-14 13:16:06 · 571 阅读 · 0 评论 -
Elasticsearch基本用法
维基百科、GitHub-站内实时搜索原创 2019-04-14 22:53:50 · 6221 阅读 · 2 评论 -
Logstash简介
概述Logstash是一个开源数据收集引擎,具有实时管道功能。Logstash可以动态地将来自不同数据源的数据统一起来,并将数据标准化到你所选择的目的地输入输入:采集各种样式、大小和来源的数据过滤器过滤器:实时解析和转换数据Logstash 能够动态地转换和解析数据,不受格式或复杂度的影响:1)利用 Grok 从非结构化数据中派生出结构2)从 IP 地址破译出地理坐标3)将 ...原创 2019-04-24 23:04:02 · 3292 阅读 · 1 评论 -
Redis简单介绍
安装配置启动服务客户端启动对数据的操作获取配置CONFIG GET *“dbfilename”“dump.rdb”“requirepass”“xxxxx1129”“masterauth”“”“cluster-announce-ip”“”“unixsocket”“”“logfile”“”“pidfile”“/var/run/redis_6379.pid”...原创 2019-05-07 22:35:01 · 187 阅读 · 0 评论 -
第一个Hadoop程序
依赖包准备: ~/hadoop-2.6.5/share/hadoop/common/lib ~/hadoop-2.6.5/share/hadoop/common/ ~hadoop-2.6.5/share/hadoop/hdfs/lib ~hadoop-2.6.5/share/hadoop/hdfs/demo01:...原创 2018-12-12 23:14:45 · 420 阅读 · 0 评论 -
Flink应用
概念:Apache Flink是一个框架和分布式处理引擎,用于对无界和有界数据流进行状态计算。Flink设计为在所有常见的集群环境中运行,以内存速度和任何规模执行计算。在这里,我们解释Flink架构的重要方面Flink特点1)mapredue2)store3)spark适用于所有企业,不同企业有不同的业务场景,处理数据量,模型不一样处理无界和有界数据...原创 2019-01-13 11:21:33 · 247 阅读 · 0 评论 -
Hbase -API
构建Maven工程:Pom文件添加依赖:pom.xml<dependencies> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-core</artifactId> ...原创 2019-01-13 11:29:11 · 195 阅读 · 0 评论 -
Zookeeper概述
1)概念: ZooKeeper是一种集中式服务,用于维护配置信息,命名,提供分布式同步和提供组服务。所有这些类型的服务都以分布式应用程序的某种形式使用。每次实施它们都需要做很多工作来修复不可避免的错误和竞争条件。由于难以实现这些类型的服务,应用程序最初通常会吝啬它们,这使得它们在变化的情况下变得脆弱并且难以管理。即使正确完成,这些服务的不同实现也会在部署应用程序时导致管理复杂性2)...原创 2018-12-19 22:05:44 · 162 阅读 · 0 评论 -
Hive概述与应用
1 概念:Apache Hive™数据仓库软件有助于使用SQL读取,编写和管理驻留在分布式存储中的大型数据集。可以将结构投影到已存储的数据中。提供了命令行工具和JDBC驱动程序以将用户连接到Hive。数据计算:mapreduce 分布式计算 -》难度大 hive -》sql语句简化开发,减少学习成本2 优缺点 优点: 1)操作接口采用了sql 简...原创 2019-03-31 16:05:12 · 101 阅读 · 0 评论 -
org.apache.zookeeper.KeeperException$ConnectionLossException: KeeperErrorCode = ConnectionLoss for /
解决方案:检查下各自的端口号优先使用zkCli.sh -server ip:port看下各个客户端能不能起来我的端口号不是默认的,处理第一台时2181 其他的是2281 2381 ,程序里改掉后可以了...原创 2018-12-19 23:24:01 · 1373 阅读 · 0 评论 -
Spark基础概念
什么是Spark?Spark的特点和结构 1、什么是Spark? Spark是一个针对大规模数据处理的快速通用引擎。 类似MapReduce,都进行数据的处理 2、Spark的特点: (1)基于Scala语言、Spark基于内存的计算 (2)快:基于内存 (3)易用:支持Scala、Java...原创 2018-12-15 23:35:35 · 580 阅读 · 0 评论 -
Flume简介
flume概念:apache Flume 是一个从可以收集例如日志,事件等数据资源,并将这些数量庞大的数据从各项数据资源中集中起来存储的工具/服务,或者数集中机制。flume具有高可用,分布式,配置工具,其设计的原理也是基于将数据流,如日志数据从各种网站服务器上汇集起来存储到HDFS,HBase等集中存储器中。作用:主要用来采集数据flume架构:source:数据源channe...原创 2018-12-16 17:31:32 · 222 阅读 · 0 评论 -
Hive基本使用
基本操作1)查看数据库show databases;2)切换数据库use mongdb;3)查看表show tables;4)创建表create table movie_world(id int, name string);5)插入数据insert into movie_world values(1, "1942");6)删除表结构drop tab...原创 2018-12-21 21:50:16 · 930 阅读 · 0 评论 -
Hive基本使用(二)
增加头信息增加配置<property> <name>hive.cli.print.current.db</name> <value>true</value></property><property><name>hive.cli.print.header</name&...原创 2018-12-22 20:52:06 · 1829 阅读 · 0 评论 -
Azkaban学习之路
概述:Azkaban是在LinkedIn上创建的批处理工作流作业调度程序,用于运行Hadoop作业。Azkaban通过作业依赖性解决订单,并提供易于使用的Web用户界面来维护和跟踪您的工作流程特点:1)提供可视化界面--web界面2)工作流->jar包3) 设置任务间的关系4)权限设置5)模块化6)随时启停任务7)课查看日志记录兼容任何版本的Hadoo...原创 2018-12-28 20:16:09 · 6544 阅读 · 0 评论 -
HIVE自定义函数
-》自定义函数1)创建工程,加载hive的依赖包2)编写代码,需要继承UDF3)打包 export jar file4)双传jar包到linux目录下5)启动hive6)add jar jar路径 //不要加引号add jar /root/lower.jar7)关联到hive中create temporary function 自定义函数名 as '包的函...原创 2018-12-23 20:47:09 · 281 阅读 · 0 评论 -
HIVE压缩
1)map-》开启输出压缩功能:set hive.exec.compress.intermediate = true; -》开始map压缩功能: hive (mongdb)> set mapreduce.map.output.compress;mapreduce.map.output.compress=falsehiv...原创 2018-12-23 21:23:49 · 136 阅读 · 0 评论