大数据
Evan_CaoM
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hadoop生态之Hive知识点总结
一、简介Hive是建立在Hadoop HDFS上的数据仓库基础架构;Hive可以用来进行数据提取转化加载(ETL);Hive定义了简单的类似SQL查询语言,称之为HQL它允许熟悉SQL的用户查询数据;Hive允许熟悉MapReduce开发者开发自定义的mapper和reducer来处理内建的mapper和reducer无法完成的复杂的分析工作;Hive是SQL解析引擎,他将SQ...原创 2019-01-17 10:46:35 · 617 阅读 · 0 评论 -
Hadoop生态之hdfs知识点总结
一、简介HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上。它所具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储,为超大数据集(Large Data Set)的应用处理带来了很多便利。...原创 2019-01-15 10:30:21 · 443 阅读 · 0 评论 -
Hadoop生态之Yarn知识点总结
一、简介YARN(Yet Another Resource Negotiator)是一个通用的资源管理平台,可为各类计算框架提供资源的管理和调度。 其核心出发点是为了分离资源管理与作业调度/监控,实现分离的做法是拥有一个全局的资源管理器(ResourceManager,RM),以及每个应用程序对应一个的应用管理器(ApplicationMaster,AM),应用程序由一个作业(Job)或者J...原创 2019-01-15 19:17:47 · 2550 阅读 · 5 评论 -
Hadoop生态之HBase知识点总结
一、简介HBase是一种Hadoop数据库,经常被描述为一种稀疏的,分布式的,持久化的,多维有序映射,它基于行键、列键和时间戳建立索引,是一个可以随机访问的存储和检索数据的平台。HBase不限制存储的数据的种类,允许动态的、灵活的数据模型,不用SQL语言,也不强调数据之间的关系。HBase被设计成在一个服务器集群上运行,可以相应地横向扩展。二、特点1)面向列:HBase是面向列的存储和...原创 2019-01-16 19:02:31 · 788 阅读 · 0 评论 -
kafka数据可靠性深度解读
本文转载于https://blog.youkuaiyun.com/u013256816/article/details/710917741 概述Kakfa起初是由LinkedIn公司开发的一个分布式的消息系统,后成为Apache的一部分,它使用Scala编写,以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark等都支持与Kafk...转载 2019-02-13 11:56:19 · 330 阅读 · 0 评论 -
Flume使用udp丢包问题
问题描述有用户提出通过udp协议发送数据到实时平台,所以考虑在flume接收节点添加udp source来接收udp请求flume配置如下 1234 a2.sources.syslog_udp_src.type=syslogudpa2.sources.syslog_udp_src.host=0.0.0.0a2.sources.syslog_ud...转载 2019-08-04 11:02:00 · 2350 阅读 · 3 评论
分享