大数据组件
hmxz1024
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
kafka常用命令使用说明
查看当前kafka集群中的topic情况命令:bin/kafka-topics.sh --list --zookeeper127.0.0.1:2181列出该zookeeper中记录在案的topic列表创建Topic命令:bin/kafka-topics.sh --create --topic test0 --zookeeper 127.0.0.1:2181 --config max.message.bytes=12800000 --config flush.messages=1 --part原创 2020-05-27 20:15:56 · 1390 阅读 · 0 评论 -
Ambari理论及使用介绍
本文转载整理自:Ambari——大数据平台的搭建利器及Ambari——大数据平台的搭建利器之进阶篇,针对内容有重点提取,完整内容请参考原博客。Ambari 是什么Ambari 跟 Hadoop 等开源软件一样,也是 Apache Software Foundation 中的一个项目,并且是顶级项目。目前最新的发布版本是 2.0.1,未来不久将发布 2.1 版本。就 Ambari 的作用来说,就...转载 2020-01-15 22:07:36 · 2900 阅读 · 1 评论 -
Kafka理论介绍
本文转载整理自:https://www.cnblogs.com/qingyunzong/p/9004509.html简介概述Kafka最初由Linkedin公司开发,是一个分布式、分区的、多副本的、多订阅者,基于zookeeper协调的分布式日志系统(也可以当做MQ系统),常见可以用于web/nginx日志、访问日志,消息服务等等,Linkedin于2010年贡献给了Apache基金会并成为...转载 2019-11-03 20:28:11 · 254 阅读 · 0 评论 -
Hive简介
本文转载自:https://www.cnblogs.com/qingyunzong/p/8707885.htmlHive简介什么是hive1、Hive 由 Facebook 实现并开源2、是基于 Hadoop 的一个数据仓库工具3、可以将结构化的数据映射为一张数据库表4、并提供 HQL(Hive SQL)查询功能5、底层数据是存储在 HDFS 上6、Hive的本质是将 SQL 语句...转载 2018-12-29 19:03:34 · 724 阅读 · 0 评论 -
Hbase简介
本文转载自:https://www.cnblogs.com/qingyunzong/p/8665698.html产生背景自 1970 年以来,关系数据库用于数据存储和维护有关问题的解决方案。大数据的出现后, 好多公司实现处理大数据并从中受益,并开始选择像 Hadoop 的解决方案。Hadoop 使用分 布式文件系统,用于存储大数据,并使用 MapReduce 来处理。Hadoop 擅长于存储各...转载 2018-12-29 19:44:41 · 178 阅读 · 0 评论 -
Hadoop简介
本文转载自:https://www.cnblogs.com/qingyunzong/p/8494803.htmlHadoop产生的背景HADOOP最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。2003年开始谷歌陆续发表的三篇论文为该问题提...转载 2019-05-19 15:37:58 · 409 阅读 · 0 评论 -
HDFS基础
本文转载自:https://www.cnblogs.com/qingyunzong/p/8524594.htmlHDFS前言HDFS:Hadoop Distributed File System ,Hadoop分布式文件系统,主要用来解决海量数据的存储问题设计思想1、分散均匀存储 dfs.blocksize = 128M2、备份冗余存储 dfs.replication = 3在大数据系...转载 2019-05-19 16:19:28 · 448 阅读 · 0 评论 -
数据ETL介绍
本博客转载自:https://www.cnblogs.com/yjd_hycf_space/p/7772722.html几个名词:ODS(Operational Data Store,操作型数据存储)DW(Data Warehousing,数据仓库)ETL介绍ETL是将业务系统的数据经过抽取、清洗、转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企...转载 2019-06-18 23:11:57 · 2205 阅读 · 0 评论 -
A(AI)、B(BigData)、C(Cloud)通俗介绍
本文转载自:《不是技术人员也能看懂云计算,大数据,人工智能》我今天要讲这三个话题,一个是云计算,一个大数据,一个人工智能,我为什么要讲这三个东西呢?因为这三个东西现在非常非常的火,它们之间好像互相有关系,一般谈云计算的时候也会提到大数据,谈人工智能的时候也会提大数据,谈人工智能的时候也会提云计算。所以说感觉他们又相辅相成不可分割,如果是非技术的人员来讲可能比较难理解说这三个之间的相互关系,所以有...转载 2019-08-25 23:22:44 · 3894 阅读 · 0 评论
分享