apache hadoop
wrr-cat
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
apache Kafka是如何实现删除数据文件(日志)的
afka删除数据有两种方式,一种是按照时间,超过一段时间后删除过期消息,第二种是按照消息大小删除数据的,消息数量超过一定大小后删除最旧的数据但是Kafka的数据是存储在文件系统内的,随机删除数据是不可能的,那么,Kafka是如何删除数据的呢?Kafka删除数据主逻辑对应配置: log.cleanup.interval.mins当前使用值:1file:core/src/main/scala/kafka/log/LogManager.scalaline: 271 /**..原创 2020-08-11 16:23:36 · 444 阅读 · 0 评论 -
Hadoop技术
Hadoop简介Hadoop 的思想之源:Google 第一遇到大数据计算问题的公司Openstack :NASA面对的数据和计算难题- 大量的网页怎么存储- 搜索算法带给我们的关键技术和思想(Google三大理论)- GFS 文件存储- Map-Reduce 计算- Bigtable创始人:Doug cuttingHadoop简介:http://hadoop.apache.org分布式存储系统HDFS (Hadoop Distributed File System .原创 2020-07-31 15:36:39 · 359 阅读 · 0 评论 -
Hadoop哲学
Hadoop是什么?首先,从最基本的层面来讲——Hadoop最初是Apache 软件基金会的一个开源项目。后来,Map/Reduce 和 NDFS也分别被纳入这一项目中,很快就形成了一个广泛而丰富的开源生态系统。如今,Cloudera的“Hadoop发行版”(CDH/HDP/CDP)包含30多个开源项目,涵盖存储、计算平台(例如YARN,以及未来的Kubernetes)、批处理/实时计算框架(Spark、Flink等)、编排、SQL、NoSQL、ML、安全/管理等等。所以,如果把Hadoop仅仅定义原创 2020-07-31 15:01:13 · 162 阅读 · 0 评论 -
hadoop用途方向
hadoop是什么?Hadoop是一个开源的框架,可编写和运行分不是应用处理大规模数据,是专为离线和大规模数据分析而设计的,并不适合那种对几个记录随机读写的在线事务处理模式。Hadoop=HDFS(文件系统,数据存储技术相关)+ Mapreduce(数据处理),Hadoop的数据来源可以是任何形式,在处理半结构化和非结构化数据上与关系型数据库相比有更好的性能,具有更灵活的处理能力,不管任何数据形式最终会转化为key/value,key/value是基本数据单元。用函数式变成Mapreduce代替SQL,原创 2020-07-31 14:51:14 · 311 阅读 · 0 评论
分享