
hadoop
文章平均质量分 66
长安-TreeHole
这个作者很懒,什么都没留下…
展开
-
二、大数据技术之Hadoop --从Hadoop框架讨论大数据生态
1、从Hadoop框架讨论大数据生态1.1 Hadoop是什么1)Hadoop是一个又Apache基金会开发的分布式系统基础架构。2)主要解决:海量数据的存储和海量数据的分析计算问题。3)广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈。1.2 Hadoop发展历史1)Lucene框架是Doug Cutting开创的开源软件,用Java书写代码,实现与Google类似的全文搜索功能,它提供了全文检索引擎的架构,包括完整的查询引擎和索引引擎。Hadoo原创 2021-04-22 12:08:39 · 650 阅读 · 1 评论 -
HDFS文件块大小
HDFS中的文件在物理上是分块存储(Block),块的大小可以通过配置参数(dfs.blocksize)来规定,默认大小在Hadoop2.x版本中是128M,老版本中是64M。2、如果块设置的太大,从磁盘传输数据的时间会明显大于定位这个块开始位置所需的时间。导致程序在处理这块数据时,会非常慢。1、HDFS的块设置太小,会增加寻址时间,程序一直在找块的开始位置。总结:HDFS块的大小设置主要取决于磁盘传输速率。块的大小不能设置太小,也不能设置太大。原创 2023-11-02 18:31:03 · 216 阅读 · 0 评论