- 博客(11)
- 收藏
- 关注
原创 Hadoop rack awareness机架感知
rack awareness机架感知:将主机分为数据中心-机架-主机,构建网络拓扑图,三层结构,使用目录将每个主机进行管理起来。副本数少于两倍机架数,一个机架副本数量不能大于两个副本。三副本:本地节点、另一个机架节点、相同机架不同主机。根据客户端请求主机的目录判断远近,来控制哪些节点优先响应。1、编辑节点分配策略 racks.py 赋予执行权限。双副本:本地节点、另一个机架节点。多副本:三副本以外的随机主机节点。打印所有机架主机打印拓扑树。原则:一个主机一个备份。优点:副本策略、保持数据高可靠性。
2024-07-14 14:59:22
285
原创 RPC响应策略,HDFS优化
DecayRpcScheduler:维护用户请求数,扫描周期为5s(默认),每次扫描将用户请求数排序,分配优先级(0,1,2,3)0为高优先级,默认优先级阈值(0.125,0.25,0.5),呼叫占50%以上用户在3,25%-50%在2,12.5%-25%在1,其他在0。WeightedRoundRobinMultiplexer:当响应请求时,根据队列权重处理请求,默认(8,4,2,1),0优先级处理8个,1优先级队列处理4个以此类推,轮询处理。服务用户,进行设置,始终进入高优先级响应队列。
2024-07-14 12:40:08
216
原创 linux命令
mtime -n +n #按文件更改时间来查找文件,-n指n天以内,+n指n天以前。-atime -n +n #按文件访问时间来查找文件,-n指n天以内,+n指n天以前。-type : 只需找符合指定的文件类型 f文件。2、查找当前目录下所有文件中包含1111的内容。4、统计48小时之内未修改过的文件。2、查找etc下sh开头的文件。6、统计所有文件的总大小。1、查找包含log的文件。统计所有文件的总大小。
2024-06-16 11:56:42
254
原创 hive和beeline的区别
hive是原生的hive 客户端,绕过了hiveserver2,直接读Metastorebeeline 请求hiveserver2,hiveserver2读metastore 有权限控制。
2024-06-14 14:07:27
172
原创 YARN SPARK任务计算内存解析
executor:(spark.executor.memory+spark.yarn.executor.memoryOverhead)(yarn.scheduler.increment-allocation-mb规整参数向上规整)*spark.executor.instances。driver:(spark.driver.memory+spark.yarn.driver.memoryOverhead)(yarn.scheduler.increment-allocation-mb规整参数向上规整)*1。
2024-06-12 18:18:43
901
原创 CM配置文件路径
opt/cloudera/parcel-repo/ : 下载的服务软件包数据,数据格式为parcels。/var/lib/cloudera-scm-server-db/data : 内嵌数据库目录。/opt/cloudera/parcel-cache/ : 下载的服务软件包缓存数据。/opt/cloudera/parcels/ : Hadoop相关服务安装目录。/usr/lib64/cmf/ : Agent程序代码。/usr/share/cmf/ : 程序安装目录。
2024-06-07 17:46:25
255
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人