- 博客(6)
- 收藏
- 关注
原创 2021-11-05
数据挖掘和统计学都是进行数据发现的方法,数据挖掘用的是工具应用,统计学比较理论方法;数据挖掘是目的,机器学习是实现数据挖国的手段,机器学习是实现人工智能的方法,深度学习是实现机器学习的技术;深度学习是机器学习现在比较火的一个方向,其本身是神经网络算法的衍生,在图像、语音等富媒体的分类和识别上取得了非常好的效果。 机器学=统计学+计算机; ...
2021-11-05 22:14:30
1470
原创 2021-10-30
1. 用户使用客户端向 RM 提交一个任务,同时指定提交到哪个队列和需要多少资源。用户可以通过每个计算引擎的对应参数设置,如果没有特别指定,则使用默认设置。 2. RM 在收到任务提交的请求后,先根据资源和队列是否满足要求选择一个 NM,通知它启动一个特殊的 container,称为 ApplicationMaster(AM),后续流程由它发起。 3. AM 向 RM 注册后根据自己任务的需要,向 RM 申请 container,包括数量、所需资源量、所在位置等因素。 4. 如果队列有足...
2021-10-30 18:53:36
76
原创 2021-10-30
HDFS的block和切片(split)的区别 1. split是MapReduce里的概念,是切片的概念,split是逻辑切片 ;而block是hdfs中切块的大小,block是物理切块; 2. split的大小在默认的情况下和HDFS的block切块大小一致,为了是MapReduce处理的时候减少由于split和block之间大小不一致,可能会完成多余的网络之间的传输。 可以通过配置文件进行...
2021-10-30 18:37:16
90
原创 2021-10-30
Distance(/dl/rl/n0;/dl/rl/n0)=0 (同一节点上的进程) Distance(/dl/r2/n0;/dl/r3/n2)=4(统一数据 中心不同机架上的节点) Distance(/dl/rl/nl;/dl/rl/n2)=2(同一机架上的不同节点)Distance(/dl/r2/n0;/d2...
2021-10-30 18:35:26
61
原创 2021-10-30
(1)客户端给namenode发起文件下载请求 (2)nameNode返回文件存储所在的datanode block块信息。 (3)客户端根据拿到的block信息与距离最近的切片所在datanode建立通信通道,获取文件切片。 (4)Datanode将该节点上的切片信息传输给客户端。 (5)如果没有获取到所有的切片信息,再与距离最近其他切片副本所在的datanode建立通信通道,获取该节点的切片。如此重复,直到获取到所有的切片信息。 (6)客户端拿到所有切片后,将切片组装为完整的文件。 ...
2021-10-30 18:24:30
72
原创 2021-10-26
1.客户端发起文件上传请求,通过RPC调用NN(节点名称NameNode)。 2.NN检查客户端是否有权限,并创建新文件的记录。 3.NN检查完毕,客户端就可以上传文件。 4客户端写入数据时DFSataOutputStream会把文件分割成包,然后通过管道将分割的包送到DN1——DN2——DN3。 5.所有管道中的数据节点都返回成功 6.数据块全部写完,客户端确认之后客户端向名称节点发出结束消息,并将文件的块消息存储到名称节点中。 ...
2021-10-26 21:28:30
81
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅