式年-优快云博客

原创 2021-11-05

数据挖掘和统计学都是进行数据发现的方法，数据挖掘用的是工具应用，统计学比较理论方法;数据挖掘是目的，机器学习是实现数据挖国的手段，机器学习是实现人工智能的方法，深度学习是实现机器学习的技术;深度学习是机器学习现在比较火的一个方向，其本身是神经网络算法的衍生，在图像、语音等富媒体的分类和识别上取得了非常好的效果。机器学=统计学+计算机; ...

2021-11-05 22:14:30 1470

1. 用户使用客户端向 RM 提交一个任务，同时指定提交到哪个队列和需要多少资源。用户可以通过每个计算引擎的对应参数设置，如果没有特别指定，则使用默认设置。 2. RM 在收到任务提交的请求后，先根据资源和队列是否满足要求选择一个 NM，通知它启动一个特殊的 container，称为 ApplicationMaster（AM），后续流程由它发起。 3. AM 向 RM 注册后根据自己任务的需要，向 RM 申请 container，包括数量、所需资源量、所在位置等因素。 4. 如果队列有足...

2021-10-30 18:53:36 76

原创 2021-10-30

HDFS的block和切片（split）的区别 1. split是MapReduce里的概念，是切片的概念，split是逻辑切片；而block是hdfs中切块的大小，block是物理切块； 2. split的大小在默认的情况下和HDFS的block切块大小一致，为了是MapReduce处理的时候减少由于split和block之间大小不一致，可能会完成多余的网络之间的传输。可以通过配置文件进行...

2021-10-30 18:37:16 90

原创 2021-10-30

Distance(/dl/rl/n0;/dl/rl/n0)=0 (同一节点上的进程） Distance(/dl/r2/n0;/dl/r3/n2)=4（统一数据中心不同机架上的节点） Distance(/dl/rl/nl;/dl/rl/n2)=2(同一机架上的不同节点）Distance(/dl/r2/n0;/d2...

2021-10-30 18:35:26 61

原创 2021-10-30

（1）客户端给namenode发起文件下载请求（2）nameNode返回文件存储所在的datanode block块信息。（3）客户端根据拿到的block信息与距离最近的切片所在datanode建立通信通道，获取文件切片。（4）Datanode将该节点上的切片信息传输给客户端。（5）如果没有获取到所有的切片信息，再与距离最近其他切片副本所在的datanode建立通信通道，获取该节点的切片。如此重复，直到获取到所有的切片信息。（6）客户端拿到所有切片后，将切片组装为完整的文件。 ...

2021-10-30 18:24:30 72

原创 2021-10-26

1.客户端发起文件上传请求，通过RPC调用NN（节点名称NameNode)。 2.NN检查客户端是否有权限，并创建新文件的记录。 3.NN检查完毕，客户端就可以上传文件。 4客户端写入数据时DFSataOutputStream会把文件分割成包，然后通过管道将分割的包送到DN1——DN2——DN3。 5.所有管道中的数据节点都返回成功 6.数据块全部写完，客户端确认之后客户端向名称节点发出结束消息，并将文件的块消息存储到名称节点中。 ...

2021-10-26 21:28:30 81

weixin_62644895的博客

原创 2021-11-05

原创 2021-10-30

原创 2021-10-30

原创 2021-10-30

原创 2021-10-30

原创 2021-10-26

空空如也

空空如也