- 博客(6)
- 资源 (3)
- 收藏
- 关注
原创 统计学,机器学习,深度学习,数据挖掘的关系
机器学习的目的是获得一个可反复预测的模型。机器学习只在乎结果。统计更多是为了寻找变量之间的关系和确定关系的显著性。机器学习基于统计的框架。深度学习是源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。深度学习是实现机器学习的一种方式或路径,通过空间相对关系减少参数数目以提高训练性能,让机器认知过程逐层进行,从而大幅度提升识别的准确性和效率。数据挖掘受到很多学科领域的影响,其中机器学习和统计学影
2021-10-31 16:33:48
1166
原创 HDFS读数据流程
HDFS读数据流程1、客户端通过分布式文件系统中的open()函数读取所需数据。2、Distributed File System 会通过RPC协议调用名称节点来确定请求文件块块所在位置。3、客户端用FSDataInputream的Read()方法读取数据。4、连接最近的数据节点,以数据流形式读取数据。5、关闭连接,查找下一个最近的数据节点。6、完成读取,关闭数据流。...
2021-10-27 15:11:39
126
原创 HDFS写数据流程
HDFS写数据流程1、客户端通知名称节点写新文件。2、名称节点确认,客户端权限和没有相同的文件后,创建一个新的文件记录。3、DFSDataOutputStream 将文件分成一个一个的数据块。4、通过文件流的方式往数据节点中写数据,写数据时注意会写冗余数据。5、冗余数据块全部写完,数据节点再向客户端发出确认。6、客户端小明冲击点八除结束消息,并将文件的块信息储存在名称节点中。```mermaid![在这里插入图片描述](https://img-blog.csdnimg.cn/2021102
2021-10-26 20:37:57
131
原创 YARN的工作机制
YARN的工作机制1、申请一个Application2、Application 资源提交路径hdfs// /staging以及application_id3、提交job运行所需资源4、资源提交完毕,申请运行mrAppMaster5、将用户的请求初始化成一个Task6、领取到task任务7、创建容器Container8、下载job资源到本地9、申请运行Map Task容器10、领取到任务,创建容器11、发送程序启动脚本12、向RM申请2个容器,运行Reduce Task程序13
2021-10-26 19:30:23
224
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人