机器学习学习,笔记及感想1

本文探讨了分布式机器学习的核心概念,包括可扩展性的定义及其重要性,数据模型如何适应架构和数据需求的变化,以及引入更多机器的目的。同时介绍了并行程序编程范式如MessagePassing和MapReduce,以及它们的具体实现。

王益 《分布式机器学习的故事》

前言2 《分布式机器学习的评价标准》



 1 可扩展性

 以前都不太清楚可扩展性的意思,今天看这篇博文,算是有了了解。

指的是“投入更多的机器,能处理更多的数据”,而传统的并行计算要求“投入更多机器,数据大小不变,计算速度更快” 

2 数据模型要根据架构和数据修改 

原因两个: 

    一个是大数据都是长尾分布的。(什么是长尾分布)。而学术论文里的数据都是假设指数分布。

          二个是  很多机器学习算法(比如MCMC)都不适合并行化。


3 引入更多的机器的首要目的是是为了处理更多的数据,而不是单纯的提高性能


在开始说故事之前,再先正名几个概念:Message Passing和MapReduce是两个有名的并行程序编程范式(paradigm),也就是说,并行程序应该怎么写都有规范了——只需要在预先提供的框架(framework)程序里插入一些代码,就能得到自己的并行程序。Message Passing范式的一个框架叫做MPI。MapReduce范式的框架也叫MapReduce。而MPICH2和Apache Hadoop分别是这MPI和MapReduce两个框架的实现(implementations)。另一个本文会涉及的MapReduce实现是我用C++写的MapReduce Lite。后面还会提到BSP范式,它的一个著名的实现是Google Pregel

MPI这个框架很灵活,对程序结构几乎没有太多约束,以至于大家有时把MPI称为一组接口(interface)——MPI的I就是interface的意思。

这里,MPICH2和Hadoop都是很大的系统——除了实现框架(允许程序员方便的编程),还实现了资源管理和分配,以及资源调度的功能。这些功能在Google的系统里是分布式操作系统负责的,而Google MapReduce和Pregel都是在分布式操作系统基础上开发的,框架本身的代码量少很多,并且逻辑清晰易于维护。当然Hadoop已经意识到这个问题,现在有了YARN操作系统。(YARN是一个仿照UC Berkeley AMPLab的Mesos做的系统。关于这个“模仿”,又有另一个故事。)



基于Benders、TSO-DSO协调的不确定性的输配电网双层优化模型研究(Matlab代码实现)内容概要:本文围绕“基于Benders、TSO-DSO协调的不确定性输配电网双层优化模型”展开研究,提出了一种考虑不确定性的输配电网协调优化方法,采用双层优化架构,上层为输电网运营商(TSO),下层为配电网运营商(DSO),通过Benders分解算法实现两者的协调交互。研究重点在于应对新能源出力、负荷需求等不确定性因素,构建鲁棒或随机优化模型,并利用Matlab进行代码实现与仿真验证。文中还提到了YALMIP工具包的应用,支持优化问题的建模与求解。此外,文档列举了大量相关科研资源与服务内容,涵盖电力系统、智能优化、机器学习、路径规划等多个方向,强调科研中“借力”与创新的重要性。; 适合人群:具备电力系统、优化理论及Matlab编程基础的研究生、科研人员及工程技术人员。; 使用场景及目标:①学习双层优化模型在输配电网协调中的建模方法;②掌握Benders分解算法在电力系统优化中的应用;③实现考虑不确定性的电力系统优化调度仿真;④获取相关领域Matlab代码资源以支撑科研项目。; 阅读建议:建议读者结合文档提供的网盘资源,下载完整代码与案例进行实践,重点关注双层结构建模与Benders分解的迭代过程,同时可参考文中列出的其他研究方向拓展思路。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值