从实习生到应用科学家:机器学习之路
在早期购买数据分析中,一项研究发现人们经常同时购买尿布和啤酒。当时还是计算机科学本科生的Theodore Vasiloudis从塞萨洛尼基亚里士多德大学的教授那里听到这个故事时,对这种相关性产生了浓厚兴趣:“我发现通过聚合多个用户的数据,可以提取出这种奇怪且意想不到的关联,这让我非常着迷。”
这门课程激励了Vasiloudis——如今是某机构网络服务的应用科学家——将他的学习方向转向机器学习。他于2012年离开希腊,前往瑞典斯德哥尔摩的KTH皇家理工学院学习,当时该校是欧洲少数设有机器学习硕士课程的院校之一。在完成关于情境感知推荐的论文后,他在瑞典计算机科学研究所就业期间攻读工业博士学位(工业博士研究生在公司的实际工作中开展研究项目以获得工业经验)。
在博士学位的最后几年,Vasiloudis在某机构完成了两次暑期实习。其中一次实习产生了一篇获奖研究论文《块分布式梯度提升树》。在这篇论文中,Vasiloudis与同事Hyunsu Cho和Henrik Boström描述了一种新算法的开发,该算法能够大幅减少训练海量稀疏数据集时的通信成本。
自2020年2月起成为全职科学家的Vasiloudis,现在利用他的经验帮助客户充分利用某机构网络服务资源,并帮助同事最大限度地发挥远程工作的优势。他甚至向团队引入了"fika"的习俗,这是瑞典人习惯在一天中间停下来喝杯咖啡的习惯。每周五下午3点,他和团队成员会通过远程咖啡休息时间聚在一起,这在疫情期间有助于维持团队精神。
技术挑战与突破
梯度提升树旨在处理非常大的数据集,是最流行的机器学习算法之一,在学术界和工业界广泛使用。然而,当处理非常大的数据集时,通常必须使用多台计算机。
想象一下,你正在尝试对文本进行分类。假设这段文本是某人的贷款申请。如果文本中的每个可能单词都是一个特征,这意味着可能有数百万个特征,因为词汇量实际上是无限的。因此,当你尝试在多台计算机(可能是一百台、一千台甚至更多)之间共享模型训练时,经常会遇到问题,因为它们都在竞争相对于数据集而言极小的带宽。
以前的系统在通信方面效率不高,因为它们浪费了大量带宽传输冗余信息。许多现实世界的数据集非常稀疏。在稀疏数据集中,大多数特征实际上为零。以前的系统仍然通过网络发送这些零值,消耗了大量不必要的带宽。而如果只通过网络发送非零值,就可以节省通信成本和带宽。这就是主要思想。
解决稀疏数据集的方法
需要解决两个问题:一个是关于预测,另一个是关于训练。你可以将数据集想象成一个矩阵。它有一堆行,即记录(例如贷款申请文档)。然后每个记录都有许多特征,即文档中的单词。因此,你可能拥有数百万个文档和数百万个特征。
在以前的系统中,它们只沿着记录维度对数据集进行分区。它们会将一些文档放在一台计算机上,将另一些放在另一台计算机上,然后进行训练和同步。但如果你想要真正加速这个过程,实际上可以将文档的一部分存储在一台计算机上,另一部分存储在另一台计算机上。这称为块分布。
现在不是从同一个矩阵中取多行并将它们存储在同一台计算机中,而是从该矩阵中取一个块(几行和几列)并将其放在一台计算机中。这意味着我们需要进行一些额外的通信来进行预测。
为此使用了一种名为Quickscorer的现有算法,该算法是为完全不同的目的而设计的,用于在本地加速预测过程。但完全相同的方法可以让你执行非常快速的分布式预测,我们修改了该算法以适应我们的用例。这就是我们解决预测问题的方法。
对于训练,我们做了类似的事情,只发送给定块所需的记录数量和特征数量,然后使用聚合步骤来完成训练。这项工作为未来的生产系统提供了一个很好的方向。对于非常大的数据集,通信模式应该比当前使用的模式更加灵活。
当前工作与技术应用
目前正在研究SageMaker JumpStart。创建某机构网络服务解决方案,让客户能够更快地开始使用SageMaker,并将他们的想法更快速、更轻松地投入生产。团队的部分职责是在客户遇到特定问题时直接与他们合作。但也会代表客户进行大量创新。
技术实践建议
在某机构这样的公司工作,你肯定能获得很多在读博士期间无法获得的经验。行业的运作方式与学术界的运作方式非常不同。如果你做过几次这样的实习,你会为加入职场做好更充分的准备。
对于希望转为全职工作的某机构实习生来说,与招聘经理的定期检查非常重要,因为你需要不断了解自己是否在获得全职offer的正轨上。每两周与招聘经理坐下来一次,可以检查自己是否应该做更多事情,是否在工作进度和代表某机构领导原则方面达到了目标。这让你更有成就感。你需要确保在此期间设定几个里程碑,并确保在实习过程中实现这些里程碑。
某机构重视独立性和自我驱动能力。如果你有一个目标,即在实习结束时发表一篇论文并追求该发表,这是非常好的。例如,我们在实习结束后完成了论文的写作,所以如果我没有推动这件事,我就不会发表这篇论文,我和我的合著者也不会获得这个奖项。与经理合作确保在完成实习前获得发表论文所需的所有必要批准非常重要,因为发表高质量论文是科学生涯以及博士生的重要一步。当你可以访问某机构的基础设施和数据集时,这是一个独特的机会。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
公众号二维码

47

被折叠的 条评论
为什么被折叠?



