某中心2021年十大阅读量最高的研究论文
某中心的研究人员在2021年发表了数量创公司历史新高的研究论文。以下是2021年从其网站上被下载次数最多的论文列表。
1. 使用轻量级形式化方法验证某中心S3中的键值存储节点
“本文报告了应用轻量级形式化方法来验证ShardStore正确性的经验,ShardStore是为某中心S3云对象存储服务开发的新键值存储节点实现。
所谓‘轻量级形式化方法’,指的是一种务实的、旨在验证正在由全职工程团队进行持续功能开发的生产存储节点正确性的方法。目标不是实现完全的形式化验证,而是强调自动化、可用性,以及能够在软件及其规范随时间演进时持续确保正确性的能力。”
2. 电子商务的多臂老虎机地图
“丰富的多臂老虎机文献不仅提供了多样化的算法工具箱,也使得从业者难以找到解决手头问题的合适方案。典型的多臂老虎机教科书侧重于算法设计与分析,而应用调查通常呈现一系列独立的应用案例。这些都是宝贵的资源,但在将应用映射到合适的多臂老虎机算法方面存在差距。本文旨在通过构建一个结构化的多臂老虎机地图来缩小这一差距,以帮助从业者导航并找到相关且实用的多臂老虎机算法。”
3. 具有潜在共同原因的时间序列中进行因果特征选择的必要和充分条件
“研究了在存在潜在变量的时间序列中识别直接和间接原因的问题,并提供了一种基于约束的因果特征选择方法,证明了其在某些图约束下既是可靠的也是完备的。
我们的理论和估计算法只需要对每个观测到的时间序列候选者进行两次条件独立性测试,以确定其是否为观测目标时间序列的原因。此外,我们选择的调节集能提高信噪比。我们在真实数据以及广泛的模拟实验中应用了我们的方法,这些实验显示出极低的假阳性率和相对较低的假阴性率。”
4. SiamMOT:孪生网络多目标跟踪
“本文侧重于改进在线多目标跟踪。具体来说,引入了一种基于区域的孪生网络多目标跟踪网络,命名为SiamMOT。SiamMOT包含一个运动模型,用于估计实例在两帧之间的运动,以便关联检测到的实例。为了探索运动建模如何影响其跟踪能力,提出了两种孪生跟踪器变体:一种隐式建模运动,另一种显式建模。我们在三个不同的MOT数据集上进行了广泛的定量实验:MOT17、TAO-person和Caltech Roadside Pedestrians,结果显示了运动建模对MOT的重要性以及SiamMOT能够显著超越最先进水平的能力。”
5. 将包裹送达正确地点:用于地理定位的监督机器学习
“某中心最后一英里物流旨在利用过去配送中报告的嘈杂GPS位置,为每个地址学习一个准确的配送点。质心和其他中心查找方法效果不佳,因为噪声存在系统性偏差。
这个问题需要监督机器学习,但如何实现?我们通过新颖地适应信息检索领域的‘学习排序’技术来解决它。这也使得融合地图图层的信息成为可能。离线实验显示,误差距离大幅减少;在线实验估计每年可节省数百万成本。”
6. 电子商务搜索中的季节性相关性
“季节性对于电子商务搜索的相关性是一个重要维度。例如,查询‘夹克’在冬季和夏季会有一组不同的相关商品。为了获得最佳用户体验,电子商务搜索引擎应在产品搜索中纳入季节性。本文正式引入了季节性相关性的概念,并使用来自主要电子商务商店的数据对其进行定义和量化。在我们的分析中,发现39%的查询具有高度的季节性相关性,会受益于在排名中处理季节性。我们提出了LogSR和VelSR特征,利用基于自注意力的最先进神经模型来捕捉产品季节性。对大型数据集的全面离线和在线实验证明了我们建模季节性相关性方法的有效性。对7.84亿次查询进行的在线A/B测试显示,采用季节性相关性特征的实验组带来了2.20%的更高购买转化率和整体更好的客户体验。”
7. 立场论文:利用多模态深度学习减少某中心的包装浪费
“自2015年以来,某中心已将其出站包装的重量减少了36%,在全球范围内消除了超过100万吨的包装材料,相当于超过20亿个运输箱,从而减少了其整个履行供应链的碳足迹。在这篇立场论文中,分享了关于使用深度学习来识别最适合规模化运输多样化产品目录中每件商品的最佳包装类型的见解,以确保商品完好无损地送达、让客户满意并减少包装浪费。结合包括产品图像在内的多模态数据以及处理类别不平衡的技术对于提高模型性能至关重要。”
8. CTR-BERT:用于十亿参数教师模型的成本效益知识蒸馏
“虽然像BERT这样的预训练大语言模型在多项NLP任务上达到了最先进的水平,但它们在具有额外基础(例如数字和分类特征)的任务上的性能研究较少。本文研究了预训练LLM在电子商务产品广告点击率预测中的应用。这具有挑战性,因为模型需要:a) 从语言和表格数据特征中学习,b) 在推理时保持低延迟(<5毫秒),c) 适应不断变化的广告分布。首先展示了将预训练语言模型扩展到15亿参数,相较于传统的CTR基线能显著提升性能。然后提出了CTR-BERT,一种新颖的、轻量级的、缓存友好的、用于CTR预测的因子分解模型,该模型包含用于文本的双子结构BERT-like编码器,并具有用于文本和表格特征后期融合的机制。”
9. 概率预测:一种水平集方法
“大规模时间序列面板在过去几年中在零售、运营指标、物联网和医疗领域等领域变得无处不在。这导致了对能够通过学习每个面板中所有时间序列来有效利用所有可用数据的预测技术的需求。在预测技术的理想属性中,能够生成概率预测名列前茅。因此,本文提出了水平集预测器,这是一种简单而有效的通用方法,可将点估计器转换为概率估计器。通过认识到我们的算法与随机森林和分位数回归森林的联系,我们能够在底层点估计器满足温和假设的条件下,证明我们方法的一致性保证。作为副产品,我们首次证明了分位数回归森林在CART分裂准则下的一致性结果。实证实验表明,我们的方法配备基于树的模型作为点估计器,在预测准确性方面可与最先进的深度学习模型相媲美。”
10. 用于减少对话系统摩擦的上下文改写检测
“对于像Alexa、Google Assistant和Siri这样的语音助手,正确解释用户的意图至关重要。然而,用户有时会与这些助手产生摩擦,这由不同系统组件的错误或用户错误(如口误)引起。用户倾向于不断改写他们的查询,直到获得满意的回应。改写检测用于识别改写,长期以来被视作具有成对输入的任务,未能充分利用上下文信息(例如用户的隐式反馈)。为此,我们提出了一种上下文改写检测模型ContReph,用于从多轮对话中自动识别改写。我们展示了如何利用对话上下文和用户-智能体交互信号,包括用户的隐式反馈和不同轮次之间的时间间隔,这可以显著优于成对改写检测模型。”
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
502

被折叠的 条评论
为什么被折叠?



