发布网友 发布时间:2024-08-18 23:57
共1个回答
热心网友 时间:2024-08-22 18:16
在现代机器学习的前沿,面对测试数据分布变化导致的传统算法性能下滑,Distributionally Robust Optimization (DRO)</应运而生。DRO通过考虑预设分布族中的最坏情况风险,而非单一分布,为模型的泛化能力提供了强有力的保障。
构建uncertainty set的方法</是DRO的核心,包括一阶和二阶矩约束(适用于小规模数据),Kullback-Leibler Divergence (ICLR 2021)</,以及Wasserstein/MMD球(2018年ICLR和NeurIPS会议)。粗粒度混合模型在EMNLP 2019和ICML 2018中也得到了广泛应用,尤其在凸优化场景下,其内层优化问题通常有闭式解,优化目标简化为单层,worst-case distribution与数据分布呈现出有趣的比例关系。
一种创新的思路是ICLR 2021论文中的生成模型,它通过Parametric DRO构建uncertainty set,通过KL散度约束与真实数据分布的距离。这个过程虽然复杂,但通过importance sampling确保数据分布的真实性。目标函数被转化为加权损失函数,最初形式为ERM,但面临KL球限制和训练稳定性挑战时,作者巧妙地通过Lagrangian松弛技术予以解决。
MMD DRO</,即Minimum Mean Discrepancy Distributionally Robust Optimization,是另一个亮点。它通过优化经验数据分布的上界和一个范数,为未知数据提供泛化性能的保障。特别地,通过关注与经验分布有相同support的分布,简化了问题,验证了最优解的有效性。目标是通过加权重要数据点,实现对所有可能测试分布的均匀表现,尽管这可能带来对噪音数据过度赋权的问题。
在NLP领域,这种方法尤其适用,处理训练数据与测试数据分布不一致的挑战,同时,也适用于计算机视觉(CV)和机器学习(ML)的其他领域。作者强调,通过限制uncertainty set在有效分布上,而非任意分布,避免了逐sentence加权的潜在问题。通过按topic加权,每个句子关联一个主题,形成句子分布,从而实现更稳健的模型表现。
尽管KL-divergence曾被ICML 2018 Oral论文引入uncertainty set,但作者发现,单纯使用可能会削弱DRO的优势。通过引入密度比和divergence,以及样本的加权重组,权重之和保持1,有助于提升模型的性能。
最后,作者热情地推荐关注其GitHub资源,那里包含丰富的OOD(out-of-distribution)、causality、robustness和optimization的阅读笔记,为深入理解DRO的最新进展提供了宝贵的参考。