发布网友 发布时间:2024-05-29 04:27
共1个回答
热心网友 时间:2024-06-03 21:53
探索离线强化学习的革新:《2023 TPAMI论文:伪相关削减术》
在科研的海洋中,一项顶刊论文《2110.12468》"False Correlation Reduction for Offline Reinforcement Learning"在2023年登上IEEE TPAMI(影响因子24.314),标志着我们在离线强化学习领域的突破。这篇研究聚焦于悲观主义策略,如何通过高质量不确定性估计与悲观主义原则的融合,推动学习的可靠性。
2020年底,一个理论观点点燃了讨论:悲观主义在离线强化学习中具有理论效率,其核心在于suboptimality,即策略与最优策略之间的差距。这个概念被分解,通过引入模型评估误差,论文深入剖析了如何处理信息论下的intrinsic uncertainty(不可消除的不确定性)与spurious correlation(伪相关)。在MAB问题中,样本量的限制可能导致看似相关的行为实际上隐藏着伪相关,而悲观主义策略通过量化epistemic uncertainty,通过定义悲观的贝尔曼算子,有效地减少了这些伪相关对suboptimality的影响。
在研究过程中,我和Yijun Yang共同面对了NeurIPS 2021的紧迫截止日期,以及D4RL数据集版本的变更挑战。我们的实验不仅要求公平,还揭示了不确定性加权方法如UWAC在某些情况下的局限性。MILO论文采用的pessimism原则通过model-disagreement量化不确定性,展现出在模仿学习中的优越性能,但环境变化简化了问题,证实了理论的实用性。
同期研究中,虽然理论与实践之间存在鸿沟,比如CQL v2的Q值问题,以及白辰甲的OB2I方法。我们发现uncertainty-based方法如BCQ在offline RL中面临挑战,需要平衡价值估计与不确定性。MOPO和MOReL展示了model-based方法的优势,而COMBO则转向正则化。我们在实验复现中遭遇了模型不确定性估计的复杂性,通过试错和讨论,我们收获了宝贵的经验教训。
我们的研究路线包括model-based方法(如TD3-CVAE和P3)、OOD采样(PBRL)以及行为预热(SCORE)。2021年9月,SCORE凭借理论支持,在适应行为策略范围上表现出色。虽然在ICML 2022投稿时面临novelty质疑,但我们的工作凭借计算效率和理论优势,超越了PBRL-prior。经过修订和漫长的等待,最终在TPAMI上获得minor revision的肯定,评审反馈积极。
在这个过程中,我们感谢所有支持者,特别是太太的鼓励,以及在Kangaroo Island度假时那可爱小海豹带来的灵感。对于对Causal RL感兴趣的朋友,我们敞开大门,期待交流和合作。让我们一起见证科研成果的诞生与成长。