科学研究

科研动态

当前位置: 首页 -> 科学研究 -> 科研动态 -> 正文

我院胡学敏教授团队论文被国际人工智能顶级会议AAAI 2026录用

发布日期:2025-11-14 点击次数:

国际先进人工智能协会(Association for the Advancement of Artificial Intelligence, AAAI)举办的AAAI会议,是人工智能领域的高水平国际会议。近日AAAI公布了2026年的论文录用结果,我院胡学敏教授团队的论文“Enhancing Diffusion Policies with Distribution-Matching Generator in Offline Reinforcement Learning”顺利入选。该研究提出一种基于分布匹配生成器的扩散策略离线强化学习方法,旨在解决离线强化学习中的分布偏移问题,为训练机器人和自动驾驶车辆等具身交互的智能体决策提供安全、有效的解决方案。该成果由胡学敏教授和2022级研究生李燊(现于同济大学攻读博士研究生)、2021级本科生徐映芬(已推免至北京邮电大学攻读硕士研究生),以及中科院自动化研究所和美国伍斯特理工学院的团队联合完成,其中胡学敏教授和研究生李燊为共同第一作者。

离线强化学习可以从预先收集的离线数据集中学习策略,无需与环境进行交互,既能解决基于大模型的监督学习方法中对标注数据要求高和难以覆盖罕见场景的“长尾问题”,也能解决基于在线强化学习方法中学习效率和安全性不高的问题。然而,离线强化学习存在训练数据和实际应用数据的分布偏移问题。现有的主流解决方案采用生成对抗范式来学习策略,但无法处理判别器欺骗和预期回报最大化之间的冲突,导致学习性能下降,难以应用于复杂的智能体决策任务。

针对上述挑战,研究团队提出了一种名为基于分布匹配生成器的扩散策略(DMGDP)的新型离线强化学习方法。该方法首先基于分布匹配的理论推导,提出一种基于分布匹配的策略学习方法,其中扩散充当策略生成器,以处理判别器欺骗和预期回报最大化之间的冲突。然后,构建了一种基于判别器正则化的策略置信机制,量化了分布移位的概率,从而对Q函数进行正则化来约束扩散策略,以防止智能体采取分布外的动作,从而实现稳健的生成对抗训练,让智能体做出安全、精准的决策。

为验证所提方法的有效性,研究团队在国际公认的D4RL基准数据得的10多种任务上进行了大量实验和全面评估。实验结果表明,相比现有的SOTA(最先进的)方法,所提DMGDP方法在所有任务中均取得了最佳平均得分,并且在推理时间相当的情况下,比基线方法Diffusion-QL在Mujoco和Antmaze相关任务中的性能分别高出7%和18%。该研究不仅在理论上成功论证了用分布匹配来解决生成式决策难题的可行性,也为离线强化学习在机器人、无人机和无人车等智能体决策和控制方面的应用落地提供了坚实的技术支撑。

本研究工作获得了国家自然科学基金面上项目、湖北省自然科学基金杰出青年项目、湖北大学原创种子探索基金等项目的资助。


(审稿人:胡学敏)