广东工业大学自动化学院教授谢胜利团队在国家自然科学基金、广东省基础与应用基础研究基金等项目的资助下,成功利用离散时间奖励指导发现连续时间动态系统的优化策略。相关成果近日发表于《国家科学进展(英文)》。
论文第一作者、广东工业大学教授陈辞表示,奖励是强化学习中的核心概念,寻找能够解释动态系统行为决策的奖励一直是一个公开挑战。
该研究创新性地将状态导数反馈回学习过程,从而建立了基于离散时间奖励的强化学习分析框架。该框架与现有的积分强化学习框架有本质区别。在离散时间奖励的指导下,行为决策律的搜索过程分为两个阶段:前馈信号学习和反馈增益学习。
研究发现:使用基于离散时间奖励的技术,可以从动态系统的实时数据中搜索连续时间动态系统的最优决策律。将上述方法应用于动态系统状态调节,成功实现了输出反馈优化设计。这一过程消除了识别动态模型的中间阶段,并通过去除已有积分强化学习框架中的奖励积分器算子,显著提高了计算效率。
论文通讯作者谢胜利表示,该研究成功利用离散时间奖励指导发现连续时间动态系统的优化策略,开辟了强化学习反馈控制的新领域,并且创新性地构建了一种理解和改善动态系统的计算工具,可在自然科学、工程学以及社会科学领域发挥重要作用。
相关论文信息:https://doi.org/10.1360/nso/20230054
在人们的认知中,时间是单向流动的,总是从过去流向未来。但如果时间的流向并不像人们所认为的那样固定不变,而是可以向前或向后流动,那会怎样?英国萨里大学研究人员的一项新研究表明,从理论上看,某些量子系统中......
广东工业大学自动化学院教授谢胜利团队在国家自然科学基金、广东省基础与应用基础研究基金等项目的资助下,成功利用离散时间奖励指导发现连续时间动态系统的优化策略。相关成果近日发表于《国家科学进展(英文)》。......
神经科学研究发现,人类是根据自己的经历数量来感知时间的流逝,而不是某种内部时钟。图片来源:内华达大学拉斯维加斯分校你有没有经常听到这样一句老话:快乐的时光总是短暂的。许多人认为,大脑本质上与人造时钟同......
美国政府指示美国国家航空航天局在2026年之前为月球制定一个统一的时间标准,称为“协调月球时”。图片来源:英国有线广播公司或许,宇宙中最引人深思的谜团之一,便潜藏于时间流逝的微妙差异之中。高山之巅的时......
月球和地球上的时间一样吗?如果不同,需要统一吗?据英国《新科学家》网站6月28日报道,美国国家航空航天局(NASA)最新计算表明,月球表面时间比地球表面时间每个地球日快57.5微秒。在人类月球探索中,......
近日,中国科学院国家授时中心在我国时间基准系统国际时间比对链路数据处理技术研究领域取得进展,研究成果发表在Measurement上。为了攻克不同比对链路在精度上和采样间隔上存在差异这一技术难题,国家授......
“坐着‘时间’的船,我们跨越到了2024年。”2023年12月31日晚,搜狐董事局主席兼首席执行官、物理学博士张朝阳以“时间”为主题开启科学跨年演讲,用持续近4小时的沉浸式物理推导,带领公众重温百年前......
现代社会对我们的健康和幸福带来了很多挑战,那些被认为是司空见惯的事情,如 上夜班、熬夜不睡和倒时差,已经严重扰乱了我们的生物钟。现在越来越明确的是,生物钟紊乱正在增加包括 心血管疾......
随着高考的到来,高三学子已在憧憬脱离忙碌的学习,拥抱大学“轻松”“自由”的生活;与此同时,临近毕业的大学生也在思考:“大学四年,我收获了什么?”事实上,很多人脑海中轻松、自由的大学生活早已被“证伪”。......
冲绳海槽是位于我国东海大陆架外缘的一个新生弧后盆地,广泛分布有海底火山,但对冲绳海槽海底火山下覆岩浆储库的持续活跃时间及其喷发驱动机制缺乏了解。记者6月6日从中国科学院海洋研究所获悉,通过对“科学”号......