學界價值傳播網絡在更復雜的動態環境中進行
民生理财 2019-10-30 10:59 字号: 大 中 小
学界 | 价值传播络,在更复杂的动态环境中进行规划的方法
[摘要]本文提出了一种基于价值迭代的参数高效差异化规划模块——价值传播络(Value Propagation Networks),可以通过强化学习进行训练,用来完成未见过的任务该模块能泛化到更大尺寸的地图中,并学习在动态环境中进行导航
原标题:学界 |价值传播络,在更复杂的动态环境中进行规划的方法
选自arXiv
机器之心编译
参与:陈韵竹、张倩
本文提出了一种基于价值迭代的参数高效差异化规划模块价值传播络(Value Propagation Networks),可以通过强化学习进行训练,用来完成未见过的任务该模块能泛化到更大尺寸的地图中,并学习在动态环境中进行导航
此外,该模块能够在环境包含随机元素时学习进行规划,为各类交互式导航问题提供具有成本效益的学习系统,从而构建低级别、尺寸不变的规划器
1引言
规划是许多领域人工智能体的关键组成部分然而,经典规划算法的局限性在于,对于每种可能的规划实例,人们都需要知道如何为其搜索最优(或至少合理的)方案环境动态和状态复杂度的增加给规划的写作人员制造了困难,甚至使其完全不切实际「学习做规划」旨在解决这些问题,这也就是为什么「学习做规划」一直是活跃研究领域的原因之一 [Russell et al., 1995, Kaelbling et al., 1996]出于实用性考虑,我们提出,学习规划者的方法应该有至少两个属性:算法的轨迹应是自由的,即不需要最优规划者的轨迹;算法应该可以泛化,即学习规划者应该能解决同类型但未曾遇到的实例和/或规划期
在强化学习(RL)中,学习规划可以被认为是寻找环境预期回报最大化策略的问题其中,这种策略是一个贪婪函数(greedy function),选择将访问具有较高智能体价值状态的行动这又将问题转移到如何成功估计状态值的问题解决此问题常用的算法之一是价值迭代(VI),它通过收集和传播所看到的奖励来估计值,直到达到固定点然后,可以通过在所需的状态-行为对上展开所获得的价值函数来构建策略或规划
当环境可以表示为占据栅格图(二维格)时,可以使用深度卷积神经络(CNN)来近似该规划算法,从而在格单元上传播奖励这使得人们能够通过规划者的步骤直接加以区分,并执行价值函数的端到端学习过程Tamar et al. [2016]训练了这样一个模型价值迭代络(Value Iteration Networks,VIN)该模型对来自搜索/规划算法的轨迹采用了有监督的损失函数,其目标是通过使用卷积层迭代学习值寻找可以解决此类环境中最短路径任务的参数值但是,此基准需要良好的目标价值估计,这违反了我们所希望的无轨迹属性并限制了其在交互、动态、设置中的使用此外,它没有利用模型结构将其泛化到更难的任务实例中去这正是我们进一步着手研究的内容
在这项研究中,我们进一步规范了 VIN的使用,从而更准确地表示类似 gridworld的场景结构,使价值迭代模块能够在强化学习框架内自然地使用,这超出了初始工作的范围,同时还消除了一些限制以及约束原始架构的基本假设研究表明,我们的模型不仅可以在动态环境中学习规划和导航,而且它们的层次结构提供了一种方法来泛化导航任务,其中所需的规划期和地图的大小比在训练时所看到的大得多
我们的主要贡献包括:(1)引入 VProp这是一个络规划模块,通过强化学习能成功学习解决路径搜寻任务,(2)展现了只在小图训练的基础上也具有的在大型未见过的地图中泛化的能力,(3)表明无论是在转换函数还是观察复杂度方面,我们的模块可以学习在具有比静态「格世界」更复杂的动态环境中进行规划
图 1:VIN数据集随机图和我们训练环境一些随机配置之间的比较在我们自定义的格世界中,块的数量随着尺寸的增加而增加,但它们在总可用空间中的百分比保持不变在图中,为了提高可视化效果,智能体和目标以圆形显示,但实际上它们仍占据单个单元格
图 2:在我们的课程中所训练的所有模型的平均、最小和最大奖励请再次注意,在前两张图中,地图大小为 3232a和 c分别展示了 VIN数据集和我们生成的 6464图的性能b显示受课程设置所限(虚线)和未受限(实线)时在评估图上的表现情况
图 3:在我们的动态实验中获得的平均、最小和最大测试获胜率每个智能体都以与静态世界实验相似的方式在场景的 8x8实例上进行了训练图 3d显示了在雪崩测试配置训练后获得的策略示例智能体和目标显示为圆形以提高可视化效果,但它们仍占用单个单元格
图 4:星际争霸的导航结果图 4a显示了训练后期随机场景中产生的轨迹红色和蓝色覆盖图(未展示给智能体)表示其与每个实体交互所需的距离
论文:Value Propagation Networks
论文地址:
摘要:本文提出了价值传播络(Value Propagation Networks),这是一种基于价值迭代的参数高效差异化规划模块,可以通过强化学习进行训练,用来完成未见过的任务,还能泛化到更大尺寸的地图中,并且可以学习在动态环境中进行导航此外,我们还证明,该模块能够在环境包含随机元素时学习进行规划,为各类交互式导航问题提供具有成本效益的学习系统,从而构建低级别、尺寸不变的规划器我们在 MazeBase格世界的静态和动态配置进行了评估,使用了几种不同尺寸的随机生成环境;此外还在星际争霸导航场景中对其进行了评估,结果表明它具有更复杂的动态特性以及像素输入
高血压合并冠心病患者的药物治疗得了脑中风怎么办
小孩流鼻血
-
-
天津女排踏上复兴之路阵容重组陈丽怡仍是中
天津女排踏上复兴之路 阵容重组陈丽怡仍是中坚天津女排夺冠...
2020-07-07 | 民生理财
-
-
专家房产税征收受到九成以上政府官员阻挠搭配
专家:房产税征收受到九成以上政府官员阻挠 “要搞好房地产...
2020-06-06 | 民生理财
-
-
海南西环高速铁路正式试运行和谐号动车疾驰搭配
海南西环高速铁路正式试运行 和谐号动车疾驰前进 11月26日,...
2020-06-02 | 民生理财
-
-
北京市机动车停车条例搭配
北京市机动车停车条例(2018年3月30日北京市第十五届人民代表...
2020-05-31 | 民生理财
-
-
决胜局独揽分李盈莹表现出彩担任接应效果不搭配
决胜局独揽分李盈莹表现出彩 担任接应效果不佳李盈莹中国女...
2020-05-30 | 民生理财
-
-
特评从C罗到彩票佛爷的任性主帅为他背锅搭配
特评:从C罗到彩票!佛爷的任性 主帅为他背锅原标题:特评...
2020-05-29 | 民生理财